Раскрытие потенциала и проблем в области обобщения наборов данных

Соавторы: Синь Лю, Хан Чжан, Вейхен Ванг, Субигья Непал, Ясаман Сефидгар, Вусук Сео, Кевин С. Куэн, Джереми Ф. Хакинс, Маргарет Э. Моррис, Паула С. Нуриус, Ева А. Рицкин, Швеетк Патэл, Тим-Алтроф, и Анкофф, Анинд, Анинд, Анкофф, Анкофф, и Анкофф, Анинд, Ан Ал. off

В быстро развивающейся области технологий способность точно моделировать и прогнозировать поведение человека имеет первостепенное значение. Исследование GLOBEM: обобщение наборов данных продольного моделирования человеческого поведения [ссылка], проведенное Сюхай Сюй и его командой, представляет собой значительный шаг в этом направлении. Это исследование сосредоточено на применении лонгитюдного моделирования человеческого поведения, проливая свет на потенциал сенсорных технологий и давнюю проблему обобщения наборов данных. Мы прилагаем усилия к развертыванию алгоритмов моделирования поведения, но впереди еще долгий путь.

Потенциал сенсорных технологий в моделировании поведения

Повсеместное распространение цифровых устройств в нашей повседневной жизни дает беспрецедентную возможность отслеживать и понимать поведение человека. Эти устройства, действующие как продолжение нас самих, собирают множество данных, которые можно использовать для прогнозирования и понимания различных аспектов человеческого поведения. В этом исследовании исследователи использовали эти данные, объединив усилия двух исследовательских групп из двух институтов, каждая из которых имеет данные за два года. Они создали четыре набора данных с набором согласованных функций, повторно реализовали девять предыдущих методов обнаружения поведения и построили восемь последних алгоритмов обобщения предметной области. Кроме того, они предложили два новых метода повышения обобщаемости.

Примечательно, что часть наборов данных GLOBEM находится в открытом доступе по адресу https://the-globem.github.io/.

Взгляд на моделирование поведения: случай обнаружения депрессии

Одно из ключевых применений моделирования поведения находится в области здравоохранения, особенно в области психического здоровья. Исследование показало, что люди с депрессией демонстрируют определенные модели поведения. Они, как правило, чаще использовали свои телефоны, что свидетельствует о трудностях с концентрацией внимания, что является распространенным симптомом депрессии. Они также проводили больше времени дома, были менее физически активны и имели более постоянную мобильность. Такое поведение соответствует диагностическим критериям депрессии, которые включают в себя снижение физической активности.

Интересно, что исследование также показало, что люди с высоким баллом по шкале депрессии посещали меньше необычных мест и демонстрировали более сильный повторяющийся паттерн в своих траекториях передвижения. Это отсутствие поиска новизны может быть признаком снижения интереса к другим видам деятельности, еще одним распространенным симптомом депрессии. Рис. 1 подчеркивает эти выводы.

Проблема обобщения наборов данных

Хотя эти результаты являются многообещающими, исследование также подчеркнуло серьезную проблему обобщения наборов данных. Эффективность предыдущих моделей обнаружения депрессии значительно различалась в разных наборах данных. Это изменение указывает на то, что функция, которая может эффективно обнаруживать определенное поведение в одном наборе данных, может стать менее информативной в другом.

Эта проблема была давней проблемой в сообществе, подчеркивая необходимость моделей, которые могут обобщать различные наборы данных и индивидуальные различия в поведении.

Обещание нового метода — изменить порядок

Чтобы решить эту проблему, исследователи предложили новый метод Изменить порядок. Новизна Reorder заключается в его способности использовать непрерывность траектории поведения, которая основана на выводах науки о поведении о том, что поведение людей имеет тенденцию быть непрерывным. Этот метод включает новую многозадачную модель обучения с новой предтекстовой задачей, называемой головоломкой с переупорядочением. В этой задаче временной порядок матрицы признаков перемешивается, и модель обучается восстанавливать исходную последовательность. Этот процесс оптимизирован совместно с основной задачей обнаружения поведения. На рис. 3 показана архитектура модели.

Метод Reorder показал многообещающие результаты, превзойдя другие модели как минимум на 3,4% по ROC AUC (относительное преимущество 6,3%) и на 3,2% по абсолютной сбалансированной точности (относительное преимущество 6,2%), обе статистически значимые. Это улучшение показывает, что изучение временной непрерывности траектории поведения может повысить обобщаемость модели.

Заключение

Исследование Сюхая Сюя и его команды представляет собой значительный прогресс в области моделирования поведения. Он не только демонстрирует потенциал сенсорных технологий в понимании и прогнозировании человеческого поведения, но также выявляет критическую проблему обобщения наборов данных. По мере продвижения вперед крайне важно решить эту задачу, чтобы в полной мере использовать возможности технологий для преобразования различных областей, включая здравоохранение, но не ограничиваясь им.