Анализ воздействия COVID-19 на рядовых сотрудников, использующих машинное обучение

Недавняя пандемия сильно повлияла на жизнь многих людей и изменила способы взаимодействия общества. Всему миру было предложено оставаться в изоляции - за исключением передовых и основных рабочих. Как следует из названия, основные работники - это те, чьи рабочие места считаются «важными», без которых не могли бы функционировать основные функции экономики и общества. Среди этих важнейших услуг есть рядовые работники, которые должны оказывать свои услуги лично. Передовые работники включают, помимо прочего, врачей, медсестер, кассиров, работников быстрого питания, сельскохозяйственных рабочих и водителей грузовиков.

ОБЗОР

Для этого мы предприняли проект по изучению воздействия COVID-19 на рядовых сотрудников, проанализировав сообщения, которые эти сотрудники размещают в социальных сетях. Причина того же заключалась в анализе нематериального воздействия - психологического, физического и материального, - которое этот кризис оказал на этих воинов. Для этой цели из социальной сети Reddit был извлечен новый набор данных, состоящий из сообщений различных сотрудников.

В результате пандемии наиболее пострадавшие от пандемии пострадали работники, работающие на переднем крае, из-за характера своей работы, плохого управления, отсутствия льгот или денежной компенсации, беспокойства из-за пандемии, беспокойства из-за возможной потери работы и разочарования по отношению к обществу.

После понимания общих эмоций этих сотрудников через их сообщения, был разработан классификатор для выявления пользователей, которые подвергались повышенному риску серьезного психического расстройства (например, депрессии или беспокойства, ведущего к суицидным идеям), с использованием моделей, предварительно обученных в сообщениях в социальных сетях. .

Для этой цели были протестированы разные модели с разными функциями (статистические, синтаксические, встраивания слов и предложений), и их общая точность была сравнена и сопоставлена. Эти тенденции были визуализированы с помощью Tableau, что привело к интересным выводам.

СБОР ДАННЫХ

Социальные платформы упрощают поиск единомышленников, повышая вероятность взаимодействия. Reddit - одна из таких платформ, которая позволяет пользователям создавать контент анонимно, используя только имя пользователя для идентификации.

Для этого исследования сообщения и комментарии были извлечены с помощью API Pushshift.io, а целевым объектом были сообщества (субреддиты), предназначенные для непосредственных сотрудников.

Из этих субреддитов были извлечены только сообщения, связанные с коронавирусом, с использованием поиска по ключевым словам, такого как коронавирус, covid19, корона, ухань, китайский грипп, covid, маска, социальное дистанцирование, и пандемия . Были получены похожие сообщения в период с 1 декабря 2019 г. по 24 августа 2020 г.. Был создан новый новый набор данных, содержащий более 10 000 записей от непосредственных сотрудников.

АНАЛИЗ СООБЩЕНИЙ

Для этого анализа использовалось тело текста, а также заголовок сообщений, а общее настроение было извлечено с помощью VADER и TextBlob.

В текстовых сообщениях VADER отображал общее настроение - положительное, отрицательное или нейтральное - для всей коллекции предложений. Существует четвертое значение, «составное», которое дает общую тональность текста.
С помощью TextBlob была обнаружена полярность и субъективность текстовых сообщений с полярностью в диапазоне от -1 до +1 и субъективностью в диапазоне от 0 и 1. Полярность связана с эмоциями; высокий показатель полярности означает, что текст положительный, а низкий - отрицательный.

ОБНАРУЖЕНИЕ ПСИХИЧЕСКОГО НАРУШЕНИЯ

Для построения модели был использован сбалансированный набор данных от Reddit, состоящий из более чем 100000 сообщений, предварительно помеченных как страдающие от крайних психических расстройств и не обладающие такими тенденциями.

Этот набор данных был создан путем извлечения сообщений из r / SuicideWatch, сообщества, в котором пользователи обычно публикуют сообщения о своих суицидальных мыслях. Общие темы включают обсуждение того, почему они хотят покончить жизнь самоубийством, и разговоры о предыдущих попытках.

Посты, не имеющие суицидального характера, то есть посты без суицидальных тенденций, были извлечены из других популярных субреддитов, r / books, r / jokes, r / legaladvice, r / casualconversation и r / college, чтобы создать примерно сбалансированный набор данных.

Используя этот набор данных, были созданы модели для выявления различий в том, как пользователи, страдающие серьезными проблемами психического здоровья, могут иметь разные шаблоны и привычки публикации по сравнению с другими пользователями.

1. LGBM (машина с ускоренным световым градиентом)

Для построения модели контролируемого обучения, помимо характеристик, полученных в результате анализа тональности, также были извлечены статистические, синтаксические и категориальные характеристики.

Статистические: с помощью простого разделения текстов и проверки определенных слов и значений можно получить количество слов, символов, предложений, среднюю длину предложения, стоп-слова, специальные символы, алфавиты и числа. как для заголовка, так и для текста, следующего за ним.

Дополнительно было подсчитано общее количество уничижительных слов.

Метаданные: использовались данные, извлеченные о публикации, такие как оценка, количество комментариев, а также дата и время публикации.

Синтаксис: теги частей речи [POS] были добавлены к основному тексту для улавливания грамматических вариаций. Текст был преобразован в символы нижнего регистра, и каждый токен был помечен. Было подсчитано общее количество этих тегов.

Для этого использовался TextBlob. Каждое текстовое тело было прочитано и преобразовано в «каплю». Затем эту каплю можно было прочитать слово за словом. Затем каждому слову присваивается соответствующий тег POS.

Категориальный: текст классифицируется по разным категориям, таким как «семья», «здоровье», «смерть», «отвращение» и «радость», а также различие между психическим стрессом и немсознанием. отмечены напряженные посты. Например, сообщения, содержащие суицидальные мысли, как правило, содержат больше негативных эмоций, а сообщения в три раза чаще содержат слова, касающиеся страха, смерти, насилия и стыда.

Эти категории получены с помощью Empath. Empath генерирует лексические категории из исходного слова, используя нейронное встраивание с сетью пропуска грамматики для идентификации связанных слов. Для этого набора данных получено 196 категорий.

Было замечено, что эти функции, наряду с оценками TF-IDF текстовых сообщений, дали наилучшие результаты с LGBM с точностью 96,35%.

Затем это было использовано для выявления тенденций психического здоровья рядовых работников на основе их текстовых сообщений. Использовалась бинарная классификация, где 1 указывает на низкое психическое здоровье и более высокие суицидальные наклонности, а 0 указывает на стабильное психическое здоровье.

2. ИСПОЛЬЗОВАНИЕ (универсальный кодировщик предложений)

Универсальный кодировщик предложений кодирует текст в векторы большой размерности, которые можно использовать для классификации текста, и оптимизирован для предложений, фраз и коротких абзацев.

Основная часть представленных наборов данных о психических расстройствах была закодирована для вывода 512-мерного вектора. Затем он был введен в нейронную сеть и достиг точности 97,12% для 100 эпох.

Чтобы улучшить модель, для прогнозирования учитывались как заголовок, так и текст. Заголовок и текст были объединены и встроены для получения 512-мерного вектора с использованием универсального кодировщика предложений. Однако эта модель достигла более низкой точности - 92,68%.

3. SBERT (представления двунаправленного кодировщика предложений от трансформаторов)

Заголовок, а также тело текста были встроены путем объединения двух вместе, затем 768-мерный вектор был получен с помощью SBERT. Точность 98,6% была достигнута на наборе данных о суицидальных идеях и использовалась для прогнозирования психической устойчивости пользователей в сообществах передовых рабочих на основе их текстовых сообщений.

Затем для предотвращения переобучения использовалась проверка K-Cross, точность которой составила 94,76%.

ПРОВЕРКА НЕКЛАССИФИЦИРОВАННЫХ ЗАПИСЕЙ

После предсказания с LGBM вручную было идентифицировано 45 неправильно классифицированных постов. Из этих 45 у 28 были ошибочно предсказаны признаки психического заболевания [метка 0 обнаружена как метка 1]. Эти неправильно классифицированные сообщения сравнивались с прогнозами тех же сообщений из других моделей, чтобы лучше понять, какая из них работает лучше всего.

USE правильно классифицировал 36 из 45 сообщений, однако не смог при обнаружении пустых записей. С заголовком и текстом это было решено, правильно классифицируя 35 сообщений.

Несмотря на лучшую точность среди всех моделей, прогнозы с использованием вложений SBERT с заголовком и текстом были не такими точными, как два других, правильно классифицируя только 31 из 45 сообщений, что указывает на переоснащение. Его аналог, использующий проверку K-Cross, правильно классифицировал 34 сообщения.

ИНФОРМАЦИЯ ПО ВИЗУАЛИЗАЦИИ

Используя Tableau и первоначальные прогнозы на передовых постах с использованием контролируемой LGBM-модели, были получены визуализации, из которых можно было сделать выводы.

Это исследует, как количество сообщений, связанных с COVID-19, менялось со временем. Самая ранняя публикация в выбранных субреддитах произошла 21 января:

Количество связанных сообщений увеличилось по мере того, как стало известно о новом коронавирусе. Субреддит медсестер имеет наибольшее количество постов с ключевыми словами, связанными с коронавирусом.

Во всех субреддитах частота резко возросла в период с марта по апрель, что совпало с объявлением ВОЗ вспышки пандемии. Это был также самый хаотичный период, когда страны вводили карантин, а работники на передовой не знали, как действовать дальше.

На этом графике показано количество сообщений, которые, по прогнозам, будут демонстрировать признаки сильного психического стресса. Как и в предыдущей визуализации, максимальные значения приходятся на март и апрель.

Это показывает количество сообщений, опубликованных в определенном субреддите, и долю тех сообщений, которые были классифицированы как показывающие высокий уровень психического стресса. Наибольшее количество постов было в сабреддите для медсестер, и более половины постов, связанных с COVID-19, демонстрируют признаки психического расстройства.

ЗАКЛЮЧЕНИЕ

Используя эти методы, можно выявить неотъемлемые и скрытые последствия кризиса для основных и основных работников, а также подать сигнал тревоги.

СОСТАВИТЕЛИ

Снигдха Рамкумар | Стажер @ Sopra Steria | Наука о данных, ориентированная на человека | Энтузиаст UX

Аакаш Ядав | Sopra Steria | Архитектор решений AI-ML | НЛП | Энтузиаст глубокого обучения