Проект UTMIST Малихи Лоди, Афнана Рахмана, Кевина Ку, Омера Раза Хана, Йинаня Чжао и Мэтью Чжу.

Обзор проекта

Организация хороша ровно настолько, насколько хороши ее сотрудники, поскольку они обеспечивают компании ее конкурентное преимущество. В результате крайне важно, чтобы компании понимали, как сохранить свои лучшие таланты. Используя машинное обучение и анализ данных, этот проект направлен на выявление областей улучшения во всех отделах компании путем определения факторов, которые могут быть причиной увольнения сотрудников в разных командах.

На сегодняшний день ни одна компания не использует автоматизированный процесс прогнозирования увольнения сотрудников. Тем не менее, организации сталкиваются с большими суммами материальных и нематериальных затрат из-за высокой текучести кадров. Таким образом, мы построили конвейер для прогнозирования увольнения сотрудников с помощью машинного обучения. В этом проекте мы предсказали комбинации факторов, которые могут быть причиной значительной текучести кадров. Мы предоставили отделам кадров информацию о том, как повысить уровень удержания сотрудников, внеся необходимые улучшения.

Набор данных

Данные, используемые для этого проекта, взяты из Набора данных об убыли и производительности сотрудников IBM HR Analytics. Он содержит 35 категориальных и числовых характеристик для 1470 уникальных сотрудников, выполняющих одну из девяти различных должностей, а также информацию о том, уволились они или нет. Поскольку проект в значительной степени зависит от прогнозов, сделанных с помощью контролируемого обучения, метки в наборе данных имеют решающее значение для этого проекта.

Предварительная обработка данных

Прежде чем вводить наши данные в наши модели, мы предварительно обработали их, чтобы наши модели могли правильно изучить закономерности, присутствующие в данных, и повысить общую производительность. Наш набор данных содержал много категориальных переменных, которые мы преобразовали в числовые данные с помощью одноразового кодирования. Мы выбрали именно этот метод кодирования, чтобы не вводить связь между значениями переменных; мы просто хотели преобразовать их в числовой формат.

При первоначальном изучении данных мы также обнаружили, что наш набор данных был несбалансированным: сотрудников, не уволившихся, было значительно больше, чем тех, кто уволился. Мы использовали метод передискретизации синтетического меньшинства (SMOTE), чтобы решить эту проблему, искусственно увеличив количество увольняющихся сотрудников. Этот метод был выбран, поскольку исследовательские работы, на которые мы ссылались, также использовали его. Мы также не хотели уменьшать размер набора данных, удаляя определенное количество строк, в которых сотрудник оставался в компании в нашей попытке балансировки.

Последний шаг предварительной обработки, который мы предприняли, включал удаление ненужных переменных, таких как количество сотрудников, и объединение общих переменных, таких как daily_rate, hourly_rate и month_rate, в один столбец.

Классификаторы

Проект начинается с использования пяти бинарных классификаторов, которые классифицируют сотрудников в зависимости от того, уволятся они с работы или нет. Это модели логистической регрессии, дерева решений, случайного леса, XGBoost и машины опорных векторов (SVM). Эти модели были выбраны, поскольку в прошлых исследованиях они использовались для решения аналогичных задач классификации.

Логистическая регрессия

Логистическая регрессия — это модель машинного обучения, которая определяет вероятность двух возможных результатов в условиях бинарной классификации. Для выбора признаков использовался метод автоматического выбора признаков-оболочек. Кроме того, гиперпараметры моделей логистической регрессии были настроены с использованием случайного поиска. Окончательная модель достигла точности 91,89%, что лучше, чем точность исследовательской работы 85,48%.

Машина опорных векторов (SVM)

Классификатор машины опорных векторов (SVM) отображает точки данных в многомерном пространстве и пытается создать гиперплоскость для наиболее адекватной классификации данных; близлежащие точки данных называются векторами поддержки. Чтобы уточнить нашу модель, мы использовали Sequential Forward Selector с методом оболочки для достижения точности 88%, сократив данные примерно до 20 функций. Чтобы еще больше улучшить модель, мы провели настройку гиперпараметров с сеткой и случайным поиском. Мы достигли максимальной точности по всем проверкам и тестам в 92%, что на 7% больше, чем в справочном документе.

Дерево решений

Деревья решений широко используются как в задачах регрессии, так и в задачах классификации, и используют древовидную структуру данных для многократного принятия решений о том, как разделить входные данные на два подраздела в каждой итерации. На этапе выбора признаков было выбрано семнадцать признаков, что повысило точность базовой модели примерно на 6%. Этот этап проводился с использованием последовательного прямого селектора. Настройка гиперпараметров не привела к каким-либо улучшениям показателей модели, оставив наилучшую возможную модель с окончательной точностью 88,8%, что примерно на 9% лучше, чем в указанной исследовательской работе.

Случайный лес

Модель случайного леса — это ансамблевая модель, которая представляет собой набор нескольких деревьев решений, в которых хранятся прогнозы из каждого дерева решений, а прогноз с наибольшим количеством голосов становится окончательным прогнозом модели. Для обучения модели была выбрана 15-кратная перекрестная проверка, которая обеспечила точность 93%. Это почти на 10% больше, чем в справочном документе. Значение k=15 было выбрано из-за меньшего размера набора данных. Поскольку выбор признаков и методы настройки гиперпараметров снизили точность, такие методы тонкой настройки не были включены в окончательное обучение модели.

XGBoost

Модель XGBoost (eXtreme Gradient Boosting) также представляет собой ансамблевый метод на основе дерева, который на один шаг выше модели случайного леса. Он создает деревья решений параллельно и объединяет более слабые деревья для создания в совокупности более сильной модели. Для обучения модели использовалась методика важности признаков XGBoost, в которой отбрасывались 18 признаков. Используя выбранные функции, модель была обучена с использованием 15-кратной перекрестной проверки, а для точной настройки модели использовалась Random Search CV. Окончательная модель показала точность 92,73 %, что примерно на 3 % выше, чем у справочного документа.

В таблице ниже приведены шаги, предпринятые для достижения наилучших результатов:

Кластеризация

С помощью кластеризации мы определили общие тенденции в определенных группах сотрудников, в частности, какие отдельные «кластеры» сотрудников уволятся с работы.

К-средние

Поскольку наши данные представляли собой смесь как категориальных, так и непрерывных данных с большим количеством функций, мы использовали кластеризацию K-средних для наших данных с горячим кодированием.

T-SNE

Чтобы визуализировать кластеры, мы уменьшили количество признаков с помощью t-SNE и сгруппировали данные с помощью K-средних. T-SNE (встраивание стохастических соседей с t-распределением) — это неконтролируемый алгоритм уменьшения размерности для визуализации многомерных данных. Он похож на PCA, но в то время как PCA стремится максимизировать дисперсию за счет сохранения больших попарных расстояний между точками данных, t-SNE сохраняет только небольшие попарные расстояния в качестве меры сходства. Таким образом, t-SNE использует вероятностный подход для фиксации сложных нелинейных взаимосвязей между функциями, в то время как PCA использует линейный математический подход. Таким образом, t-SNE смог уловить сходство между точками данных и снизить затраты на вычисления для K-средних, которые используются для группировки сотрудников, которые, по прогнозам, уволятся. На рисунке ниже показаны результаты выполнения t-SNE и K-Means с тремя кластерами для всех моделей.

Сравнение кластеров

Кластерный анализ был проведен, чтобы найти комбинации доминирующих характеристик в каждом кластере, которые привели бы к увольнению сотрудников. Ниже приведена общая сводка всех кластеров, выявленных среди сотрудников, которые, по прогнозам наших классификаторов, уволятся.

Кластер 0

Этот кластер состоит в основном из пожилых, опытных сотрудников-мужчин, которые одиноки. Эти сотрудники проработали в компании дольше всех и больше всего работают сверхурочно. Однако им платят меньше всего. В целом они также наименее удовлетворены своей рабочей средой из всех остальных кластеров. Кроме того, эти сотрудники в основном работают в отделе исследований и разработок. По сравнению с другими кластерами эти сотрудники также имеют самый низкий уровень работы и самую низкую удовлетворенность работой. В целом, этих сотрудников можно отнести к тем, кто работает больше всего, но получает меньше всего.

Кластер 1

Этот кластер в основном состоит из мужчин в возрасте от 20 до 30 лет, которые получают больше всего по сравнению с другими кластерами и имеют наименьшее количество лет на своих нынешних должностях. Они также склонны работать сверхурочно. Как и в кластере 0, большинство этих сотрудников являются частью отдела исследований и разработок с такими должностями, как «ученый-исследователь» и «техник-лаборант». Эти сотрудники также имеют самый высокий уровень удовлетворенности окружающей средой и вовлеченности в работу среди всех других кластеров. Несмотря на то, что эти сотрудники решили уйти, они были вполне удовлетворены своей работой. Этот кластер также содержал наибольшее количество разведенных сотрудников из всех кластеров.

Кластер 2

Этот кластер является сравнительно наиболее сбалансированным в гендерном отношении, где соотношение мужчин и женщин составляет 1,8. Из всех кластеров сотрудники здесь чаще всего меняются ролями, и у них наименьшее количество лет в их текущих ролях со своими нынешними менеджерами. У них на удивление высокие показатели баланса между работой и личной жизнью, и большинство из них также женаты. В этом кластере также относительно равное количество сотрудников, работающих сверхурочно, и тех, кто не работает.

Будущие шаги

Крупные корпорации и малые предприятия могут использовать результаты наших моделей, чтобы лучше понимать своих сотрудников, тем самым снижая текучесть кадров. Компании могут передавать данные о своих сотрудниках через обученные модели, находить общие факторы между сотрудниками, которые, по прогнозам, уволятся, а затем вносить необходимые изменения, чтобы обеспечить более низкую текучесть кадров. В будущем может быть интересно поэкспериментировать с более продвинутыми моделями машинного обучения, такими как нейронная сеть, чтобы увидеть, являются ли прогнозы такой модели более точными, чем традиционные модели машинного обучения, используемые в этом исследовании.