Ценности SHAP для компании, многолетний опыт и многое другое
Недавно новый набор данных о зарплатах STEM от levels.fyi стал общедоступным на Kaggle. Как и в предыдущих историях, я использую метод Shapley Additive ExPlanations (SHAP), чтобы объяснить факторы, лежащие в основе этого набора данных. Полная информация об анализе также доступна в общедоступной записной книжке на Kaggle.
Шаг 1 — предварительная обработка данных
Здесь предварительная обработка данных состоит из следующих шагов:
- выбор стран/штатов и компаний с репрезентативно большим количеством респондентов;
- изменение масштаба столбца метки (общая годовая компенсация) до тысяч долларов США в год;
- удаление 2% (2%) респондентов с наибольшими (наименьшими) компенсациями;
- отбрасывание неинтересных для данного анализа столбцов;
- замена нулевых значений.
Шаг 2 — настройка модели машинного обучения для прогнозирования годовой компенсации
Данные, подготовленные на предыдущем шаге, случайным образом распределяются между обучающей и тестовой выборками и моделируются с помощью модели CatBoostRegressor, которая явно учитывает категориальные признаки. Среднеквадратическая ошибка (RMSE) полученной модели составляет около 62 000 долларов США в год, что улучшение по сравнению со среднеквадратичной ошибкой базовой модели, равной примерно 106 000 долларов США в год ( при одинаковой годовой компенсации в размере около 230 тысяч долларов США в год для каждого респондента).
Шаг 3 — объяснение полученной модели машинного обучения.
Здесь я использую метод Shapley Additive ExPlanations (SHAP), один из наиболее распространенных для изучения объяснимости моделей машинного обучения. Таким образом, единицы стоимости SHAP выражены в тысячах долларов США в год.
Во-первых, изучите диапазон значений SHAP для разных компаний:
Здесь Netflix является явным лидером по добавленной годовой компенсации, за ней следуют Lyft, Airbnb, Dropbox и Stripe. Другими словами, если человек переходит с IBM на Netflix, имея ту же должность, опыт, местонахождение и т. д., ожидаемая годовая компенсация увеличится в среднем на 200 000 долларов США в год, примерно со 175 тысяч долларов США в год (= 231–56) до примерно 375 тысяч долларов США в год (= 231 + 144).
Далее посмотрите на зависимость значений SHAP от общего многолетнего опыта:
Здесь компенсация почти монотонно растет примерно до 25 лет опыта (и далее остается на плато), при этом разница в зарплате между наименее и наиболее опытными респондентами составляет около 150 000 долларов США в год.
Интересно, что разница между работой в одной и той же компании относительно невелика (также обратите внимание на заметный разрыв между 0,3–3 годами):
Другими словами, окупается только пребывание в одной и той же компании в течение 3+ лет (вероятно, из-за наделения акциями), с выходом на плато в течение 10+ лет около 10–15 тысяч долларов США в год. .
Кроме того, как и в предыдущих исследованиях, существует значительный гендерный разрыв: у мужчин годовая заработная плата в среднем на 9 тысяч долларов США в год выше, чем у женщин (опять же, с той же должностью , опыт, местоположение и т. д.):
Кроме того, существует значительная разница между уровнями образования, поскольку респонденты со степенью доктора философии получают примерно на 40 000 долларов США в год больше, чем респонденты со степенью магистра:
Общая годовая компенсация также растет со временем: в период с 2017 по 2021 год она увеличилась на 9,6 тыс. долларов США в год (включая относительно небольшое снижение в 2020 году):
Наконец, существует значительная разница между разными местоположениями, поэтому ответчик в штатах Калифорния, Нью-Йорк и Вашингтон будет иметь в среднем примерно на 150 000 долларов США в год больше годовая компенсация, чем у аналогичного респондента в Индии или Польше:
Более подробное представление о гендерном разрыве
Здесь мы рассматриваем как фактические вариации, так и процентные вариации (по сравнению со средней компенсацией в конкретном месте, компании или уровне опыта).
На следующем графике показан гендерный разрыв в реальных цифрах в разных компаниях:
Как и в случае с общими зарплатами, разница самая высокая среди Netflix, Dropbox, Airbnb и Lyft. Однако масштабирование до среднего значения вознаграждения для конкретной компании показывает совершенно другую картину: компании с наибольшим средним процентным гендерным разрывом — это более традиционные компании, такие как SAP, Dell, Oracle и Intel:
Кроме того, в процентных пунктах гендерный разрыв в оплате труда является самым большим для респондентов, работающих в отделе кадров, рекрутерах, технических менеджерах программ и маркетинге:
и он также постепенно увеличивается с увеличением общего года опыта:
и он также увеличивается с увеличением общего количества лет, проведенных в конкретной компании:
но у респондентов со степенью кандидата наук она наименьшая:
Он относительно стабилен в течение 2018–2021 гг.:
и является наименьшим для респондентов из Канады, Нью-Джерси и Нидерландов:
Более подробное представление о значении степени доктора философии
Подобно гендерному разрыву в оплате труда, мы рассматриваем как фактические, так и процентные вариации (по сравнению со средней заработной платой в конкретном месте, компании или уровне опыта) разницы между респондентами со степенью доктора философии и магистра наук.
Что касается фактической компенсации на компанию, разница самая высокая для респондентов из Adobe, за которыми следуют VMware, Workday, ByteDance и Tesla:
По разнице в процентах лидером является Tesla, за ней следуют Cisco и Intel, а Lyft, Netflix и Twitter входят в число компаний с наименьшей разницей:
Примечательно, что респонденты-бизнес-аналитики больше всего выиграют от получения степени доктора философии:
Неудивительно, что влияние наличия степени доктора философии среди респондентов постепенно уменьшается с увеличением общего многолетнего опыта (при этом его абсолютное значение относительно стабильно во времени, на уровне +30–40 тыс. долл. США в год). сильно>):
Наконец, почти нет различий по полу, стажу работы в компании и году респондентов:
но есть удивительно большая процентная разница для Индии, за которой следуют Германия, Франция, Нью-Джерси и Канада:
Я надеюсь, что эти результаты могут быть полезны для вас. В случае вопросов/комментариев, не стесняйтесь писать в комментариях ниже или свяжитесь со мной напрямую через LinkedIn или Twitter.
Вы также можете подписаться на мои новые статьи или стать приглашенным участником Medium.