Ценности SHAP для компании, многолетний опыт и многое другое

Недавно новый набор данных о зарплатах STEM от levels.fyi стал общедоступным на Kaggle. Как и в предыдущих историях, я использую метод Shapley Additive ExPlanations (SHAP), чтобы объяснить факторы, лежащие в основе этого набора данных. Полная информация об анализе также доступна в общедоступной записной книжке на Kaggle.

Шаг 1 — предварительная обработка данных

Здесь предварительная обработка данных состоит из следующих шагов:

  • выбор стран/штатов и компаний с репрезентативно большим количеством респондентов;
  • изменение масштаба столбца метки (общая годовая компенсация) до тысяч долларов США в год;
  • удаление 2% (2%) респондентов с наибольшими (наименьшими) компенсациями;
  • отбрасывание неинтересных для данного анализа столбцов;
  • замена нулевых значений.

Шаг 2 — настройка модели машинного обучения для прогнозирования годовой компенсации

Данные, подготовленные на предыдущем шаге, случайным образом распределяются между обучающей и тестовой выборками и моделируются с помощью модели CatBoostRegressor, которая явно учитывает категориальные признаки. Среднеквадратическая ошибка (RMSE) полученной модели составляет около 62 000 долларов США в год, что улучшение по сравнению со среднеквадратичной ошибкой базовой модели, равной примерно 106 000 долларов США в год ( при одинаковой годовой компенсации в размере около 230 тысяч долларов США в год для каждого респондента).

Шаг 3 — объяснение полученной модели машинного обучения.

Здесь я использую метод Shapley Additive ExPlanations (SHAP), один из наиболее распространенных для изучения объяснимости моделей машинного обучения. Таким образом, единицы стоимости SHAP выражены в тысячах долларов США в год.

Во-первых, изучите диапазон значений SHAP для разных компаний:

Здесь Netflix является явным лидером по добавленной годовой компенсации, за ней следуют Lyft, Airbnb, Dropbox и Stripe. Другими словами, если человек переходит с IBM на Netflix, имея ту же должность, опыт, местонахождение и т. д., ожидаемая годовая компенсация увеличится в среднем на 200 000 долларов США в год, примерно со 175 тысяч долларов США в год (= 231–56) до примерно 375 тысяч долларов США в год (= 231 + 144).

Далее посмотрите на зависимость значений SHAP от общего многолетнего опыта:

Здесь компенсация почти монотонно растет примерно до 25 лет опыта (и далее остается на плато), при этом разница в зарплате между наименее и наиболее опытными респондентами составляет около 150 000 долларов США в год.

Интересно, что разница между работой в одной и той же компании относительно невелика (также обратите внимание на заметный разрыв между 0,3–3 годами):

Другими словами, окупается только пребывание в одной и той же компании в течение 3+ лет (вероятно, из-за наделения акциями), с выходом на плато в течение 10+ лет около 10–15 тысяч долларов США в год. .

Кроме того, как и в предыдущих исследованиях, существует значительный гендерный разрыв: у мужчин годовая заработная плата в среднем на 9 тысяч долларов США в год выше, чем у женщин (опять же, с той же должностью , опыт, местоположение и т. д.):

Кроме того, существует значительная разница между уровнями образования, поскольку респонденты со степенью доктора философии получают примерно на 40 000 долларов США в год больше, чем респонденты со степенью магистра:

Общая годовая компенсация также растет со временем: в период с 2017 по 2021 год она увеличилась на 9,6 тыс. долларов США в год (включая относительно небольшое снижение в 2020 году):

Наконец, существует значительная разница между разными местоположениями, поэтому ответчик в штатах Калифорния, Нью-Йорк и Вашингтон будет иметь в среднем примерно на 150 000 долларов США в год больше годовая компенсация, чем у аналогичного респондента в Индии или Польше:

Более подробное представление о гендерном разрыве

Здесь мы рассматриваем как фактические вариации, так и процентные вариации (по сравнению со средней компенсацией в конкретном месте, компании или уровне опыта).

На следующем графике показан гендерный разрыв в реальных цифрах в разных компаниях:

Как и в случае с общими зарплатами, разница самая высокая среди Netflix, Dropbox, Airbnb и Lyft. Однако масштабирование до среднего значения вознаграждения для конкретной компании показывает совершенно другую картину: компании с наибольшим средним процентным гендерным разрывом — это более традиционные компании, такие как SAP, Dell, Oracle и Intel:

Кроме того, в процентных пунктах гендерный разрыв в оплате труда является самым большим для респондентов, работающих в отделе кадров, рекрутерах, технических менеджерах программ и маркетинге:

и он также постепенно увеличивается с увеличением общего года опыта:

и он также увеличивается с увеличением общего количества лет, проведенных в конкретной компании:

но у респондентов со степенью кандидата наук она наименьшая:

Он относительно стабилен в течение 2018–2021 гг.:

и является наименьшим для респондентов из Канады, Нью-Джерси и Нидерландов:

Более подробное представление о значении степени доктора философии

Подобно гендерному разрыву в оплате труда, мы рассматриваем как фактические, так и процентные вариации (по сравнению со средней заработной платой в конкретном месте, компании или уровне опыта) разницы между респондентами со степенью доктора философии и магистра наук.

Что касается фактической компенсации на компанию, разница самая высокая для респондентов из Adobe, за которыми следуют VMware, Workday, ByteDance и Tesla:

По разнице в процентах лидером является Tesla, за ней следуют Cisco и Intel, а Lyft, Netflix и Twitter входят в число компаний с наименьшей разницей:

Примечательно, что респонденты-бизнес-аналитики больше всего выиграют от получения степени доктора философии:

Неудивительно, что влияние наличия степени доктора философии среди респондентов постепенно уменьшается с увеличением общего многолетнего опыта (при этом его абсолютное значение относительно стабильно во времени, на уровне +30–40 тыс. долл. США в год). сильно>):

Наконец, почти нет различий по полу, стажу работы в компании и году респондентов:

но есть удивительно большая процентная разница для Индии, за которой следуют Германия, Франция, Нью-Джерси и Канада:

Я надеюсь, что эти результаты могут быть полезны для вас. В случае вопросов/комментариев, не стесняйтесь писать в комментариях ниже или свяжитесь со мной напрямую через LinkedIn или Twitter.

Вы также можете подписаться на мои новые статьи или стать приглашенным участником Medium.