Значения SHAP для отдельных игроков, команд, сезонов и игровых недель

В этом анализе я использую общедоступный набор данных, включающий результаты матчей английской премьер-лиги с 1992/93 по сезоны 2020/21. Набор данных публично доступен на Kaggle. Полную информацию об анализе можно найти в этой общедоступной записной книжке Kaggle.

Шаг 1 — предварительная обработка данных

Здесь предварительная обработка данных состоит из следующих шагов:

  • перевод результатов матчей в игровые очки (3 за победу, 1 за ничью);
  • извлечение имен игроков и их кодирование с участием не менее 190 матчей (примерно 5 полных сезонов), присутствующих в наборе данных;
  • наконец, удаление неиспользуемых столбцов.

Шаг 2 — настройка модели машинного обучения для прогнозирования среднего количества очков за игру

Данные, подготовленные на предыдущем шаге, случайным образом распределяются между обучающей и тестовой выборками и моделируются с помощью модели CatBoostRegressor, которая явно учитывает категориальные признаки. Среднеквадратическая ошибка (RMSE) полученной модели составляет около 1,28 балла, что улучшение по сравнению со среднеквадратичной ошибкой базовой модели примерно на 1,32 балла (при том же strong>1,38 балла за каждую игру).

Шаг 3 — объяснение полученной модели машинного обучения

Здесь мы используем метод Shapley Additive ExPlanations (SHAP), один из наиболее распространенных для изучения объяснимости моделей машинного обучения. Таким образом, единицами значения SHAP являются среднее количество очков за игру.

Во-первых, мы изучаем диапазон значений SHAP для 30 наиболее интересующих нас функций:

Теперь рассмотрим индивидуальные особенности.

Что касается названий клубов, мы видим, что наибольшее среднее количество очков за игру связано с Манчестер Юнайтед, за которым следуют Ливерпуль, Арсенал, Челси, Манчестер Сити, Эвертон и Тоттенхэм. Хотспур»:

Что касается отдельных игроков, соответствующий визуальный элемент становится очень тесным:

а ведущий участник — Джонни Эванс, за которым следуют Винсент Компани, Кевин Нолан, Джон Терри, Кайл Уокер, Муса Дембеле и Серхио Агуэро. , как видно из таблицы ниже:

Примечательно, что некоторые из самых высокооплачиваемых игроков, такие как Криштиану Роналду и Рахим Стерлинг, находятся в этом списке намного ниже:

Наконец, недели матчей, связанные с наибольшим средним количеством очков за игру, составляют 28, 27 и 32:

в то время как сезоны, связанные с наибольшим средним количеством очков за игру, — это 2005/06, 2018/19 и 1997/98:

Я надеюсь, что эти результаты могут быть полезны для вас. В случае вопросов/комментариев, не стесняйтесь писать в комментариях ниже или свяжитесь со мной напрямую через LinkedIn или Twitter.

Вы также можете подписаться на мои новые статьи или стать приглашенным участником Medium.