Извлечение функций для MVP НБА: что делает игрока НБА самым ценным?

Самый ценный игрок. Игрок, получивший признание за выдающиеся достижения в регулярном сезоне и признанный одним из лучших игроков лиги. НБА позволяет болельщикам и группе ведущих вещателей и спортивных обозревателей определять, кто будет удостоен звания MVP. Возникают естественные вопросы:

Что делает игрока «самым ценным»?
Какие особенности определяют жизнеспособного победителя или кандидата MVP?
Можем ли мы найти важные статистические данные, которые определяют потенциального победителя или кандидата MVP?

Данные

Я попытался ответить на эти три вопроса, проанализировав данные о голосовании за MVP НБА с сезона 1955 года по сезон 2020 года. Я взял эти данные из BasketballReference.com и применил необходимые методы предварительной обработки, чтобы подготовить данные для анализа. В качестве отказа от ответственности в моем анализе учитывались сезоны 1979–2020 годов, потому что в сезоне 1979 года была введена трехочковая линия. Данные, используемые для анализа, состоят из кандидатов на звание MVP НБА с 1979 по 2020 год и содержат статистику голосования, статистику по играм и несколько дополнительных показателей. После предварительной обработки интересующими нас переменными были:

Возраст
Pts Won — количество голосов MVP, которые были присуждены игроку.
PTS — очки за игру
TRB — общее количество подборов за игру
AST — количество передач за игру.
STL — кражи за игру
BLK- блоки за игру
FG%- процент попаданий с игры за игру
3P% - процент трехочковых за игру
FT%- процент штрафных бросков за игру
WS-выиграть акции
WS/48 — количество выигрышных акций за 48 минут

Подходы к анализу

Изначально, отвечая на этот вопрос, я хотел посмотреть, есть ли какие-то шаблоны или сдвиги в функциях, связанных с MVP. НБА сильно изменилась с течением времени, и я хотел посмотреть, не изменилось ли что-нибудь в типах позиций, которые считались MVP. Мне было интересно посмотреть, есть ли какие-то тенденции в позиции игрока, связанные с MVP, и есть ли отклонения от такой тенденции. В конечном счете, я хотел завершить анализ, имея подмножество переменных, связанных с MVP, поэтому я также применил различные статистические методы для достижения этой цели. Мои подходы к анализу данных можно обобщить с помощью следующих задач:

Разбивка функций MVP с помощью анализа основных компонентов
Путешествие во времени: изучение закономерностей и изменений в победителях MVP во времени
Ранжирование и отбор функций для кандидатов на звание MVP с регуляризованной регрессией и деревьями решений

Распределение функций MVP

Из всех статистических данных в очках только несколько определяют ценность игрока для команды. Этот набор данных состоял из большого количества функций для каждого игрока, и мой первый план атаки состоял в том, чтобы сначала изучить изменчивость этих функций. Хотя этот набор данных не считался «многомерным», я заметил, что некоторые статистические данные могут быть связаны с другими. Более того, наличие коррелированных предикторов — это прямой путь к катастрофе, когда дело доходит до статистического моделирования, поэтому, используя PCA (анализ основных компонентов), я хотел разложить эту статистику игрока на несколько некоррелированных основных компонентов, которые могли бы помочь описать изменчивость данных. Прежде чем мы двинемся дальше, я дам краткий обзор того, что такое анализ главных компонентов и почему он используется.

Анализ главных компонентов (PCA)

Анализ основных компонентов, также известный как PCA, представляет собой неконтролируемый алгоритм «машинного обучения», который помогает разлагать и понимать очень зашумленные и многомерные данные, поэтому он также известен как инструмент для «уменьшения размерности». Термин «многомерный» относится к данным, в которых у нас больше столбцов, чем строк в нашем наборе данных. Другое использование PCA — помощь в решении проблемы мультиколлинеарности, которая включает ситуацию, когда многие из ваших столбцов могут быть коррелированы друг с другом. PCA позволяет нам вычислять «основные компоненты» из нашего исходного набора данных, которые по сути являются преобразованиями наших исходных предикторов в несколько некоррелированных предикторов. Магия PCA заключается в том, что он позволяет нам разложить большое количество коррелированных предикторов на набор из нескольких некоррелированных предикторов, сохраняя при этом большую часть изменчивости данных! Для вас, поклонников линейной алгебры, это включало в себя поиск собственных значений и связанных с ними собственных векторов ковариационной матрицы. Собственный вектор с наибольшим соответствующим собственным значением представляет собой главный компонент, который фиксирует наибольшую дисперсию.

«Архетипы» игроков MVP

Как мы видим здесь, мы разложили наши исходные 12 предикторов на набор из трех некоррелированных основных компонентов, которые описывают 66% изменчивости наших данных. Каждый компонент имеет связанные функции из исходного набора данных, которые вносят свой вклад в него, а также соответствующую «загрузку» вклада для каждой функции. График был скорректирован, чтобы показать относительную величину вклада каждой функции, поэтому функции, помеченные как «отрицательные», имеют положительное значение, связанное с ними. Изучив функции, связанные с каждым основным компонентом, можно попытаться сгруппировать типы MVP.

ПК 1: Надежные отражатели и протекторы обода

Глядя на две главные функции в компоненте 1, мы видим, что блоки и общее количество подборов являются основными факторами. Естественная интерпретация может заключаться в том, что MVP, в основном связанные с этим основным компонентом, будут игроками с более «защитным» мышлением. Это могут быть нападающие или центровые, известные своей работой по защите стекол и обода. Конечно, мы могли бы также рассмотреть неряшливых защитников, которые известны своим защитным поведением и также могут получить свою долю подборов.

ПК 2: Мощные атакующие машины для подсчета очков

В основном компоненте 2 мы видим функции с наибольшим вкладом: выигрыши/доли за 48 минут, очки, а также процент штрафных бросков и трехочковых бросков. Типы игроков, которые приходят на ум, — это высокоэффективные игроки, которые набирают много очков. Самыми ценными игроками, связанными с этим компонентом, могут быть игроки-слэшеры, которые знают, как добраться до линии штрафных бросков, и снайперы, которые могут быстро набрать результативную серию. Статистика «Доли выигрышей за 48 минут» измеряет относительное влияние игрока и его вклад в победы команды. Доля выигрышей за 48 минут — это ключевой показатель для измерения влияния игроков с поправкой на время, проведенное на площадке.

ПК 3: Опытные ветераны профессиональной игры

В основном компоненте 3 мы наблюдаем возраст как одну из основных характеристик, влияющих на общую дисперсию, охватываемую этим компонентом. Типы игроков, представленные здесь, могут быть ветеранами НБА, которые наигрались достаточно, чтобы знать основы профессиональной игры. Их талант в сочетании с их возрастом делает их отличным дополнением к команде, которой может понадобиться высшее руководство. Такие игроки становятся отличными лидерами в командах с молодыми талантами, поскольку они служат наставниками и могут помочь команде быстро созреть.

A Путешествие во времени

Много раз поднималась интересная дискуссия о том, как изменилась профессиональная игра за эти годы. Многие утверждали, что игра резко изменилась: от игры в помещении в начале 80-х и 90-х до большего количества игр по периметру и большого количества трехочковых бросков. В этом разделе моего анализа я хотел увидеть, сохраняется ли эта тенденция среди победителей MVP. Главный вопрос, на который я хотел ответить в этом разделе анализа, заключался в следующем: наблюдаем ли мы сдвиг в позициях победителей MVP с течением времени?

Кластеризация с основными компонентами

Теперь, когда у нас есть основные компоненты, напоминающие различные «архетипы» победителей MVP, я хотел сгруппировать данные, чтобы увидеть, связаны ли определенные игроки с одним основным компонентом больше, чем с другим. Поскольку первые два основных компонента охватывают большую часть дисперсии данных, мы сосредоточимся на кластеризации кандидатов MVP с использованием ПК1 и ПК2. Цель этого — увидеть, как частота позиций победителей MVP менялась во времени. На следующих визуализациях показаны диаграммы рассеяния, где каждая точка данных, заштрихованная красным цветом, представляет кандидата на MVP, а точки, заштрихованные черным цветом, представляют победителей MVP. Чем темнее оттенок красного, тем больше баллов набрал кандидат на MVP в данном году. Мы проведем разбивку по десятилетиям с 1979 по 2020 год, чтобы проверить утверждение о том, как время влияет на победителей MVP.

Путешествие во времени: 1979–1989 и 1990–2000 годы

На двух графиках показана диаграмма рассеяния кандидатов на MVP, где мы сгруппировали их в соответствии с ПК1 и ПК2. Игроки, наиболее связанные с любым компонентом, указывают, что игрок был наиболее связан с функциями, составляющими этот компонент. Как видно из первого сюжета, мы видим несколько победителей MVP, которые были выдающимися защитниками, таких как Майкл Джордан и Мэджик Джонсон. Интересно, что мы видим, что Майкл Джордан больше всего ассоциируется с PC1, и это имеет смысл, поскольку Джордан выиграл награду «Лучший защитник года» в 1988 году с «Чикаго Буллз». Такие игроки, как Dr.J, Мэджик Джонсон и Ларри Берд, находятся в центре сюжета, что имеет смысл, поскольку у этих игроков была более разносторонняя игра.

В период с 1990 по 2000 год мы наблюдаем высокую частоту победителей MVP, больше всего связанных с защитными характеристиками, такими как TRB и BLK, и не случайно, что это доминирующие бигмены той эпохи. Если не считать нашего исключения Майкла Джордана, большинство победителей MVP в эпоху до 2000-х годов были нападающими и центровыми, настроенными на оборону. Таким образом, в НБА до 2000-х годов были победители MVP, которые напоминали внутреннюю пост-игру, что имеет смысл, поскольку именно так играли в игру в 80-х и 90-х годах.

Путешествие во времени: 2000–2010 и 2010–2020 годы

Переходя к периоду после 2000-х, мы видим сдвиг в победителях MVP, так как мы видим немедленный взрыв гвардии, больше всего связанный с наступательными, высокоэффективными характеристиками PC2, такими как PTS, 3P%, FG% и WS. /48. В период с 2000 по 2010 год мы видим некоторых нападающих и центровых, которые поддерживают эру внутренней пост-игры, таких как такие игроки, как Кевин Гарнетт и Тим Данкан. Именно здесь, в эту эпоху, мы видим точку перехода от игры с внутренней стойки к игре на периметре, поскольку эпоха большого человека угасает, и на сцену выходят быстрые атакующие охранники. KG и Тим Дункан — одни из немногих победителей MVP того времени, которые считались «традиционными» пост-игроками. Аллен Айверсон поразил болельщиков «Сиксерс» своей молниеносной скоростью и волшебным обращением с мячом, а Стив Нэш порадовал болельщиков «Санз» броском без света и настроем на первый пас, поскольку он воплощал идею «настоящего» разыгрывающего.

Однако, когда мы смотрим на победителей MVP 2010–2020 годов, мы видим больше атлетичных защитников и метких стрелков. Такие игроки, как Стивен Карри, Деррик Роуз и Рассел Уэстбрук, являются одними из выдающихся победителей MVP этой эпохи, что резко контрастирует с типом победителей MVP, которые мы наблюдали в 90-х годах. Деррик Роуз и Рассел Уэстбрук породили новую тенденцию «высоколетящих» разыгрывающих с причудливым атлетизмом, тогда как Стивен Карри в 2015 году заставил защитников затаить дыхание своей безграничной дальностью стрельбы. Мы видим некоторых победителей MVP, которые играли больше роль «нападающего», таких как Яннис и Леброн Джеймс. Еще одна вещь, о которой следует помнить, это то, что, поскольку многие победители MVP в эту эпоху связаны с PC2, эти игроки были связаны со статистикой WS / 48. Можем ли мы утверждать, что победители MVP в эту эпоху оказали большее относительное влияние на победы своих команд с атакующими характеристиками, чем победители MVP до 2000-х годов с оборонительными характеристиками? Это смелое заявление, и нам придется провести дополнительный анализ, чтобы увидеть, какая статистика используется для расчета статистики WS/48, но из данных кажется, что MVP в эпоху после 2000-х показывают более высокую ценность для своих Команды выигрывают за счет наступательных характеристик, а не защитных характеристик.

Совершив путешествие во времени, мы ясно видим, насколько сильно зависят от времени функции, связанные с победителями MVP. Это следует учитывать при выборе функции, поскольку ясно, что функция, связанная с победителями MVP, изменилась через 20 лет. Мы видели, что ранние победители MVP были связаны с защитными характеристиками и были представлены игроками с внутренней стойки. Однако, если мы заглянем в прошлое 2000-х годов, мы увидим сдвиг в большем количестве победителей MVP, которые были более атакующими и высокоэффективными игроками и были представлены спортивными игроками периметра. Важно помнить об этой временной зависимости, когда мы будем оценивать неопределенность наших моделей позже.

Выбор функций и ранжирование функций для кандидатов на звание MVP

Теперь мы подходим к вопросу, на который хотим ответить: каковы характеристики кандидатов на звание MVP? Прежде чем мы перейдем к анализу, я кратко объясню два статистических метода, которые я использовал, и то, как они помогли с результатами.

Регулярная регрессия и деревья решений для выбора функции MVP

Регулярная регрессия

В регрессии проблема, с которой часто сталкиваются аналитики, заключается в том, что они включают в свою модель предикторы, которые могут не быть связаны с переменной отклика. Процесс удаления ненужных предикторов в нашей модели известен как «Выбор функций», и это метод, который использовался для выбора наших характеристик, связанных с кандидатами MVP. Когда в нашей модели много предикторов, мы хотим применить Регуляризацию к нашим оценкам коэффициентов. Регуляризация включала добавление «штрафа» к нашим предикторам и сужение оценок коэффициентов некоторых предикторов, близких или близких к нулю. Регулярная регрессия основывается на концепции возможного выбора признаков, поскольку штрафные коэффициенты сокращаются, а нештатные коэффициенты становятся нашими «выбранными» функциями из нашей модели. В этом анализе мы использовали два метода регуляризованной регрессии: регрессию гребня и регрессию Лассо. Ридж-регрессия допускает естественное ранжирование признаков, поскольку она будет применять штраф ко всем предикторам и сжимает оценки коэффициентов для ненужных предикторов, близких к нулю. В регрессии Лассо мы получаем выбор признаков, поскольку штраф добавляется ко всем предикторам, но подмножество предикторов имеет коэффициенты, полностью сведенные к нулю.

Деревья решений

Деревья решений — это еще один класс статистических моделей, которые обеспечивают более гибкий подход к моделированию, сохраняя при этом интерпретируемость модели. Деревья решений учитывают нелинейную связь между переменной отклика и предикторами, которую линейная регрессия может не зафиксировать. Кроме того, выходные данные таких моделей отображают характеристики, связанные с откликом, в виде древовидной структуры, что облегчает их интерпретацию. Деревья решений разбивают предикторы и используют алгоритм, известный как «рекурсивное двоичное разделение», чтобы соответствовать дереву. Когда мы посмотрим на вывод деревьев решений в контексте нашей проблемы, мы увидим, как различные предикторы в нашем наборе данных больше всего связаны с кандидатами MVP в простой для понимания древовидной диаграмме.

Регулярная регрессия для выбора функций MVP

В обеих регрессионных моделях мы рассматривали нашу переменную ответа как «выигранные очки», которые представляют собой очки, присужденные кандидату на звание MVP этого года, а предикторы — связанные статистические данные защиты и нападения для данного игрока. На следующих графиках ниже показаны оценки коэффициентов для каждого из предикторов для моделей регрессии Лассо и Риджа.

Функции, выбранные из модели регрессии Лассо

Из этого графика видно, что наша модель регрессии Лассо определила подмножество функций, наиболее связанных с кандидатами на MVP, которые представляют собой хорошую дозу атакующей статистики в сочетании с вкладом игроков в победы. Наша модель показала, что игроки, которые были настроены более агрессивно и внесли свой вклад в командные победы, имели характеристики, связанные с получением большего количества очков в гонке MVP. Эти игроки также присутствовали на стекле, поскольку их тяжелая работа с краской сделала их более ценными в глазах голосований MVP. В сочетании с их движением мяча эти особенности действительно представляли кандидатов на MVP, которые были настоящими командными игроками.

Функции, выбранные из регрессионной модели хребта

В случае хребтовой регрессии мы видим, что наша модель дала результаты, аналогичные нашей предыдущей модели, поскольку она ранжировала аналогичные характеристики, связанные с атакующими командными игроками. Кроме того, мы видим, что в нашей модели гребневой регрессии блоки имеют положительный коэффициент, что указывает на то, что сохранение всех остальных предикторов равными, а увеличение количества блоков связано со средним увеличением количества очков, выигранных в гонке MVP. Это интересно, так как наша модель регрессии хребта расширяет тип игроков, которыми являются наши кандидаты в MVP, в том смысле, что они должны быть двусторонними игроками. В том же контексте, когда мы рассматриваем возраст как имеющий положительный коэффициент, мы также можем сделать вывод, что наш кандидат на звание MVP — это тот, у кого может быть больше опыта игры в лиге, но из-за его небольшого значения он не имеет значения. похоже, они оказывают такое же влияние на количество набранных очков, как и другие функции, и это имеет смысл, поскольку многие MVP НБА были моложе. Добавление BLK в качестве важной функции также может означать, что кандидаты MVP — это больше, чем просто атакующие игроки, которые оказывают влияние благодаря своему большому количеству очков, а скорее двусторонний игрок, который также имеет оборонительное присутствие. .

Функции, выбранные из модели дерева решений

При интерпретации Дерева решений иерархия пней символизирует наиболее важную особенность на каждом уровне. Например, наиболее важной характеристикой, связанной с количеством выигранных очков MVP, является WS/48. По каждому пню принимается «решение», и если критерии соблюдены, данные разбиваются в соответствии с результатом. Например, если данный кандидат на MVP имел WS/48 меньше 0,24, игрок был разделен на сторону «да», а если он был больше 0,24, он был разделен на правую сторону. Этот процесс повторяется по мере того, как определенный процент наблюдений отделяется на основе критериев. В каждом узле дерева мы видим число над %, которое представляет прогнозируемое количество очков MVP, выигранных игроками в этом узле. Исходя из этого, мы можем видеть, что игроки, которые были разделены в нижней правой части дерева, имели 874 прогнозируемых количества выигранных очков MVP и составляли 3% данных. Это указывает на то, что эти игроки, скорее всего, были нашими победителями MVP, и мы можем продвинуться вверх по дереву, чтобы выяснить, какие функции были связаны с такими игроками. Когда мы смотрим на верхний раздел, большинство наших кандидатов на MVP с высоким значением имели WS / 48 выше 0,24. Отсюда мы можем сделать два наблюдения:

Кандидаты на MVP с наибольшим количеством голосов MVP имели WS/48 выше 0,28.
Кандидаты на MVP со вторым по величине количеством голосов MVP имели WS / 48 менее 0,28, но имели высокое количество передач и бросали менее 81% с линии штрафных бросков. Это указывает на то, что, несмотря на то, что игроки, которые соответствовали этому критерию, не были очень точными с линии штрафных бросков, они были лучшими командными игроками и намного чаще перемещали мяч.

Из этих двух наблюдений модель дерева решений говорит нам о том, что характеристики, которые больше всего ассоциируются с ценными кандидатами в MVP, — это игроки, которые перемещают мяч и являются важными игроками на паркете, поскольку они вносят большой вклад в победы своих команд.

Выводы и заключительные мысли

Используя несколько подходов к анализу, мы сделали следующие наблюдения:

Произошел сдвиг в типе игроков MVP, начиная с центровых и нападающих с защитными характеристиками и переходя в лигу, в которой доминируют гвардейцы с атакующими характеристиками.
Доля выигрышей за 48 минут — статистика, измеряющая влияние игрока и его вклад в командные победы, — важный фактор при определении победителей MVP.
MVP НБА — двусторонний игрок, который перемещает мяч и может забивать по своему желанию, когда ему нужно.

Генеральные менеджеры и фронт-офис могут получить представление о том, какие игроки со свободными агентами могут обладать потенциальными талантами суперзвезды MVP, взглянув на важную статистику, такую как WS / 48, а также на сочетание атакующих и защитных характеристик. Оптимальными кандидатами на MVP будут игроки с высокими показателями, которые являются двусторонними игроками и вносят большой вклад в победы своих команд, пока они находятся на площадке. Однако в этом действии есть нюанс.

Мы заметили, что функции, связанные с MVP, резко менялись во времени, и эту временную зависимость следует учитывать. Мы видели, насколько сильно изменился тип игры, в которую играли в НБА с 1990-х по 2010 год, и мы не можем гарантировать, что игра с защитниками периметра будет такой же, как и через 10 лет! В целом, статистические модели трудно экстраполировать, особенно при наличии временной зависимости. Данные действительно дают гроссмейстерам хорошее представление о наборе характеристик, связанных с кандидатами на MVP, но должен быть хороший баланс между текущими тенденциями в НБА и любыми изменениями в том, как изменилась игра. Кто знает, насколько нам известно, интерьерная почтовая игра 90-х может вернуться и стать движущей силой в будущих сезонах.

Спасибо, что нашли время прочитать эту статью! Обращение к интересным спортивным вопросам всегда увлекательно для меня, и я ценю любые отзывы о моем письме или технических деталях.

Программное обеспечение: R, Python

Пакеты: ggplot2, dplyr, tidymodels, BeautifulSoup4 и Requests

Набор данных взят из: BasketballReference.com

Свяжитесь со мной!: https://www.linkedin.com/in/viren-gadkari-13a287191/