Magic: The Gathering уже много лет является одним из моих увлечений. Благодаря большой карточной базе и долгой истории он идеально подходит для анализа данных и машинного обучения.

Если вы пропустили мою предыдущую статью, я применил кластеризацию K-средних (метод неконтролируемого обучения) к набору данных Magic: The Gathering Dataset, который я соскоблил с mtgtop8. В этой статье объясняется техническая сторона, но не рассматриваются результаты, потому что я не думал, что моим читателям это понравится.

Поскольку многие люди выразили свое несогласие, я сейчас покажу вам некоторые вещи, которым научился алгоритм.

Это не первый и не последний раз, когда я говорю, что обучение без учителя может пугать всего, чему его учат, даже если вы знаете, как оно работает.

Данные

Набор данных, который я использовал для этого проекта, содержал только профессиональные колоды прошлого года в формате Modern. Я не включал серванты в этот анализ. Все колоды, которые я использовал для обучения и визуализации, доступны вместе с кодом в этом проекте GitHub.

Если вы знаете какой-либо хороший набор данных для казуальных колод, я буду рад узнать об этом в комментариях. В противном случае я могу почистить один в будущем.

Для этого анализа я использую 777 различных колод, содержащих в общей сложности 642 уникальных карты (с учетом земель).

Результаты, достижения

Прежде всего, я настоятельно рекомендую вам загрузить репозиторий и попробовать Jupyter Notebook самостоятельно, так как могут быть некоторые интересные идеи, которые мне могут не хватать.

Тем не менее, если вы хотите узнать, что данные говорят о конкретной карте (при условии, что это часть конкурентной меты, которая, как мы видели, достаточно мала), спросите меня в комментариях, если вы не видите ее здесь!

Итак, первый вопрос, который мы зададим себе ...

Как выглядит каждый кластер Magic: The Gathering?

Помните, мы сгруппировали колоды, а не карты, поэтому мы ожидаем, что каждый кластер будет примерно представлять архетип, особенно тот, который можно увидеть в современной мете.

Прежде всего: вот счетчики для каждого кластера. То есть сколько колод попало в каждую.

Мы сразу видим, что есть две очень маленькие группы, менее 30 колод в каждой. Давайте посмотрим поближе.

Карты в каждом кластере

Для кластера номер 4 я получил набор из 40 карт, которые чаще всего появлялись для каждой колоды в нем, а затем взял пересечение, чтобы увидеть, что у них всех общего. Я повторил эту процедуру для кластера номер 6.

Cluster number 4:
{'Devoted Druid', 'Horizon Canopy', 'Ezuri, Renegade Leader', 'Forest', 'Elvish Archdruid', 'Pendelhaven', "Dwynen\\'s Elite", 'Llanowar Elves', 'Collected Company', 'Windswept Heath', 'Temple Garden', 'Westvale Abbey', 'Razorverge Thicket', 'Heritage Druid', 'Elvish Mystic', 'Nettle Sentinel','Eternal Witness', 'Cavern of Souls', 'Chord of Calling', 'Vizier of Remedies', 'Selfless Spirit'}
Cluster number 6:
{'Funeral Charm', 'Liliana of the Veil', "Raven\\'s Crime", 'Fatal Push', 'Thoughtseize', 'Wrench Mind', 'Bloodstained Mire', 'Smallpox', 'Inquisition of Kozilek', 'Mutavault', 'Urborg, Tomb of Yawgmoth','Infernal Tutor', 'Swamp', 'The Rack', "Bontu\\'s Last Reckoning", 'Shrieking Affliction'}

Похоже, что один из них играет зеленой колодой, используя эльфов и зеленые земли, а другой сочетает в себе фрезерование и сброс с такими картами, как Лилиана и Инквизиция Козилек.

Вот результат предыдущего алгоритма для всех кластеров. Посмотрим, сможете ли вы определить, к какому архетипу принадлежит каждый из них. Это также говорит нам о распределении метаданных назад, когда я получил данные.

Такой же анализ более свежего набора данных может быть даже полезен сам по себе, если вы участвуете в соревновательных турнирах.

Особые карты

В этих списках мне особенно выделялись три карты: «Mutavault», «Inquisition of Kozilek» и «Llanowar Elves».
Интересно, чаще ли они встречаются в других кластерах? На самом деле я не знал, что Мутаволт настолько распространен в соревновательной игре, и я думаю, что появление лановарских эльфов в колоде кое-что говорит нам об этом.

Как всегда, вы можете создать эти графики для любой из карточек или спросить меня, интересует ли вас какая-то конкретная.

Универсальные карты

Наконец, я определю новую категорию карт: универсальность карты будет означать, сколько разных кластеров содержат хотя бы колоду, которая ее использует.

Я согласен с тем, что это определение, надо признать, можно было бы еще немного уточнить. Например, путем подсчета призраков, а не только о том, находится ли карта в колоде или нет.

Однако результаты, полученные таким образом, достаточно последовательны, поэтому я не думаю, что это требует дополнительных настроек. Вот список из 10 самых универсальных карт после исключения базовых земель.

  1. Расчленить
  2. Квартал призраков
  3. Поле Руин
  4. Пещера Душ
  5. Мысль
  6. Mutavault
  7. Священная Литейная
  8. Топчущая земля
  9. Спроектированные взрывчатые вещества
  10. Ботаническое святилище

Они в значительной степени те, о которых вы ожидаете. Однако я удивлен, что Lightning Bolt не прошел. Я не был уверен, следует ли засчитывать неосновные земли, но в конце концов оставил их.

Тот факт, что я понятия не имею, какая карта «Engineered Explosives», доказывает, что я оторвался от состояния меты, и, возможно, мне стоит играть больше, но это не имеет значения.

Заключение

Как мы и ожидали, Magic: The Gathering может быть интересным источником данных, и я думаю, что мы все кое-что узнали, увидев все это.

Лично я все еще удивлен, что кто-то из прославленных линейной алгебры смог узнать все о мете соревновательной игры.

Я был бы еще больше удивлен, если бы он узнал об архетипах в казуальной игре, где колоды более разнообразны, хотя моя интуиция подсказывает мне, что кластеров достаточно, даже если их следует должным образом охарактеризовать.

Что вы думаете? Хотели бы вы увидеть какую-нибудь другую информацию? Вы ожидали, что алгоритм будет работать хорошо? И, наконец, какие еще области, по вашему мнению, подходят для правильного анализа данных, особенно с использованием других методов обучения без учителя?

Пожалуйста, дайте мне знать об этом в комментариях!

Подпишитесь на меня в Medium или Twitter, чтобы увидеть больше статей, руководств и аналитических материалов. Пожалуйста, подумайте о том, чтобы поддержать мой веб-сайт и мою писательскую привычку пожертвованием.

Первоначально опубликовано на сайте www.datastuff.tech 5 апреля 2019 г.