Понимание значений Shap (аддитивные пояснения Shapley) для машинного обучения

Значения Шепли, часто называемые значениями Шэпа, представляют собой концепцию из теории кооперативных игр, которая была адаптирована для использования в интерпретируемости моделей машинного обучения. Значения Shap количественно определяют вклад каждой функции в прогноз конкретного экземпляра.

В контексте машинного обучения значения Shap измеряют, насколько значение каждого признака отклоняется от ожидаемого прогноза при рассмотрении всех возможных комбинаций признаков. Они обеспечивают способ распределения разницы прогнозов между функциями, приписывая их соответствующие вклады.

Сводный график Шэпа, также известный как график значений Шепли, представляет собой визуальное представление, которое помогает интерпретировать важность функции или влияние на прогнозы модели машинного обучения. Значения Шепли, полученные из теории кооперативных игр, присваивают каждому признаку значение, указывающее его вклад в результат прогнозирования.

На сводном графике Shap функции перечислены по оси y, а по оси x представлены значения Shapley. Значения Шепли обычно представлены в виде горизонтальных полос или точек, а их положение по оси x определяет их влияние на прогнозы модели. Цвет каждой полосы или точки также может использоваться для представления фактического значения функции.

График обычно сортируется по величине значений Шепли, при этом наиболее важные функции помещаются вверху. Это позволяет пользователям быстро определить функции, которые оказывают наибольшее влияние на выходные данные модели.

Интерпретация сводного графика Шэпа включает рассмотрение направления и величины значений Шепли. Признаки с положительными значениями Шепли вносят положительный вклад в прогноз, в то время как отрицательные значения оказывают отрицательное влияние. Длина полос или расстояние от центральной линии указывает на величину эффекта. Функции с более длинными полосами сильнее влияют на прогнозы модели.

Из приведенного выше рисунка [1] можно интерпретировать следующую информацию:

Важность функций. Функции перечислены по оси Y, а функции, оказывающие наибольшее влияние на выходные данные модели, находятся вверху.
Влияние. Расположение по горизонтали показывает, связано ли влияние этого значения с более высоким или более низким прогнозом и находится на оси X.
Исходное значение. Цвет показывает, является ли эта переменная высокой (красный) или низкой (синий) для данного наблюдения.
Корреляция. Высокое значение параметра «Возраст» оказывает сильное и положительное влияние на выходные данные модели. «Высокое» происходит от красного цвета, а «положительное» влияние показано на оси X. Точно так же функция на оси Y отрицательно коррелирует с целевой переменной, если красный цвет находится слева на оси X.

Сводные графики Shap особенно полезны для понимания сложных моделей, таких как древовидные модели, нейронные сети или ансамблевые методы. Они дают представление об относительной важности различных функций, помогают определить влиятельные факторы и помогают обнаруживать потенциальные предубеждения или аномалии в поведении модели.

В целом, сводные графики Shap обеспечивают наглядный и интуитивно понятный способ анализа и интерпретации важности функций в моделях машинного обучения, что делает их ценным инструментом для объяснения и понимания моделей.

Ссылки

[1] Теплый сюжет. beeswarm plot — последняя документация SHAP. (н.д.). https://shap.readthedocs.io/en/latest/example_notebooks/api_examples/plots/beeswarm.html

Понимание значений Shap (аддитивные пояснения Shapley) для машинного обучения

Вопросы по теме