С появлением объяснимого машинного обучения как неотъемлемой части постоянно растущей философии машинного обучения ценности Шепли оказались в центре внимания сообщества специалистов по данным как неотъемлемая часть, позволяющая максимально эффективно использовать прикладные решения машинного обучения.

Этот пост будет первым из двух, в которых я расскажу, что это такое и каковы варианты их использования в бизнесе и прикладной математике. В этом первом посте я объясню, что такое значения Шепли и как их рассчитать для простого варианта использования, а в следующем я объясню варианты их использования и их важность в бизнес-операциях.

Оглавление:

Что такое значения Шепли?
Как они рассчитываются
Пример ручного расчета

Откровение креветки Дейва Шаппеля:
−− Первый элемент: Агрегированный предельный вклад множества SU{i}
−− Второй элемент: Деление на все возможные комбинации игроков
−− Третий и последний шаг: Рассчитайте вклад отдельного игрока в увеличение, вызванное этой коалицией

Другие источники, чтобы узнать, как рассчитываются значения Шепли

Что такое ценности Шепли?

Первоначально они были созданы как решение задач кооперативной алгоритмической теории, способ расчета релевантности/важности каждого из игроков в совместной игре в помощи команде в достижении их результата, позволяя справедливо распределять призы и затраты на упомянутое сотрудничество. Это работает только в том случае, если игра состоит из нескольких раундов, где можно наблюдать влияние наличия или отсутствия разных игроков, а уровень успеха можно измерить за пределами бинарного распределения.

Давайте лучше поймем это на примере

Предположим, мы решили создать стартап с командой основателей, коалицией команды мечты, состоящей из самых могущественных героев Земли. Они начинают сотрудничать, не имея в виду четкой акционерной стратегии и представления о том, какой окажется реальная бизнес-идея. Они просто тестируют и пытаются получить MVP, чтобы начать получать продажи.

В нашей команде мечты со стороны маркетинга у нас есть:

Итак, они начинают приступать к работе и пробуют экспериментировать, поскольку все они довольно успешны в своей карьере и с очень плотным графиком, они не могут работать полный рабочий день все месяцы, в конце концов они решают создать и управлять рестораном креветок. в центре Лос-Анджелеса и начать зарабатывать деньги.

После 8 месяцев относительно успешного MVP они решают, что пришло время назначать базовые оклады сотрудникам, которые их заменят, и решают использовать для этой цели значения Шепли. Они будут назначать процент от бюджета заработной платы сотрудников в зависимости от того, насколько их различные маркетинговые каналы способствуют фактическим продажам, какой маркетинговый канал оказал наибольшее и наименьшее влияние? Кто самый прибыльный в команде? Давай выясним!

Как это рассчитывается

Значение Шепли, которое мы должны получить, представляет собой, по сути, средний вклад каждого из игроков/маркетинговых каналов во всех возможных перестановках, в которых они участвовали в различных раундах (месяцах) игры. Видите ли, это первое, что касается ценностей Шепли, они формально структурированы следующим образом:

Для игры G (как, например, игра о продажах в успешном стартапе), для N игроков {Дэйв, Тейлор и Дж. К.} (с этого момента я буду притворяться, что это ее настоящее имя) и функции V, которая сопоставляет любое количество игроков с реальным числом (в этом случае мы бы говорили о функции, формализующей связь между участием игроков и продажами стартапа).

У нас будут коалиции участвующих игроков, называемые S, которые будут подгруппой N. В каждом раунде подгруппа всех возможных игроков будет получать значение V(s), в данном случае продажи.

Во всей этой неразберихе значение Шепли каждого игрока будет средним вкладом, который каждый игрок внес в общий итог игры, чтобы изменить целевую переменную. Разница между средним увеличением или уменьшением (в случае, если они плохо справляются со своей работой) между средним значением продаж и средним значением продаж, когда этот игрок участвует.

Так, например, если в среднем продажи составляют 300, но за те месяцы, когда Дейв Чаппель работает, его волшебные продажи достигают в среднем 350, значение Шепли, средний вклад, который Дейв Чаппель может внести в достижение цели, составляет 350–300 = 50. , Репрезентативное число, подобное этому, того, что различные игроки предоставляют для воздействия на целевую переменную, - это то, что мы ищем с помощью значений Шепли.

То, как рассчитываются значения Шепли, обеспечивает идеальное агрегирование ответственности. Например, если средний объем продаж при отсутствии игроков (возможно, из-за естественного спроса на креветки в выбранном ими месте) составляет 300, а при участии трех игроков — 1150, значения Шепли трех разных игроков будут суммироваться. до 1150–300 = 850. Если Дэйв Чаппель имеет 50 в своем среднем вкладе за всю игру, то остальные 800 будут присвоены значениям Тейлора и Дж. К. Шепли.

Ручной расчет Пример

Давайте посмотрим, как это можно рассчитать на самом деле. Давайте посмотрим на это как на игрушечный пример, представьте, что в течение 8 месяцев доход распределялся следующим образом:

Здесь у нас есть данные по 8 раундам в месяц, и по стечению обстоятельств все раунды являются одной из возможных комбинаций участвующих игроков. Здесь мы предполагаем, что участие = 40 часов в неделю, и что, когда они участвовали, они все работали до Т.

Давайте получим наши значения Шепли для одного из игроков, давайте перейдем к Дэйву Чаппелю.

Откровение Дэйва Чаппелеса о креветках:

Поэтому, чтобы получить его, люди используют очень странную формулу, которая на самом деле является просто эквивалентом этой более простой для понимания версии:

По сути, значение Шепли игрока i будет делением между агрегацией двух элементов всех возможных групп S (это все группы в разных раундах, в которые не входил игрок i ), и количество игроков в игре. Такое деление на количество игроков позволяет сделать расчет «усредненным» представлением всей игры.

Два облегчают понимание этого вычисления, мы можем представить себе процесс, состоящий из трех частей, первые два будут решать агрегацию, а последний шаг будет делить на n. Давайте проверим это.

Первый элемент: совокупный предельный вклад набора SU{i}

Это довольно просто и представляет собой то, что мы называем маргинальным увеличением набора S плюс игрок i по сравнению с набором S без игрока I. По сути, незначительное увеличение, вызванное включением Дейва.

В основном он вычисляет полученную целевую переменную для всех групп, которые были свидетелями в «раундах» игры, где в группе S также был игрок i в качестве дополнения, и вычитает ее из значения, полученного для целевая переменная, когда в той же группе не было i. По сути, изменения, наблюдаемые в целевой переменной, когда игрок i находится поблизости, помогая установить S, по сравнению с тем, когда его нет, — это то, что покажет нам позже, что i приносит на стол. .

Итак, здесь, по сути, мы бы проверили все раунды, в которых не участвовал Дэйв Чаппель, и организовали их на основе игроков, которые участвовали, это был бы месяц 4 (где S = [Тейлор, Дж.К.], V(s) = 1100 ), месяц 6 (S = [Тейлор], V(s) = 700), месяц 7 (S = [Jk], V(s) = 400) и месяц 8 (S = [«нет игроков»], V( с) = 300) . Это будут все возможные коалиции S, и их V(s) — это то, что нас интересует для формулы.

Мы бы сравнили коалиции с теми же игроками, но также с Дейвом, это даст нам незначительное увеличение, вызванное включением Дейва. Это будут коалиции SU{i} , в этом случае мы будем говорить о:

Таким образом, мы можем ясно видеть все значения для продаж, нашей целевой переменной как для S, так и для SU{i} коалиции, в этом примере они по одному в месяц, но в реальном сценарии у нас может быть несколько месяцев, когда Дейв играл сам, наш, где JK и Тейлор играли без Дэйва. В этих сценариях значение для коалиций будет соответствующим средним значением всех раундов, которые эти коалиции сыграли таким образом. Это означает, что, как и в любой задаче анализа данных, чем больше у нас данных, тем более статистически значимыми и релевантными будут наши выводы благодаря закону больших чисел. Важно сравнить средний результат задачи, когда Дейв участвовал, и когда он не участвовал. Это даст нам увеличение предельного вклада каждой коалиции после включения игрока i. Если

Если мы суммируем все увеличения (что нам придется сделать в конечном итоге из-за Σ в формуле), мы получим 50 + 50 + 50 + 50 = 200. Обратите внимание на одну очень важную вещь. заключается в том, что это еще не предельный вклад Дейва Чаппеля (также известный как значение Шепли), нам все еще нужно применить остальную часть формулы, мы увидим почему через секунду. Это число представляет собой общее предельное увеличение всех коалиций, в которые входил Дэйв Чаппель, это можно понимать как общее предельное увеличение во всей игре, «вызванное» включением Дейва, но даже если включение Дейва вызвало это, это еще не все можно отнести к нему самому (поэтому это еще не значение Шепли).

Мы собираемся оперировать этим числом, чтобы выяснить, какая его часть на самом деле соответствует конкретному вкладу Дэйва, в конце концов, Дэйв был не единственным игроком во всех коалициях SU{i}, поэтому часть этого увеличения следует отнести и к этим игрокам (например, потому что у них может быть хорошая синергия, работая с Дэйвом, и они становятся более продуктивными, работая с ним).

Второй элемент: деление на все возможные комбинации игроков

Получив предельное увеличение, мы умножим (или фактически разделим, потому что оно возведено до -1) на другую часть агрегации, это будут все возможные способы, которыми мы можем организовать наших игроков в n-1 (потому что мы исключая игрока i) по модулю S (остальные игроки).

Важно учитывать, что n на самом деле не только 3 игрока, упомянутых в описании примера, но также включает «нет игроков», поэтому n равно на самом деле 4. S будет набором всех игроков, кроме Дэйва Чаппеля, так что это будет Тейлор, Jk и Нет игрока, что означает 3. Давайте получим значение этой комбинации и применим его к каждому из предельных значений коалиции. Разделение на эту комбинацию позволит усреднить совокупность различных элементов, рассчитанных ранее, сократив общее предельное увеличение коалиций за счет включения Дэйва Шаппеля в среднее значение, среднее увеличение за счет включения Дэйва Шаппеля за раунд.

So C(n-1,|S|) = C(4–1, 3) = C(3,3) = 1.

Таким образом, у нас есть 50 + 50 + 50 + 50 = 200. / 1 ​​= 200. По сути, среднее увеличение за раунд для коалиций, включающих Дейва Чаппеля, с учетом всех вовлеченных игроков.

Третий и последний шаг: подсчитайте вклад отдельного игрока в увеличение, вызванное этой коалицией.

Сейчас наша формула выглядит так.

И эти 200 — это среднее увеличение, которое все игроки приносят за стол за раунд, когда рядом Дейв Чаппель. Теперь вопрос в том, каков конкретный вклад Дэйва Шаппеля в успех этой коалиции SU{i}? Ответ просто предполагает, что все они имели одинаковую вероятность принести пользу, мы делим на количество игроков, и это число будет представлять вклад каждого игрока в коалицию, в этом случае мы специально сосредоточились на анализе вклада Дейва, так что это является его значением Шепли.

Значение Шепли Дейва Чаппеля, средний вклад, который он вносил в каждом раунде, равнялось 50. Имеет смысл, если мы проверим, каждая разница значений между набором S и набором S + Chappelle была именно такой.

Если мы запустим тот же процесс и рассчитаем значения Шепли для Дж. К. и Тейлора, мы получим 550 для Тейлор Свифт и 250 для Дж. К. Роулинг. Обратите внимание, как это соответствует идеальному агрегированию, упомянутому ранее, 550 + 250 + 50 = 850, а это именно та разница, которую мы получим, если сравним S = ['Нет игроков'] с S = ['Дэйв', 'Тейлор', «JK»] в месяцах 3 и 8. 1150–300 = 850.

Другие источники, чтобы узнать, как рассчитываются значения Шепли

Если по какой-то причине этого объяснения того, как вычисляются значения Шепли, недостаточно, вот просто отличная статья от Марко Котры, которая просто превосходно объясняет формулу значения Шепли и то, как она применяется. Есть также этот потрясающий онлайн-класс от канала Selcuk Ozyurt на YouTube и это потрясающее вступительное видео от Data Science Garage.

Теперь, когда мы понимаем, что такое значения Шепли и каков процесс их расчета, давайте поговорим о том, как они используются и какую ценность они приносят отрасли сегодня. Узнайте в следующем посте на эту тему.

Первоначально опубликовано на https://mathforbusiness.com 16 мая 2023 г.