Часть 2 из N документа «ML нужна FAT!» серия, посвященная прояснению вопросов F[airness]-A[countability]-T[transparency] в M[achine] L[earning].

На этой неделе мы уточним нашу таксономию:

  1. Наконец-то разберемся с концепцией матриц путаницы.
  2. Определение нескольких ключевых показателей для оценки «точности» классификатора, потому что точность не может — или не должна — всегда быть целью!
  3. Изучение некоторых различных определений справедливости .
  4. Обсуждение того, как решить, какие критерии справедливости выбрать в зависимости от контекста [общественной] проблемы, для решения которой был создан ваш классификатор.

Существует несколько научных статей [ссылки указаны в сносках], в которых оцениваются два важных и социально значимых применения изученных предикторов: инструмент прогнозирования рецидивизма COMPAS (RPI) и кредитный скоринг FICO.

Это не так запутанно, как кажется!

*Матрица путаницы: таблица, которая часто используется для описания производительности модели классификации (или «классификатора») на наборе тестовых данных, для которых истинные значения известен.

Матрица путаницы помогает нам оценить классификатор, разбивая каждый экземпляр классификации на один из четырех типов:

  • Истинно положительный — означает, что классификатор дал правильную положительную классификацию.
  • Истинно отрицательный результат — правильная отрицательная классификация.
  • Ложноположительный –ложная классификация как положительный результат, когда на самом деле известно, что он отрицательный.
  • Ложноотрицательный —ложная классификация как отрицательный, когда на самом деле известно, что он положительный.

Однако, чтобы создать матрицу путаницы, вам нужны данные о результатах ваших прогнозов, чтобы вы могли определить, какие из них были Истинно положительными и т. д. – эти данные не всегда легко получить. поскольку учреждения, использующие предикторы, не всегда могут иметь причину для отслеживания каждого результата. Например, у полицейского управления нет причин отслеживать всю свою базу данных преступников, чтобы отслеживать количество рецидивов, поскольку их интересует только каждый случай ареста.

Вместо этого данные об исходах часто приходится собирать воедино путем перекрестных ссылок на соответствующие данные с рассматриваемыми баллами. В случае COMPAS RPI исходные баллы были собраны ProPublica посредством запроса публичных записей на анкеты COMPAS, заполненные людьми, которые были отправлены в тюрьму в округе Броуард, Флорида; затем эти записи были сопоставлены с записями об арестах за последующие два года, чтобы определить людей, которые действительно совершили рецидив. В случае оценки FICO любой дефолт в течение двух лет после получения оценки считается положительным случаем невыполнения кем-либо обязательств по кредиту. (Однако мне неясно, как были получены данные о результатах оценки FICO.)

Оценка вашего классификатора

… Что матрица путаницы говорит нам о классификаторе?!

Мы часто слышим, как термин «точность» разбрасывается, как будто это общепринятое значение — «точность» утверждений в новостях, «историческая точность» в классе, «точность измерений» в научных лабораториях — но в каждом контексте есть конкретное определение.

В мире науки о данных, особенно там, где мы заинтересованы в оценке того, принял ли классификатор правильное решение или классификацию, мы определяем «Точность» как долю правильных [положительных и отрицательных] классификаций. ко всем сделанным предсказаниям.

Точность = (TP+TN) / (TP+TN+FN+FP)

= (100+50) / 165 = 0.91

Мы видим, что точность примера классификатора составляет 91% — отлично, не так ли?

Что ж, оказывается, мы можем использовать другие относительные пропорции четырех членов в матрице для разработки нескольких метрик, которые дают нам еще больше информации о производительности классификатора. Давайте определим некоторые из них ниже:

Коэффициент ошибочной классификации говорит нам, как часто классификатор делает неверный прогноз. (Помните, Ложные срабатывания и Ложноотрицательные срабатывания — это случаи неверных прогнозов!) Хотя это довольно тривиальное определение, важно помнить, что мы можем и должны подумайте о том, как частонаш классификатор ошибается.

Коэффициент ошибочной классификации=(FP+FN) / (TP+TN+FN+FP)

= (10+5) / 165 = 0,09 = (1 — Точность)

Однако в дополнение к измерению того, насколько часто наш классификатор ошибается, не так ли важно задать вопрос: наскольконеправильный наш классификатор?

Когда такие алгоритмы, как COMPAS, меняют жизнь людей, жизненно важно исследовать, как классификатор делает правильные и неправильные прогнозы как для положительных, так и для отрицательных групп; мы делаем это, определяя наши пропорции относительно сумм столбцов и строк, а не общей совокупности.

Первым из этих более точных показателей, основанных на фактических результатах, является Истинно положительный показатель (также известный как TPR или "Чувствительность" или "Отзыв"); > TPR говорит нам, как часто классификатор правильно классифицирует положительный экземпляр. В случае COMPAS TPR сообщает нам долю рецидивистов, которые были правильно отмечены алгоритмом.

Коэффициент ложноотрицательных результатов (False Negative Rate, FNR) говорит нам об обратном: доля рецидивистов с неправильным ярлыком по отношению ко всему пулу рецидивистов.

TPR=TP / (FN+TP) = 100/105 = 0,95 → FNR = 1 — TPR = 0,05

Точно так же мы можем определить коэффициент ложных срабатываний (FPR) и коэффициент истинных отрицаний (TNR) соответственно следующим образом:

FPR = FP / (TN+FP) = 10 / 60 = 0,17

TNR = TN / (TN+FP) = 50 / 60 = 0,83 = (1 — FPR)

Мы также можем определить метрики по отношению к прогнозируемым группам (а не по отношению к фактическим результатам). Значение положительного предиктора (или PPV) и Значение отрицательного предиктора (или NPV) определяются следующим образом:

PPV = TP / (TP+FP) = 100/110 = 0,91

NPV = TN / (TN+FN) = 50 / 55 = 0,91

(Примечание: в приведенном выше примере PPV и NPV равны, но это просто совпадение на основе набора данных; они не связаны по сути.)

Справедливость: учебник

Есть много способов определить справедливость; однако справедливость в контексте COMPAS RPI сильно отличается от контекста кредитного скоринга FICO! Выбирая, каким критериям справедливости должен удовлетворять классификатор, мы должныучитывать издержки неправильных классификаций (т. е. ложноположительных и ложноотрицательных результатов) для отдельного человека и общества в целом; сопоставляя затраты на отрицательную классификацию с преимуществами положительной классификации — особенно когда показатели каждой из них различаются в защищенных группах — мы можем явно рассуждать о том, какие критерии справедливости лучше всего подходят для данного контекста.

Статистический паритет. Также известен как «демографический паритет», когда «доля лиц, отнесенных к группе высокого риска, одинакова для каждой группы» ¹.

Статистическая паритетность часто не является правильным критерием справедливости; в случае КОМПАСа это определенно неправильный выбор! Поскольку записи об арестах показывают, что уровень распространенности рецидивизма различается между европеоидной и афроамериканской популяцией, мы не можем установить статистическое равенство, не обязательно отнеся некоторых нерецидивистов к группе высокого риска. Точно так же с оценками FICO, если разные группы неплатежей по разным ставкам, было бы несправедливо и неэффективно стремиться к статистическому паритету, поскольку некоторые лица, не нарушившие обязательства, были бы отмечены как лица с высоким риском неплатежа по кредиту.

Из-за того, что показатели распространенности почти всегда различаются по некоторым группам, статистическая паритетность редко упоминается при обсуждении критериев справедливости. Чулдехова¹ предполагает, что есть еще три применимых критерия для ИРЦ COMPAS, каждый из которых дает различное понимание справедливости для групп и составляющих их лиц: Калибровка, Прогнозируемая четность и Баланс частоты ошибок.

Однако есть одна загвоздка: если показатели распространенности (рецидивов или невыполнения обязательств) между группами различаются (что часто бывает), баланс частоты ошибок не может быть удовлетворен, в то время как либо Калибровкаили прогнозирующая четность также выполняются ¹. Давайте определим эти критерии и исследуем актуальность приведенного выше разоблачения с точки зрения COMPAS и рецидивизма.

COMPAS, калибровка, четность ошибок и справедливость

Калибровка: для каждой децильной «корзины» вероятность фактического повторения одинакова для разных групп (например, расы или пола). Это равносильно утверждению, что PPV для каждого дециля одинаковы для разных групп.

Давайте визуализируем калибровку в COMPAS: пусть каждый полукруг на рис. 2 представляют собой общее население каждой группы, слева и справа черные и белые, соответственно, для некоторого дециля; заштрихованные области над каждой группой представляют части, которые, по прогнозам, будут иметь высокий риск рецидивизма в каждой группе. Каждый полукруг также разделен в соответствии с фактическими показателями распространенности рецидивизма в этой группе для выбранного порога (обратите внимание, что в чернокожей группе распространенность выше).

Мы видим, что соотношение TP:FP (все, что под штриховкой) примерно одинаково для каждой группы; таким образом, этот дециль откалиброван и, таким образом, справедлив в том смысле, что он в равной степени «правилен» в своих предсказаниях.

Однако, если мы посмотрим повнимательнее, мы заметим несколько вещей, в том числе следующее: а) пропорции каждой группы, охватываемой классификатором, сильно различаются, что TN_B выглядит намного больше, чем TN_W, и что FP_B выглядит намного больше чем FP_W. Это означает, что больше чернокожих правонарушителей, которые не совершают рецидивов, неправильно классифицируются как преступники с высокой степенью риска, чем белые правонарушители, и больше белых правонарушителей, которые совершают рецидивы, неправильно относится к категории низкого риска.

Чтоэто дает?! Это возвращает нас к несовместимости между балансом частоты ошибок и калибровкой, как упоминалось ранее.

Баланс частоты ошибок: для заданного порога частота неправильных прогнозов рецидивизма (т. е. FPR и FNR) одинакова для разных групп. .

Выше мы видели, что, поскольку показатели распространенности различаются в разных группах, если мы настаиваем на Калибровке, мы обязательно запретим Баланс частоты ошибок — и большинство ученых рассматривают это как проблема.

Контекст COMPAS таков, что стоимость ложноположительных ложных предсказаний невероятно разрушительна; таким образом, внося поправку на калибровку, мы обязательно создаем несопоставимые расхождения в FPR и FNR по расовым линиям. Это неизбежно приводит к тому, что большая часть издержек, связанных с ложными ложными предсказаниями, ложится на плечи чернокожих правонарушителей, в то время как белые рецидивисты чаще
неправильно классифицируются. с низким уровнем риска.

Чулдехова предлагает наложить ограничения равенства между группами таким образом, что не более двух из следующих показателей могут быть одинаковыми для всех группи по крайней мере один из три будут отличаться: PPV, FNR и FPR. В свете применения и стоимости COMPAS может быть предпочтительнее оптимизировать равные шансы (т. е. равные FPR и FNR для всех расовых групп), потому что оптимизация любой комбинации PPV и FPR/FNR обязательно приведет к несоизмеримому воздействию с точки зрения FNR / FPR, соответственно (где либо у белых рецидивистов будет больше шансов получить более низкий балл, чем у черных рецидивистов, либо у черных нерецидивистов будет больше шансов попасть в группу высокого риска, чем у белых нерецидивистов, или и то, и другое) .

Другим критерием, который возникает, является прогнозируемая четность, близкий родственник калибровки в том смысле, что нам требуется некоторая функция эквивалентности PPV для разных групп.

Прогнозирующий паритет: для каждого порога, выше которого все лица, чьи баллы равны или выше порога, помечаются как «высокий риск» рецидивизма, вероятность рецидива одинакова для высокого риска. -риск правонарушителей в разных группах.

Поскольку калибровка независима, в то время как прогнозирующая четность зависит от распределения людей по каждому децилю оценки (см. рис. 4), можно хорошо калиброванный предиктор «не удовлетворяет прогностической четности при заданном пороге» ¹ — это происходит на рис. 3 для
порогов S ≤ 3.

Это тоже имеет смысл! Хорошо откалиброванный предиктор будет положительно классифицировать людей с более высокими баллами чаще, чем тех, у кого их меньше (т. е. корзины с более высокими баллами имеют более высокие PPV); с таким распределением, как показано ниже, где больше чернокожих включено в более высокие корзины, тогда доля рецидивистов от общего числа людей, помеченных как люди с высоким риском выше определенного порога, обязательно будет выше для чернокожего населения.

В конечном счете, если мы сможем начать количественную оценку и оценку стоимости несоизмеримого воздействия ложноположительных и ложноотрицательных результатов на группы, как Hardt et al. начали делать, законодателям и судебным чиновникам станет ясно, почему мы также должны стремиться к ограничению разрозненных показателей ошибочных предсказаний, а не просто стремиться к тому, чтобы пропорции правильных оценок высокого риска к общему количеству оценок высокого риска были одинаковыми для всех групп.

В контексте понятие преступности в США исторически переплетается с расизмом и экономическим неравенством; вместо того, чтобы использовать ОД в качестве инструмента, с помощью которого потенциальные правонарушители еще глубже застревают в парализующих карательных ограничениях судебной и пенитенциарной систем, мы должны использовать эти инструменты в качестве средства, с помощью которого мы можем начать и продолжать оценивать, как системные социально-экономические проблемы распространяются во времени и пространстве, и мы надеемся начать разработку инструментов для устранения этих источников неравенства.

Баллы FICO, равные шансы, возможности и справедливость

Хардт и др. предложить другой набор критериев, которые могут быть немного более простыми и применимыми к справедливости при оценке кредитоспособности FICO: равные шансы и равные возможности.

Равные шансы: Обеспечьте равные TPR и FPR для разных групп, тем самым гарантируя, что коэффициенты справедливо более выгодных результатов и несправедливо невыгодных результатов равны между собой. группы (при условии, что наша проблема устроена таким образом, что истинно позитивная классификация высокого балла FICO является преимуществом, что так и есть).

Равные возможности. Обеспечьте равное значение TPR для всех групп, тем самым обеспечив равные возможности для получения положительного результата независимо от членства в группе.

Их результаты при тестировании и оптимизации нескольких классификаторов либо для прибыли, либо для расовой слепоты (которая в конечном итоге вырождается в максимальную прибыль, потому что классификатор, не учитывающий расы, не является дискриминационным из-за прокси-переменных и скрытых кодировок), статистического паритета , или равные шансы/возможности обнаруживают, что равные возможности всего на 7% менее прибыльны, чем максимальная прибыль, но равные шансы на 12% менее прибыльны, чем равные возможности. Равные шансы менее выгодны, поскольку требуют, чтобы все группы подчинялись одинаковым [наихудшим случаям] FPR, а не только равным TPR; Однако равные возможности позволяют алгоритму FICO «использовать свою лучшую точность среди белых» и классифицировать белых по умолчанию как истинно отрицательные, а не ложноположительные.

В конечном счете, поскольку мы хотели бы гарантировать, что наиболее квалифицированные кандидаты получат лучшие баллы по группам с одинаковой скоростью — и поскольку стоимость любого увеличения количества ложных срабатываний в группе меньшинства [черных] несет компания, производящая прибыль(а не отдельное лицо), поощряя таким образом компанию инвестировать в лучшие, более справедливые и более точные модели, если она хочет получать больше дохода — имеет смысл наложить критерии равных возможностей на оценку FICO.

Вывод

  • Если вы разрабатываете классификатор, который можно использовать для помощи людям, а показатели распространенности различаются между группами, и вы можете гарантировать, что стоимость максимизации его полезности будет способствовать созданию лучших моделей, рассмотрите возможность применения критериев равных возможностей или равных шансов. если стоимость требования FPR для наихудшего случая не слишком велика и не слишком неэтична.
  • Если вы разрабатываете классификатор, который может негативно повлиять на жизнь людей в значительно разной степени, показатели распространенности различаются между группами, и если контекст может соответствовать положениям о несопоставимом воздействии закона США о дискриминации, обратите внимание на критерии равных шансов или паритета ошибок, чтобы изначально стремиться к более справедливому подходу к неправильным классификациям, тем самым поощряя поиск способов улучшения классификатора и, в конечном итоге, устранения лежащего в основе социального неравенства.
  • Если показатели распространенности различаются между группами, а стоимость ложноположительных или ложноотрицательных результатов невелика или этически несправедлива, обратите внимание на Predicitve Parity and Calibration.
  • В том и только в том случае, если коэффициенты распространенности одинаковы между группами, вы можете стремиться к статистическому паритету, поскольку идеальный классификатор будет иметь одинаковый уровень положительных классификаций между группами, если он должен быть одинаково корректным для обеих групп.

использованная литература

  1. Чулдечева, А. (2017). Справедливое предсказание с несоизмеримым влиянием: исследование предвзятости в инструментах предсказания рецидивизма. Большие данные, 5(2), 153–163.
  2. Хардт, Мориц, Эрик Прайс и Нати Сребро. «Равенство возможностей в контролируемом обучении». Достижения в области нейронных систем обработки информации. 2016.

Все определения + примеры, отмеченные звездочкой, были взяты непосредственно из этого удивительного объяснения матрицы путаницы на dataschool.io!