Справедливость AI - Объяснение несопоставимого средства для снятия ударов

Введение в AI Fairness

Справедливость ИИ - важная тема для практиков машинного обучения. Мы должны осознавать, что взаимодействие с нашими моделями может иметь как положительные, так и отрицательные последствия. Хотя наша метрика успеха, как правило, является метрикой производительности (например, точности), те, кто взаимодействует с нашими моделями, могут учитывать и другие значения. Инструменты, использующие ИИ, создаются для: утверждения или отклонения ссуд; решить, следует ли рассматривать человека для собеседования; определить, подходит ли кто-то для лечения. Все эти результаты имеют серьезные последствия для человека. Вот почему справедливость так важна.

Чтобы обеспечить справедливость, мы должны проанализировать и устранить любую предвзятость, которая может присутствовать в наших данных обучения. Машинное обучение обнаруживает и обобщает закономерности в данных и, следовательно, может воспроизводить предвзятость. При масштабной реализации этих моделей это может привести к большому количеству необъективных решений, что может нанести ущерб большому количеству пользователей.

Представляем Bias

Сбор, обработка и маркировка данных - распространенные виды деятельности, при которых мы вносим предвзятость в наши данные.

Сбор данных

Предвзятость возникает из-за технологий или людей, используемых при сборе данных, например инструмент доступен только на определенном языке
Это могло быть следствием стратегии выборки, например собрано недостаточное представительство подгруппы населения

Обработка и маркировка

Отказ от данных, например подгруппа населения может чаще иметь пропущенные значения, и если отбросить эти примеры, это приведет к недопредставлению
Люди, обозначающие ярлык, или лица, принимающие решения, могут отдавать предпочтение привилегированной группе или укреплять стереотипы.

Несопоставимое воздействие

Disparate Impact - это показатель для оценки справедливости. Он сравнивает долю лиц, получивших положительный результат, для двух групп: непривилегированной группы и привилегированной группы.

Расчет представляет собой долю непривилегированной группы, получившей положительный результат, деленную на долю привилегированной группы, получившей положительный результат.

Промышленным стандартом является правило четырех пятых: если непривилегированная группа получает положительный результат менее 80% от их доли в привилегированной группе, это несопоставимое нарушение воздействия. Однако вы можете решить увеличить это для своего бизнеса.

Смягчение с помощью предварительной обработки

Один из подходов к снижению предвзятости, который часто предлагают некоторые, - просто удалить функцию, которую следует защитить. Например, если вас беспокоит, что модель является сексистской, и в вашем наборе данных указан пол, удалите его из функций, переданных в алгоритм машинного обучения. К сожалению, это редко решает проблему.

Возможности, с которыми столкнулась привилегированная группа, могли не быть представлены непривилегированной группе; члены каждой группы могут не иметь доступа к одним и тем же ресурсам, финансовым или иным. Это означает, что их обстоятельства и, следовательно, их возможности для модели машинного обучения различны и не обязательно сопоставимы. Это следствие систематической предвзятости.

Давайте возьмем игрушечный пример с непривилегированной группой Blue и привилегированной группой Orange. По не зависящим от них обстоятельствам, Синий имеет более низкие значения для интересующей нас функции, Feature.

Мы можем построить график распределения характеристик для каждой из двух групп и визуально увидеть это несоответствие.

Если бы вы выбирали точку данных случайным образом, вы могли бы использовать ее значение Feature, чтобы предсказать, из какой группы вы выбрали.

Например, если вы выберете точку данных со значением Feature 6, вы, скорее всего, предположите, что соответствующий человек принадлежит к оранжевой группе. И наоборот, для 5 можно предположить, что они принадлежат синему цвету.

Функция не обязательно может быть полезным атрибутом для прогнозирования ожидаемого результата. Однако, если метки для ваших данных тренировки отдают предпочтение группе «Оранжевый», функция будет иметь более высокий вес, поскольку ее можно использовать для вывода группировки.

Например, имя человека не обязательно влияет на его способность выполнять работу и, следовательно, не должно влиять на то, нанят он или нет. Однако, если рекрутер бессознательно предвзят, он может сделать вывод о поле или расе кандидата по имени и использовать это при принятии решения.

Средство для снятия несопоставимых ударов

Disparate Impact Remover - это метод предварительной обработки, который редактирует значения, которые будут использоваться в качестве функций, чтобы повысить справедливость между группами. Как видно на диаграмме выше, функция может дать хорошее представление о том, к какой группе может принадлежать точка данных. Disparate Impact Remover направлен на устранение этой способности различать членство в группах.

Этот метод был представлен в статье М. Фельдмана, С. А. Фридлера, Дж. Мёллера, К. Шайдеггера и С. Венкатасубраманяна Подтверждение и устранение разрозненных воздействий.

Алгоритм требует, чтобы пользователь указал repair_level, это указывает, насколько вы хотите, чтобы распределения групп перекрывались. Давайте рассмотрим влияние двух разных уровней ремонта: 1.0 и 0.8.

Ремонтное значение = 1,0

На этой диаграмме показаны восстановленные значения для Feature для непривилегированной группы Blue и привилегированной группы Orange после использования DisparateImpactRemover с уровнем исправления 1.0.

Вы больше не можете выбрать точку и сделать вывод, к какой группе она принадлежит. Это гарантирует, что модель машинного обучения не обнаружит групповой предвзятости.

Ремонтное значение = 0,8

Распределения не полностью перекрываются, но вам все равно будет сложно различить членство, что усложняет задачу для модели.

Рейтинг в группе

Когда функции показывают несоответствие между двумя группами, мы предполагаем, что им были представлены разные возможности и опыт. Однако внутри группы мы предполагаем, что их опыт схож. Следовательно, мы хотим, чтобы рейтинг человека в своей группе сохранялся после ремонта. Disparate Impact Remover сохраняет ранжирование внутри групп; если индивидуум имеет наивысший балл в группе синих, он все равно будет иметь наивысший балл среди синих после ремонта.

Построение моделей машинного обучения

После внедрения Disparate Impact Remover модель машинного обучения может быть построена с использованием восстановленных данных. Метрика Disparate Impact будет проверять, является ли модель объективной (или находится ли она в пределах допустимого порога).

Снижение смещения может привести к снижению метрики производительности (например, точности), но это не обязательно означает, что окончательная модель будет неточной.

Это вызов для практиков ИИ: когда вы знаете, что у вас есть предвзятые данные, вы понимаете, что основная истина, на которой вы строите модель, не обязательно отражает реальность или ценности, которые вы хотите отстаивать.

Пример записной книжки

В рамках моего исследования DisparateImpactRemover я создал пример записной книжки, используя набор данных игрушек. Он демонстрирует следующее:

Расчет несопоставимого воздействия (на Python и с AIF360)
Построение простой модели логистической регрессии
Создание BinaryLabelDataset
Реализация DisparateImpactRemover с двумя разными уровнями ремонта
Подтверждение сохранения рейтинга внутри группы

Это доступно на GitHub здесь. Библиотека, которую мы используем для реализации этого алгоритма, называется AI Fairness 360.

Заключительное замечание

Концепция справедливости невероятно детализирована, и нет идеального алгоритмического подхода к уменьшению предвзятости. Однако, учитывая ценности наших пользователей и применяя эти методы, мы делаем шаг в правильном направлении к более справедливому миру.