Борьба с гендерной предвзятостью во встраиваниях Word

Краткое изложение технического документа, пытающегося смягчить гендерную предвзятость при встраивании слов.

Вложения слов — это хлеб с маслом для обработки естественного языка. Но свободны ли они от врожденной предвзятости? Представьте, что вы гуглите «крутые футболки для программистов», а Google отвечает только футболками с мужскими формами. Когда BERT, демонстрирующий признаки гендерной предвзятости, был включен в поиск Google, не нужно воображать. Сохранение «интеллектуальности», которая определяет ИИ, по своей сути без предвзятости, крайне важно, поскольку мы постоянно наблюдаем рост использования этих систем в нашей повседневной жизни.

Это то же самое отношение, которое заставило компьютерное сообщество не поверить, когда Word2Vec впервые обнародовал свое достижение. Концепция векторного представления слов стала одной из основ НЛП. Однако именно эти вложения слов могут впитывать даже предубеждения человеческого мира.

(Не)известные результаты, такие как приведенные выше, действительно указывают на имплицитную природу проблемы. В действительности, это корпуса, которые представляют собой не что иное, как человеческую литературу, на которой были обучены эти гигантские модели. пристрастный.

Болукбаси и др.. в «Мужчина для программиста, как женщина для домохозяйки? Устранение предвзятости встраивания слов» проливает дополнительный свет на некоторый анализ этой гендерной предвзятости и на то, как мы можем попытаться ее преодолеть. К счастью, эти модели содержат достаточно информации, чтобы даже в определенной степени смягчить эту предвзятость.

Проблема

По сути, корпус, на котором обучается модель, содержит некоторые гендерно-нейтральные слова, такие как «софтбол», «секретарь» и «программист». . Есть также некоторые гендерные термины, такие как «бизнесвумен», «отец» и «мать». Отмечено, что гендерно-нейтральные термины приобретают стереотипность и предвзятость из-за контекста, в котором они присутствуют в корпусе.

В качестве примера предположим, что поисковым запросом является «аспирант CMU по информатике» для кандидата наук по информатике. студент Университета Карнеги-Меллона. Теперь каталог предлагает 127 почти идентичных веб-страниц для студентов — эти страницы отличаются только именами студентов ... Однако встраивание слов также ранжирует термины, связанные с информатикой, ближе к мужским именам, чем к женским именам ... Следствием этого является то, что, между двумя страницами, которые отличаются только именами Мэри и Джон, встраивание слова повлияет на поисковую систему, чтобы ранжировать веб-страницу Джона выше, чем Мэри.

Цель состоит в том, чтобы «устранить предвзятость» этих гендерно-нейтральных векторов, сохранив при этом идентичные семантические отношения между вложениями.

Прямое и косвенное смещение

Само смещение бывает 2-х видов, прямое и косвенное.

Прямая предвзятость может быть классифицирована по таким терминам, как "футбол", который по своей сути ближе к мужчинам, а "секретарь" ближе к женщинам. Косвенная предвзятость связана с нюансами корреляции в корпусе, что приводит к тому, что «бухгалтер» ближе к «софтбол», чем к «футбол», из-за их более крупных женских ассоциаций.

Гендерно-нейтральные термины, как показано выше, должны быть равноудалены от пар he-she, а гендерно-специфические термины должны продолжать передавать встроенную в них гендерную информацию.

Подход

Идентификация гендерного подпространства

Во-первых, было зафиксировано подпространство этого встраивания пола. Это делается путем разности некоторых заранее известных наборов, определяющих само понятие гендера.

SVD был выполнен на подмножестве таких пар противоположного пола, чтобы окончательно получить направление или подпространство этого смещения. Это сглаживание делается для того, чтобы свести на нет эффект различных значений некоторых терминов, таких как «человек».

Жесткое устранение смещения: нейтрализация и выравнивание

Векторы, лежащие в этом подпространстве (гендерно-нейтральные термины), «нейтрализуются» таким образом, что они остаются равноудаленными от пар равенства, таких как «он-она». Технически происходит то, что проекция встраивания на направление смещения вычитается из вектора.

Вложения за пределами этого направления (специфические для пола термины) «выравниваются» или усредняются, чтобы иметь одинаковую длину вектора. Это делается для того, чтобы нейтральные члены были равноудалены от ВСЕХ пар равенства. Например, термин доктор должен быть равноудален от слов парень-девушка и мужчина-женщина.

Мягкое устранение предвзятости

Возможно, что иногда термины, относящиеся к полу, содержат больше значений, которые необходимо уловить, например: утвердить норму. В этом случае мы можем только «смягчить» влияние гендерной предвзятости на встраивания на основе параметра, скажем, λ.

Здесь мы не полностью нейтрализуем вложения, а делаем это только в пределах λ. Если λ= 0, то это практически то же самое, что и жесткое устранение смещения.

Результаты и заключение

Результаты, показанные выше, соответствуют цели задачи, успешно устраняя предвзятость из вложений без ущерба для производительности. Существуют и другие подходы к описанным проблемам, например, очистка самого корпуса.

По сути, устранение предвзятости встраивания слов может помочь удовлетворить постоянно растущий спрос на свободный от предубеждений мир. По крайней мере, машинное обучение не должно использоваться для непреднамеренного усиления этих предубеждений, поскольку, как мы видели, это может произойти естественным образом.

Используя код, опубликованный на GitHub авторами статьи, я жестко отклонил векторы новостей Google, которые использовал ранее, и получил следующие результаты.

Мы видим, как этот подход уменьшил очевидную предвзятость, используя нейтрализацию и выравнивание.

Некоторые утверждают, что гендерные предубеждения при встраивании собирают полезную статистику. Однако существует огромная вероятность того, что алгоритмы машинного обучения могут усиливать гендерные стереотипы и дискриминацию, и лучше всего работать с системами, свободными от предвзятости.

Поскольку пол является лишь одним из предубеждений, демонстрируемых встраиванием слов, выявление расовых или этнических предубеждений может последовать этому примеру, что является огромным шагом на пути к действительно #EthicalAI.

использованная литература

Т. Болукбаси, К. Чанг, Дж. Зоу, В. Салиграма и А. Калай. Мужчина для программиста то же, что женщина для домохозяйки? Устранение предвзятости встраивания слов. 2016.