По мере того, как инструменты на основе искусственного интеллекта (ИИ), используемые в автоматизированных системах найма, получили широкое распространение, также существуют риски дискриминации, записанные в их коды и впечатанные в их наборы данных. То, какие алгоритмы машинного обучения (ML) используют для создания того, что изучают системы, зависит от примеров, которым они подвергались.

[Некоторые] некоторые технологии найма пытаются предсказать, кто будет хорошим сотрудником, сравнивая соискателей с текущими успешными сотрудниками. Поскольку люди с инвалидностью исторически были исключены из многих рабочих мест и могут не входить в состав нынешнего персонала работодателя, это может привести к дискриминации. Алгоритмы машинного обучения, используемые для создания автоматизированных систем найма, рассматривают случаи, в которых предвзятость или предубеждение сыграли определенную роль, как действительные примеры, из которых можно узнать правило принятия решений, это правило просто воспроизводит предубеждение, вызванное данными обучения, и применяет его ко всем кандидатам на работу. .

Алгоритмы, искусственный интеллект и дискриминация по признаку инвалидности при приеме на работу, Министерство юстиции США (12 мая 2022 г.)

Если ML делает выводы из предвзятой выборки населения, на которую, как ожидается, будут распространяться выводы, любые решения, основанные на этих выводах, систематически ставят в невыгодное положение тех, кто недостаточно или чрезмерно представлен в наборе данных. Таким образом, если данные, используемые для обучения алгоритмов, используемых в автоматизированных системах найма, более репрезентативны для людей без инвалидности, прогнозы модели также могут быть систематически хуже для людей с инвалидностью.

Обучающие данные являются эквивалентом IQ-тестов для алгоритмов. Точно так же, как тесты IQ вызывают споры, потому что неясно, что именно они измеряют в отношении человеческого интеллекта, так и никогда не было полностью сформулировано, какие обучающие данные должны измерять алгоритмы. [1]

Обучающие данные часто отражают модели неравенства, существующие в мире, и тем не менее управляемая данными природа систем искусственного интеллекта часто служит для того, чтобы скрыть ограничения технологии в рамках всепроникающей риторики объективности. [2] Характер обучающих данных имеет значимые последствия для уроков, которые извлекает интеллектуальный анализ данных, потому что дискриминационные обучающие данные приводят к дискриминационным моделям.

В исследовании 2018 года исследователи Google обнаружили, что 21% комментариев, содержащих упоминания о психическом или психическом заболевании, были помечены их моделью, основанной на обработке естественного языка (НЛП), как токсичные, что привело исследователей к выводу, что эти ассоциации в значительной степени формируют способ. термины нетрудоспособности представлены» в моделях НЛП. [3]

Предвзятость в ИИ, используемом для создания автоматизированных систем найма, проявляется на протяжении всего жизненного цикла систем. Как указано в документе Противостояние предвзятости: структура BSA для укрепления доверия к ИИ, опубликованном Business Software Alliance, ведущей торговой группой индустрии программного обеспечения, [F]законы в области проектирования, разработки, и/или развертывание систем искусственного интеллекта могут увековечить (или даже усугубить) существующие социальные предубеждения. Далее в структуре говорится:

Поскольку искусственный интеллект интегрирован в бизнес-процессы, которые могут иметь последствия для жизни людей, существует риск того, что «предвзятые» системы будут систематически ставить в невыгодное положение членов исторически маргинализированных сообществ. Предвзятость ИИ может проявляться в системах, которые работают менее точно или менее благосклонно относятся к людям на основе чувствительной характеристики, включая, помимо прочего, расу, гендерную идентичность, сексуальную ориентацию, возраст, религию или инвалидность (курсив добавлен).

Структура BSA перечисляет три способа, которыми данные обучения могут внести предвзятость в автоматизированные системы найма: предвзятость выборки, предвзятость маркировки и предвзятость развертывания.

Смещение выборки. Если данные, используемые для обучения системы, искажают представление о населении, в котором она будет использоваться, существует риск того, что система будет работать менее эффективно в сообществах, которые могли быть недостаточно представлены в обучающих данных (например, лица с ограниченными возможностями). Это обычно происходит, когда недостаточное количество репрезентативных данных недоступно или когда данные отбираются или собираются таким образом, что определенные группы населения систематически пере- или недопредставлены.·

Смещение ярлыков. Многие системы ИИ требуют, чтобы обучающие данные были «помечены», чтобы алгоритм обучения мог идентифицировать закономерности и корреляции, которые можно использовать для классификации будущих входных данных. Процесс маркировки обучающего набора данных включает в себя субъективные решения разработчиков системы, которые могут быть вектором для внесения человеческих предубеждений в систему ИИ.

Предвзятость развертывания. Смещение развертывания возникает, если данные, используемые для обучения или оценки системы ИИ, заметно отличаются от совокупности, с которой система сталкивается при развертывании. Предвзятость развертывания может возникнуть, когда модель не может надежно обобщать данные, на которых она была обучена, либо потому, что модель была переобучена во время обучения (т. чтобы сделать точные обобщения о других входных данных) или из-за дрейфа концепции (т. Е. Снижение производительности было вызвано сдвигом в отношениях между целевой переменной и обучающими данными).

[1] Разван Амиронези, Эмили Дентон, Алекс Ханна, Хилари Николь, Эндрю Смарт, Применение интерпретационных методов в машинном обучении, в Фальшивом ИИ, под редакцией Фредерике Калтейнер (Meatspace Press 2021) 76– 87, 79.

[2] Id at 78.

[3] Хатчинсон, Бен и др. «Непреднамеренные предубеждения в отношении машинного обучения как социальные барьеры для людей с ограниченными возможностями», ACM SIGACCESS Accessibility and Computing, 1 марта 2020 г.