Модели НЛП, такие как GPT-3 или Gopher, — генерируют иногда оскорбительный контент. Это ограничивает их использование в реальной жизни. Red Teaming (RT) уменьшает вредные результаты модели НЛП без дорогостоящей человеческой аннотации.

Модели НЛП предназначены для взаимодействия с реальными людьми. GPT-3 и Gopher — это современные модели НЛП. Тем не менее, оба они производят иногда вредный контент.

В реальной жизни такие предвзятые модели рискованны. Злоумышленник может использовать эти системы НЛП для создания токсичной речи.

Вредоносный контент может варьироваться от токсичной речи или политических взглядов до распространения личной информации или стереотипов.

Существуют варианты снижения этих рисков. Сначала мы обсудим Человека в петлевом подходе. Затем мы обсудим подход Red Teaming.

Человек в курсе

Есть преимущества в получении обратной связи от людей с помощью моделей НЛП. Люди не любят полагаться на алгоритм черного ящика.

Тем не менее, понять модели НЛП сложно. Модель Gopher принимает 10,5 ТБ текста. Ни один человек не может просмотреть такие большие наборы данных. Мы также не в состоянии понять его 280 миллиардов параметров модели. Тем не менее, мы можем проверить, являются ли его результаты оскорбительными или нет.

Человеческая аннотация полезна. Мы можем использовать его для обнаружения вредоносных выходов. Мы можем нанять людей для проверки результатов модели НЛП. Если они обнаруживают вредоносный вывод, мы можем его исключить.

Однако нанимать людей, выполняющих эту работу, дорого. OpenAI попросил пользователей оставить отзыв о выходных данных НЛП. Помимо аннотаторов, OpenAI наняла людей для просмотра выходных данных модели. Таким образом, OpenAI автоматизировал часть человеческой аннотации.

Недостатком остается плохая масштабируемость этого подхода. Подход рассматривает только небольшое количество возможных выходных данных модели НЛП.

Тем не менее, определение вредного может меняться со временем. Таким образом, мы предпочитаем подход, который мы можем со временем модернизировать и масштабировать для больших наборов данных.

Алгоритм классификации имеет преимущества перед человеческой аннотацией. Мы можем передать классификатору неограниченное количество выходных данных НЛП. Мы сможем выбрать больший набор наступательных выходов. Это еще больше улучшит классификатор. Это увеличивает количество обнаруженных оскорбительных результатов.

Итак, мы определим новые категории оскорбительного контента. Рассмотрим подробно такую ​​систему.

Красная команда

Red Teaming (RT) — это противоборствующий подход к исправлению таких систем, как модели НЛП. Основная идея заключается в создании вредоносных выходных данных с помощью модели НЛП. Затем мы исключаем эти вредоносные выходные данные.

Давайте рассмотрим этот процесс шаг за шагом.

Начнем с создания классификатора RT для обнаружения вредоносных выходных данных. Существует несколько способов создания классификаторов. У нас может быть четко определенный набор данных, в котором категории уже разделены на оскорбительный и не оскорбительный контент. Но в идеале классификатор научится разделять эти категории самостоятельно.

Следующим шагом является создание выходных данных с использованием нашей модели НЛП. Например, мы генерируем текст, используя модель GPT-3 или Gopher.

Классификатор RT сортирует эти выходные данные как вредные и безопасные.

Если мы обнаружим оскорбительный вывод, мы можем исключить его двумя способами. Мы можем тренировать нашу модель НЛП без таких вредных примеров. Таким образом, модель НЛП не будет включать такие данные. В качестве альтернативы мы можем добавить такой оскорбительный контент в черный список модели. Таким образом, мы не будем использовать их при генерации выходных данных.

RT не предназначен для замены человеческого суждения. Тем не менее, этот подход является превентивным методом обнаружения вредоносного контента до обратной связи с человеком. Это особенно полезно, поскольку помогает затруднить неправильное использование моделей НЛП.

Последнее обновление март 2022 г.

Источник:

Перес и др. февраль 2022 г.

Оуян и др. Январь 2022 г.