Стихи, цветы и драконы на EMNLP 2022

Конференция EMNLP — это широко известное событие в области обработки естественного языка, на котором исследователи собираются вместе, чтобы поделиться и обсудить последние открытия в этой области. В этом году конференция проходила с 7 по 11 декабря в Абу-Даби. Из множества докладов, представленных на конференции, я хотел выделить три, которые особенно понравились мне. Эти статьи могут быть не обязательно самыми практичными или известными, но я считаю, что о них стоит упомянуть. Два доклада были представлены в виде постеров, а третий представлял собой полноценный доклад. Мой любимый из трех — PoeLM.

PoeLM: языковая модель, управляемая размером и рифмой, для создания поэзии без присмотра

Документ: Ormazabal et al., 2022
Организации: Университет Страны Басков, Meta AI, Копенгагенский университет.
Код: https://github.com/aitorormazabal/poetry_generation, правда там только создание датасета.
Основная идея: создание формальных стихов на испанском и баскском языках с помощью контрольных кодов с языковой моделью, обученной на непоэтических текстах.

Мотивация

Могут ли современные языковые модели писать стихи? Конечно, могут. Вы можете быстро протестировать его с помощью ChatGPT. Проблемы возникают при попытке наложить определенные ограничения, такие как фиксированное количество слогов или конкретная рифма или ритмическая схема.

Как мы можем заставить языковые модели генерировать формальные стихотворные поэмы? Один из способов — модифицировать алгоритм декодирования, который усложняется современными языковыми моделями, поскольку они работают с подсловами, которые не являются ни словами, ни слогами. В этой статье описывается другой способ сделать это. Для этого вам понадобится обычный корпус текстов и система, способная анализировать слоги и рифмы.

Обучение языковой модели

Вот что вам нужно сделать:

Получите обычный непоэтический корпус и разбейте его на фразы.
Сгруппируйте текст в блоки по N фраз, где N выбирается случайным образом.
Дополните группы структурными дескрипторами (= префиксами), чтобы включить количество слогов и окончаний рифм для каждой фразы.
Обучите классическую языковую модель преобразователя с дескрипторами структуры, рассматриваемыми как обычные токены.

Дескриптор структуры на рисунке выше:

<PREF>
<LEN:11><END:echo>
<LEN:11><END:ura>
<LEN:11><END:ura>
<LEN:11><END:echo>
</PREF>

Этот дескриптор означает четыре строки; в каждом по 11 слогов; первая и последняя строки заканчиваются на «эхо», а строки 2 и 3 заканчиваются на «ура». Модель научится использовать эти коды, ведь генерировать тексты с такими подсказками проще, чем без них.

Поколение

Выберите схему рифмовки и количество слогов.
Создайте дескриптор структуры. Авторы делают это по заданной схеме, отбирая каждый рифмующийся звук независимо от пяти наиболее часто встречающихся рифмованных звуков учебного корпуса.
Укажите первую строчку стихотворения (необязательно)
Сгенерируйте множество кандидатов в стихотворения, используя обученную языковую модель.
Отфильтруйте все кандидаты, которые не подходят по схеме рифмовки или содержат неправильное количество слогов.
Переоцените оставшихся кандидатов по общей беглости, используя обученную языковую модель без дескриптора структуры, и выведите кандидата с наивысшим баллом.

Насколько хорошо это работает?

Уровень фильтрации с шага 5 составляет 30,9% для испанских стихов и 23,4% для баскских стихов. 37,3% людей предпочитают автоматические стихи написанным известными поэтами, сравнивая стихи с одинаковой первой строкой.

Можете ли вы сделать то же самое на своем языке?

Для использования описанного алгоритма необходим надежный процесс определения слогов и рифм. Хотя такие программы могут уже существовать для некоторых языков, другие языки могут иметь более сложные функции, такие как ритм, которые необходимо учитывать. В этих случаях дескрипторы структуры могут быть изменены для включения дополнительных компонентов.

Почему это важно для меня?

Шесть лет назад мы с Даниилом Анастасьевым разработали систему генерации русских стихов рупо. Это была языковая модель на основе LSTM с некоторыми уникальными особенностями: она предсказывала тексты справа налево, отдельно используя нормальные формы слов и их грамматические особенности, и она была основана на акцепторах с конечным состоянием. С тех пор технологии обработки естественного языка значительно продвинулись вперед, что, вероятно, упростило создание подобной системы сегодня.

Нарисуй мне цветок: обработка и обоснование абстракции на естественном языке

Статья: Лахми и др., 2022 г.
Организации: Университет Бар-Илан, AI2
Код: https://github.com/OnlpLab/Hexagons, но базовых показателей пока нет, только сам набор данных.
Основная идея: создание эталона для обоснованных абстракций на естественном языке с рисованием шаблонов на основе инструкций на шестиугольной сетке.

Мотивация

Мы знаем, что большие языковые модели не могут правильно считать или выполнять неофициальные вычисления. Даже задача простого пространственного мышления является проблемой (цепочка мыслей, однако). Но как насчет абстракции? Когда вы приказываете своему гипотетическому ИИ-помощнику заказать три пиццы, одну барбекю, одну пепперони и одну маргариту, первые две большие, последнюю среднюю, в 17:00, он должен понимать вас. Речь идет не только об многоточии, но и об условиях, итерациях, функциональной декомпозиции, рекурсии и других механизмах.

Чтобы измерить степень, в которой модель может схватывать абстрактные понятия, мы можем обосновать ее в различных виртуальных мирах. В данном случае авторы использовали шестиугольную доску с плитками 10x18 и восемью цветами в качестве основы для заземления абстракций.

Набор данных

Набор данных для этого исследования был собран с помощью краудсорсинга. В то время как авторы предоставили начальные изображения, работники толпы также внесли свой вклад, нарисовав дополнительные узоры. Процесс аннотирования был разделен на два этапа: на первом этапе группа аннотаторов писала инструкции на основе изображений, а на втором этапе другая группа пыталась воссоздать изображения на основе инструкций. Любые несоответствия или разногласия решались путем ручной проверки. Результирующий набор данных содержит 175 уникальных изображений, 620 наборов инструкций и 4177 шагов инструкций.

Эксперименты

Тестировались два типа моделей: классификационная и поколенческая. DeBERTa использовался для классификации, чтобы предсказать состояние каждой плитки. Для генерации использовался T5 для создания набора действий. Модели были протестированы с различными настройками, которые различались с точки зрения количества доступной им истории и текущей информации о плате: без истории, с одним предыдущим шагом, полной историей, прогнозируемой доской и доской оракула. Результаты показывают, что модели работали значительно хуже, чем люди, и могли обрабатывать только самые основные абстракции, даже с доступом к доске оракула и полной истории.

Почему это важно?

Это отличное наглядное представление того, насколько сложной является эта проблема для моделей естественного языка. Этот тест позволяет быстро определить, каких механизмов абстракции не хватает в этих моделях. Я подозреваю, что модели, основанные на коде, справятся с этой задачей лучше, и заинтересован в проверке этой гипотезы.

Dungeons and Dragons как диалоговый вызов для искусственного интеллекта

Документ: Callison-Burch et al., 2022
Организации: Пенсильванский университет, Google Research.
Код: еще не выпущен, должен быть здесь
Основная идея: создание задачи для диалоговых систем на основе разговоров D&D, где задачи заключаются в том, чтобы сгенерировать следующий ход разговора в игре и предсказать состояние игры, учитывая историю диалогов.

Мотивация

Dungeons & Dragons — настольная ролевая игра в жанре фэнтези. Персонажи отправляются в приключения в фэнтезийном сеттинге. Мастер подземелий выступает в роли судьи и рассказчика игры, сохраняя обстановку, в которой происходят приключения, и играя роль жителей игрового мира, также называемых неигровыми персонажами (NPC). Персонажи образуют группу и взаимодействуют с обитателями местности и друг с другом. Вместе они решают дилеммы, участвуют в битвах, исследуют и собирают сокровища и знания. В процессе персонажи зарабатывают очки опыта, чтобы повышать уровни и становиться все более могущественными в течение серии отдельных игровых сессий. — Википедия

Многие наборы данных для обработки естественного языка являются узкоспециализированными и сосредоточены на конкретной задаче. Dungeons and Dragons (D&D) — это человеческая деятельность, требующая от всех участников высокого уровня понимания языка. Он включает в себя ряд навыков, таких как генерация текста, поиск в базе знаний, многосторонний диалог, постановка целей, рассуждение на основе здравого смысла, обнаружение намерений, отслеживание состояния и ответы на вопросы, что делает его идеальным испытательным стендом для оценки возможностей моделей НЛП.

Среди других применений ИИ для D&D — создание фотографий персонажей и, конечно же, знаменитая Подземелье ИИ.

Набор данных

Авторы извлекли данные Play-By-Post с веб-форума D&D Beyond, где люди играют, по очереди публикуя на форуме описания своих ходов. Это не единственный возможный источник сессий D&D. Например, в наборе данных CRD3 использовались стенограммы из шоу Критическая роль.

Эвристика на основе правил использовалась для извлечения информации о состоянии игры из текстов с использованием регулярных выражений и NER. Кроме того, классификатор CNN для текстов использовался в тех случаях, когда эвристика ничего не могла извлечь. Набор данных включает в себя не только тексты с символами, но и посты без символов.

Эксперименты

LaMDA, большая языковая модель Google, похожая на GPT-3, использовалась для решения двух задач: отслеживания состояния игры и генерации ответов. Авторы экспериментировали с различными вариантами тонкой настройки модели, в том числе с использованием состояний текущего или предыдущего хода в качестве управляющих признаков. Чтобы оценить производительность модели, шесть профессиональных оценщиков, заинтересованных в жанре фэнтези и предыдущем опыте работы с D&D, в том числе трое, которые служили мастерами подземелий, были наняты для ручной оценки.

Результаты оценки показывают, что адаптация предметной области полезна, но влияние элементов управления могло бы быть более очевидным. Однако эти функции позволяют модели выполнять определенные роли в игре, что может сделать ее ценной заменой мастера подземелий или игрока в реальных играх D&D.

Результаты задачи отслеживания состояния игры могли бы быть и лучше. Модель получала все предыдущие ходы диалога и соответствующие им переменные состояния, а также текст текущего хода, и ожидалось, что она выведет правильные переменные состояния для текущего хода. Совместная точность модели составила 58%. Эти результаты показывают, что использование одной большой языковой модели недостаточно для этой задачи и что для повышения производительности могут потребоваться дальнейшие модификации.

Заключение

В заключение, исследования и выводы, рассмотренные выше, подчеркивают текущие проблемы и области, требующие улучшения. Важно учитывать ценность неосновных статей, поскольку они могут предлагать уникальные идеи и подходы, которые можно упустить из виду в спешке, чтобы не отставать от более широко признанных работ.

Стихи, цветы и драконы на EMNLP 2022

PoeLM: языковая модель, управляемая размером и рифмой, для создания поэзии без присмотра

Мотивация

Обучение языковой модели

Поколение

Насколько хорошо это работает?

Можете ли вы сделать то же самое на своем языке?

Почему это важно для меня?

Нарисуй мне цветок: обработка и обоснование абстракции на естественном языке

Мотивация

Набор данных

Эксперименты

Почему это важно?

Dungeons and Dragons как диалоговый вызов для искусственного интеллекта

Мотивация

Набор данных

Эксперименты

Заключение

Вопросы по теме