Сущности являются неотъемлемой частью понимания текста на естественном языке. С этой целью задача расширения набора сущностей (ESE) направлена ​​на получение исчерпывающего набора сущностей (например, "мини-бар", "телевизор") для концепции (например, элементы комнаты) с учетом текстового корпуса и начального набора сущностей (например, 'кофе', 'утюг') для каждой интересующей концепции. Поскольку получение крупномасштабных обучающих данных для задачи обходится дорого, существующие подходы ориентированы на условия с низким уровнем ресурсов, где начальный набор невелик (‹ 10 объектов на концепцию).

Несмотря на недавний прогресс, сообщаемый успех методов ESE в значительной степени ограничивается эталонными тестами, ориентированными на именованные объекты (например, "страны", "заболевания") и хорошо написанным текстом, таким как Википедия, по сравнению с созданным пользователями. отзывы. Оценка также ограничивается 10–50 лучшими прогнозами, независимо от фактического размера набора сущностей концепции. В результате неясно, зависит ли сообщаемая эффективность методов ESE от наборов данных, областей и методов оценки. В этой работе мы исследуем возможность обобщения существующих методов ESE на текст, созданный пользователями, поскольку он широко используется во многих реальных приложениях и, как известно, обладает более отличительными характеристиками, чем хорошо написанный текст.

Характеристики пользовательского текста

Поскольку эталонных показателей для пользовательского текста не существует, мы создали новые эталонные показатели для трех доменов (гостиницы, рестораныи вакансии) и обнаружили новые характеристики, отличающие их от эталонных показателей. на хорошо подобранном тексте. На рисунке ниже показаны характеристики эталонного теста Wiki (хорошо подобранный текст) и эталонного теста Tripadvisor (текст, созданный пользователями).

1) Понятия в Wiki четко определены, в то время как понятия на Tripadvisor зависят от предметной области, часто с перекрывающейся семантикой. В результате объект может принадлежать нескольким понятиям, называемым многогранными объектами (выделены синим цветом).

2) Основная истина для пар понятие-сущность в Wiki может быть получена путем обращения к внешним ресурсам или здравому смыслу. Тем не менее, некоторые понятия в Tripadvisor являются открытыми и субъективными, что приводит к двусмысленности. Например, объект "общественный центр" может быть либо достопримечательностью, либо соседним местом в зависимости от контекста в обзоре. Мы называем такие объекты расплывчатыми объектами.

3)Неназванные объекты (например, "кофе" и "телевизор") обычно представляют собой именные словосочетания, которые не являются именами собственными. Хотя они распространены во всех областях, в тестах они в значительной степени игнорируются. Тем не менее, на Tripadvisor в два раза больше неназванных объектов, чем на Wiki.

4) Различные концепты в домене могут иметь разное количество элементов, т. е. концепты могут иметь разное количество объектов в соответствующем наборе объектов. Следовательно, простая оценка предсказаний топ-k может не дать надежной оценки производительности. В таблице ниже показано распределение размеров концепций по нескольким тестам.

Экспериментальная установка

Чтобы расширить начальный набор, методы ESE обычно ранжируют объекты-кандидаты, извлеченные из текстового корпуса. Эти методы можно в общих чертах разделить на: (а) методы на основе корпуса, которые ранжируют объекты-кандидаты, используя контекстуальные признаки и шаблоны, извлеченные из корпуса, (б) методы, основанные на языковой модели, которые ранжируют объекты-кандидаты путем исследования предшествующих знаний в большом предварительном массиве. обученная языковая модель. Мы выбрали следующие репрезентативные методы ESE:

a) SetExpan: современный метод на основе корпуса, который итеративно ранжирует кандидатов объектов, отфильтровывая зашумленные функции пропусков грамм.

b) базовый уровень внедрения (Emb-Base): простой базовый уровень на основе корпуса, который выводит вложение объекта с использованием среднего контекстного внедрения предложений, в которых упоминается объект с использованием BERT.

c) CGExpan: современный метод на основе языковой модели, который многократно использует шаблоны Херста в качестве подсказок для языковой модели в дополнение к другим функциям, таким как руководство по названию понятия.

d) Базовый план LM Probing (LM-Base): базовый план на основе простой языковой модели, который исключает дополнительные функции, такие как итеративное расширение и руководство по названию концепции.

Мы оценили эти методы на двух типах тестов: тщательно отобранных текстовых тестах, таких как Википедия (Wiki) и новые статьи (APR), и созданных пользователями текстовых тестах, таких как отзывы об отелях (Tripadvisor) и ресторанах (Yelp). Хорошо курируемые текстовые тесты (WCT) обычно использовались для оценки производительности методов SOTA, таких как SetExpan и CGExpan. Для целей этого сравнительного исследования мы создали тесты пользовательского текста (UGT). Из-за различий в размерах понятий в контрольных показателях WCT и UGT мы ввели новый показатель, называемый средней средней точностью при золоте-k(MAP@gold-k), чтобы строго профилировать методы ЭСЭ. Здесь gold-k относится к фактическому размеру концепции объекта. Например, для понятия страны золото-k равно 195.

Выводы

Теперь мы суммируем некоторые ключевые выводы из нашего исследования.

1) Тесты, основанные на пользовательском тексте, содержат в 10 раз больше многогранных сущностей, в 2 раза больше безымянных сущностей и на 43 % больше неопределенности, чем тщательно отобранные тесты.

2) Существующие метрики оценки, как правило, завышают реальную производительность методов ESE и могут быть ненадежными для оценки концепций с большими наборами сущностей. На рисунке ниже показано падение производительности для примера концепций для разных значений k. Мы предлагаем оценивать среднюю среднюю точность (MAP) в золоте-k (кг), где кг соответствует размеру концепции. Это может адаптироваться к концепциям разного размера и может дать более точные оценки припоминания.

3. По сравнению с базовыми уровнями, современные методы, как правило, хуже работают с текстом, созданным пользователями, что указывает на то, что их методы не могут быть эффективно обобщены за пределами тщательно подобранного текста.

4. Производительность падает на сущностях с уникальными характеристиками, т. е. на многогранных, расплывчатых и безымянных сущностях. На рисунке ниже показана производительность методов ESE для неименованных объектов (см. красную полосу на подрисунке a) и неопределенных объектов (см. красную полосу на подрисунке b) по сравнению с объектами, не обладающими уникальными характеристиками (см. зеленую полосу на рис. подрисунок-а и подрисунок-б). Современные методы страдают большим падением производительности. Таким образом, отличительные характеристики объектов частично объясняют более низкую эффективность современных методов обработки пользовательского текста.

Заключительные замечания

Наши результаты показывают, что пользовательский текст создает новые проблемы для задачи расширения набора сущностей, особенно потому, что сущности могут быть расплывчатыми, безымянными и многогранными. Мы обнаружили, что современные методы не очень эффективны для обобщения пользовательского текста и часто уступают более простым базовым планам. Таким образом, есть потенциал для будущих исследований по разработке методов расширения набора сущностей для пользовательского текста.

Мы публикуем новые бенчмарки по адресу: https://github.com/megagonlabs/eseBench.

Наша статья Расширение набора сущностей с низким уровнем ресурсов: всестороннее исследование пользовательского текста от Ютонг Шао, Никита Бхутани, Саджадур Рахман и Эстевам Хрушка была принята к результатам NAACL 2022. .

Сценарий: Никита Бхутани, Саджадур Рахман и Мегагон Лабс.

Следуйте за нами LinkedIn и Twitter, чтобы быть в курсе новых исследований и проектов.