1. Тайгете на SemEval-2022. Задача 4: Модели на основе RoBERTa для выявления покровительственного и снисходительного языка(arXiv)

Автор:Джаянт Чхиллар

Аннотация: в этой работе описывается разработка различных моделей для выявления покровительственной и снисходительной лексики в отрывках новостных статей в рамках конкурса SemEval 2022 (Задание-4). В этой работе исследуются различные модели, основанные на предварительно обученной языковой модели RoBERTa в сочетании со слоями LSTM и CNN. Лучшие модели заняли 15-е место с оценкой F1 0,5924 для подзадачи-A и 12-е место в подзадаче-B с оценкой макро-F1 0,3763.

2. DeepSCC: классификация исходного кода на основе доработанной RoBERTa(arXiv)

Автор:Гуан Ян, Яньлинь Чжоу, Чи Ю, Сян Чен

Аннотация. В задачах, связанных с разработкой программного обеспечения (таких как прогнозирование тегов языка программирования на основе фрагментов кода из Stack Overflow), классификация языка программирования для фрагментов кода является обычной задачей. В этом исследовании мы предлагаем новый метод DeepSCC, который использует точно настроенную модель RoBERTa для классификации типа языка программирования исходного кода. В нашем эмпирическом исследовании мы выбрали корпус, собранный из Stack Overflow, который содержит 224 445 пар фрагментов кода и соответствующих языковых типов. После сравнения девяти современных базовых показателей из области классификации исходного кода и классификации нейронных текстов с точки зрения четырех показателей производительности (то есть точности, точности, полноты и F1) мы показываем конкурентоспособность предложенного нами метода DeepSCC.

3. EmoBERTa: распознавание эмоций с учетом говорящего в разговоре с RoBERTa(arXiv)

Автор:Тэун Ким, Пик Фоссен

Аннотация: мы представляем EmoBERTa: Распознавание эмоций с помощью говорящего в разговоре с RoBERTa, простую, но выразительную схему решения задачи ERC (распознавание эмоций в разговоре). Просто добавляя имена говорящих перед высказываниями и вставляя маркеры разделения между высказываниями в диалоге, EmoBERTa может изучать внутри- и меж-говорящие состояния и контекст, чтобы прогнозировать эмоции текущего говорящего сквозным образом. Наши эксперименты показывают, что мы достигаем нового уровня развития двух популярных наборов данных ERC, используя простой и прямой подход. Мы разместили наш код и модели с открытым исходным кодом на https://github.com/tae898/erc.