Добро пожаловать в серию двухминутных статей. В этой серии мы обсудим некоторые действительно интересные статьи в области искусственного интеллекта, машинного обучения и обработки естественного языка. Это первая статья из этой серии.

В эпоху социальных сетей модерация контента стала одной из самых больших проблем в области машинного обучения. Существуют различные типы контента, такие как изображения, видео или текст. Многие онлайн-злоупотребления существуют в форме текста. Итак, в статье Неявно оскорбительный язык — как это выглядит на самом деле и почему мы не доходим до этого обсуждаются два типа онлайн-оскорблений, явные и неявные. Явное оскорбление содержит ненормативную лексику или неприемлемые термины, которые легко обнаружить по сравнению с неявным оскорблением, которое является тонкой формой оскорбления и обычно не содержит ненормативной лексики. Одна из ключевых проблем при обнаружении неявных злоупотреблений заключается в том, что они сильно зависят от контекста. В этой статье исследователи классифицировали неявное насилие на несколько категорий для лучшего обнаружения. Ниже приведены эти категории:

Стереотипы. Стереотипы определяются так: «Под стереотипами мы понимаем фиксированное, чрезмерно обобщенное мнение об определенной группе или классе людей».

Пример: Мужчины должны водить машину, а женщины готовить.

2. Преступники. Преступники определяются как «представляющие определенную группу лиц в качестве преступников».

Пример: черные люди воруют все

Сравнения. Сравнение определяется как «Оскорбительные сравнения — это сравнения, в которых транспортное средство (например, вы) сравнивается с какой-либо оскорбительной сущностью, действием или состоянием (например, идиотом)».

Пример: Ты говоришь как идиот. Ты выглядишь так, будто кого-то может любить только мать.

Дегуманизация. Сравнение определяется как «акт восприятия или обращения с людьми как с чем-то меньшим, чем человек».

Пример: Я владею своей женой и ее деньгами.

Эвфемистические конструкции. Эвфемистические конструкции определяются как «примечания, замаскированные под эвфемистическую конструкцию».

Пример: Вы вдохновляете моего внутреннего серийного убийцу.

Призыв к действию: Призыв к действию определяется как «Автор текста просит, чтобы что-то, как правило, какая-то форма наказания, было сделано по отношению к объекту, подвергшемуся насилию».

Пример: Спасибо за вашу силу духа и упорство. Пожалуйста, дайте пинка под зад МакКоннеллу от некоторых из нас.

Призыв к действию: Призыв к действию определяется как «Автор текста просит, чтобы что-то, как правило, какая-то форма наказания, было сделано по отношению к объекту, подвергшемуся насилию».

Пример: Спасибо за вашу силу духа и упорство. Пожалуйста, дайте пинка под зад МакКоннеллу от некоторых из нас.

Многомодальное злоупотребление: «Большинство платформ социальных сетей позволяют пользователям вставлять
изображения или видео в свои сообщения. Во многих случаях оскорбительное содержание микросообщения скрыто в нетекстовых компонентах или представляет собой взаимодействие текста и изображения/видео».

Явления, требующие знаний о мире и умозаключений: этот тип скрытого оскорбления относится к подкатегориям шуток, сарказма и скрытого оскорбления.

Используя эти подкатегории, авторы вручную аннотировали выборку из 500 текстов из разных наборов данных и обнаружили, что существующие наборы данных не являются хорошим источником данных для изучения неявных злоупотреблений.

Основываясь на документе, давайте посмотрим, что можно и чего нельзя делать при неявном обнаружении ненормативной лексики.

Проблемы с существующими наборами данных.

  1. Большие наборы данных для обнаружения ненормативной лексики, созданные путем случайной выборки, обычно имеют подавляющую долю явных злоупотреблений среди экземпляров злоупотреблений; следовательно, на них не следует полагаться для скрытого обнаружения злоупотреблений.
  2. Наборы данных с более высокой долей неявных злоупотреблений подвержены систематическим ошибкам, вызванным выборкой исходных необработанных данных. (Как правило, текст выбирается по определенным ключевым словам или темам, которые могут совпадать с ненормативной лексикой.)
  3. Чрезвычайно важно увеличить размер данных путем слияния различных корпусов. Классификаторы под наблюдением могут просто давать более высокие оценки классификации в результате дополнительных смещений процесса слияния.

Что нужно сделать

  1. Создавайте новые наборы данных, посвященные конкретным типам неявных злоупотреблений. Это также облегчит рассмотрение соответствующих отрицательных данных.
  2. Создайте набор данных на основе небольших единиц текста, таких как предложения, а не всего текста. Потому что этот небольшой блок легче выучить, чем микропост или статью.

Если вам понравилась статья, ставьте лайк и делитесь ею, если у вас остались вопросы, пишите их в комментариях. Подпишитесь на меня в Facebook, Instagram, LinkedIn и YouTube, чтобы получать дополнительные материалы. Увидимся в моем следующем посте, а пока удачного кодирования ❤

Ссылки:

  1. Неявно оскорбительный язык — как это выглядит на самом деле и почему мы не добираемся до этого? (https://aclanthology.org/2021.naacl-main.48) (Виганд и др., NAACL 2021)