Добро пожаловать в серию двухминутных статей. В этой серии мы обсудим некоторые действительно интересные статьи в области искусственного интеллекта, машинного обучения и обработки естественного языка. Это первая статья из этой серии.
В эпоху социальных сетей модерация контента стала одной из самых больших проблем в области машинного обучения. Существуют различные типы контента, такие как изображения, видео или текст. Многие онлайн-злоупотребления существуют в форме текста. Итак, в статье Неявно оскорбительный язык — как это выглядит на самом деле и почему мы не доходим до этого обсуждаются два типа онлайн-оскорблений, явные и неявные. Явное оскорбление содержит ненормативную лексику или неприемлемые термины, которые легко обнаружить по сравнению с неявным оскорблением, которое является тонкой формой оскорбления и обычно не содержит ненормативной лексики. Одна из ключевых проблем при обнаружении неявных злоупотреблений заключается в том, что они сильно зависят от контекста. В этой статье исследователи классифицировали неявное насилие на несколько категорий для лучшего обнаружения. Ниже приведены эти категории:
Стереотипы. Стереотипы определяются так: «Под стереотипами мы понимаем фиксированное, чрезмерно обобщенное мнение об определенной группе или классе людей».
Пример: Мужчины должны водить машину, а женщины готовить.
2. Преступники. Преступники определяются как «представляющие определенную группу лиц в качестве преступников».
Пример: черные люди воруют все
Сравнения. Сравнение определяется как «Оскорбительные сравнения — это сравнения, в которых транспортное средство (например, вы) сравнивается с какой-либо оскорбительной сущностью, действием или состоянием (например, идиотом)».
Пример: Ты говоришь как идиот. Ты выглядишь так, будто кого-то может любить только мать.
Дегуманизация. Сравнение определяется как «акт восприятия или обращения с людьми как с чем-то меньшим, чем человек».
Пример: Я владею своей женой и ее деньгами.
Эвфемистические конструкции. Эвфемистические конструкции определяются как «примечания, замаскированные под эвфемистическую конструкцию».
Пример: Вы вдохновляете моего внутреннего серийного убийцу.
Призыв к действию: Призыв к действию определяется как «Автор текста просит, чтобы что-то, как правило, какая-то форма наказания, было сделано по отношению к объекту, подвергшемуся насилию».
Пример: Спасибо за вашу силу духа и упорство. Пожалуйста, дайте пинка под зад МакКоннеллу от некоторых из нас.
Призыв к действию: Призыв к действию определяется как «Автор текста просит, чтобы что-то, как правило, какая-то форма наказания, было сделано по отношению к объекту, подвергшемуся насилию».
Пример: Спасибо за вашу силу духа и упорство. Пожалуйста, дайте пинка под зад МакКоннеллу от некоторых из нас.
Многомодальное злоупотребление: «Большинство платформ социальных сетей позволяют пользователям вставлять
изображения или видео в свои сообщения. Во многих случаях оскорбительное содержание микросообщения скрыто в нетекстовых компонентах или представляет собой взаимодействие текста и изображения/видео».
Явления, требующие знаний о мире и умозаключений: этот тип скрытого оскорбления относится к подкатегориям шуток, сарказма и скрытого оскорбления.
Используя эти подкатегории, авторы вручную аннотировали выборку из 500 текстов из разных наборов данных и обнаружили, что существующие наборы данных не являются хорошим источником данных для изучения неявных злоупотреблений.
Основываясь на документе, давайте посмотрим, что можно и чего нельзя делать при неявном обнаружении ненормативной лексики.
Проблемы с существующими наборами данных.
- Большие наборы данных для обнаружения ненормативной лексики, созданные путем случайной выборки, обычно имеют подавляющую долю явных злоупотреблений среди экземпляров злоупотреблений; следовательно, на них не следует полагаться для скрытого обнаружения злоупотреблений.
- Наборы данных с более высокой долей неявных злоупотреблений подвержены систематическим ошибкам, вызванным выборкой исходных необработанных данных. (Как правило, текст выбирается по определенным ключевым словам или темам, которые могут совпадать с ненормативной лексикой.)
- Чрезвычайно важно увеличить размер данных путем слияния различных корпусов. Классификаторы под наблюдением могут просто давать более высокие оценки классификации в результате дополнительных смещений процесса слияния.
Что нужно сделать
- Создавайте новые наборы данных, посвященные конкретным типам неявных злоупотреблений. Это также облегчит рассмотрение соответствующих отрицательных данных.
- Создайте набор данных на основе небольших единиц текста, таких как предложения, а не всего текста. Потому что этот небольшой блок легче выучить, чем микропост или статью.
Если вам понравилась статья, ставьте лайк и делитесь ею, если у вас остались вопросы, пишите их в комментариях. Подпишитесь на меня в Facebook, Instagram, LinkedIn и YouTube, чтобы получать дополнительные материалы. Увидимся в моем следующем посте, а пока удачного кодирования ❤
Ссылки:
- Неявно оскорбительный язык — как это выглядит на самом деле и почему мы не добираемся до этого? (https://aclanthology.org/2021.naacl-main.48) (Виганд и др., NAACL 2021)