Почему AI Alphabet не может распознать язык вражды

Недавно Alphabet (материнская компания Google) разработала решение на основе искусственного интеллекта для обнаружения языка ненависти. Это решение (известное как Перспектива) рекламируется как способ борьбы с онлайн-троллингом и язвой в сообществах, и было открыто для использования публикой на своих собственных сайтах.

Однако, как бы ни была интересна эта система, у нее есть один серьезный недостаток:

Это действительно не работает. В самом деле, несмотря на все разговоры Google и других о ее качествах, система на самом деле кажется неспособной решить, действительно ли сообщение является ненавистной личной атакой или нет. Например, как выяснил Давид Ауэрбах из Technology Review, такие фразы как:

"мусоровоз"
"Ты не расист"
«Немногие мусульмане представляют собой террористическую угрозу»
И «Я чертовски люблю тебя, чувак. С днем рождения"

Были отмечены как токсичные. Более того, последнее буквально отмечалось как более токсичное, чем такие очевидные оскорбления, как «Дональд Трамп - мерзкий шут» и «расовая война сейчас». Это не очень хорошо, когда вы пытаетесь остановить ненависть, а не просто ругать людей в Интернете.

Так почему это происходит? Почему Google так ошибается?

Что ж, я думаю, это сводится к простой ошибке, которую совершают как люди, так и машины. Эта ошибка?

Предположив, что аргумент сформулирован, достаточно, чтобы сказать вам, оскорбление это или безобидное сообщение. Или, другими словами, предположение, что обоснованность аргумента зависит от его вежливости.

Однако это не так. Совершенно вероятно, что тролль, будучи чрезвычайно вежливым и все еще расстроивший многих людей, точно так же, как значимая критика принимает форму чрезвычайно краткой тирады.

Но машинам это трудно обнаружить. Для такой системы чрезвычайно сложно понять содержание и контекст, в котором она используется, и, возможно, выходит за рамки многих существующих сегодня систем машинного обучения.

Таким образом, Alphabet и партнеры в основном вернулись к анализу настроений и посчитали, что этого «достаточно» для обнаружения хулиганов и троллей в Интернете. Очевидно, что это не так.

Но что, если вам нужны примеры? Что ж, вот два из них из мира игровых видео на YouTube.

Первый - это явно конструктивная критика, сформулированная чрезвычайно вежливо и формально. Это часть серии «Ключи к боссам» Марка Брауна и явно будет рассматриваться как «конструктивная критика» всеми, будь то человек или машина:

Предположительно, упомянутый здесь ИИ поймет, что он не «токсичен», и оставит его в покое. Справедливо.

С другой стороны, есть несколько довольно хороших конструктивных видеороликов об играх или игровых событиях, которые не так вежливы в своей настройке. Как, например, типичный обзор Angry Video Game Nerd:

Он не вежливый, и его видео полны ругательств, но это часть его характера. Это действие, в котором фактическое содержание видео часто представляет собой содержательную критику игры или аксессуара, о котором идет речь.

Но я подозреваю, что этот ИИ этого не поймет. Он смотрел на все ругательства и оскорбления и сразу же использовал «язык вражды», «троллинг» или «неконструктивный». То же самое потенциально могло бы произойти с Top Hat Gaming Man и его видео о неряшливых практиках WatchMojo:

Это шутливое, но конструктивное видео о компании, которая крадет чужие работы. Для нормального человека это было бы совершенно нормально для канала вроде YouTube, Facebook или Twitter.

Но я подозреваю, что для такого рода ИИ он будет отмечен как «токсичный». Поскольку ИИ не может узнать его хорошее содержание, ведущий видео просто использует «невежливый» тон.

И способ отправки сообщения - не единственная причина, по которой ИИ здесь облажается. Также не удается определить между кем-то, кто является расистом / сексистом / кем-то еще, и кем-то, защищающим кого-то (или себя) от такой атаки.

Например, вернитесь к списку, опубликованному на Facebook. Многие слова, которые были отмечены, не были нападками на кого-то, но попытки сказать такие вещи, как нападения неонацистов, были плохими. Насколько токсично фраза «Я думаю, что ты расист»?

Это не так. Но роботизированной системе все равно (и ей все равно). Это похоже на школьную политику абсолютной нетерпимости. Где вместо фактического расследования случаев издевательств или выяснения того, кто на кого нападает, они просто немедленно приостанавливают или изгоняют любого, кого поймают на «драке», независимо от того, идет ли речь о самообороне.

Так что да, этот ИИ не работает, и он не работает, потому что не может понять разницу между негативным тоном и неконструктивным аргументом, а также разницу между личной атакой и тем, кто от нее защищается.

Пока не пользуйся им, это хуже, чем бесполезно в нынешнем виде.

Почему AI Alphabet не может распознать язык вражды

Вопросы по теме