Не все справедливо в алгоритмах

Как существующая предвзятость алгоритмов усиливает поляризацию новостей в социальных сетях?

Хотя большинство из нас считают себя рациональными и логичными существами, на самом деле нами движет наше когнитивное предубеждение.

Социальные сети также являются одним из мест, где распространяются эти предубеждения, и, к сожалению, с таким охватом и влиянием, что социальные сети усилили это предубеждение.

Здесь я расскажу о нескольких случаях предвзятости алгоритмов НЛП (собранных из различных источников новостей и исследований) в контексте Instagram, Facebook, тик-тока и подобных платформ, а также о том, как они могут опасно усиливать поляризацию и влиять на меньшинства или определенные группы людей.

Примеры того, как лингвистические предубеждения могут способствовать поляризации:

Во время протестов Black Lives Matter(BLM) многие активисты были разочарованы, когда Facebook пометил или даже заблокировал их учетные записи как нарушение политики, однако этого было недостаточно, чтобы остановить публикации, которые были расистскими в отношении чернокожего сообщества.

Большинство алгоритмов НЛП, используемых в социальных сетях, обучаются на наборах данных на стандартном английском языке или на том языке, на котором говорит определенная группа/сообщество. Это известная проблема, что диалекты и языковые вариации могут повлиять на точность обработки естественного языка в отношении того, что помечено как оскорбительное, а что нет. В зависимости от языковых вариаций, в определенных социальных условиях некоторые оскорбления могут быть оскорбительными, а в других такие же оскорбления могут быть полностью приемлемыми.

В двух компьютерных лингвистических исследованиях, опубликованных в 2019 году, исследователи обнаружили, что ИИ, предназначенный для выявления разжигания ненависти, на самом деле в конечном итоге усиливает расовую предвзятость.

В одном исследовании исследователи обнаружили, что твиты, написанные на афроамериканском английском языке, на котором обычно говорят чернокожие американцы, в два раза чаще помечаются как оскорбительные по сравнению с другими твитами.
Другое исследование, в котором использовалось 155 800 твитов, показало доказательства систематической расовой предвзятости во всех наборах данных, поскольку классификаторы, обученные на них, предсказывали, что твиты, написанные на афроамериканском английском, оскорбительны с гораздо более высокими показателями.

В 2017 году в отчете, опубликованном ProPublica, после доступа к внутреннему документу Facebook было обнаружено, что непредвиденным результатом обучения алгоритма было то, что Facebook будет подвергать цензуре разжигание ненависти в отношении защищенных категорий, включая белых мужчин, но разрешать атаки на подмножества. таких как женщины-водители и чернокожие дети.

Другой пример того, как эти алгоритмы могут усиливать существующие новостные новости, — когда в середине 2020 года алгоритм Facebook удалил близкие к аккаунтам сирийских журналистов и активистов под предлогом терроризма, в то время как на самом деле они вели кампанию против насилия и терроризма.

Эти исследования показывают, насколько мало внимания может уделяться потенциально опасной предвзятости алгоритмов и как это может негативно повлиять на недопредставленные сообщества (которые потенциально уже подвержены риску) для пользователей социальных сетей, ошибочно классифицируя их как оскорбительные, преступники или даже террористы.

Основные причины существования этих предубеждений и потенциальные исправления:

Сами по себе модели все еще недостаточно надежны, чтобы справляться с большими изменениями. С положительной стороны, есть многообещающие исследования межъязыкового НЛП наряду с изменчивостью диалекта/языка.
Обученные алгоритмы показали наличие систематических расовых предубеждений во всех наборах данных. Например, классификаторы, обученные стандартному английскому языку, предсказали, что твиты, написанные на афроамериканском английском, будут считаться оскорбительными при значительно более высоких показателях. Включение большего количества людей с разным опытом во весь процесс разработки, начиная с разработки алгоритмов и моделей. Разнообразие — это проблема, с которой до сих пор борются многие организации, в результате чего эти платформы разрабатываются преимущественно однородной группой (белые, мужчины, американцы). В результате об этих потенциальных проблемах никогда не думают во время разработки или на этапе обучения.
Меньше прозрачности со стороны самих компаний и меньше правил со стороны правительств, побуждающих к исследованиям, чтобы уменьшить потенциальную поляризацию, вызванную алгоритмами.

Следуйте за мной на linkedin здесь

Ссылка:

[1] https://toronto.citynews.ca/2021/04/05/the-growing-criticism-over-instagrams-algorithm-bias/

[2] https://bloggeronpole.com/2020/06/instagram-quietly-admitted-algorithm-bias-but-how-will-it-fight-it/

[3] https://www.bbc.com/news/technology-57306800

[4] https://theconversation.com/beyond-a-technical-bug-biased-algorithms-and-moderation-are-censoring-activists-on-social-media-160669

[5] https://www.theverge.com/2019/3/19/18273018/facebook-housing-ads-jobs-distribution-settlement

[6] https://www.propublica.org/article/facebook-hate-speech-censorship-internal-documents-algorithms

#алгоритм #предвзятость #недопредставленный #неосознанная предвзятость #инклюзия #разнообразие #социальные сети #futureofwork #трансформация #беседыдляизменения #технологии #инженерия #искусственный интеллект #nlp #нейронные сети