Проект по обнаружению фейковых новостей

1. Введение

2. Соответствующая работа\существующая система

3. Предлагаемая работа

4. Методология/экспериментальная работа

5. Заключение и планы на будущее

Ссылки/Библиография

ВВЕДЕНИЕ

Новости были поставщиком информации на протяжении веков. В традиционные времена существовали информационные агентства, которые были источником новостей, и, следовательно, надежность и конфиденциальность оставались за самими официальными организациями. В последнее время Интернет быстро распространился из сельской местности в городскую. С ростом Интернета все больше пользователей со всего мира получили доступ к Интернету и распространяли информацию по-своему [1].

Согласно отчету Economic Times за 2019 год, в Индии насчитывается 627 миллионов пользователей Интернета, что означает, что Индия является домом для второй по величине базы пользователей Интернета в мире [2]. Однако с ростом популярности социальных сетей Интернет становится идеальной питательной средой для фейковых новостей. Исследование BBC показывает, что почти 72% индийцев изо всех сил пытались отличить фальшивые новости от настоящих [3]. Такие веб-сайты, как The Onion[4], News Thump[5], The Poke News[6] и The Mash News[7], занимают первые места в рейтинге «фальшивых» или «вводящих в заблуждение» распространителей новостей [8]. Следовательно, многие онлайн-ресурсы по проверке фактов, такие как Snopes[9], FactCheck.org[10], Factmata.com[11], PolitiFact.com[12] и многие другие, быстро росли. Сайты социальных сетей, такие как Facebook, Whatsapp и Google, обратились к этой конкретной проблеме, но усилия едва ли способствовали решению проблемы.

Подходы к обнаружению фейковых новостей:

1. Подходы к обнаружению, основанные на машинном обучении: машины опорных векторов (SVM), случайные леса, модели логистической регрессии, классификаторы условного случайного поля (CRF), скрытые марковские модели (HMM) [13].

2. Подходы к обнаружению, основанные на глубоком обучении.Двумя наиболее широко применяемыми парадигмами в современных искусственных нейронных сетях являются рекуррентные нейронные сети (RNN)и сверточные нейронные сети (CNN). ) [13].

Эта модель будет обнаруживать поддельные новости, проверяя достоверность поставщика новостей, анализ настроений в комментариях и содержание предоставленных новостей. Мы будем использовать обработку естественного языка для предварительной обработки набора данных и подход машинного обучения для борьбы с фейковыми новостями.

Рисунок 1: Проверка фактов [14]

СУЩЕСТВУЮЩАЯ СИСТЕМА

Существует множество моделей проверки фактов и выявления фейковых новостей. PolitiFact[12] — Веб-сайт проверки фактов, управляемый Институтом Пойнтера в Санкт-Петербурге, Флорида, который использует Truth-O-Meter для определения правдивости заявления/статьи/события/изображения/видео. Но проверка фактов ограничивается политическими новостями и, следовательно, не охватывает широкий спектр новостей. Согласно обзорному документу, источники поддельных новостей Facebook можно обнаружить с помощью BS Detector[15]. Другой веб-сайт проверки фактов, Factmata[11], предоставляет платформу для лучшего понимания контента, предоставляя контент с оценками по девяти сигналам, включая разжигание ненависти и политическую предвзятость, чтобы дать нам глубокое понимание достоверности и безопасности любого контента в Интернете. Мессенджер для бизнеса Компания Flock запустила детектор фейковых новостей, целью которого является предотвращение появления в их среде ложной и вводящей в заблуждение информации [16].

В Индии проверку фактов недавно запустили India Today, Times of India и AFP India, но эти платформы не предоставляют пользователям платформу для проверки того, является ли просматриваемая ими новостная статья поддельной или реальной. AltNews [17] добился успеха в Индии, предоставив платформу для пользователей, чтобы развеять их сомнения, хотя она еще не стала более эффективной и надежной.

ПРЕДЛАГАЕМАЯ РАБОТА

В этой статье модель строится на основе предварительной обработки данных с использованием библиотеки NLTK, удаляя все стоп-слова, такие как «the», «is» и «are», и используя только те слова, которые уникальны и предоставляют нам релевантная информация. Мы также удалили знаки препинания, цифры и преобразовали наш набор данных в строчные буквы. Также мы использовали Count Vectorizer или матрицу TF-IDF, которая соответствует тому, как часто слово используется в данной статье в нашем наборе данных. На рисунке 2 показан процесс от сбора набора данных новостных статей до использования алгоритма классификации новостей. Поскольку проблема связана с классификацией текста и извлечением информации, мы использовали наивный байесовский классификатор для текстовой классификации. Для обучения и тестирования мы использовали полиномиальный NB и пассивно-агрессивный классификатор с набором обучающих данных 33%. Мы также удалим редкие слова, встречающиеся в нашем корпусе, с помощью Count Vectorizer [18–20].

Цель проекта — создать веб-сайт и приложение для пользователя, чтобы всякий раз, когда он выбирает текст, приложение отображало плавающее окно и предоставляло пользователю процент поддельных и реальных новостей для выбранного текста. Преимущество приложения или веб-сайта заключается в том, что без открытия или загрузки какого-либо контента в приложение приложение обнаружит поддельные новости.

Рисунок 2: Схема технологического процесса

МЕТОДОЛОГИЯ

В этом разделе описана методология предлагаемой модели. На рис. 3 показан рабочий процесс методов, задействованных в создании модели. Основные этапы построения модели:

1. Корпус текстового документа

2. Текстовая обработка и предварительная обработка

3. Парсинг и базовый исследовательский анализ данных

4. Представление текста с использованием соответствующих методов разработки функций

5. Моделирование

6. Оценка и развертывание

Рисунок 3: Методология

Извлечение новостных статей для извлечения данных

В настоящее время наша модель обучена с использованием набора данных Kaggle [21] с 6335 строками и 4 столбцами. Мы будем парсить новостные статьи, короткометражки [22] с помощью библиотек python вместе с NLTK и spacy. Типичная новостная статья также находится в разделе HTML, как показано на следующем рисунке:

Рисунок 4: Целевая страница для новостных статей о технологиях и соответствующая HTML-структура [23]

Также могут использоваться специальные теги HTML, которые содержат текстовое содержимое [24]. Следовательно, с помощью таких библиотек, как BeautifulSoup и запросов, мы будем очищать полезный контент.

Собранный набор данных содержит 6335 строк и 4 столбца; заголовок набора данных показан на следующем рисунке 5:

Рисунок 5: Набор данных реальных и поддельных новостных статей.

Обработка текста, очистка и предварительная обработка

Здесь для обработки данных использовались пакеты nltk и spacy. Стоп-слова можно использовать для обработки данных и удаления наиболее распространенных слов, используемых в нашем наборе данных, таких как «и», «то» и «есть». Наряду со стоп-словами необходимо удалить HTML-теги, акцентированный текст, расширяющие сокращения, знаки препинания, цифры и специальные символы, поскольку они не предоставляют соответствующей информации. Мы будем лемматизировать и формировать текст с помощью функций lemmatize_text() и simple_stemmer() соответственно.

С помощью векторизатора TF-IDF мы будем определять важность слов в данной статье во всем корпусе. [25]

Визуализация данных и извлечение признаков

Для лучшего понимания набора данных мы используем библиотеки matplotlib и seaborn для визуализации и построения графиков. С помощью метода stripplot() был сформирован статистический график, представленный в морской библиотеке, как показано на рисунке 6, который показывает 0 ~ 5000, наборы данных являются НАСТОЯЩИМИ, а от 5000 до 10000, наборы данных являются ПОДДЕЛЬНЫМИ. Мы также импортировали библиотеку CountVectoriser для удаления редких слов.

Рис. 6. Визуализация набора данных фейковых и реальных новостей с использованием Seaborn.

Ось X представляет метку (поддельную или настоящую), ось Y представляет индекс

Моделирование и поиск по сетке

С помощью полиномиального NB и пассивно-агрессивного классификатора мы будем обучать 33% нашего набора данных и тестировать остальные 67%. С помощью матрицы путаницы мы достигнем модели наивысшей точности. [26]

Экспериментальный анализ и анализ результатов

После выполнения всех шагов наши импровизированные модели создали матрицу путаницы:

Table 1: Confusion Matrix Accuracy Table
S. No.
Accuracy
Actual(Fake)
Actual(Real)
Predicted(Fake)
Predicted(Real)
1.
0.857
739
269
31
1052
2.
0.893
865
143
80
1003
3.
0.935
952
56
80
1003
4.
0.902
883
125
80
1003
Final Confusion Matrix:
Figure 7: Confusion Matrix, without normalization

ЗАКЛЮЧЕНИЕ И БУДУЩЕЕ ОБЛАСТЬ

В этом проекте предлагается модель обнаружения фальшивых новостей, которая дифференцирует текст с помощью алгоритмов классификации текста, чтобы определить, являются ли новости «фальшивыми» или «настоящими». Для обучения использовалось 33% набора данных, а для тестирования модели FND использовалось 67% данных. Модель успешно предсказала фейковые и настоящие новости с точностью 90,2%.

В будущем для анализа тональности можно использовать VADER, который является более эффективным алгоритмом и моделью классификации текста, обеспечивающей высочайшую точность. Кроме того, существующие модели обнаружения фальшивых новостей работали только для новостей и политики, масштаб на фондовых рынках, где акции очень часто растут и падают, все еще сохраняется.