Знаете ли вы, что J.K. Роулинг обвинили в краже слова «магглы». Автору «Кодекса да Винчи» Дэну Брауну предъявили иск за не буквальное нарушение авторских прав, и что предполагалось, что Дневники Гитлера 1983 года были написаны самим Адольфом Гитлером, в то время как доказательства подтверждали обратное?

Многие подобные "литературные" затруднения проверяются лингвистами-экспертами, поскольку анализ и категоризация дискурсов довольно сложны, зависят от предметной области и весьма многомерны.

Одним из последних направлений исследований в области обработки естественного языка является анализ авторства, который пытается использовать вычислительную мощность больших данных и искусственного интеллекта в сочетании с лингвистикой и когнитивной психологией для кодирования автоматической классификации текстов, идентификации профилей авторов и решения авторские конфликты. Эта статья представляет собой попытку представить концепцию анализа авторства, области его применения и основные подзадачи, связанные с ним.

Введение:

Искусство и наука различать стили письма авторов путем определения характеристик личности авторов и изучения статей, написанных ими, называется анализом авторства. Следовательно, он также направлен на определение биографических характеристик человека, таких как возраст, пол, родной язык и когнитивные психологические характеристики, на основе «доступной информации», относящейся к этому человеку.

В этой статье «доступная информация» относится к текстовым данным только в контексте анализа авторства, однако информация в этом контексте может выходить за рамки текстового формата, поскольку также может включать использование мультимодальных наблюдений. Мультимодальные наблюдения фиксируют такие характерные особенности, как голос, интонацию, жесты, положение тела и другие физические поведенческие аспекты человека. Комбинация всех этих характеристик отражает личность человека и, следовательно, помогает в профилировании этого человека. Кроме того, в контент-анализе важна информация, такая как социально-экономические переменные места проживания, уровня образования, социального статуса и рода занятий автора.

Типы задач анализа авторства:

Три основные задачи, задействованные в анализе авторства, - это указание автора, проверка автора и профилирование автора. Их индивидуальные цели направлены на решение различных задач анализа авторства. Эти задачи и их цель резюмируются следующим образом:

i) Атрибуция автора: Атрибуция автора определяет, что после изучения текста коллекции от нескольких авторов, авторство которых недвусмысленно, непредвиденный текст был написан определенным лицом. В идеале это закрытая мультиклассовая задача классификации текста. [2]

ii) Проверка автора: Эта задача определяет, является ли человек автором фрагмента текста или нет, путем изучения корпусов того же автора. Это постановка задачи классификации двоичного текста с одной меткой. Хотя эта задача кажется простой, на самом деле проверка автора - гораздо более сложный процесс.

iii) Профилирование авторов: Профилирование авторов можно также распознать как идентификацию личности автора путем изучения авторских текстов. Это включало прогнозирование демографических характеристик, таких как пол, возраст, родной язык и личностные черты автора, на основе изучения их стилей письма [1]. Профилирование авторов можно рассматривать как многоклассовую классификацию текста с несколькими метками и проблему кластеризации. Это потенциальная проблема кластеризации, потому что мы стремимся идентифицировать однородные стили письма и группировать их вместе для анализа сходства в данном корпусе.

Каждая из этих задач является расширяемой в зависимости от типа постановки задачи, для которой они используются в реальном мире. Иногда эти задачи перекрывают друг друга.

Эти задачи не ограничиваются английским как языком при автоматическом анализе авторства. Компьютерные приложения исследуются и разрабатываются для других языков, таких как греческий, французский, голландский, испанский, арабский, португальский и итальянский. [2, 3, 5]

Области применения:

Почему важен анализ авторства? Он играет решающую роль в судебно-медицинской экспертизе и расследовании преступлений. Кроме того, социальные сети и открытые веб-ресурсы вызывают широкий спектр киберпреступлений - создание поддельных профилей, фальшивые обзоры ботов, плагиат, темные веб-сайты, способствующие сетевому и организованному террору, разборчивые заявления о терроризме, преследование и запугивание с помощью сообщений в социальных сетях. назовите несколько. [1]

Понимание профилей потребителей и анализ обратной связи имеют первостепенное значение для анализа рынка и предназначены для изучения демографических характеристик автора анонимных отзывов. Задачи анализа авторства помогают в построении профиля потребителя, выявлении фальшивых отзывов и сегментации клиентов.

Другие области применения включают разрешение споров об авторстве романов, выявление плагиата, датирование документов, изучение социально-экономических факторов и обследование психического здоровья.

Использованная литература:

[1] Редди, Т. Рагхунадха, Б. Вишну Вардхан и П. Виджайпал Редди. «Обзор методов профилирования авторства». Международный журнал прикладных инженерных исследований 11.5 (2016): 3092–3102.

[2] Стамататос, Эфстатиос и др. «Обзор задачи идентификации автора на PAN 2014». CLEF 2014 Evaluation Labs and Work Notes Papers, Sheffield, UK, 2014. 2014 г.

[3] Стамататос, Эфстатиос и др. «Обзор оценочной лаборатории pan / clef 2015». Международная конференция Форума межъязыковой оценки европейских языков. Спрингер, Чам, 2015.

[4] Ранжел, Франциско и др. «Обзор задачи профилирования авторов на PAN 2013». Конференция CLEF по оценке доступа к многоязычной и мультимодальной информации. CELCT, 2013.

[5] Ранжел, Франциско и др. «Обзор 5-го задания по профилированию авторов на Pan 2017: определение гендерного и языкового разнообразия в твиттере». Рабочие записки CLEF (2017).