Алгоритмы тематического моделирования

Узнайте о математических концепциях, лежащих в основе моделей LDA, NMF, BERTopic.

Тематическое моделирование — это часть обработки естественного языка (NLP), которая позволяет конечным пользователям идентифицировать темы/темы в коллекции документов. Он имеет приложения во многих отраслях для интеллектуального анализа текста и получения актуальной информации из текстовых данных.

Большинство алгоритмов пытаются разложить матрицу терминов документа на две или более матрицы, чтобы получить матрицу, содержащую термины и темы. Эту схему я придумал, чтобы понять, как работают известные алгоритмы.

В зависимости от алгоритма записи в матрице терминов документа могут рассчитываться либо с использованием подхода «мешков слов», частоты терминов — обратной частоты документов (TF-IDF), либо TF-IDF на основе классов. Кроме того, количество матриц более низкого ранга и меньшей размерности, на которые разлагается матрица терминов документа, зависит от конкретного алгоритма. Распределение тем в документах и распределение терминов в каждой теме может быть вероятностным или детерминированным.

Примечание. Метод матричной факторизации широко используется для уменьшения признаков в распознавании лиц и других задачах НЛП.

Введение в LDA, NMF и BERТема

Наиболее распространенными методами тематического моделирования являются скрытое распределение Дирихле (LDA) и неотрицательная матричная факторизация (NMF). LDA — это генеративная вероятностная модель, а NMF — это невероятностная линейная алгебраическая модель, использующая матричную факторизацию. LDA полезен для выявления связных тем, тогда как NMF хорошо справляется с выявлением несвязных тем.

LDA — это трехуровневая иерархическая модель байесовского вывода, используемая для оценки параметров модели — распределения тем по терминам и распределения тем документа. LDA предполагает, что каждый документ представляет собой смесь базового набора нескольких тем, и каждая тема моделируется как бесконечная смесь базового набора распределения тем. Поскольку результаты не являются детерминированными, каждый раз при запуске модели можно получить разные результаты, даже в одном и том же наборе данных.

NMF разбивает неотрицательную матрицу на две неотрицательные матрицы, где каждая строка представляет собой тему, а каждый столбец – документ. NMF предполагает, что каждый документ представляет собой линейную комбинацию тем, а каждая тема — линейную комбинацию терминов. Целью NMF является уменьшение размерности и извлечение признаков. Исходная матрица разлагается на матрицу признаков и матрицу коэффициентов. Он больше подходит для небольших наборов данных и коротких текстов. NMF использует тот факт, что векторы неотрицательны.

BERTopic — это довольно новая технология, в которой используются встраивания BERT (представления двунаправленного кодировщика из преобразователей) Google и вариация TF-IDF на основе классов (частота термина — обратная частота документа). Как упоминалось в статье Гроунтендорста —

«BERTopic — это тематическая модель, которая извлекает согласованное представление тем посредством разработки вариации TF-IDF на основе классов. BERTopic генерирует встраивание документов с помощью предварительно обученных языковых моделей на основе преобразователей, кластеризует эти встраивания и, наконец, генерирует представления тем с помощью процедуры TF-IDF на основе классов».

Давайте рассмотрим эти модели подробнее.

LDA

LDA — это расширение вероятностного латентно-семантического анализа (pLSA). Несмотря на то, что темы в документе неизвестны, предполагается, что текст в документе генерируется на основе этих тем. Скрытое относится к вещам, неизвестным априори и скрытым в текстовых данных. Как говорилось выше, LDA — это распределение тем в документах и распределение терминов в теме — называемой Дирихле. Графическое представление модели LDA показано ниже (воссозданное из статьи LDA Блей et. al. 2003). Как упоминается в документе:

«Коробки — это «пластины», представляющие собой реплики. внешняя пластина представляет собой документы, а внутренняя пластина представляет собой повторяющийся выбор тем и терминов в документе».

Вероятность корпуса получается путем произведения предельных вероятностей каждого документа:

Пожалуйста, обратитесь к Документу LDA от Blei et. al. 2003 для получения более подробной информации.

НМФ

Модели на основе NMF изучают темы путем прямого разложения матрицы терминов документа на две матрицы низкого ранга. NMF можно применять для статистического анализа многомерных данных. Учитывая неотрицательную матрицу V, NMF находит неотрицательные матричные коэффициенты W и H (любезно: алгоритмы для статьи NMF Ли, Сын, 2000).

Столбцы W можно интерпретировать как базовые документы из набора слов, т. е. это темы, а столбцы в H — это функции. Реализация алгоритма NMF состоит из правил обновления для W и H, итерация которых приводит к сходимости к локальному максимуму целевой функции (восстановленной из Статья NMF Ли, 1999) с учетом ограничений неотрицательности.

«Алгоритм начинается с неотрицательных начальных условий для W и H, итерации правил обновления для неотрицательных V находит приблизительную факторизацию, сходясь к локальному максимуму целевой функции. Его можно получить, интерпретируя NMF как алгоритм построения вероятностной модели генерации изображений. Эта целевая функция затем связана с вероятностью создания изображений в V на основе базиса W и кодировок H».

NMF разлагает многомерные данные, создавая определяемое пользователем количество признаков. Каждый признак представляет собой линейную комбинацию исходных атрибутов, причем коэффициенты этих линейных комбинаций неотрицательны. При применении модели модель NMF отображает исходные данные в новый набор атрибутов или особенностей, обнаруженных моделью.

В целом NMF является NP-сложным, но существуют некоторые эвристические приближения, которые хорошо работают во многих приложениях. Также нет гарантии, что существует единственное уникальное разложение. Чтобы решить эту проблему, априорные значения используются для факторов W и H вместе с условиями регуляризации в целевой функции. Также трудно понять, как выбрать ранг факторизации.

Пожалуйста, обратитесь к статьям, перечисленным в разделе «Ссылки», для дальнейшего чтения.

BERТема

BERTopic предполагает, что документы, содержащие одну и ту же тему, семантически схожи. Создание темы с использованием включает в себя три этапа:

Каждый документ преобразуется в его встраиваемое представление с использованием структуры Sentence-BERT (SBERT) — это позволяет преобразовывать предложения и абзацы в плотные векторные представления с использованием предварительно обученных языковых моделей.
Размерность полученных вложений снижается для оптимизации процесса кластеризации с использованием метода аппроксимации и проецирования равномерного многообразия (UMAP), поскольку показано, что он сохраняет больше локальных и глобальных особенностей многомерных данных в более низких проецируемых измерениях. Кластеры получаются из сокращенных вложений с использованием иерархической пространственной кластеризации приложений с шумом на основе плотности (HDBSCAN).
Темы извлекаются с использованием специального варианта TF-IDF на основе классов из этих кластеров.

Классический TF-IDF

Приведенное выше уравнение немного изменено для TF-IDF на основе классов. Класс c представляет собой набор документов, объединенных в один документ для каждого кластера.

Это позволяет генерировать распределения тем и терминов для каждого кластера документов. Количество тем до заданного пользователем значения можно уменьшить путем итеративного объединения этих представлений TF-IDF на основе классов наименее распространенной темы с наиболее похожей.

Реализация BERTopic находится в свободном доступе здесь.

Какие плюсы и минусы у этих моделей?

Ниже перечислены общеизвестные плюсы и минусы этих моделей.

Плюсы ЛДА:

может обрабатывать большие наборы данных и легко распараллеливаться
может присвоить вероятность новому документу благодаря распределению Дирихле по темам документов
темы открыты для человеческой интерпретации

Минусы ЛДА:

вычислительно дорогой
может не подойти для коротких текстов
количество тем должно быть известно/установлено заранее
подход «мешка слов» игнорирует семантическое представление слов в корпусе, аналогично LSA и pLSA.
оценка параметров Байеса основана на предположении об обменности документов
требует обширной фазы предварительной обработки для получения значимого представления текстовых входных данных
Исследования показывают, что LDA может содержать слишком общие (Ризви и др., 2019) или нерелевантные (Алнусян и др., 2020) темы. Результаты также могут быть противоречивыми при разных исполнениях (Egger et al., 2021).

Плюсы НМФ:

вычислительно эффективный
хорошо работает для небольших наборов данных и коротких текстов

Минусы НМФ:

не столь эффективен для выявления сложных взаимосвязей между темами
не учитывает семантическую связь между терминами

Плюсы BERТема:

сохраняет семантическую связь между терминами
масштабируемость — производительность увеличивается при использовании современных языковых моделей для создания вложений.
может использоваться в широком диапазоне ситуаций из-за его стабильности во всех языковых моделях.
значительная гибкость в использовании и тонкой настройке модели благодаря отделению процесса внедрения от представления тем
распределение терминов по темам позволяет BERTopic моделировать динамические и эволюционные аспекты тем с небольшими изменениями в основном алгоритме.

Минусы BERТемы:

предположение о том, что каждый документ содержит одну тему, нереалистично.
термины в теме могут быть излишними для интерпретации темы

Какой сценарий лучше всего подходит для этих моделей?

И LDA, и NMF предполагают, что документ представляет собой смесь скрытых тем, и для описания документа используют набор слов. Это приводит к игнорированию семантических отношений между терминами в документе.

Правильного ответа на вопрос, какая модель лучше, не существует. В зависимости от требований задачи и имеющихся ресурсов можно выбрать одну из этих трех моделей, наиболее подходящих для этого сценария.

Эта статья Эггера Р. и Ю Дж. сравнивает эти модели в сообщениях в Твиттере.