Разработка функций — Анализ основных компонентов во встраиваниях в заголовки новостей

Обзор

Полный текст статьи можно найти на Портале разработчиков LSEG, где мы подробно обсуждаем рабочий процесс.

Одним из основных этапов успешного решения в области искусственного интеллекта (ИИ) является проектирование функций. Целью процесса является максимизация предсказательной способности ИИ путем преобразования необработанных данных с целью предоставления разработанных наборов функций с высоким уровнем понимания. Одним из очень распространенных методов уменьшения размерности является анализ основных компонентов (PCA), который помогает нам раскрыть основные факторы, скрытые в наших данных, путем суммирования огромных наборов функций в несколько основных компонентов.

В этом руководстве PCA используется в качестве практического инструмента для уменьшения размера встроенных функций из заголовков новостей, полученных на основе BERT-RNA LSEG Lab, модели финансового языка, созданной LSEG Labs. Мы покажем, как PCA может повлиять на производительность модели ML. Мы также обсудим несколько подходов к выбору оптимального числа главных компонент.

Кратко о статье

Описание набора данных

Здесь мы описываем набор данных Финансовый разговорник Мало и др., который использовался в статье. Набор данных состоит из 4845 заголовков новостей, тщательно промаркированных 16 экспертами и магистрами наук. студенты с опытом работы в сфере финансовых услуг. Кроме того, мы использовали инструменты моделирования финансового языка LSEG Lab для встраивания этих заголовков.

Выбор оптимального количества главных компонентов

Существует множество подходов для выбора оптимальной размерности, начиная с подходов НЛП, основанных на средней или максимальной длине вводимого текста, и заканчивая объясненной дисперсией основных компонентов с использованием среднеквадратичной ошибки (RMSE).

В этом разделе мы представляем несколько методов, в том числе a. расчет средней длины предложения и использование ее в качестве числа компонентов для PCA, b. Построение графика кумулятивной дисперсии и определение количества компонентов, объясняющих 95% дисперсии, c. Построение RMSE и выбор количества компонентов с самым крутым снижением RMSE.

Влияние PCA на прогностическую способность модели и время обучения

Чтобы получить начальное измерение влияния уменьшения размерности вложений заголовков новостей с помощью PCA, мы обучаем несколько моделей логистической регрессии, используя разное количество основных компонентов пространства признаков. Кроме того, мы отслеживаем время обучения для каждой модели и отображаем время вместе с точностью обучения и тестирования. Это позволит нам лучше понять влияние уменьшения размерности на вычислительные потребности моделей.

Для интерпретации результатов и кодов, пожалуйста, посетите основную статью на Портале разработчиков LSEG.

Разработка функций — Анализ основных компонентов во встраиваниях в заголовки новостей

Обзор

Кратко о статье

Загрузки

Связанные чертежи

Разработка функций — Анализ основных компонентов во встраиваниях в заголовки новостей

Обзор

Кратко о статье

Загрузки

Связанные чертежи

Вопросы по теме