Обзор
Полный текст статьи можно найти на Портале разработчиков LSEG, где мы подробно обсуждаем рабочий процесс.
Одним из основных этапов успешного решения в области искусственного интеллекта (ИИ) является проектирование функций. Целью процесса является максимизация предсказательной способности ИИ путем преобразования необработанных данных с целью предоставления разработанных наборов функций с высоким уровнем понимания. Одним из очень распространенных методов уменьшения размерности является анализ основных компонентов (PCA), который помогает нам раскрыть основные факторы, скрытые в наших данных, путем суммирования огромных наборов функций в несколько основных компонентов.
В этом руководстве PCA используется в качестве практического инструмента для уменьшения размера встроенных функций из заголовков новостей, полученных на основе BERT-RNA LSEG Lab, модели финансового языка, созданной LSEG Labs. Мы покажем, как PCA может повлиять на производительность модели ML. Мы также обсудим несколько подходов к выбору оптимального числа главных компонент.
Кратко о статье
Описание набора данных
Здесь мы описываем набор данных Финансовый разговорник Мало и др., который использовался в статье. Набор данных состоит из 4845 заголовков новостей, тщательно промаркированных 16 экспертами и магистрами наук. студенты с опытом работы в сфере финансовых услуг. Кроме того, мы использовали инструменты моделирования финансового языка LSEG Lab для встраивания этих заголовков.
Выбор оптимального количества главных компонентов
Существует множество подходов для выбора оптимальной размерности, начиная с подходов НЛП, основанных на средней или максимальной длине вводимого текста, и заканчивая объясненной дисперсией основных компонентов с использованием среднеквадратичной ошибки (RMSE).
В этом разделе мы представляем несколько методов, в том числе a. расчет средней длины предложения и использование ее в качестве числа компонентов для PCA, b. Построение графика кумулятивной дисперсии и определение количества компонентов, объясняющих 95% дисперсии, c. Построение RMSE и выбор количества компонентов с самым крутым снижением RMSE.
Влияние PCA на прогностическую способность модели и время обучения
Чтобы получить начальное измерение влияния уменьшения размерности вложений заголовков новостей с помощью PCA, мы обучаем несколько моделей логистической регрессии, используя разное количество основных компонентов пространства признаков. Кроме того, мы отслеживаем время обучения для каждой модели и отображаем время вместе с точностью обучения и тестирования. Это позволит нам лучше понять влияние уменьшения размерности на вычислительные потребности моделей.
Для интерпретации результатов и кодов, пожалуйста, посетите основную статью на Портале разработчиков LSEG.
Загрузки
Связанные чертежи
- Инженерия данных — Сбор данных для прогнозного моделирования слияний и поглощений — Айказ Арамян
- Инженерия данных — Подготовка данных для прогнозного моделирования слияний и поглощений — Айказ Арамян
- Синтетические данные Flash Crash с генеративно-состязательными сетями — доктор Мариос Скевофилакас
- Вменение, масштабирование, обнаружение выбросов в данных о ценах на акции — Dr. Marios Skevofylakas
- Исследовать все чертежи