Адаптивное обучение для прогнозирования временных рядов

Нет необходимости говорить о важности приложений прогнозирования временных рядов в различных отраслях от энергетики до здравоохранения и т. д. Поэтому перейдем непосредственно к делу. Одной из сложных и трудных проблем, с которыми мы можем столкнуться при работе с наборами данных временных рядов, является их разнообразие статистических характеристик, что может привести к сдвигам в их распределениях и, следовательно, к различному поведению, которое затрудняет их понимание моделями. В этой статье представлена двухэтапная модель для работы с временным ковариатным сдвигом (TCS); мы называем это ADaRNN (сочетание Adaptive Learning и RNN), чтобы упростить его. Вы можете найти подробное объяснение всех разделов; одновременно вы можете увидеть математическую формулировку для лучшего понимания. Честно говоря, мы впервые можем работать с наборами данных временных рядов с точки зрения распределения.

ПРОБЛЕМА)

Характеристики временных рядов должны изменяться с течением времени, поэтому мы называем этот тип данных (как функцию времени) нестационарными. Мы не можем работать со стационарными данными; Я имею в виду, какой смысл, если данные не меняются со временем (действительно просто!) ??!! Таким образом, этот факт нестационарности эквивалентен различным распределениям во времени; это один из моментов, которые делают захват временных рядов. Для лучшего понимания вы можете посмотреть на рисунок ниже:

Набор данных на рисунке 1 представляет собой набор данных многомерного временного ряда, разделенный на три периода A, B, C и Test. Мы легко можем видеть, что эти распределения не равны.

РЕШЕНИЕ)

АдаRNN

ИНТЕРПРЕТАЦИЯ)

Мы можем рассматривать RNN как одну из самых популярных архитектур алгоритмов, поэтому мы можем начать с использования самого популярного в своем роде. Чтобы не затягивать эту статью, я не буду подробно описывать RNN; однако вы можете дать Стэнфордский лист глубокого обучения о RNN.

Не волнуйтесь, я знаю, что есть большой прогресс в применении Трансформеров, но это только начало; мы обсудим это позже.

Так так так; Я сказал вам, что для AdaRNN есть два шага:

Алгоритм характеристики временного распределения (TDC)
Алгоритм временного сопоставления распределения (TDM)

В итоге:

TDC разделяет набор обучающих данных на K самых разных интервалов. (с самым большим разрывом в распределении) И затем: TDMуменьшает распределение расхождения, используя RNN.

Как я уже сказал, мы впервые рассматриваем временные ряды с точки зрения распределения!! так что это значит?

Распределение

Обычно существует два основных подхода к распространению:

Алгоритмы генерализации предметной области (DG)
Алгоритмы адаптации домена (DA)

В итоге:

DGвыражает, насколько хорошо модель работает с невидимыми данными и имеет дело с несколькими различными доменами, которые связаны между собой, а DAпытается улучшить модель на выходных данных, которые включают множество аномалий или неожиданного поведения данных. Эти два метода отличаются тем, что один из них имеет доступ к тестовому набору данных, а другой — нет. Однако в этой статье это не так, потому что мы решаем это с помощью нашего метода. :)

Адарн в точку

АдаРНН в целом

Вы можете легко увидеть два цветных прямоугольника, отражающих два основных шага для этой модели, TDC и TDM, первый из которых указывает распределение разбив его на курсы, а затем адаптировав дистрибутивы, чтобы передать основную модель (M) для прогнозирования. Наконец, адаптивная модель RNN прогнозирует.

Один пункт!! Разумно учиться/практиковаться/упражняться и готовиться к худшим случаям; так, это верно для AdaRNN, модели, обученной исследователями со сложными задачами (я имею в виду распределение).

TDC (характеристика временного распределения) в точке

В основе TDC лежит принцип максимальной энтропии; он пытается максимально использовать общие знания во временных рядах, как?? путем обучения модели на широком диапазоне распространения; иными словами, с максимальным количеством непохожих дистрибутивов. Логика проста, если модель может справиться с этим, она сможет управлять будущими/невидимыми данными. Взгляните на рисунок 3:

С точки зрения математики у нас есть уравнение 1:

Мы используем гипер-прам, чтобы предотвратить чрезмерное разбиение, и предопределенные праммы, чтобы предотвратить тривиальные решения.

не будем путаться в математике. 🤯😅

Целью уравнения 1 является максимизация расстояния d (которое может быть любым типом функции расстояния от евклидовой до и т. д.). Если мы выберем хорошую метрику расстояния, мы сможем достичь цели TDC с помощью динамического программирования (DP).

В этом исследовании исследователи разделили набор данных на пропорции N = 10, которые мы не можем разделить на меньшие пропорции.

Значительное большое или маленькоезначение K может привести к нежелательной модели производительности. .

TDM (согласование временного распределения) в точке

Мы используем TDM для изучения общих знаний, используя различные периоды распространения. Его функция потерь может быть сформулирована следующим образом:

В этом исследовании регуляризация распределения осуществляется на конечных результатах модели RNN. Уравнение 3 представляет собой распределение по периодам, соответствующее финальным скрытым состояниям для пары (Di, Dj):

Однако этот член регуляризации теряется в зависимости от времени для скрытых состояний. Почему?? Потому что каждое скрытое состояние в отдельности включает в себя долю всей информации о раздаче.

Таким образом, это проблема! не так ли?? Что мы можем сделать?? 🤔

Итак, мы должны рассмотреть каждое скрытое состояние во время создания регуляризатора сопоставления распределения. Так что это значит?? Во-первых, взгляните на архитектуру TDM:

Суть TDM заключается в одновременном прогнозировании данных временных рядов и сопоставлении распределений между ячейками RNN. Существует параметр, называемый вектором важности, который позволяет модели уменьшить расхождение в распределении. Уравнение 4 говорит о потере совпадения распределения временных рядов:

Используя уравнения 4 и 2, мы можем вывести уравнение 5 (конечная целевая функция для нашей модели):

Я не буду подробно описывать его математику; тем не менее, вы можете прочитать основной документ полностью.

Набор данных

В модели используются наборы данных из четырех временных рядов (распознавание деятельности человека, прогнозирование качества воздуха, энергопотребление домохозяйств и прогнозирование цен на акции) из различных отраслей с высокими и низкими измерениями. оценка (как для классификации, так и для регрессии). Вы можете увидеть сводку о размере наборов данных в таблице 1.

Полученные результаты

AdaRNN сравнивается с другими моделями глубокого/машинного обучения, в том числе:

Традиционные (АРИМА, Пророк, ГРУ и др.)
последние (STRIPE и т.д.)
Трансформеры

Вы можете увидеть результаты ADARNN с другими моделями в таблице 2:

Пять показателей использовались для оценки, включая ACC (точность), P (точность), полноту (R), F1 и AUC (площадь под кривая).

Как видите, AdaRNN показывает лучшие результаты по сравнению с аналогами.

В этом исследовании этот метод применяется к преобразователям (AdaTransformer) в каждом блоке внутреннего внимания. Результаты AdaTransformer показали лучшие результаты по сравнению с его оригинальной версией (Vanilla Transformer), как вы можете видеть в таблице 3:

Конец

В будущих статьях я покажу вам, как мы можем кодировать TDM и TDC для наших моделей, а также как реализовать AdaRNN.

Источник этот.

Вы можете связаться со мной в Twitter здесь или LinkedIn здесь. Наконец, если вы нашли эту статью интересной и полезной, вы можете подписаться на medium, чтобы получать от меня больше статей.