Для тех из вас, кто не знает, временной ряд — это просто набор числовых наблюдений, которые собираются с течением времени (рис. 1). Примеры временных рядов появляются во многих областях, от розничной торговли (например, планирование запасов) до финансов (прогнозирование цен на акции). Временные ряды интересны из-за лежащей в их основе неопределенности — данные меняются со временем, что затрудняет понимание их будущего поведения.

Здесь я опишу 12 свойств или компонентов, которые важно учитывать при моделировании временных рядов. Так или иначе, эти характеристики влияют на решения в процессе обработки данных для разработки систем прогнозирования.

Вот по одному вкладышу для каждой темы, если вы спешите:

  1. Тренд: долгосрочное изменение среднего значения данных;
  2. Сезонность: регулярные и предсказуемые изменения;
  3. Остатки: ряды без сезонности и тенденции;
  4. Стационарность: когда свойства временного ряда остаются постоянными во времени;
  5. Автокорреляция: корреляция с прошлыми наблюдениями;
  6. Гетероскедастичность: изменения дисперсии;
  7. Регулярность:отображается ли серия через равные промежутки времени;
  8. Частота:частота, с которой наблюдается серия;
  9. Рефлексивность:когда прогноз влияет на результат;
  10. Выбросы:редкие, но, возможно, интересные наблюдения;
  11. Режимы и обнаружение изменений:при изменении распределения данных;
  12. Размерность:количество переменных во временном ряду.

1. Тренд

Тренд является одним из основных строительных блоков временного ряда. Он представляет долгосрочное изменение среднего значения данных, какможно увидеть на рисунке 1. На этом графике показан пример временного ряда, который представляет ежемесячное количество пассажиров в авиакомпании с течением времени. Средний уровень временного ряда увеличивается с течением времени, что представляет собой четкую восходящую тенденцию.

Некоторые алгоритмы обучения изо всех сил пытаются справиться с компонентом тренда временных рядов. Поэтому его часто рекомендуют удалять для оптимального моделирования временного ряда. Это можно сделать с помощью разностной операции. Различие просто означает получение разницы между значением текущего наблюдения и значением предыдущего. На рис. 2 показаны временные ряды авиапассажиров после удаления тренда путем разности; после этого процесса средний уровень ряда становится стабильным.

2. Сезонность и цикличность

Если временной ряд претерпевает регулярные и предсказуемые изменения в фиксированные периоды (например, каждый месяц), он имеет сезонный компонент. Временной ряд авиапассажиров показывает месячную сезонность, которая проявляется в повторяющихся колебаниях.

Как и тренд, сезонная составляющая также нарушает стационарность, и ее часто рекомендуют удалять. Это можно сделать также путем разности, но вместо вычитания предыдущего значения из значения текущего наблюдения мы вычитаем значение предыдущего наблюдения из того же сезона.

Сезонная разность смягчает предсказуемые колебания, что также стабилизирует средний уровень ряда. После удаления сезонного компонента временной ряд называется с учетом сезонных колебаний.

Помимо сезонных эффектов временные ряды могут характеризоваться другими предсказуемыми колебаниями, не имеющими фиксированного периода. Этот тип изменения представляет собой циклический шаблон. Типичным примером циклической модели является экономический цикл, в котором экономика переживает периоды роста и периоды спада.

3. Остатки

После удаления из временного ряда трех вышеуказанных компонентов (тренда, сезонности, циклических закономерностей) оставшаяся часть называется нерегулярной составляющей или остатками. Пример показан на Рисунке 3. Остатки не объясняются какой-либо тенденцией, сезонным или циклическим поведением, но все же могут оказывать влияние на динамику временного ряда.

В любой момент времени временной ряд может быть аддитивно разложен на вышеупомянутые компоненты следующим образом:

y = тенденция + сезонность + цикличность + остатки

В зависимости от данных это разложение также может быть мультипликативным, заменяя операции суммы операциями произведения.

4. Стационарность

Такие компоненты, как тренд или сезонность, нарушают стационарность временного ряда. Временной ряд является стационарным если свойства временного ряда не зависят от времени наблюдения за данными.

Более формально, но не вдаваясь в мельчайшие детали, временной ряд считается стационарным, если нет систематических изменений среднего значения или дисперсии и если периодические вариации были удалены.

Многие методы временных рядов работают в предположении, что временной ряд является стационарным. Когда это не так, используются такие операции, как дифференцирование, чтобы сделать его стационарным.

5. Автокорреляция

Понятие временных рядов подразумевает наличие некоторой степени зависимости от исторических данных — то, что мы наблюдаем сегодня, зависит от того, что произошло в прошлом. Автокорреляция временного ряда количественно определяет эту зависимость в соответствии с корреляцией каждого наблюдения с его прошлыми значениями. Это свойство предоставляет важную структурную информацию о серии. Если временной ряд показывает низкую автокорреляцию по всем лагам, это называется белым шумом.

6. Гетероскедастичность

Это сложное слово, но концепция на самом деле проста. Временной ряд называется гетероскедастическим, а не гомоскедастическим, если его дисперсия непостоянна и меняется со временем. В примере с авиапассажиром ясно, что изменчивость данных со временем увеличивается. Обычно это изменение дисперсии происходит одновременно с изменением среднего уровня данных — дисперсия обычно выше для более высоких средних значений. Гетероскедастичность создает проблему в процессе моделирования данных, и существуют подходы, предназначенные для решения этой проблемы. Степенные преобразования, такие как логарифмическое преобразование или, в более общем смысле, преобразования Бокса-Кокса, обычно применяются для стабилизации дисперсии. На рис. 4 показан пример применения метода Бокса-Кокса к временному ряду.

7. Регулярность и прерывистость

Временные ряды обычно собираются через равные промежутки времени, например каждый день или каждый час. Их называют регулярными временными рядами, и большинство методов временных рядов работают при условии регулярности. Однако есть много приложений, в которых временные ряды по своей сути нерегулярны. Например, стихийные бедствия (например, землетрясения) или продажи определенного розничного продукта, происходящие через нерегулярные промежутки времени.

Обычно неравномерность временных рядов устраняется интерполяцией, которая делает ряды регулярными. Например, временной ряд, относящийся к продажам продукта, может быть преобразован в количество продаж за некоторый период (например, почасовые продажи продукта). Этот процесс интерполяции может привести к разреженным или прерывистым временным рядам, в которых есть несколько наблюдений с постоянным нулем в качестве значения (например, отсутствие продаж продукта в данный час). Эта прерывистость является обычным препятствием в прогнозировании временных рядов для планирования запасов, когда некоторые продукты продаются нечасто.

8. Частота дискретизации

Частота выборки временного ряда означает регулярность, с которой он собирается, например, ежедневно или ежемесячно. Временные ряды с разными частотами влекут за собой разные проблемы. Сезонный компонент может быть труднее зафиксировать для временных рядов с более высокой частотой. Ежедневные или субдневные временные ряды часто включают в себя несколько сезонных закономерностей, которые непросто зафиксировать.

Работать с низкочастотными временными рядами проще с точки зрения сезонности. Однако могут быть и другие вопросы для рассмотрения. Наборы данных с низкой частотой обычно содержат меньший размер выборки по сравнению с наборами с более высокой частотой. Классические модели временных рядов, такие как ARIMA или экспоненциальное сглаживание, могут справиться с этой проблемой, поскольку они имеют небольшое количество параметров. Алгоритмы обучения с большим количеством параметров могут быть склонны к переобучению.

9. Рефлексивность

Временной ряд является рефлексивным, если прогнозы влияют на развитие событий. Классическим примером рефлексивного временного ряда являются данные фондового рынка. Прогнозирование роста цены акций привлекает инвесторов, что создает спрос и способствует росту цены акций. Тогда прогноз сбывается. С другой стороны, предсказание обвала рынка само по себе может вызвать обвал рынка из-за паники инвесторов. Существуют также саморазрушающиеся рефлексивные системы, в которых прогнозирование данного события делает его менее вероятным.

Рефлексивность может привести к неожиданным последствиям. Практики должны определить, как это могло возникнуть в их временных рядах, и каким-то образом включить ответ в свою систему прогнозирования.

10. Выбросы

Выбросы или аномалии – это редкие события, которые значительно отличаются от других наблюдений. Эти случаи характерны для всех типов данных, а не только для временных рядов. Тем не менее, выбросы во временных рядах представляют дополнительную проблему из-за временной зависимости между наблюдениями.

Выбросы временного ряда могут возникать только в одном случае (выброс точки) или охватывать несколько временных шагов (выброс подпоследовательности). Часто важно учитывать контекст при поиске аномалий. Например, температура 0° может быть обычным явлением зимой, но аномалией летом.

Наиболее подходящий способ борьбы с выбросами зависит от их характера. Выброс может возникнуть из-за ошибочного сбора данных или неисправности датчика. Этот тип выбросов представляет собой нежелательные данные, которые не следуют распределению, генерирующему наблюдения. Однако есть выбросы временных рядов, которые сами по себе представляют интерес. Примеры этого включают обвалы фондового рынка или обнаружение мошенничества, когда цель состоит в том, чтобы предвидеть или смягчить последствия этих редких событий.

11. Режимы и обнаружение изменений

Точка изменения, также называемая дрейфом концепции, возникает, когда меняется распределение временного ряда. Изменения могут повторяться; временной ряд может характеризоваться различными режимами или концепциями, и распределение данных меняется по этим режимам. Модели переключения режимов являются популярными подходами для решения этого типа задач.

Изменения также могут быть постоянными. Они известны как структурные разрывы. Эти изменения создают проблему для алгоритмов обучения, которые должны уметь их обнаруживать и своевременно адаптировать соответствующим образом.

Важно не путать обнаружение изменений с обнаружением выбросов. Первый связан с обнаружением изменений в режимах, управляющих временными рядами. Когда режимы меняются, соответственно меняется и распределение наблюдений. С другой стороны, выброс представляет собой наблюдение (или последовательность наблюдений), которое значительно отклоняется от типичного поведения, где типичное поведение характеризуется текущим основным режимом.

12. Размерность

Перечисленные до сих пор свойства предполагают, что базовый временной ряд представлен одним измерением, где размер обозначает количество переменных. Соответственно, такие временные ряды называются одномерными. Однако иногда временной ряд содержит дополнительные измерения и поэтому называется многомерным временным рядом. Дополнительные переменные в многомерных временных рядах можно использовать в качестве независимых переменных при моделировании конкретной целевой переменной временного ряда.

Краткое содержание

В этом посте я перечислил 12 свойств временных рядов, которые важны при построении моделей прогнозирования. От базовых компонентов, таких как тенденция или сезонность, до рефлексивности или обнаружения изменений, эти характеристики могут существенно влиять на эффективность прогностических моделей.

Дальнейшие чтения

[1] Хайндман, Роб Дж. и Джордж Атанасопулос. Прогнозирование: принципы и практика. Отексты, 2018.

[2] Петропулос, Фотиос и др. «Прогнозирование: теория и практика». Международный журнал прогнозирования (2022 г.).

[3] Чатфилд, Крис. Прогнозирование временных рядов. Чепмен и Холл/CRC, 2000.

[4] Смит, Джордж Клайн. «Закон прогнозной обратной связи». Американский статистик 18.5 (1964): 11–14.

[5] Аминихангахи, Самане и Дайан Дж. Кук. «Обзор методов обнаружения точек изменения временных рядов». Знания и информационные системы 51.2 (2017): 339–367.