Прогнозирование временных рядов: метрики ошибок для оценки производительности модели

Введение

В Gnarum мы делаем прогнозы производства энергии на возобновляемых источниках энергии с различной мощностью и технологиями. Наша цель — разработать модели прогнозирования, которые уменьшат штрафы, вызванные отклонениями.

Какой показатель лучше всего подходит для оценки моей модели?

К сожалению, не существует абсолютно «правильной» метрики точности. Выбор правильной метрики зависит от конкретной проблемы и включает в себя ответы на такие вопросы, как:

На каком решении вы будете основывать свой прогноз?
Каковы последствия неправильного прогноза?
Кто будет проверять и отслеживать ошибки?
Нас волнует процентная ошибка или величина отклонения?
Имеет ли значение завышенный или заниженный прогноз интересующей нас переменной?

Ответы на приведенные выше вопросы привели нас к выводу, что нам нужно найти показатель, который:

Не зависит от масштаба, поэтому ошибки сопоставимы между электростанциями.
Симметричен, так как мы не хотим взвешивать отклонения по-разному в зависимости от их знака.
Выразите ошибку в абсолютном выражении, чтобы ошибка отражала реальные затраты на дисбаланс.
Ошибка, рассчитанная за разные периоды, должна быть эквивалентна агрегированному расчету за эти периоды по отдельности.

Каждая метрика ведет себя определенным образом и, следовательно, уникальным образом отражает особенности моделей. В зависимости от их свойств мы можем классифицировать метрики по нескольким категориям. Давайте посмотрим на них.

ПОКАЗАТЕЛИ ОШИБОК, ЗАВИСИМЫЕ ОТ МАСШТАБА

МАЭ

Возможно, самой популярной и простой метрикой ошибок является Mean Aабсолютная E ошибка, которая определяется как:

В то время как MAE легко интерпретируется (каждая невязка вносит пропорциональный вклад в общую сумму ошибки), можно утверждать, что использование суммы невязок — не лучший выбор, поскольку мы могли бы особенно выделить, допускает ли модель какие-то большие ошибки. .

СКО и СКО

В этих случаях лучше выбрать MSE (среднеквадратичная ошибка) или RMSE (среднеквадратичная ошибка). Здесь ошибка растет квадратично, и поэтому крайние значения в большей степени ухудшают метрику.

Основная проблема с метриками, зависящими от масштаба, заключается в том, что они не подходят для сравнения ошибок из разных источников.

В нашем случае мощность электростанций определяла бы величину погрешностей и поэтому сравнивать их между установками не имело бы особого смысла. Это то, чего мы должны стараться избегать при выборе метрики.

ПОКАЗАТЕЛИ ПРОЦЕНТНОЙ ОШИБКИ

MAPE

Наиболее распространенным является Mean Aабсолютная Pпроцентная Eошибка:

Как мы уже говорили выше, в зависимости от нашей цели MAPE может подойти или нет. С моей точки зрения, метрики процентных ошибок имеют несколько существенных недостатков. Они могут давать разные значения для двух наблюдений с одинаковой абсолютной ошибкой, в зависимости от того, имеют ли они одно и то же фактическое значение или нет:

Более того, MAPE расходится, когда фактические значения стремятся к нулю. В нашем случае это нецелесообразно, так как это может привести к крайним случаям, таким как:

Это нежелательное поведение для метрики ошибок, поскольку мы не хотим назначать огромные ошибки отклонениям, которые влекут за собой незначительные эксплуатационные расходы. Отсюда следует первый сильный вывод:

Нам нужно найти показатели ошибок, соответствующие нашим бизнес-целям.

Кроме того, в приведенном выше примере мы видим, что MAPE не является симметричным, поскольку по-разному взвешивает два остатка независимо от того, выше или ниже прогнозируемого фактического значения. Эта идея симметрии привела нас к sMAPE.

sMAPE

В попытке решить эту асимметрию была предложена альтернатива MAPE. Он называется sMAPE, что означает Симметричная средняя абсолютная ошибка в процентах:

Однако, несмотря ни на что, симметричный MAPE не является симметричным: как и MAPE, он может представлять разные значения для одного и того же абсолютного отклонения:

Для нашего варианта использования очень неудобно, что одно и то же абсолютное отклонение может быть количественно определено двумя разными значениями ошибки.

Это ключевой вопрос: мы хотим минимизировать не процентную ошибку, а минимизацию экономических потерь от отклонений прогноза, а они связаны исключительно с суммой абсолютных ошибок. Следовательно, мы должны оценивать точность на основе этих критериев.

В заключение просто упомяните, что некоторые другие предложили Log Ratio ln(Ft/At) в качестве лучшей альтернативы MAPE. Вы можете прочитать краткое описание в упомянутой выше статье sMAPE или расширенное обсуждение в оригинальной статье Криса Тофаллиса.

ПОКАЗАТЕЛИ ОШИБОК БЕЗ МАСШТАБА

Это метрики ошибок, которые были удобно нормализованы, чтобы сделать их безразмерными.

Основными преимуществами этих показателей являются:

Одни и те же абсолютные отклонения приводят к одной и той же ошибке.
Они симметричны.
Они сопоставимы между силовыми установками.
Они связаны с нашими экономическими целями.

НМАЭ

Во-первых, у нас есть NMAE, что означает нормализованную среднюю абсолютную ошибку. Этот показатель специфичен для бизнеса по прогнозированию энергетики, поскольку он нормализован мощностью C электростанции, но его можно обобщить на любую другую область при условии, что для прогнозов существует верхняя граница.

NMAE выражается в процентах. Это наш предпочтительный показатель, поскольку он действительно связан с бизнес-целями, его легко интерпретировать и сравнивать между заводами.

Кроме того, он показывает желаемое свойство:

если оба периода имеют одинаковую длину. Если нет (например, последовательные месяцы), вам нужно будет только настроить их относительную длину.

Реальная стоимость ошибки прогноза пропорциональна абсолютному значению остатков.

Единственный случай, когда эта метрика неприменима, — это всякий раз, когда понятие capacity не имеет смысла: если диапазон возможных значений не ограничен, какую нормирующую константу мне выбрать?

Это может иметь место при прогнозировании температуры или рыночных цен. В этих случаях может быть уместным использование MAE, так как единицы измерения находятся в той же шкале, что и величина (ºC или €), поэтому ошибки легко интерпретировать, хотя они не могут быть действительно сопоставимы для разных активов, рынков или местоположений.

Соотношение MAD/сумма

Я нашел другую метрику ошибок, обычно (и, насколько я знаю, ошибочно) называемую WMAE, котораядолжна означать «Средневзвешенная ошибка». Однако определение, на которое я несколько раз натыкался, было:

что в основном представляет собой MAE, нормализованную по накопленной выработке энергии. Это похоже на соотношение MAD/Mean Ratio:

С моей точки зрения и по аналогии отношения MAD/Mean Ratio первое выражение должно называться MAD/Sum Ratio. Их свойства схожи:

Их диапазон составляет [0, ∞) для неотрицательных значений, что может быть трудно интерпретировать.
Оба они показывают ту же асимметрию, что и MAPE: разные значения ошибок возникают из-за одной и той же абсолютной разницы между прогнозами и фактическими данными.
Небольшие абсолютные отклонения могут быть связаны с большими отношениями MAD/Mean или MAD/Sum, учитывая, что фактические значения малы.

По всем этим причинам мы настаиваем на идее, что они как бы отсоединены от нашей функции потерь.

МАСЭ

Есть и другие безмасштабные метрики. Одним из них является MASE (Mean Absolute Scaled Error), предложенный Робом Дж. Хайндманом:

где числитель — это ошибка в периоде прогноза, а знаменатель — это MAE одноэтапного «наивного метода прогнозирования» на обучающей выборке, то есть F(t) = A(t-1). MASE — это показатель, специально разработанный для временных рядов.

Опять же, подходит ли он для ваших нужд или нет, полностью зависит от проблемы. Хотя у него есть некоторые интересные свойства, такие как независимость от масштаба, сходимость при At→0 и симметрия, в нашем случае эта метрика не оптимальна по нескольким причинам:

Тренировочная серия должна быть завершена, т. е. без пропусков. В нашем случае иногда у нас отсутствуют некоторые данные.
MASE равно 1, когда эффективность прогноза аналогична наивному прогнозу в обучающем наборе. Это подразумевает зависимость с историческим периодом, что не всегда очень удобно: если в какой-то момент мы получим какие-то недостающие исторические значения производства, точность нашей модели внезапно изменится, что может быть неинтуитивно и трудно отследить. сквозь время.
MASE неограничен сверху.
Кажется, это неудобная метрика для нетехнических людей, таких как клиенты или заинтересованные стороны: насколько велики ожидаемые экономические потери для 1,2 MASE?

EMAE

Я нашел еще одну безмасштабную метрику ошибок в недавней статье Департамента энергетики Миланского политехнического университета.

Они назвали это EMAE (взвешенная по конверту средняя абсолютная ошибка):

Эта метрика очень похожа на отношение MAD/Sum выше, но делится на сумму максимума между прогнозом и измеренной мощностью для каждого наблюдения. Он также выражается в процентах. Эта функция показывает некоторые хорошие свойства:

Он не зависит от масштаба.
Он симметричен.
Он отображает абсолютное отклонение в одно уникальное значение.
Его легко интерпретировать, так как его диапазон составляет [0,100].
Он не расходится ни в одной точке.
Это хорошая альтернатива NMAE, так как значение capacity не требуется.

Даже больше! Эта формула также позволяет классно графически интерпретировать ошибку: числитель соответствует желтой области, тогда как знаменатель соответствует сумме синей и желтой областей:

Выводы

Не существует «наилучшего показателя» для измерения эффективности модели. Существует несколько показателей, которые подчеркивают различные характеристики.
Одним из ключевых аспектов является поиск показателей ошибок, которые связаны с нашими целями.
Поскольку в большинстве случаев реальная стоимость ошибки прогноза пропорциональна абсолютному значению остатков, выбор метрики должен соответствовать этому показателю.
В нашем случае NMAE представляет идеальные характеристики интерпретируемости, стабильности и связи с нашей функцией потерь, что делает его оптимальным выбором.
EMAE предлагается в качестве хорошей альтернативы в случаях, когда NMAE не может быть применен.