Этот пост представляет собой краткое изложение отчета о проекте, написанном в соавторстве с Сахилом Кулкарни для курса Статистика 307 (временные ряды). Если вы хотите прочитать весь отчет о проекте и посмотреть на наш код, загляните в репозиторий на GitHub.

В этом проекте мы выдвинули гипотезу о том, что рост цен на сырьевые товары побуждает некоторых заинтересованных сторон в сельском хозяйстве Бразилии способствовать разжиганию лесных пожаров как средству расширения своего производства. Чтобы проверить эту гипотезу, мы применяем ряд методов для установления причинно-следственной связи по Грейнджеру (подробнее об этом ниже) между ценами на товары и лесными пожарами, включая F-тесты, модели векторного авторегрессора (VAR) со штрафами за разреженность и нейронную причинно-следственную связь по Грейнджеру с покомпонентный многослойный персептрон. Во всех этих различных методах мы наблюдаем сильную причинно-следственную связь по Грейнджеру между ценами на некоторые товары (в частности, на сою и мясной скот) и ежемесячным количеством лесных пожаров в определенных штатах Бразилии.

Что такое причинно-следственная связь по Грейнджеру?

Причинность по Грейнджеру — это концепция, предложенная в 1960-х годах, которую лучше всего понимать как форму «прогностической ассоциации». Я пропущу более формальное определение, чтобы дать вам представление об этой идее: мы можем сказать, что ряд случайных величин X(t) Грейнджера вызывает ряд случайных величин Y(t), если запаздывание X(t) (X (t-1), X(t-2),…) имеют возможность предсказывать Y(t) за пределами предсказуемости, содержащейся в задержках Y(t). То есть добавление лагов X(t) к лагам Y(t) улучшает предсказание Y(t). Можно использовать функцию пакета statsmodel grangercausalitytests для автоматического выполнения этого теста на ваших данных.

Причинность по Грейнджеру на самом деле не является «истинной причинностью» в том смысле, в каком мы понимаем его сегодня, основываясь на более поздней литературе, посвященной контрфактикам. Выявление того, что переменная Грейнджер вызывает другую, просто показывает, что одна переменная предшествует другой и что они имеют общую информацию.

Если причинно-следственная связь по Грейнджеру не является «истинной причинно-следственной связью», какая нам разница?

Хотя причинно-следственная связь по Грейнджеру не может сказать нам, вызывает ли одна переменная другую, она может быть полезным инструментом для интерпретации сложных моделей с несколькими взаимосвязанными переменными, что очень часто встречается при работе с данными длинных временных рядов. Более того, результаты причинно-следственного анализа по Грейнджеру можно использовать для выбора признаков или разработки признаков для прогностической модели.

Каковы предположения о причинно-следственной связи Грейнджера?

Основные допущения, лежащие в основе использования причинности Грейнджера, следующие:

  1. Нет пропущенных переменных
  2. Нет одновременных корреляций
  3. Стационарность обоих временных рядов

Предположение 1 нереалистично; несмотря на то, что мы контролируем такие факторы, как температура и осадки, неразумно предполагать, что в нашем исследовании нет пропущенных переменных, и мы учитываем это при анализе наших результатов. Предположение 2 реалистично для нашего сценария, поскольку мы считаем, что всегда существует задержка (не менее одного месяца) между изменением цен на сельскохозяйственную продукцию и возникновением пожаров. Наконец, мы можем оценить предположение 3, применяя специальные тесты, такие как ADF [3] и KPSS [4], и либо различая, либо удаляя тренд временного ряда до достижения удовлетворительного уровня значимости в обоих тестах.

Следует также быть осторожным со спецификой используемого теста причинности Грейнджера. Некоторые из них, например, из пакета statsmodel, предполагают линейность ассоциации. Однако это предположение можно ослабить, используя нелинейные тесты причинности Грейнджера (т. Е. Нейронную причинность Грейнджера).

За что налагаются штрафы за разреженность?

Штрафы, вызывающие разреженность, — это тип термина регуляризации, который можно добавить к статистической модели, чтобы стимулировать выбор меньшего количества функций в модели. Основное предположение при применении этих штрафов состоит в том, что изучаемая выходная переменная может быть описана уменьшенным числом переменных во входном пространстве. Одним из распространенных примеров такого штрафа является L1 (или LASSO). В этом проекте мы использовали обобщения LASSO для настроек VAR и MLP и экспериментировали как с силой регуляризации, так и с компромиссом между регуляризацией по функциям или по задержкам.

Что такое нейронная причинность Грейнджера?

Поскольку нейронные сети все чаще используются для анализа временных рядов, естественно распространить концепцию причинности Грейнджера на эти модели. [5] применяет концепцию нелинейной причинности Грейнджера к покомпонентным моделям: вместо совместного моделирования всех выходных данных многомерного временного ряда каждый временной ряд i получает отдельную модель g_i для каждого из остальных временных рядов j в наборе данных. Другими словами, каждая модель g_i зависит только от выходных данных одного другого временного ряда (x_j1, x_j2, …) .

Мы говорим, что временной ряд j Грейнджер вызывает временной ряд i, если модель для i не инвариантна к некоторому изменению выходных данных j.

В статье основное внимание уделяется двум типам NN: многослойному персептрону (MLP) и рекуррентной нейронной сети (RNN) и применяются различные штрафы за разреженность. Причинная связь по Грейнджеру извлекается из элементов весовой матрицы первого слоя. Обратите внимание, что матрицы весов представляют разные параметры в моделях MLP и RNN (подробности см. в исходной статье).

Результаты

Приведем основные результаты нашего анализа. Осадки, цены на сою и цены на говядину (как спотовые, так и будущие) постоянно кажутся причинно-следственными для Грейнджера в нескольких штатах в центрально-западной и северной части страны.

Обратите внимание, что BHLAGE, OHLAG, BHLAG и SEHLAG — это разные варианты штрафов за индукцию разреженности в модели VAR (подробнее в нашем отчете о проекте).

Эти результаты согласуются с другими анализами, в которых применяются другие методы, такие как регрессия с фиксированными эффектами с ежегодными лагами[1] и модель Probit с явными пространственными данными [2].

Ссылки

[1] Ассунсао, Дж., Гандур, К., и Роша, Р. (2015). Замедление вырубки лесов в бразильской Амазонии: цены или политика? Экономика окружающей среды и развития, 20 (6), 697–722.

[2] Арима, Э.Ю., Симмонс, К.С., Уокер, Р.Т. и Кокрейн, Массачусетс (2007 г.), Пожар в бразильской Амазонии: пространственно-эксплицитная модель для анализа воздействия на политику. Журнал региональной науки, 47: 541–567.

[3] Муштак, Ризван, Расширенный тест Дики-Фуллера (17 августа 2011 г.). Доступно в SSRN: https://ssrn.com/abstract=1911068 или http://dx.doi.org/10.2139/ssrn.1911068.

[4] Шин Ю. и Шмидт П. (1992). Тест на стационарность KPSS как тест на единичный корень. Economics Letters, 38(4), 387–392.

[5] Танк, А., Коверт, И., Фоти, Н., Шоджайе, А., и Фокс, Э. Б. (2021). Нейронная причинность Грейнджера. IEEE Transactions on Pattern Analysis and Machine Intelligence, 44(8), 4267–4279.