RL по экономике

экономика

Экономика — это многоагентная задача, в которой каждый агент взаимодействует с другими агентами, пытаясь максимизировать собственную полезность. Произошел взрыв применения обучения с подкреплением в экономике. Обучение с подкреплением может быть применено к различным областям проблем в экономике. Это — недавний обзор областей, в которых RL может применяться к экономике. Ниже перечислены некоторые ключевые области, в которых может применяться RL.

Моделирование динамики потребления и дохода: Агент пытается оптимизировать свое благосостояние на основе зависящего от времени потока доходов, расходов и налогообложения.
Ограниченная рациональность: Ограниченная рациональность — это идея о том, что рациональность ограничена, когда люди принимают решения: предпочтения людей определяются изменениями результатов относительно определенного эталонного уровня. Это можно смоделировать с помощью RL.
Рациональные ожидания. В экономике рациональные ожидания — это ожидания, согласующиеся с моделью, поскольку предполагается, что агенты внутри модели знают модель и в среднем считают прогнозы модели достоверными. Рациональные ожидания обеспечивают внутреннюю согласованность моделей, связанных с неопределенностью.
Многоагентная теория/теория игр. Экономические проблемы можно смоделировать как игру с несколькими агентами, в которой каждый агент пытается максимизировать свое собственное вознаграждение. Было обнаружено, что различные алгоритмы RL работают в многоагентных настройках.

Недавно был достигнут успех в применении RL к экономике. Мы рассмотрим несколько последних статей. В следующих нескольких сериях блогов мы рассмотрим следующие документы

Обучение с подкреплением: обзор

Обучение с подкреплением — это основа для последовательного принятия решений. В этой настройке агент постоянно взаимодействует с окружающей средой, выполняя действие на каждом этапе и получая вознаграждение на каждом этапе.

Цель агента — максимизировать совокупное вознаграждение.

В отличие от обучения с учителем, обучение с подкреплением не использует набор данных для обучения, а агент учится, взаимодействуя со средой методом проб и ошибок.

Основные понятия/термины в RL

Агент: это модель, которая взаимодействует с окружающей средой и учится, используя получаемое вознаграждение. Обычно аппроксимируется с помощью нейронной сети в Deep RL.
Окружающая среда: это система, в которой действует агент и которую он пытается контролировать. Среда реагирует на действия агентов и переходит в следующее состояние, а также возвращает вознаграждение агенту.
Пространство действий: это набор действий, которые может выполнять агент. Действия могут быть дискретными или непрерывными
Пространство состояний: пространство состояний — это набор состояний, описывающих Среду. Вероятность перехода описывает вероятность перехода из состояния в состояние. Вероятность этого зависит от текущего состояния и текущего действия.
Награда: это обратная связь от Среды, которая помогает агенту учиться.
Коэффициент дисконтирования. Цель агента – максимизировать совокупное вознаграждение, которое получает агент. При расчете будущих совокупных вознаграждений будущие вознаграждения дисконтируются с использованием коэффициента дисконтирования для каждого временного шага.
MDP: MDP — это марковские процессы принятия решений. MDP следуют марковскому свойству. Это означает, что текущее состояние зависит только от предыдущего состояния и предыдущего действия. MDP не нужно знать историю состояний, чтобы понять следующее состояние.

Оптимальная монетарная политика с использованием обучения с подкреплением

В этой статье делается попытка изучить политику Центрального банка (решение по процентной ставке) с помощью обучения с подкреплением. По словам авторов, это первая статья, в которой обсуждается такой подход. Более ранние подходы использовали идеи, основанные на контроле или оптимальном контроле, чтобы получить оптимальную политику центрального банка. Преимущества использования RL перед оптимальными методами управления заключаются в двух

RL может моделировать асимметричные результаты центрального банка, такие как ZLB (Нулевая нижняя граница). В более общем смысле RL может моделировать недифференцируемые функции потерь, что повышает гибкость модели.
RL не страдает от проклятия размерности, поскольку алгоритмы RL могут работать с неполной информацией о состоянии, и существуют подходы без моделей.

Основные понятия/термины

Разрыв выпуска. Разрыв выпуска — это экономическая мера разницы между фактическим выпуском экономики и ее потенциальным выпуском. Потенциальный выпуск — это максимальное количество товаров и услуг, которое может произвести экономика, когда она наиболее эффективна, то есть работает на полную мощность.
Инфляция . Инфляция обычно представляет собой широкий показатель, например общий рост цен или рост стоимости жизни в стране. Но она может быть рассчитана и более узко — для определенных товаров, таких как продукты питания, или для услуг, таких как стрижка, например.
Центральный банк. Центральный банк — это государственное учреждение, которое управляет валютой страны или группы стран и контролирует денежную массу — буквально количество денег в обращении. Основной целью многих центральных банков является ценовая стабильность.
Модели DSGE .Модели динамического стохастического общего равновесия (DSGE) используют современную макроэкономическую теорию для объяснения и прогнозирования сопутствующих движений совокупных временных рядов в течение бизнес-цикла, а также для проведения анализа политики.

Моделирование

Основная идея статьи заключается в моделировании центрального банка как агента, взаимодействующего с экономикой для стабилизации экономики. Пространство действий центрального банка — процентная ставка. Идея здесь заключается в том, что экономика реагирует на действия центральных банков по процентным ставкам и переходит в другое состояние.

Центральный банк. Центральный банк моделируется как нейронная сеть. Выбраны две модели: линейная и нелинейная. Выход ЦБ (т.е. действие) – процентная ставка
Окружающая среда/экономика:экономика — это окружающая среда. Экономика моделируется как нейронная сеть. Эта нейронная сеть обучается на исторических экономических данных, чтобы изучить модель экономики. Экономика моделируется двумя нейронными сетями: одна моделирует разрыв выпуска, другая моделирует инфляцию. Эти две функции обучаются на исторических экономических данных.

State Space: наблюдение, которое видит агент. Это лаговая версия выпуска и инфляции.
Награда:награда представляет собой сумму двух условий. Первый термин представляет собой разницу между рекомендуемой ставкой агентов и базовой учетной ставкой (это ожидаемая ставка, устанавливаемая Центральным банком). второй член - член риска, который наказывает разрыв выпуска. оба члена имеют одинаковый вес

Используемый алгоритм RL

Данные

Используются квартальные данные с третьего квартала 1987 г. по второй квартал 2007 г.
Разрыв выпуска рассчитывается как процентное отклонение фактического ВВП от его потенциального. Последнее значение – это оценки из U.S. Бюджетное управление Конгресса.
Эффективная судьба федеральных фондов используется как фактическое поведение Центрального банка.
Используемые данные не являются данными реального времени, а являются пересмотренными данными, но эти данные используются только для оценки функции перехода. Реакция ЦБ оценивается с помощью этой переходной функции.

Обсуждение моделирования

Модель окружающей среды/экономики. Экономика моделируется с использованием линейной и нелинейной нейронной сети. Модель экономики принимает лаговые версии разрыва выпуска, инфляции и процентной ставки и выводит следующее значение. Многоуровневые сети достигают большей точности при моделировании, поэтому они лучше.
Политика: это функция управления процентной ставкой, которой агент научился. Нелинейная политика лучше линейной.
Исторический контрфактический анализ. Чтобы проверить надежность изученной политики (это важный шаг для большинства подходов RL), политика тестируется на моделях DSGE, чтобы увидеть, насколько они эффективны.
Вывод: Авторы обнаружили, что агент RL может найти политику, которая значительно снижает затраты Центрального банка (нелинейная модель работает лучше).