экономика

Экономика — это многоагентная задача, в которой каждый агент взаимодействует с другими агентами, пытаясь максимизировать собственную полезность. Произошел взрыв применения обучения с подкреплением в экономике. Обучение с подкреплением может быть применено к различным областям проблем в экономике. Это — недавний обзор областей, в которых RL может применяться к экономике. Ниже перечислены некоторые ключевые области, в которых может применяться RL.

  • Моделирование динамики потребления и дохода: Агент пытается оптимизировать свое благосостояние на основе зависящего от времени потока доходов, расходов и налогообложения.
  • Ограниченная рациональность: Ограниченная рациональность — это идея о том, что рациональность ограничена, когда люди принимают решения: предпочтения людей определяются изменениями результатов относительно определенного эталонного уровня. Это можно смоделировать с помощью RL.
  • Рациональные ожидания. В экономике рациональные ожидания — это ожидания, согласующиеся с моделью, поскольку предполагается, что агенты внутри модели знают модель и в среднем считают прогнозы модели достоверными. Рациональные ожидания обеспечивают внутреннюю согласованность моделей, связанных с неопределенностью.
  • Многоагентная теория/теория игр. Экономические проблемы можно смоделировать как игру с несколькими агентами, в которой каждый агент пытается максимизировать свое собственное вознаграждение. Было обнаружено, что различные алгоритмы RL работают в многоагентных настройках.

Недавно был достигнут успех в применении RL к экономике. Мы рассмотрим несколько последних статей. В следующих нескольких сериях блогов мы рассмотрим следующие документы

Обучение с подкреплением: обзор

Обучение с подкреплением — это основа для последовательного принятия решений. В этой настройке агент постоянно взаимодействует с окружающей средой, выполняя действие на каждом этапе и получая вознаграждение на каждом этапе.

Цель агента — максимизировать совокупное вознаграждение.

В отличие от обучения с учителем, обучение с подкреплением не использует набор данных для обучения, а агент учится, взаимодействуя со средой методом проб и ошибок.

Основные понятия/термины в RL

  • Агент: это модель, которая взаимодействует с окружающей средой и учится, используя получаемое вознаграждение. Обычно аппроксимируется с помощью нейронной сети в Deep RL.
  • Окружающая среда: это система, в которой действует агент и которую он пытается контролировать. Среда реагирует на действия агентов и переходит в следующее состояние, а также возвращает вознаграждение агенту.
  • Пространство действий: это набор действий, которые может выполнять агент. Действия могут быть дискретными или непрерывными
  • Пространство состояний: пространство состояний — это набор состояний, описывающих Среду. Вероятность перехода описывает вероятность перехода из состояния в состояние. Вероятность этого зависит от текущего состояния и текущего действия.
  • Награда: это обратная связь от Среды, которая помогает агенту учиться.
  • Коэффициент дисконтирования. Цель агента – максимизировать совокупное вознаграждение, которое получает агент. При расчете будущих совокупных вознаграждений будущие вознаграждения дисконтируются с использованием коэффициента дисконтирования для каждого временного шага.
  • MDP: MDP — это марковские процессы принятия решений. MDP следуют марковскому свойству. Это означает, что текущее состояние зависит только от предыдущего состояния и предыдущего действия. MDP не нужно знать историю состояний, чтобы понять следующее состояние.

Оптимальная монетарная политика с использованием обучения с подкреплением

В этой статье делается попытка изучить политику Центрального банка (решение по процентной ставке) с помощью обучения с подкреплением. По словам авторов, это первая статья, в которой обсуждается такой подход. Более ранние подходы использовали идеи, основанные на контроле или оптимальном контроле, чтобы получить оптимальную политику центрального банка. Преимущества использования RL перед оптимальными методами управления заключаются в двух

  • RL может моделировать асимметричные результаты центрального банка, такие как ZLB (Нулевая нижняя граница). В более общем смысле RL может моделировать недифференцируемые функции потерь, что повышает гибкость модели.
  • RL не страдает от проклятия размерности, поскольку алгоритмы RL могут работать с неполной информацией о состоянии, и существуют подходы без моделей.

Основные понятия/термины

  • Разрыв выпуска. Разрыв выпуска — это экономическая мера разницы между фактическим выпуском экономики и ее потенциальным выпуском. Потенциальный выпуск — это максимальное количество товаров и услуг, которое может произвести экономика, когда она наиболее эффективна, то есть работает на полную мощность.
  • Инфляция . Инфляция обычно представляет собой широкий показатель, например общий рост цен или рост стоимости жизни в стране. Но она может быть рассчитана и более узко — для определенных товаров, таких как продукты питания, или для услуг, таких как стрижка, например.
  • Центральный банк. Центральный банк — это государственное учреждение, которое управляет валютой страны или группы стран и контролирует денежную массу — буквально количество денег в обращении. Основной целью многих центральных банков является ценовая стабильность.
  • Модели DSGE .Модели динамического стохастического общего равновесия (DSGE) используют современную макроэкономическую теорию для объяснения и прогнозирования сопутствующих движений совокупных временных рядов в течение бизнес-цикла, а также для проведения анализа политики.

Моделирование

Основная идея статьи заключается в моделировании центрального банка как агента, взаимодействующего с экономикой для стабилизации экономики. Пространство действий центрального банка — процентная ставка. Идея здесь заключается в том, что экономика реагирует на действия центральных банков по процентным ставкам и переходит в другое состояние.

  • Центральный банк. Центральный банк моделируется как нейронная сеть. Выбраны две модели: линейная и нелинейная. Выход ЦБ (т.е. действие) – процентная ставка
  • Окружающая среда/экономика:экономика — это окружающая среда. Экономика моделируется как нейронная сеть. Эта нейронная сеть обучается на исторических экономических данных, чтобы изучить модель экономики. Экономика моделируется двумя нейронными сетями: одна моделирует разрыв выпуска, другая моделирует инфляцию. Эти две функции обучаются на исторических экономических данных.

  • State Space: наблюдение, которое видит агент. Это лаговая версия выпуска и инфляции.
  • Награда:награда представляет собой сумму двух условий. Первый термин представляет собой разницу между рекомендуемой ставкой агентов и базовой учетной ставкой (это ожидаемая ставка, устанавливаемая Центральным банком). второй член - член риска, который наказывает разрыв выпуска. оба члена имеют одинаковый вес

  • Используемый алгоритм RL

Данные

  • Используются квартальные данные с третьего квартала 1987 г. по второй квартал 2007 г.
  • Разрыв выпуска рассчитывается как процентное отклонение фактического ВВП от его потенциального. Последнее значение – это оценки из U.S. Бюджетное управление Конгресса.
  • Эффективная судьба федеральных фондов используется как фактическое поведение Центрального банка.
  • Используемые данные не являются данными реального времени, а являются пересмотренными данными, но эти данные используются только для оценки функции перехода. Реакция ЦБ оценивается с помощью этой переходной функции.

Обсуждение моделирования

  • Модель окружающей среды/экономики. Экономика моделируется с использованием линейной и нелинейной нейронной сети. Модель экономики принимает лаговые версии разрыва выпуска, инфляции и процентной ставки и выводит следующее значение. Многоуровневые сети достигают большей точности при моделировании, поэтому они лучше.
  • Политика: это функция управления процентной ставкой, которой агент научился. Нелинейная политика лучше линейной.
  • Исторический контрфактический анализ. Чтобы проверить надежность изученной политики (это важный шаг для большинства подходов RL), политика тестируется на моделях DSGE, чтобы увидеть, насколько они эффективны.
  • Вывод: Авторы обнаружили, что агент RL может найти политику, которая значительно снижает затраты Центрального банка (нелинейная модель работает лучше).

Ссылки