экономика
Экономика — это многоагентная задача, в которой каждый агент взаимодействует с другими агентами, пытаясь максимизировать собственную полезность. Произошел взрыв применения обучения с подкреплением в экономике. Обучение с подкреплением может быть применено к различным областям проблем в экономике. Это — недавний обзор областей, в которых RL может применяться к экономике. Ниже перечислены некоторые ключевые области, в которых может применяться RL.
- Моделирование динамики потребления и дохода: Агент пытается оптимизировать свое благосостояние на основе зависящего от времени потока доходов, расходов и налогообложения.
- Ограниченная рациональность: Ограниченная рациональность — это идея о том, что рациональность ограничена, когда люди принимают решения: предпочтения людей определяются изменениями результатов относительно определенного эталонного уровня. Это можно смоделировать с помощью RL.
- Рациональные ожидания. В экономике рациональные ожидания — это ожидания, согласующиеся с моделью, поскольку предполагается, что агенты внутри модели знают модель и в среднем считают прогнозы модели достоверными. Рациональные ожидания обеспечивают внутреннюю согласованность моделей, связанных с неопределенностью.
- Многоагентная теория/теория игр. Экономические проблемы можно смоделировать как игру с несколькими агентами, в которой каждый агент пытается максимизировать свое собственное вознаграждение. Было обнаружено, что различные алгоритмы RL работают в многоагентных настройках.
Недавно был достигнут успех в применении RL к экономике. Мы рассмотрим несколько последних статей. В следующих нескольких сериях блогов мы рассмотрим следующие документы
- Оптимальная монетарная политика с использованием обучения с подкреплением
- Оценка функций политики в платежных системах с помощью обучения с подкреплением
- Рекомендация по политике обучения с подкреплением для стабильности межбанковской сети
- Экономист ИИ: повышение равенства и производительности с помощью налоговой политики на основе ИИ
- Экономист с искусственным интеллектом: разработка оптимальной экономической политики с помощью двухуровневого глубокого обучения с подкреплением
- Анализ моделей общего равновесия на микрооснове со многими агентами с использованием глубокого обучения с подкреплением
- Решение неоднородных экономических моделей общего равновесия с помощью глубокого обучения с подкреплением
- Глубокое обучение с подкреплением в денежной модели
Обучение с подкреплением: обзор
Обучение с подкреплением — это основа для последовательного принятия решений. В этой настройке агент постоянно взаимодействует с окружающей средой, выполняя действие на каждом этапе и получая вознаграждение на каждом этапе.
Цель агента — максимизировать совокупное вознаграждение.
В отличие от обучения с учителем, обучение с подкреплением не использует набор данных для обучения, а агент учится, взаимодействуя со средой методом проб и ошибок.
Основные понятия/термины в RL
- Агент: это модель, которая взаимодействует с окружающей средой и учится, используя получаемое вознаграждение. Обычно аппроксимируется с помощью нейронной сети в Deep RL.
- Окружающая среда: это система, в которой действует агент и которую он пытается контролировать. Среда реагирует на действия агентов и переходит в следующее состояние, а также возвращает вознаграждение агенту.
- Пространство действий: это набор действий, которые может выполнять агент. Действия могут быть дискретными или непрерывными
- Пространство состояний: пространство состояний — это набор состояний, описывающих Среду. Вероятность перехода описывает вероятность перехода из состояния в состояние. Вероятность этого зависит от текущего состояния и текущего действия.
- Награда: это обратная связь от Среды, которая помогает агенту учиться.
- Коэффициент дисконтирования. Цель агента – максимизировать совокупное вознаграждение, которое получает агент. При расчете будущих совокупных вознаграждений будущие вознаграждения дисконтируются с использованием коэффициента дисконтирования для каждого временного шага.
- MDP: MDP — это марковские процессы принятия решений. MDP следуют марковскому свойству. Это означает, что текущее состояние зависит только от предыдущего состояния и предыдущего действия. MDP не нужно знать историю состояний, чтобы понять следующее состояние.
Оптимальная монетарная политика с использованием обучения с подкреплением
В этой статье делается попытка изучить политику Центрального банка (решение по процентной ставке) с помощью обучения с подкреплением. По словам авторов, это первая статья, в которой обсуждается такой подход. Более ранние подходы использовали идеи, основанные на контроле или оптимальном контроле, чтобы получить оптимальную политику центрального банка. Преимущества использования RL перед оптимальными методами управления заключаются в двух
- RL может моделировать асимметричные результаты центрального банка, такие как ZLB (Нулевая нижняя граница). В более общем смысле RL может моделировать недифференцируемые функции потерь, что повышает гибкость модели.
- RL не страдает от проклятия размерности, поскольку алгоритмы RL могут работать с неполной информацией о состоянии, и существуют подходы без моделей.
Основные понятия/термины
- Разрыв выпуска. Разрыв выпуска — это экономическая мера разницы между фактическим выпуском экономики и ее потенциальным выпуском. Потенциальный выпуск — это максимальное количество товаров и услуг, которое может произвести экономика, когда она наиболее эффективна, то есть работает на полную мощность.
- Инфляция . Инфляция обычно представляет собой широкий показатель, например общий рост цен или рост стоимости жизни в стране. Но она может быть рассчитана и более узко — для определенных товаров, таких как продукты питания, или для услуг, таких как стрижка, например.
- Центральный банк. Центральный банк — это государственное учреждение, которое управляет валютой страны или группы стран и контролирует денежную массу — буквально количество денег в обращении. Основной целью многих центральных банков является ценовая стабильность.
- Модели DSGE .Модели динамического стохастического общего равновесия (DSGE) используют современную макроэкономическую теорию для объяснения и прогнозирования сопутствующих движений совокупных временных рядов в течение бизнес-цикла, а также для проведения анализа политики.
Моделирование
Основная идея статьи заключается в моделировании центрального банка как агента, взаимодействующего с экономикой для стабилизации экономики. Пространство действий центрального банка — процентная ставка. Идея здесь заключается в том, что экономика реагирует на действия центральных банков по процентным ставкам и переходит в другое состояние.
- Центральный банк. Центральный банк моделируется как нейронная сеть. Выбраны две модели: линейная и нелинейная. Выход ЦБ (т.е. действие) – процентная ставка
- Окружающая среда/экономика:экономика — это окружающая среда. Экономика моделируется как нейронная сеть. Эта нейронная сеть обучается на исторических экономических данных, чтобы изучить модель экономики. Экономика моделируется двумя нейронными сетями: одна моделирует разрыв выпуска, другая моделирует инфляцию. Эти две функции обучаются на исторических экономических данных.
- State Space: наблюдение, которое видит агент. Это лаговая версия выпуска и инфляции.
- Награда:награда представляет собой сумму двух условий. Первый термин представляет собой разницу между рекомендуемой ставкой агентов и базовой учетной ставкой (это ожидаемая ставка, устанавливаемая Центральным банком). второй член - член риска, который наказывает разрыв выпуска. оба члена имеют одинаковый вес
- Используемый алгоритм RL
Данные
- Используются квартальные данные с третьего квартала 1987 г. по второй квартал 2007 г.
- Разрыв выпуска рассчитывается как процентное отклонение фактического ВВП от его потенциального. Последнее значение – это оценки из U.S. Бюджетное управление Конгресса.
- Эффективная судьба федеральных фондов используется как фактическое поведение Центрального банка.
- Используемые данные не являются данными реального времени, а являются пересмотренными данными, но эти данные используются только для оценки функции перехода. Реакция ЦБ оценивается с помощью этой переходной функции.
Обсуждение моделирования
- Модель окружающей среды/экономики. Экономика моделируется с использованием линейной и нелинейной нейронной сети. Модель экономики принимает лаговые версии разрыва выпуска, инфляции и процентной ставки и выводит следующее значение. Многоуровневые сети достигают большей точности при моделировании, поэтому они лучше.
- Политика: это функция управления процентной ставкой, которой агент научился. Нелинейная политика лучше линейной.
- Исторический контрфактический анализ. Чтобы проверить надежность изученной политики (это важный шаг для большинства подходов RL), политика тестируется на моделях DSGE, чтобы увидеть, насколько они эффективны.
- Вывод: Авторы обнаружили, что агент RL может найти политику, которая значительно снижает затраты Центрального банка (нелинейная модель работает лучше).
Ссылки
- https://www.imf.org/external/pubs/ft/fandd/basics/30-inflation.htm
- https://www.imf.org/external/pubs/ft/fandd/2013/09/basics.htm
- https://www.imf.org/en/About/Factsheets/Sheets/2016/08/01/16/20/Monetary-Policy-and-Central-Banking
- https://www.sciencedirect.com/topics/economics-econometrics-and-finance/dsge-model
- https://stable-baselines.readthedocs.io/en/master/modules/ddpg.html
- значки указаны: https://www.flaticon.com/free-icons/growth, https://www.flaticon.com/free-icons/stock-market, https://www.flaticon. com/free-icons/результат
- https://en.wikipedia.org/wiki/Ограниченная_рациональность
- https://en.wikipedia.org/wiki/Rational_expectations