Было так много путаницы между MDP и RL и их отношениями с новичками в области ИИ. В простом смысле обучение с подкреплением (RL) и марковские процессы принятия решений (MDP) являются тесно связанными концепциями, а MDP обеспечивают формальную математическую основу, которая лежит в основе большей части теории и практики RL.

Обучение с подкреплением — это наука о принятии решений. Речь идет об обучении оптимальному поведению в окружающей среде для получения максимального вознаграждения. MDP дает нам возможность формализовать последовательное принятие решений. Эта формализация является основой структурирования задач, которые решаются с помощью обучения с подкреплением.

В MDP у нас есть лицо, принимающее решения, называемое агентом, которое взаимодействует со средой, в которой оно находится, как это показано на рисунке выше. Эти взаимодействия происходят последовательно во времени. На каждом временном этапе агент будет получать некоторое представление о состоянии среды. Учитывая это представление, агент выбирает действие, которое необходимо предпринять. Затем среда переводится в новое состояние, и агент получает вознаграждение как следствие предыдущего действия. Давайте теперь обсудим компоненты RL, используемые в MDP:

  1. Агенты (A):агенты являются центральным понятием в области RL. Агент RL — это автономная сущность или вычислительная система, которая взаимодействует со средой для обучения и принятия решений для достижения конкретных целей или максимизации совокупного вознаграждения. Эти агенты могут быть реализованы в различных областях: от робототехники до игр и систем рекомендаций. Например, агентом может быть игрок в игре, мотивом которого является победа в игре или получение максимального вознаграждения.
  2. Среда (E):Среда — это четко определенная и структурированная система, с которой агент RL взаимодействует с течением времени. Он представляет мир или область, в которой действия агента имеют последствия, и предоставляет агенту обратную связь на основе этих действий.
  3. Состояния (S). Среда имеет набор возможных состояний, которые представляют различные ситуации, конфигурации или условия, в которых она может находиться. Состояния предоставляют информацию о текущем контексте среды.
  4. Действия (A): среда определяет набор допустимых действий, которые может предпринять агент RL. Действия — это решения, принимаемые агентом с целью повлиять на состояние окружающей среды.
  5. Награды (R): после каждого действия среда предоставляет агенту RL числовой сигнал, называемый вознаграждением. Награда указывает на немедленную желательность или качество предпринятого действия. Целью агента часто является максимизация совокупного вознаграждения с течением времени.
  6. Условие завершения.Некоторые задачи RL имеют определенное условие завершения, которое определяет, когда заканчивается эпизод (последовательность взаимодействий). Это может быть основано на достижении определенного состояния, определенного количества временных шагов или других критериев.
  7. Наблюдения. Агент может иметь доступ к наблюдениям за средой, которые являются частичным или полным описанием текущего состояния. Наблюдения не всегда могут дать полное представление об окружающей среде, но используются агентом для принятия решений.

Здесь этот процесс выбора действия из данного состояния, перехода в новое состояние и получения вознаграждения происходит последовательно снова и снова, что создает нечто, называемое траекторией, которая показывает последовательность состояний, действий и вознаграждений. На протяжении всего этого процесса целью агента является максимизация общей суммы вознаграждений, которые он получает от выполнения действий в заданных состояниях. Это означает, что агент хочет максимизировать не только немедленное вознаграждение, но и кумулятивное вознаграждение, которое он получает с течением времени.

Цель агента — максимизировать награды во время его пребывания в среде.

MDP в математическом виде

Давайте попробуем получить правильное математическое понимание того, что мы только что поняли о марковском процессе принятия решений.

Пусть S = { s1, s2, …, sN } — конечное множество Состояний, которые представляют различные ситуации и конфигурации окружающей среды.

A={a1,a2,…, aN​} — конечный набор Действий, которые агент может предпринять, чтобы повлиять на окружающую среду. Действия представляют собой решения, принимаемые агентом.

Вероятности перехода из одного состояния в другое при выполнении определенного действия. Это часто представляется функциями вероятности переходаT(s, a,s ′ ), которые дают вероятность перехода из состояния s в состояние s' при выполнении действия A.

Наградыполучаются агентом после выполнения определенного действия в определенном состоянии. Обычно оно представляется функцией вознаграждения R(s, a,s ), которая присваивает числовое значение каждой тройке состояние-действие-состояние.

Теперь нам нужно определить политику ( π), которая представляет собой стратегию или отображение, определяющее поведение агента. Он определяет, какое действие следует предпринять в каждом состоянии. Политика может быть стохастической (распределение вероятностей по действиям) или детерминированной (одно действие для каждого состояния). Математически π — это функция, которая сопоставляет состояния действиям: π: S→A.

Марковская собственность:

Свойство Маркова в MDP подразумевает, что будущее состояние и вознаграждение зависят только от текущего состояния и действия, а не от всей истории состояний и действий, ведущих к текущему состоянию. Формально это свойство выражается как:

P ( s(t + 1)​, r(t+1)​ | s(t)​, a(t)​, s(t−1​), a(t−1​),…, s(0)​, a(0)​) = P ( s(t+1)​, r(t+1)​ | s(t)​, a(t) ​)

Цель MDP:

Цель MDP обычно состоит в том, чтобы найти политику π*, которая максимизирует ожидаемое совокупное вознаграждение с течением времени. Это часто выражается как ожидаемая доходность:

t=0
∑ Y^t R(s(t), a(t), s(t+1) )
∞

где Y — коэффициент дисконтирования, который ценит немедленное вознаграждение выше, чем будущее вознаграждение. Цель состоит в том, чтобы найти π*, которое максимизирует ожидаемую доходность, также называемую оптимальной политикой.

Таким образом, марковский процесс принятия решений обеспечивает формальную основу для моделирования последовательных задач принятия решений, включающих состояния, действия, вероятности перехода, вознаграждения и политики (Обучение с подкреплением). Он широко используется в различных областях, включая искусственный интеллект, исследования операций, экономику и робототехнику, для моделирования и решения задач принятия решений в условиях неопределенности.