В серии статей «Гуманное объяснение» я стремлюсь объяснить технические термины (и/или жаргонизмы), руководствуясь четырьмя золотыми правилами письма: ясность, простота, краткость. , и человечность — сосредоточившись на последнем (и не в последнюю очередь).

Воспроизведение ретроспективного опыта (HER)[1]: подумайте о том, чтобы потренироваться выполнять пенальти в футболе. Вы стремитесь поразить верхний левый угол сетки, поворачивая ногу для удара, положение тела, технику удара и т. д. В ваших тренировочных бросках есть один специфический поворот, который вместо этого заставляет мяч лететь в правый угол. В другой раз вы замечаете, что под определенными углами мяч остается на земле, а не на той высоте, которую вы ищете. Вы принимаете к сведению эти ракурсы и приемы и сосредотачиваетесь на том, чтобы избегать их для достижения своей текущей цели (стрелять в верхний левый угол). После того, как вы достигли определенного уровня точности и мастерства для достижения своей текущей цели, ваш тренер подходит и просит вас попробовать на этот раз нижний правый угол. Вы сразу вспоминаете, что определенные углы стопы заставляют мяч лететь в правый угол, а некоторые другие заставляют мяч оставаться на земле. Вы объединяете это ретроспективное знание с уже приобретенным навыком получения высоты, чтобы попасть в верхнюю часть стойки (например, ударить по мячу в нижней точке), и вы знаете, что не хотите попасть в мяч ниже теперь с вашей новой целью (пытаясь держать выстрел на земле). Опираясь на эти ретроспективные знания, вы беретесь за новую цель (стрелять в правый нижний угол) и, к своему (и тренерскому) удивлению, осваиваете эту новую цель. цель за значительно более короткое время, чем ваша предыдущая тренировка цели! Существует значительный рост эффективностипо сравнению с необходимостью изучать новую цель с нуля — скажем, вы вернулись на следующей неделе с очищенной памятью о прошлом.

В этом суть ЕЕ. Учитесь на неудачных попытках или на результатах, перемещая стойку ворот (без каламбура). Вместо того, чтобы отбрасывать опыт неудачного результата, вы переписываете опыт как успешный результат для измененной цели.

Идея не великолепна?! Я считаю, что у НЕЕ есть потрясающая иллюстрация изобретения мощных идей путем простого переформулирования вывода наблюдения — просто прекрасно!

Я цитирую соответствующую/соответствующую техническую часть из бумаги [1] ниже:

«Основная идея нашего подхода состоит в том, чтобы пересмотреть эту траекторию с другой целью — хотя эта траектория может и не помочь нам узнать, как достичь состояния g, она определенно говорит нам кое-что о том, как достичь состояния sT. Эта информация может быть собрана с помощью алгоритма RL вне политики и воспроизведения, когда мы заменяем g в буфере воспроизведения на sT . Кроме того, мы все еще можем воспроизвести исходную цель g, оставив ее нетронутой в буфере воспроизведения».

Тесно связанный производный метод в языковой (текстовой) области (метод перемаркировки траектории для языковых инструкций) — это перемаркировка инструкций задним числом (HIR), предложенная в [2]. Хотя я объясню это в другом посте (чтобы дискуссия была сфокусирована), заинтересованным/чрезмерно усердным читателям рекомендуется ознакомиться с этим в [2].

Ссылка:

  1. Марцин Андрыхович, Филип Вольский, Алекс Рэй, Йонас Шнайдер, Рэйчел Фонг, Питер Велиндер, Боб МакГрю, Джош Тобин, OpenAI Питер Эббил и Войцех Заремба. Воспроизведение ретроспективы. Достижения в области нейронных систем обработки информации, страницы 5048–5058, 2017 г. [arxiv]
  2. Цзян, Идин и др. Язык как абстракция для иерархического глубокого обучения с подкреплением. препринт arXiv arXiv:1906.07343 (2019) [arxiv].