Одно из первых применений моделей-трансформеров в видеоразведке.

Недавно я запустил образовательный информационный бюллетень, посвященный ИИ, у которого уже более 125 000 подписчиков. TheSequence — это информационный бюллетень, ориентированный на машинное обучение, без BS (то есть без шумихи, без новостей и т. д.), чтение которого занимает 5 минут. Цель состоит в том, чтобы держать вас в курсе проектов машинного обучения, научных работ и концепций. Пожалуйста, попробуйте, подписавшись ниже:



Трансформеры широко считаются наиболее важными разработками машинного обучения (ML) за последнее десятилетие. Уже произведя революцию в таких областях, как понимание естественного языка (NLU), и добившись значительных успехов в таких областях, как компьютерное зрение с изображениями, преобразователи быстро влияют на другие области ML. OpenAI претерпел некоторые из наиболее значительных изменений в современных архитектурах трансформеров с помощью таких методов, как GPT-3 или DALL-E 2. На прошлой неделе OpenAI опубликовала новую статью, в которой подробно описывается модель трансформера, в которой использовались немаркированные видео для освоения Minecraft. Это представляет собой одно из первых крупных применений моделей трансформаторов к видеоаналитике.

Видеоразведка — очень сложная дисциплина. Типичные контролируемые методы борются со сложными требованиями к маркировке, которые требуют не только классификации объектов, но и взаимодействия между объектами и действиями во времени. Чтобы решить некоторые из этих проблем, OpenAI выбрала полуконтролируемый подход к обучению, который они назвали предобучением видео (VPT). Для обучения Minecraft OpenAI использовал набор данных, который содержит не только видео, но и действия в виде нажатий клавиш или движений мыши. Этот набор данных используется для обучения модели обратной динамики (IDM), которая прогнозирует действия, предпринимаемые на каждом этапе видео. Прогнозы, выдаваемые IDM, используют как прошлую, так и будущую информацию. Эта задача относительно проста и требует меньше данных, чем попытка предсказать действия по набору видеокадров.

После того, как IDM был обучен, он используется для маркировки гораздо большего набора данных онлайн-видео. Затем этот набор данных используется для обучения поведенческой модели клонирования, которая способна прогнозировать действие на основе набора видеокадров.

VPT прошла обучение на 70 000 часов видео, помеченных сетью IDM. Первоначальные результаты показывают, что VPT способна выполнять задачи, которые почти невозможно выполнить с помощью методов обучения с подкреплением, которые стали стандартом глубокого обучения для игр. Например, VPT быстро учится таким действиям, как рубка деревьев для сбора бревен, превращение этих бревен в доски, а затем изготовление из этих досок верстака. Это действия, которые занимают у опытного в Minecraft человека более 50 секунд или 1000 последовательных действий. Кроме того, VPT научился выполнять сложные задачи, такие как плавание, охота на животных в поисках пищи и поедание этой пищи.

Подход с полуучителем оказывает интересное влияние на обучающие действия. Некоторые действия в VPT изучаются с помощью модели IDM, в то время как многие другие изучаются путем тонкой настройки с помощью модели поведенческого клонирования. На следующем рисунке показана последовательность заученных действий по изготовлению алмазной кирки, выполнение которой занимает около 20 минут.

Сравнение производительности VPT с методами RL показывает поразительную картину. Подходы RL едва ли обеспечивают какую-либо значимую функцию вознаграждения.

VPT демонстрирует возможности применения методов преобразования в видеоразведке. Minecraft, безусловно, представляет собой отличную начальную тестовую среду, и мы должны увидеть новые приложения в этой области.