Одна из постоянных проблем в сообществе исследователей искусственного интеллекта - это разработка систем, которые могут изучать полезные представления без каких-либо человеческих аннотаций. В то время как подходы к обучению неконтролируемому представлению на основе изображений в значительной степени основывались на методах увеличения данных, видео могут обеспечивать собственное естественное увеличение визуального контента при изменении факторов, таких как движение, деформация, окклюзия и освещение. Таким образом, неконтролируемое обучение в видео все чаще исследуется с использованием дополнительных модальностей, таких как оптический поток, аудио и текст, для передачи супервизии из одного метода в другой.

Исследовательская группа из Facebook AI недавно опубликовала крупномасштабное исследование неконтролируемого обучения пространственно-временной репрезентации из видео с целью сравнить различные мета-методологии на основе общих оснований. Имея единую точку зрения на четыре текущих фреймворка на основе изображений (MoCo, SimCLR, BYOL, SwAV), команда определяет простую цель, которая, по их словам, может легко обобщить все эти методологии на пространство-время.

Исследователи выделяют пять ключевых компонентов своего исследования:

  1. Четыре структуры неконтролируемого обучения (MoCo, SimCLR, BYOL, SwAV), рассматриваемые с единой точки зрения и объединенные с простой целью временной устойчивости.
  2. Три набора данных для предварительного обучения, включая относительно хорошо контролируемую кинетику и относительно «живые» наборы Instagram в миллионном масштабе.
  3. Шесть последующих наборов данных / задач для оценки качества представления.
  4. Эксперименты по абляции с различными факторами, такими как временные выборки, контрастирующая цель, кодировщики импульса, продолжительность обучения, магистрали, увеличение данных, отобранные или необработанные, обрезанные или неотрезанные и т. Д.
  5. Современные результаты обучения воспроизведению видео без учителя на установленных тестах UCF-101, HMDB51 и Kinetics-400.

Четыре задействованные структуры на основе изображений для изучения представлений изображений преследуют одну и ту же цель: изучение инвариантных функций в различных представлениях (обрезка / увеличение) входного пространственного изображения. Идея, лежащая в основе работы, состоит в том, чтобы расширить этот пространственный подход на временную область и обучить пространственно-временной кодировщик, который генерирует вложения, устойчивые в пространстве-времени для нескольких удаленных во времени клипов одного и того же видео.

В частности, платформа SimCLR использует вложения клипов из других видео в своем мини-пакете как негативы, в то время как MoCo использует явный импульсный кодировщик для вычисления позитивных вложений из клипов того же видео и негативных вложений, полученных из очереди, в которой хранятся вложения клипов из предыдущих итераций. BYOL похож на MoCo, но не использует отрицательные пробы и добавляет дополнительный многослойный предиктор, а SwAV аналогичен SimCLR, но не использует отрицательные пробы.

Команда реализовала эти методы с симметричными потерями, когда каждый входной клип используется для создания потерь. Для MoCo и BYOL симметричные потери суммируются последовательно, тогда как для SimCLR и SwAV общие потери оцениваются параллельно для всех клипов.

Исследователи выполнили неконтролируемое предварительное обучение на Kinetics-400 (K400) с ∼240 тыс. Обучающих видео по 400 категориям действий человека и измерили точность классификации (%) первого уровня (%) на проверочном наборе K400 и точность точной настройки на UCF101, AVA, Charades, Something- Something и наборы данных HMDB51. В качестве архитектуры по умолчанию они выбрали сверточную нейронную сеть ResNet-50.

Результаты экспериментов по временному увеличению показали, что точность возрастает с увеличением количества временных отсчетов на видео. Например, лучшая точность была достигнута с BYOL при 68,9% K400 и 93,8% UCF101, когда количество временных выборок достигло четырех (максимальное количество в экспериментах). Исследователи сообщают о двух важных выводах: изучение пространственно-временного постоянства в видео является ключевым для методов, а обучение постоянству в видео - нет; и существует явная разница между методами, в которых используются датчики импульса (MoCo, BYOL), и методами, которые не используют (SimCLR, SwAV).

Команда провела дополнительные эксперименты, такие как тестирование увеличения данных, тестирование увеличения цвета и сравнение архитектур магистрали; и сравнил эффективность всех четырех методологий на неконтролируемых данных. Результаты продемонстрировали, что выборка положительных результатов с более длинными интервалами времени полезна, контрастные цели менее важны, чем импульсные кодеры, и что продолжительность обучения, магистрали, увеличение количества видео и курирование имеют решающее значение для хорошей производительности.

Статья Крупномасштабное исследование неконтролируемого обучения пространственно-временным представлениям находится на arXiv.

Автор: Геката Хе | Редактор: Майкл Саразен

Мы знаем, что вы не хотите пропустить какие-либо новости или научные открытия. Подпишитесь на нашу популярную рассылку Synced Global AI Weekly, чтобы получать еженедельные обновления AI.