Из-за ограниченного количества графических процессоров нам действительно сложно тренироваться с большой моделью или длинным графиком, упомянутым в документе.

Эта статья является одним из тех захватывающих исследований, которые можно практически использовать в реальном мире; другими словами, в этом документе говорится, что маскированные автоэнкодеры (MAE) являются масштабируемыми обучающимися с самоконтролем. Доказать это довольно интересно, маскируя случайные участки входных данных (здесь изображения) и восстанавливая недостающие пиксели.

Исследователи получили две умные конструкции:

  1. разработка асимметричной архитектуры кодировщик-декодер
  2. маскирование большинства входных данных создает нетривиальную и содержательную задачу самоконтроля.

Кроме того, получение обоих планов, как упоминалось выше, показывает, что мы можем эффективно и действенно обучать наши модели с помощью больших наборов данных о поездах. Это означает, что обучение ускорению ускоряется в 3 раза и более, а точность улучшается.

Этот масштабируемый подход делает его пригодным для изучения моделей с высокой пропускной способностью, которые хорошо обобщаются (это видно по результатам экспериментов).

Введение

Существует множество архитектур, которые невозможно остановить, расширяя свои возможности и возможности; кроме того, с развитием аппаратного обеспечения модели могут легко соответствовать миллионам изображений.

Это позволяет легко увидеть огромное количество данных в NLP. Ответы на этот вопрос, основанные на моделировании авторегрессионного языка в GPT и маскированном автокодировании в BERT, несложны: они удаляют процент данных и учатся предсказывать удаленный контент. Эти методы делают возможным обучение моделей NLP, включая миллиарды миллиардов параметров.

В этом документе упоминается, что идея маскированных автоэнкодеров как автоэнкодеров общего назначения с шумоподавлением может быть без проблем реализована в компьютерном зрении.

Что отличает маскированное автокодирование для зрения и языка?Чтобы ответить на этот вопрос, авторы представили следующие точки зрения:

  • В последнее десятилетие CNN считались мощной моделью CNN. Как правило, они работают на регулярных сетках, и в них непросто интегрировать индикаторы (токены-маски, позиционные встраивания и т. д.). Этот пробел больше не рассматривается из-за исследования 2021 года (Изображение стоит 16x16 слов: трансформеры для распознавания изображений в масштабе).
  • Плотность информации: язык — это рукотворный сигнал (высоко семантический и информационный). Изображения — это сигналы, которые создаются естественным образом (сильная пространственная избыточность). Чтобы справиться с этим несходством, авторы покажут простую стратегию, превосходящую компьютерное зрение: маскирование большинства путей.
  • Декодер автоэнкодера (который отображает скрытое представление обратно на вход) действует по-разному для изображений и текста. В зрении: пиксели перестраиваются (поэтому выходные данные имеют более низкий семантический уровень). Напротив, в языке модель предсказывает недостающие слова, которые содержат богатую семантическую информацию.

Предлагаемый в этом исследовании MAE (Masked AutoEncoder):

  1. маскирует случайные участки входного изображения
  2. восстанавливает недостающие патчи в пространстве пикселей

Существует асимметричный кодировщик-декодер, в котором кодировщик работает только с видимым подмножеством исправлений (без маркера маски). Декодер восстанавливает ввод из скрытого представления вместе с токенами маски.

Вычисление можно уменьшить, переместив маркеры маски на малый декодер. Следовательно, мы можем достичь высокого коэффициента маскирования (например, 75%) и, следовательно, мы можем оптимизировать точность и, тем временем, обучать модель на меньшинстве патчей (например, 25%). Кроме того, время предобучения может быть уменьшено в 3 раза и более (также может быть уменьшено потребление памяти).

Связанных с работой

Моделирование маскированного языка ( + аналоги, такие как BERT, GPT и т. д.)

  • Это успешные модели, которые использовались для предварительного обучения в НЛП. Они подают последовательные входные данные для прогнозирования отсутствующего содержимого. Кроме того, они также масштабируемы.

Автокодирование

  • Этот классический метод включает две основные части: кодировщик (который сопоставляет ввод со скрытым представлением) и декодер (перестраивает ввод). Некоторые примеры: PCA, K-средних, DAE (шумоподавитель AutoEncoder) и т. д.

Методы кодирования маскированного изображения

  • Они изучают представления по изображениям.

Самостоятельное обучение

  • Здесь инженеры часто концентрируются на различных текстовых задачах для предварительного обучения, таких как сопоставительное обучение; Это моделирует сходство и несходство изображений между двумя или более представлениями. Они тесно связаны с аугментацией данных.

Подход

Предложенный в этом исследовании MAE не сложен; простой автокодировщик, который использует частичное наблюдение (входное изображение не является полным), а затем выясняет, что изображение полное (см. рис. 1). Этот автокодировщик почти похож на другие предыдущие (классические) автокодировщики, за исключением своей асимметричной архитектуры, которая отличается от других. Такой дизайн позволяет модели не обучаться на всех пикселях изображения.

Маскировка

Исследователи разделили изображение на регулярные неперекрывающиеся фрагменты, затем отобрали подмножество фрагментов и замаскировали остальные (например, удалили). Стратегия (случайная выборка), используемая в этом исследовании, является прямой: случайная выборка исправлений (без замены), следуя однородному распределения (что позволяет избежать потенциального смещения по центру).

Результат высокого коэффициента маскирования (коэффициента удаления пятен) значительно стирает множество, тем самым создавая задачу, которую нельзя просто решить путем экстраполяции по видимым соседним пятнам (см. рис. 2–4).

Кодер MAE

Кодировщиком здесь является ViT(Vision Transformer), и он просто применяется к видимым немаскированным участкам. Кодировщик в этом исследовании встраивает исправления, используя более компактную проекциюс позиционными вложениями, а затем управляет результирующий набор из серии блоков-трансформеров. Кстати, в этом исследовании кодировщик работал только с 25% всех данных. В связи с этим были устранены замаскированные исправления, не используется токен make, который позволяет нам обучать очень большие кодировщики, используя лишь небольшой процент большого набора данных.

Декодер MAE

На вход декодера поступает полный набор токенов, включая (i) закодированные видимые патчи. Маркер маски можно описать как общий наклонный вектор, который отображает существование отсутствующего исправления, которое необходимо предсказать. Благодаря добавлению позиционных вложенийк токенам, токены маски будут иметь информацию о своем местоположении (месторасположение) на изображении.

  • Декодериспользуется только во время предварительной подготовки для выполнения реконструкции изображения, а кодировщикиспользуется только для создания изображений для распознавания.

Цель реконструкции

Выход декодера — это вектор значений пикселей, представляющих патч, а последний слой декодера — это линейная проекция. Используемая функция потерь — это MSE (среднеквадратичная ошибка) между реконструированными и исходными изображениями. в пространстве пикселей.

Простая реализация

Внедрение предварительного обучения MAE довольно просто. Для этого выполните следующие шаги:

  1. Создатьмаркер для каждого патча (как? с помощью линейной проекции с добавленным позиционным встраиванием)
  2. Перемешайтесписок токенов случайным образом, затем удалитепоследнюю часть списка. (на основе коэффициента маскировки)
  • Этот процесс создает небольшое подмножество токенов (выборка исправлений без замены).

3. После кодирования список токенов маски добавляется к списку закодированных патчей, и не перетасовывает этот полный список (инвертируя операцию случайного перемешивания), чтобы он совпадал с их целями.

  • Никаких конкретных задач не требуется (например, разреженные операции). Это ускоряет нашу работу.

Эксперименты ImageNet

Авторы провели предварительное обучение с самоконтролем на ImageNet-1K (IN1K), чтобы оценить представления с помощью сквозной тонкой настройки. strong>или линейное зондирование.

Исходный уровень: ViT-Large (модель Vision Transformer (ViT), предварительно обученная на ImageNet-21k (14 млн изображений, 21 843 класса) с разрешением 224 x 224 и настроенная на ImageNet 2012 (1 млн изображений, 1000 классов) при разрешении 384x384) используется как корешок.

Основные свойства

Коэффициент маскирования:

Мы можем понять влиятельную роль коэффициента маскирования из рис. 5. Коэффициент 75% как для точной настройки, так и для линейного зондирования является хорошим (на противоположной стороне BERT, где коэффициент маскирования составляет 15%).

Из рис. 5, мы можем сделать вывод, что результаты линейного зондирования и точной настройки следуют разным тенденциям. Для тонкой настройки это больше похоже на перевернутую букву U, которая менее чувствительна к соотношению, а для линейного зондирования точность постепенно повышается до наилучшего процента.

Дизайн декодера

мы можем разработать гибкую структуру декодера.

(a) Достаточно глубокий декодер — это серьезно для линейного зондирования. Мы можем проиллюстрировать это как пустое пространство между задачей реконструкции пикселей и задачей распознавания: эти последние слои в автоэнкодере более специализированы для реконструкции, но более не важны для распознавания. Подходящий глубокий декодер может вычислить специализацию реконструкции, оставив скрытые представления на более абстрактном уровне.

(b)Ширина декодера – это количество каналов. Авторы использовали 512-d, который хорошо работал при тонкой настройке и линейном зондировании. Менее широкий (более узкий) декодер также может хорошо работать с плавной настройкой.

Жетон маски

Ключевым моментом в разработке MAE является пропуск маркера маски в кодировщике, а затем применение его в облегченном декодере. Этот пропуск значительно снизил затраты на обучение. Общее количество FLOP сократилось в 3,3 раза (c).

Ускорение времени настенных часов больше, чем у блока (меньший декодер), ViT-H (большой кодировщик) или у них обоих.

Цель реконструкции

Для сравнения использовались различные конструкции. Результаты представлены в пикселях без нормализации. Это улучшает контрастность локально.

Увеличение данных

Здесь мы можем понять влияние дополнения данныхна модель. Исследователи использовали только обрезку в обоих состояниях: фиксированный или случайный размер.

Выборка маски

Вот результат сравнения разных стратегий выборки по маске. Простая случайная выборка лучше для MAE; Он обеспечивает более высокий коэффициент маскирования (что обеспечивает значительное ускорение с хорошей точностью).

Заключение

Вычислительные затраты являются важным фактором в задачах NLP и Computer Vision. Несложные модели, которые масштабируются, являются основным вниманием инженеров и ученых. В НЛП простые алгоритмы обучения с самоконтролем извлекают выгоду из моделей с экспоненциальным масштабированием. В Computer Vision практические образцы перед обучением тщательно контролируются.

В этом исследовании исследователи предложили обходной путь для удаления исправлений случайным образом (неудаление объектов), который наиболее вероятнонеформировать семантический сегмент. Кроме того, предлагаемый MAE перестраивает пиксели (которые не являются семантическими объектами). Этот инициативный метод полезен и практичен в реальных задачах компьютерного зрения, особенно для тяжелых задач с сложностью. Благодаря устранению случайных исправлений модели требуется меньше энергии и меньше входных данных для предварительного обучения.

Использованная литература:

  1. Хе, К. и др., Маскированные автокодировщики — это масштабируемые устройства для обучения зрению. Препринт arXiv arXiv:2111.06377, 2021.

Обратите внимание, что этот пост для моего вероятного исследования в будущем, чтобы оглянуться назад и просмотреть материалы по этой теме, не читая бумагу полностью. Все источники изображений, используемые в этой статье, являются оригинальной бумагой.

Если будут обнаружены какие-либо ошибки, пожалуйста, дайте мне знать. А пока вы можете связаться со мной в Twitter здесь или LinkedIn здесь. Наконец, если у вас есть какие-либо идеи, я открыт для обсуждения, единственное, что вам нужно, это просто написать мне в LinkedIn или twitter. 🙂