В последнее время появилось много моделей глубокого обучения, дающих удивительно отличные результаты в мультимодальных задачах преобразования текста в изображение. Производительность DALL-E, GLIDE, Imagen и различных других моделей, хотя и имеют разные подходы к этой проблеме, но все они зависят от одного фактора: насколько хорошо текстовая модель способна создавать представления входной подсказки.

И это не ограничивается только моделями генерации текста в изображение, но и всеми теми моделями, которые включают создание композиционных представлений из примитивов. Рассмотрим настройку обучения с нулевым выстрелом, в которой задача состоит в том, чтобы предсказать невидимые пары объект-атрибут (раздавленный конверт, красное вино и т. д.) во время вывода без обучения модели на всех парах объект-атрибут. Для таких задач необходимо, чтобы сеть представления могла научиться правильно представлять примитивы (объект и атрибут) и их состав (соединение: объект-атрибут) в скрытом пространстве.

Композиционность может быть простой задачей для людей, но сложной для моделей глубокого обучения, управляемых данными. Это активно исследуемая область машинного обучения, и в этом блоге я хотел бы подробно остановиться на одной из работ по композиционному обучению: Модульные сети, управляемые задачами, для композиционного обучения с нулевым выстрелом.

В документе описывается интересный метод нулевой классификации пар объект-атрибут с использованием модульных сетей (настройка, близкая к метаобучению), чьи входные данные обусловлены шлюзовой сетью, зависящей от пары объект-атрибут. Прежде чем углубляться, давайте пройдемся по важной терминологии.

  1. Gating network: Интуитивно это означает сеть, которая будет определять, какой вес должен быть присвоен каждому выходу из множества модульных сетей. Такие сети также используются в настройке Смешанные эксперты (MoE), где сеть шлюза (или маршрутизации) определяет, какие экспертные модели выбрать для конкретных входных данных.
  2. ConceptDrop: не очень общий термин, но авторы статьи назвали его процессом случайного удаления некоторых негативных атрибутов (скоро станет ясно) в каждую эпоху, чтобы иметь эффект регуляризации. .

А теперь хватай свое снаряжение и вперед…

Ниже приведена архитектура модели:

Таким образом, основная идея этого метода состоит в том, чтобы обучить вентильную сеть и модульные сети (за которыми в конечном итоге следует линейный слой для преобразования в скаляр) на функциях изображения и парах объект-атрибут. Давайте правильно определим нашу проблему:

Обучение:

Во время обучения модели ввод осуществляется так, как описано на рисунке выше, но с небольшой долей скептицизма, чтобы избежать чрезмерных вычислений, для аппроксимации коэффициента нормализации вероятности выбирается случайная выборка атрибута объекта.

Изображение кодируется в функциональное пространство с использованием магистрали ResNet, которая замораживается на протяжении всего процесса обучения. Затем функции передаются в первый слой модульных сетей (все они имеют одинаковый вход) без какого-либо вмешательства сети стробирования.

Для последующих слоев вход определяется выходами предыдущего слоя из каждой модульной сети, а веса определяются вентильной сетью. Математически,

где верхние индексы - это верхние индексы слоя, нижние индексы предназначены для индексации в этом конкретном слое, k->j представляют вес для вывода k ^-й модульной сети в (i-1) ^-м слое для j ^-й модульной сети в i ^-м слое.

Gating network:Gating netowrk – это многоуровневая нейронная сеть, которая принимает конкатенированные вложения атрибутов объектов (предварительно обученные встраивания перчаток) и выводит все веса селекторов.

Сеть извлечения признаков:сеть извлечения признаков имеет много слоев, и каждый слой снова имеет много модулей (авторы использовали 24 модуля 16-мерных входных и выходных векторов). Выходные данные последних слоев объединяются и проходят через линейный слой для вывода скаляра. Softmax применяется к скалярам, ​​полученным для всех пар атрибутов объекта, соответствующих изображению.

После получения оценок перекрестная потеря энтропии минимизируется с помощью метода оптимизации ADAM.

Вывод:

Во время вывода, чтобы классифицировать входное изображение в одну из пар объект-атрибут, обсуждавшаяся выше оценка вычисляется для каждой пары объект-атрибут, независимо от того, было ли оно видимым или невидимым во время обучения. Невидимые категории могут получить низкий балл, поскольку они не присутствовали во время обучения, и для решения этой проблемы к окончательному баллу таких категорий добавляется погрешность (также называемая погрешностью калибровки).

В зависимости от смещения видимая и невидимая точность могут различаться. Более высокое смещение приведет к большей точности для невидимых категорий, а более низкое смещение предпочтет видимые категории.

Композиционный анализ

Чтобы проанализировать, способна ли обученная модель эффективно представлять состав, авторы построили двумерный график t-SNE (двухмерная проекция многомерных векторов) выходных данных стробирующей сети (то есть всех весов). . Ожидается, что входные пары объект-атрибут, которые визуально похожи, будут ближе на графике, если модель хорошо изучила композиционное представление.

В статье также сравниваются его результаты с некоторыми предыдущими работами. Метод RedWine составляет веса классификатора SVM примитивных сетей для создания классификатора композиций примитивной сети. Пожалуйста, обратитесь к этой статье для более подробной информации.

Это все, что я хотел вам рассказать по этой теме, надеюсь, вы нашли ее полезной. Аригато Годзаимасу!