Самый большой многоязычный набор данных классификации изображений и текста и контрольный показатель.

🙌 Практическая встреча Colab и запись 2023–02–09 здесь

Мультимодальность и многоязычность в машинном обучении

Мультимодальные модели могут быть высококонкурентными при выполнении нескольких задач и становятся все более популярными. Например, модель COCA – это новейшее решение ImageNet 2022 года. Обычно мультимодальные модели превосходят одномодальные модели в мультимодальных наборах данных. Например, CMA-CLIP превосходит модели с одной модальностью в FashionGen.

Многоязычные модели становятся все более популярными в исследованиях и промышленности. Например, многоязычный BERT, XML-R, многоязычный T5. Многоязычное предварительное обучение помогает с языками с низким уровнем ресурсов. Кроме того, машинный перевод не может полностью заменить текст, созданный человеком, и поэтому нам нужны многоязычные опубликованные наборы данных.

Большие общедоступные многоязычные и мультимодальные наборы данных, которые сочетают в себе оба эти аспекта, очень важны для воспроизводимых исследований, поэтому мы представляем многоязычный мультимодальный набор данных GLAMI-1M.

Набор данных ГЛАМИ-1М

GLAMI-1M содержит 1,1 миллиона предметов одежды, 968 тысяч уникальных изображений и 1 миллион уникальных текстов. Он содержит 13 языков, в основном европейских. И 191 детальная категория, например, у нас есть 15 типов обуви. Он содержит высококачественные аннотации от профессиональных кураторов, а также представляет собой сложную проблему производственной отрасли.

Каждый образец содержит изображение, код страны, название на соответствующем языке, описание, целевую категорию и источник ярлыка, который может быть нескольких типов, он может быть человеческим или основанным на правилах, но большинство образцов являются человеческими ярлыками.

Самая распространенная категория — мужские футболки и майки, вторая по распространенности — женские топы, майки и футболки, затем мужские кроссовки, женские кроссовки и другие категории. Наименее распространенная категория — мужские резиновые сапоги, мужские серьги и майки для мальчиков. Распределение по категориям является длинным хвостом и соответствует приблизительно экспоненциальному распределению.

Сравнение с другими наборами данных

GLAMI-1M — это крупнейший многоязычный набор данных для классификации текстов изображений. Это второй по величине набор данных для классификации текстов изображений. Он уступает Recipe1M+, который содержит только английский язык, только один язык. Recipe1M+ содержит 13 миллионов изображений, тогда как GLAMI-1M содержит 968 000 изображений. Однако, в отличие от Recipe 1M, GLAMI 1M имеет 75 % обучающего набора и 100 % тестового набора, помеченных человеком. Таким образом, вопреки Recipe1M+, у нас больше языков и больше человеческих ярлыков.

В домене моды это самый большой набор данных с точки зрения предметов. Также у ГЛАМИ-1М самая мелкозернистая категория, 191 против 121 у FashionGen. Например, у нас 15 видов обуви. У нас также больше всего языков, значительно больше, чем в любом другом наборе данных в области моды. Например, вторым по величине является FACAD, который имеет только один язык и 993 тыс. изображений при всего 130 тыс. элементов.

По сравнению с наборами данных веб-масштаба, наш набор данных меньше, но содержит метки человеческой классификации. Например, LAION-5B содержит 5 миллиардов изображений и текстов, поэтому представляет собой гораздо больший набор данных. Однако в отличие от GLAMI-1M он не содержит меток классификации человека.

Базовые модели на ГЛАМИ-1М

Вместе с набором данных мы также предоставляем базовые модели. Мы публикуем базовые показатели для классификации изображений и текста с использованием архитектуры EmbraceNet и модели нулевого CLIP. Мы также все предоставляем базовый уровень для преобразования текста в изображение на основе архитектуры модели распространения, подобной Imagen.

Мы также установили контрольный показатель для классификации изображений и текста в документах с кодом. Мы также публикуем наши эксперименты с машинным переводом на ГЛАМИ-1М в дополнительном материале.

Базовая линия классификации GLAMI-1M EmbraceNet использует архитектуру EmbraceNet, которая имеет стыковочный уровень, к которому можно подключить несколько модальностей. Здесь мы вводим многоязычные встраивания T5 и ResNext встраивания. Наилучшие результаты мы получим, если будем использовать как текст, так и изображение. В этой настройке метки обучающего набора, не относящиеся к человеку, не вносят значительного вклада в эффективность классификации. Эффективное использование нечеловеческих ярлыков может стать интересной областью будущих исследований. Поскольку точность Top-1 EmbraceNet составляет всего 69%, эта классификация представляет собой сложную задачу. Интересно, что классификация Top-5 с точностью 94% в основном решается этой моделью.

Кроме того, мы предоставляем нулевой базовый уровень классификации CLIP, который также лучше всего работает при использовании как многоязычного встраивания текста, так и изображений, достигая точности 42%.

Генерация многоязычного преобразования текста в изображение на ГЛАМИ-1М

GLAMI-1M также можно использовать в качестве набора данных для многоязычного преобразования текста в изображение. Для этого мы публикуем базовую модель, которую можно обучить и использовать для прогнозирования на одном графическом процессоре. Это многоязычная модель каскадной диффузии с текстовой обработкой, которая создает изображения размером 128 пикселей. Он использует многоязычные вложения текста T5 и две модели U-Net в последовательности. Например, здесь на изображении мы видим сгенерированные изображения со словом «кроссовки», переведенным на все 13 языков набора данных. Мы видим, что все образцы представляют собой обувь, но не все из них кроссовки.

ГЛАМИ-1М ТЛ;ДР

В заключение, ГЛАМИ-1М является крупнейшим многоязычным набором данных и эталоном классификации изображений и текстов. Его цель — ускорить исследования в многоязычных и мультимодальных областях. Его можно рассматривать как многоязычную альтернативу Recipe1M+ и как большую альтернативу FashionGen. Он представляет собой сложный тест классификации изображений и текста. А также может использоваться для многоязычного преобразования текста в изображение. Будущая работа может быть связана с изучением длинных хвостов, адаптацией к предыдущей смене, обучением на основе сочетания доверенных людей и шумных аннотаций, основанных на правилах.

Есть вопросы? Чтобы загрузить документ или набор данных или связаться с нами, посетите наш репозиторий glami-1m на Github. Загрузите и начните использовать набор данных прямо сейчас в своих исследованиях и превзойдите наш базовый уровень с помощью собственной модели или используйте набор данных по-новому.

ГЛАМИ-1М Авторы

Авторами статьи GLAMI-1M являются Вацлав Косар, Антонин Хосковец, Милан Шульц и Радек Бартизал. Финансирующими учреждениями являются GLAMI, Rossum, Чешский технический университет, факультет естественных наук и ядерной техники. Этот документ был опубликован на British Machine Vision Conference 2022 (BMVC).

Автор сообщения: Вацлав Косарь