Как следует из названия, «нулевой выстрел» не интуитивно понятен даже по стандартам машинного обучения. Однако это не делает его менее увлекательным, особенно если учесть, что по сравнению с простыми классификаторами обучение с нулевым выстрелом больше приближается к человеческому пониманию.

Традиционно классификационные метки рассматривались просто как идентификаторы — Категория А и Категория Б. На этапе обучения классификаторам давали определенное количество образцов А и сопоставимое количество образцов В. Например, в классическом тексте Дуды по распознаванию образов авторы решают проблему классификации рыбы как лосося или морского окуня, извлекая такие признаки, как длина и цвет, из размеченного обучающего набора и строя границу решения в признаках. пространство — например, после анализа некоторых обучающих выборок классификатор может решить (упрощенно), что все рыбы серого цвета и длиной более 20 см должны быть отнесены к лососевым. Эта проблема неявно предполагает, что классификатор ничего не знает о лососе и морском окуне, кроме помеченных образцов, используемых для обучения. В реальном мире это явно не так — можно знать, что зебры выглядят как полосатые лошади, даже если вы никогда не видели зебру (или ее изображение). Техника нулевого выстрела учитывает такое вспомогательное знание; конечно, определения слов и описания категорий находятся в свободном доступе в Интернете.

Таким образом, нулевая классификация в основном опирается на «понимание меток» — использование семантической информации, содержащейся в именах меток, для расширения совокупности классифицируемых данных без необходимости обучающих данных для каждого класса. Естественный вывод из этого подхода, очевидно, состоит в том, чтобы вообще не использовать обучающие данные и классифицировать исключительно на основе значения меток — действительно, обучение с нулевым выстрелом также называется классификацией без данных.

Таким образом, хотя ожидается, что все классификаторы будут достаточно обобщать, чтобы назначать новые образцы классам, которые они уже наблюдали во время обучения, нулевые классификаторы могут назначать новые образцы ненаблюдаемым классам. классы (для которых при обучении не встречались образцы).

На практике обучение с нулевым выстрелом чаще всего связано с классификацией изображений. Как осуществляется классификация изображений без данных? Ранние нулевые подходы до 2010 года основывались на извлечении атрибутов из изображений — таких характеристик, как форма и цвет, во многом как предложено в тексте Дуды — и сопоставлении этих атрибутов с известными классами. Другими словами, атрибуты входного изображения были извлечены, и класс изображения был выбран как класс с наиболее похожими атрибутами. В 2013 году Модель глубокого визуально-семантического встраивания (DeViSE) была одной из первых крупномасштабных попыток явного отображения изображений в пространство семантического встраивания — эффективного объединения текстовых и графических данных. Это основа современного подхода к обучению с нулевым выстрелом: семантически способные модели кодируют метки классов в том же векторном пространстве, что и набор данных. В таких моделях векторное представление изображения лосося пространственно близко к векторному представлению текстовой метки лосось. Это сводит проблему классификации к простому поиску подобия.

В 2016 году Facebook AI Research предприняла дальнейшие шаги к объединению видения и языка, используя понятие визуальные n-граммы. Сегодня трансформеры GPT-2 и GPT-3, а также знаковая модель OpenAI CLIP представляют собой передовые достижения в этой области.

Влияние обучения с нуля на практические задачи классификации невозможно переоценить. Традиционно модели обучались на аннотированных вручную наборах данных, создание которых обходится дорого: для набора данных ImageNet требовалось более 25 000 рабочих для аннотирования 14 миллионов изображений для 22 000 категорий объектов. Традиционная модель, обученная с помощью ImageNet, может точно относить невидимые изображения к одной из 1000 категорий ImageNet, но не может быть расширена для включения новой категории без точной настройки. Напротив, современная модель нулевого выстрела, такая как CLIP, может классифицировать изображения на лету с помощью назначенных пользователем меток — с уровнем точности, сравнимым с полностью контролируемыми моделями.

В Quilt.AI мы используем нулевое обучение и другие методы машинного обучения, чтобы раскрыть культурное значение интернет-данных. Свяжитесь с нами по адресу [email protected] для получения дополнительной информации!