Фредерик Пахде, Тассило Кляйн и Мойн Наби (ML Research, Берлин)

В последние годы методы глубокого обучения достигли замечательных результатов в области компьютерного зрения, постоянно раздвигая границы возможного. Эти достижения можно объяснить улучшениями алгоритмов и архитектуры модели, а также увеличением вычислительной мощности и растущей доступностью больших данных. Однако предположение о больших данных для обучения, которое является ключевым для приложений глубокого обучения, не всегда реалистично. В частности, на предприятиях или в здравоохранении маркировка образцов часто бывает очень дорогой или даже невозможной. Чтобы построить мощные модели в этих проблемных ситуациях, были разработаны алгоритмы обучения с несколькими выстрелами, которые оказались многообещающим инструментом в сценариях с небольшими данными.

А пока давайте рассмотрим простой пример: категоризация птиц по фотографиям. Хотя мы ожидаем, что у обычных видов птиц будут легко доступны обучающие изображения с разных ракурсов, будут редкие виды, для которых существует лишь несколько изображений. Если мы планируем разработать классификатор изображений птиц, учитывая дисбаланс в обучающей выборке, мы получим сценарий обучения за несколько шагов. В крайних случаях, когда доступно только одно изображение, мы называем это проблемой однократного обучения.

Возвращаясь к обучению за несколько шагов, проблема заключается в том, что ограниченные наблюдения приводят к резким изменениям в поведении модели, которые не могут быть легко и плавно расширены для новых классов. Причина этой трудности в том, что для глубокого обучения эти резкие сдвиги происходят в общем огромном пространстве параметров. Однако для успешного обучения обычно необходим хороший баланс между набором параметров и размером набора данных. Использование стандартных методов оптимизации в сценарии с несколькими выстрелами будет иметь нежелательную тенденцию к чрезмерному совпадению данных. Чтобы избежать этой ловушки, модель должна быть принудительно обобщена за пределы нескольких доступных обучающих примеров, что далеко не так просто и требует сложной стратегии.

Подходы и тенденции

В общем, есть две основные концепции для решения проблемы обучения за несколько шагов: подходы на уровне данных и на уровне параметров.

Подход на уровне данных

Подход на уровне данных прост и интуитивно понятен. Если доступных экземпляров недостаточно, чтобы соответствовать параметрам модели без недостаточного или избыточного соответствия данных, необходимо больше экземпляров. Один из способов добиться этого - использовать большой пул внешних данных из различных источников (Douze et al., 2017). Проще говоря, если цель состоит в том, чтобы создать классификатор для разных видов птиц с несколькими помеченными объектами для каждой категории, может быть полезно использовать другие источники данных, содержащие изображения птиц. В этой ситуации могут быть полезны даже немаркированные экземпляры, поскольку они могут использоваться для изучения общей концепции птиц в целом. Кроме того, немаркированные изображения могут быть включены частично под контролем. Это требует использования метрики расстояния, чтобы найти подходящие немаркированные изображения, которые имеют сходство с помеченными изображениями. После этого может быть выполнено распространение меток, и немаркированные изображения могут быть вставлены в обучающий набор, что в конечном итоге приведет к увеличению корпуса.

Помимо использования внешних источников данных, еще одним подходом к обучению с минимальными затратами на уровне данных является создание новых данных. Первым простым шагом может быть выполнение увеличения данных, которое является распространенным методом, используемым в области компьютерного зрения. Этот метод влечет за собой определенные операции, такие как поворот или добавление случайного шума к содержимому изображения.

Альтернативой этому подходу является относительно недавняя технология под названием генеративные состязательные сети (GAN) для генерации изображений, которая позволяет моделировать еще более сложные. Вернемся к примеру с птицами, чтобы сделать его более наглядным. Если наш примерный набор данных содержит только фронтальные изображения вымерших видов птиц, то GAN можно использовать для создания совершенно новых экземпляров одной и той же птицы, показывающих ее с разных точек зрения, даже не видя ее. Эта удивительная возможность передачи становится возможной тогда и только тогда, когда сеть в достаточной степени подвергается многовидовым изображениям других видов птиц (Mehrotra et al., 2017), следовательно, фиксируется достаточное количество вариаций.

Подход на уровне параметров

Это контрастирует с подходом на уровне параметров, который решает проблему обучения с несколькими выстрелами, сталкиваясь с проблемой многомерного пространства параметров, которое слишком велико с учетом небольшого количества обучающих данных. Чтобы избежать переобучения, пространство параметров может быть ограничено. Это стандартная стратегия машинного обучения, которая решается с помощью регуляризации или разумного выбора функции потерь. Тем не менее, член регуляризации или функция потерь могут быть адаптированы к настройке обучения с несколькими выстрелами (Yoo et al., 2017), так что модель вынуждена хорошо обобщать даже для небольшого количества обучающих выборок. Другая стратегия - улучшить модель, направляя алгоритм оптимизации в пространство больших параметров. Стандартные алгоритмы оптимизации, такие как стохастический градиентный спуск (SGD), требуют множества итераций до сходимости, что не будет хорошо работать в многомерном пространстве параметров при небольшом количестве обучающих выборок. В этом случае логично научить алгоритм выбирать более разумный способ в пространстве параметров для более быстрой сходимости. Эта стратегия широко известна как мета-обучение. Следуя этому понятию, можно обучить модель учителя на большом количестве данных, которая учится улавливать пространство параметров. Затем, когда фактический классификатор (ученик) обучается, модель учителя направляет ученика по многообразию параметров на этапе обучения для достижения хороших результатов, как показали исследователи из Twitter (Ravi & Larochelle, 2017).

Сочетание лучшего из обоих: гибридные подходы

Хотя существует гораздо больше подходов для решения описанной проблемы обучения с несколькими выстрелами, наиболее известные концепции используют уровень данных или уровень параметров. Вдобавок к этому можно найти некоторые работы по гибридным подходам, которые объединяют обе концепции, например, работу из Facebook (Hariharan & Girshick, 2017). Эти новые подходы обеспечивают явное преимущество, поскольку обе точки зрения могут использоваться для устранения дисбаланса между пространством параметров и размером набора данных. Поэтому наша исследовательская группа по машинному обучению SAP планирует развить идею гибридных подходов при изучении новых алгоритмов обучения с несколькими выстрелами.

Фредерик Пахде, магистр наук. Студент Берлинского университета Гумбольдта расскажет о проблемах, обсуждаемых в этом посте, в своей диссертации.