Трансферное обучение

Машинное обучение (ML) включает в себя анализ данных и позволяет системе совершенствоваться и учиться на собственном опыте без необходимости постоянного программирования. Постоянно возникало множество подходов к машинному обучению. Обучение под наблюдением стало революционным подходом, который получил широкое распространение во многих отраслях. Однако некоторые ограничения обучения с учителем можно преодолеть с появлением различных других подходов.

Переносное обучение – это метод, находящийся в стадии исследования в области машинного обучения, который сохраняет знания, полученные при решении одной задачи, и использует их для решения других, но связанных с решаемой задачей задач. Другими словами, он инициализирует модель, используя в качестве эталона вес другой модели. Поскольку для обучения модели требуется больше вычислительной мощности, времени и данных, Transfer Learning помогает уменьшить их, повышая точность обучения. Целевой учащийся учится на модели, которая уже изначально обучена с использованием сохраненных знаний.

На рис. 1 показана основная работа трансферного обучения. Это верно и в повседневной деятельности человека; применяется концепция трансферного обучения, что является мотивом появления этой концепции. Люди могут передавать знания в различных областях. Точно так же Transfer Learning получает знания из связанной области, исходной области, чтобы улучшить производительность или минимизировать потребность в помеченных данных в целевой области.

В реальном мире человек, который умеет кататься на велосипеде, может научиться ездить на мотоцикле, а тот, кто умеет играть на скрипке, может научиться играть на пианино быстрее, чем тот, кто этого не делает, поскольку они обладают общими характеристиками, оба музыкальны. инструменты. Нет необходимости, чтобы трансферное обучение всегда имело положительный результат с новыми данными. Если общие характеристики между доменами незначительны, передача знаний из исходного домена целевому учащемуся будет бесполезна. Например, если кто-то умеет играть на фортепиано, это не поможет ему быстро научиться ездить на велосипеде. Упомянутый выше сценарий известен как отрицательный перенос. Отрицательный перенос может произойти из-за различий в исходном и целевом доменах или из-за неспособности учащегося выделить полезные фрагменты знаний из разных доменов.

Трансферное обучение имеет две широкие категории, основанные на различиях в предметных областях. Однородное трансферное обучение подходит для ситуаций, когда домены имеют одинаковое пространство функций. В случае однородного трансферного обучения существует лишь незначительная разница в доменах. Различия в домене можно исправить, исправив ковариатные сдвиги или систематическую ошибку выборки. Такая коррекция возможна только в некоторых случаях. Примером, когда это может быть не очень полезно, является классификация настроений, поскольку одно слово может означать разное в зависимости от ситуации. Упомянутая выше ситуация известна как смещение признаков контекста, которое можно решить с помощью условных распределений. Гетерогенное трансферное обучение – это процесс передачи знаний, который обрабатывает ситуации с областями разных пространств признаков. Наряду с адаптацией распределения также требуется адаптация функционального пространства, которую очень сложно реализовать по сравнению с однородным трансферным обучением.

Существует связь между трансферным обучением и задачами машинного обучения.

Обучение с частичным учителем – это задача машинного обучения. Это метод, который находится между контролируемым и неконтролируемым обучением. Обучение с учителем состоит из полностью помеченных экземпляров, а обучение без учителя не состоит из помеченных экземпляров. Полууправляемое обучение снижает затраты на маркировку, поскольку снижает зависимость от помеченных экземпляров. Полууправляемое обучение извлекает как помеченные, так и немаркированные экземпляры из одного и того же распределения. Трансферное обучение отличается от полуконтролируемого обучения тем, что исходная и целевая области различаются. Однако трансферное обучение использует несколько концепций полуконтролируемого обучения. Предположения в полуконтролируемом обучении, такие как кластер, гладкость и многообразие, также используются в трансферном обучении.

Обучение с несколькими представлениямирешает проблемы машинного обучения с данными с несколькими представлениями. Представление — это отдельный набор функций. Примером Multiview Learning является видеообъект с двумя точками обзора, сигналом изображения и аудиосигналом, что приводит к большому объему информации. Производительность учащегося повышается, если вся информация рассматривается со всех точек зрения. Методы с несколькими представлениями используют несколько стратегий, таких как многоядерное обучение, подпространственное обучение и совместное обучение, которые также используются при трансферном обучении.

Многозадачное обучение учитывает взаимосвязь между задачами, принимая во внимание релевантность и различия между задачами, повышая степень обобщения задач. Многозадачное обучение передает знания в связанных областях, тогда как трансферное обучение передает знания, одновременно выполняя задачи, связанные с обучением. Многозадачное обучение фокусируется на всех задачах, тогда как трансферное обучение больше фокусируется на целевых задачах, чем на исходных задачах. Тем не менее, у них мало общего, поскольку оба нацелены на повышение успеваемости учащихся путем передачи знаний. Они используют схожие стратегии построения моделей, такие как совместное использование параметров и преобразование признаков.

На рис. 2 показана классификация трансферного обучения на основе многих критериев. Из рисунка видно, что проблемы переноса обучения бывают трех типов для категоризации на основе установки меток. Трансдуктивное трансферное обучение решает проблемы, когда информация о метках получается только из исходного домена. Индуктивное трансферное обучение, напротив, имеет дело с проблемами, когда присутствует информация о метках экземпляров целевого домена. Неконтролируемое трансферное обучение связано с проблемами, когда информация о метках неизвестна как в исходном, так и в целевом доменах.
На рисунке показаны два типа трансферного обучения для Space-Setting. -Основанная категоризация. Эта категоризация основана на согласованности между пространствами признаков и пространствами меток между исходным и целевым доменами.
В случае гомогенного трансферного обучения исходный и целевой домен представляют пространственные объекты с одинаковыми атрибутами и метками, и пространство имеет одинаковую размерность. В гетерогенном трансферном обучении пространства признаков исходного и целевого доменов не равны и не перекрываются. Атрибуты и метки как исходной, так и целевой областей в гетерогенном трансферном обучении различны, и размеры также могут различаться.

Решения по трансферному обучению можно разделить на четыре основных типа. Подход, основанный на экземплярах, связан со стратегией взвешивания экземпляров. Он включает в себя повторное взвешивание выборок в исходном домене для исправления различий в предельном распределении. Эти повторно взвешенные экземпляры используются при обучении целевой области. Подход, основанный на функциях, преобразует фактические функции для создания новых представлений функций. Подходы, основанные на признаках, имеют две основные подкатегории — асимметричные и симметричные. Асимметричные подходы преобразуют функции исходного домена в соответствие с функциями целевого домена. Напротив, симметричные подходы находят общее скрытое пространство функций и преобразуют исходные и целевые функции в совершенно новое представление функций. Подходы, основанные на параметрах, передают знания на уровне модели или параметра. Подходы к реляционному трансферному обучению сосредоточены на проблемах в реляционных областях.

Подходы к трансфертному обучению интерпретируются как с точки зрения данных, так и с точки зрения модели.

Подход к обучению с передачей данных на основе данных выполняет передачу знаний путем корректировки и преобразования данных, как показано на рис. 3.

Стратегия взвешивания экземпляров

Рассмотрим сценарий с множеством помеченных экземпляров исходного домена и ограниченным количеством экземпляров целевого домена; обе области различаются маргинальными распределениями. Возьмем пример построения модели для диагностики сахарного диабета в конкретном регионе, где преобладают пожилые люди. Количество экземпляров целевого домена ограничено, и данные доступны из другого региона, где большинство составляют молодые люди. Перенос данных напрямую из одного региона в другой может оказаться невозможным из-за незначительных различий в распределении, а пожилые люди имеют более высокий риск развития диабета по сравнению с более молодыми людьми. В таком сценарии служат маргинальные распределения. Веса присваиваются экземплярам исходного домена в функции потерь, чтобы уменьшить предельную разницу в распределении.

Вес домена

Он включает в себя присвоение весов каждому исходному домену, чтобы уменьшить условные различия на основе предположения о гладкости. Основная идея, стоящая за этим, заключается в разработке механизма для уменьшения веса экземпляров в исходном домене, которые негативно влияют на производительность целевого обучаемого.
Больше внимания уделяется экземплярам с неправильной классификацией. Комбинация результирующих слабых классификаторов приводит к сильному классификатору.

Стратегия преобразования функций

Рассмотрим пример задачи междоменной классификации текста. Задача включает в себя создание целевого классификатора с использованием помеченных текстовых данных из связанной области. Наиболее приемлемым решением для этого сценария было бы найти общие скрытые функции с помощью преобразования функций и использовать их в качестве моста к передаче знаний. Построение нового представления признаков сводит к минимуму различия в маргинальном и условном распределении, сохраняя при этом свойства или структуры данных и находя отношения между признаками. Операции преобразования признаков можно разделить на три подкатегории — сокращение признаков, увеличение признаков и выравнивание признаков. Сокращение функций далее делится на сопоставление функций, выбор функций, кластеризацию функций и кодирование функций.

Показатель разницы в распределении

Основная цель преобразования функций — уменьшить разницу в распределении между исходным и целевым экземплярами домена. Мера различия распределения или сходства между доменами называется максимальным средним расхождением (MMD) и широко используется в трансферном обучении.

Расширение возможностей

Этот метод широко используется в подходах, основанных на симметричных признаках. Репликация функций и объединение функций — это подкатегории расширения функций. Метод расширения функций (FAM) преобразует функции путем репликации функций. В случае трансферного обучения из одного источника пространство признаков увеличивается в три раза по сравнению с первоначальным размером. Новые функции состоят из общих функций и функций, специфичных для цели и источника. Для всех преобразованных экземпляров исходного домена для целевых функций установлено значение 0, и наоборот. Преобразованные помеченные экземпляры используются в окончательном обучении классификатора. Увеличение пространства функций повышает производительность.

Сопоставление объектов

Анализ основных компонентов (PCA) — один из наиболее подходящих методов извлечения признаков на основе карт, используемых в традиционном машинном обучении. PCA фокусируется на дисперсии данных, а не на разнице в распределении. Методы извлечения признаков помогают достичь этого. Многие уравнения могут использоваться для минимизации предельной разницы в распределении между областями, что делает дисперсию экземпляра значительной. Оптимизация целей числителя в многомерном пространстве признаков с последующим применением методов уменьшения размерности, таких как PCA, может помочь в достижении цели знаменателя.

Кластеризация функций

Он направлен на поиск абстрактных представлений функций исходных функций. Несколько подходов к трансфертному обучению направлены на уменьшение характеристик с помощью методов совместной кластеризации, которые одновременно группируют строки и столбцы таблиц непредвиденных обстоятельств на основе теории информации.

Классификация на основе совместной кластеризации (CoCC)используется для классификации документов. В задаче говорится о применении трансферного обучения для классификации документов целевой предметной области с использованием данных преобразования документа в слово, помеченного источника. CoCC использует метод совместной кластеризации в качестве моста для передачи знаний между исходным и целевым доменами. Исходная матрица преобразования документа в слово генерирует кластеры слов, используя информацию о метках, которая объединена в кластеры. Кластеры слов служат в качестве ограничений для совместной кластеризации данных целевого домена. CoCC стремится свести к минимуму потерю взаимной информации, а постоянные итерации позволяют получить результаты о кластеризации. Итерации состоят из двух типов кластеризации:

Кластеризация документов. Все строки целевой матрицы переупорядочиваются для обновления кластеров документов на основе целевой функции.
Кластеризация слов: совместная взаимная потеря информации в матрицах документов-слов исходного и целевого доменов сводится к минимуму за счет корректировки кластеров слов. Непрерывные итерации приводят к результатам классификации.

Самообучаемая кластеризация (STC) – это неконтролируемый метод кластеризации. Он не нуждается в информации на этикетке, такой как CoCC. STC одновременно объединяет в кластеры экземпляры исходного и целевого домена. Они основаны на предположении, что обе области используют одни и те же кластеры признаков в одном и том же пространстве признаков. Выполняются два типа задач совместной кластеризации:

Кластеризация экземпляров.Результаты, полученные в результате кластеризации экземпляров исходного и целевого доменов, обновляются, чтобы свести к минимуму потерю взаимной информации.
Кластеризация функций. Совместная потеря взаимной информации сводится к минимуму за счет обновления кластеров функций.

Кодирование функций

Кодирование признаков так же важно, как выбор и извлечение признаков. Автоэнкодеры могут использоваться для кодирования признаков. Автоэнкодер обычно состоит из кодировщика и декодера. Кодер создает абстрактное представление ввода. Декодер стремится минимизировать ошибку реконструкции. Автоэнкодеры могут быть сложены. После процесса обучения одного автоэнкодера сверху может быть наложен другой автоэнкодер. Новый добавленный автоэнкодер обучается, используя в качестве входных данных закодированный вывод автоэнкодера верхнего уровня.

Выравнивание элементов

Выравнивание функций в первую очередь фокусируется на явных и неявных функциях, таких как статистические и спектральные функции. Это важный шаг в преобразовании признаков. Многие типы объектов могут быть выровнены, включая спектральные и подпространственные объекты. Явные функции выравниваются для создания представлений функций, или неявные функции могут быть выровнены для создания удовлетворительного преобразования функций. Для этого подхода необходимо выполнить несколько шагов:

Генерация подпространства.
Экземпляры используются для создания подпространств соответственно как для исходного, так и для целевого доменов. Получены ортонормированные базисы для подпространств исходной и целевой областей, которые используются при обучении перемещению между подпространствами.
Выравнивание подпространства. Сопоставление, которое выравнивает основания, полученные на предыдущем шаге, помогает обучению. Для создания нового представления функции функция экземпляров проецируется на выровненные подпространства.
Обучение учащегося.
В конце концов, изученная цель обучается на преобразованных экземплярах.

На рис. 4 показаны соответствующие стратегии и цели трансферного обучения с точки зрения модели. Наиболее важной целью любой модели трансферного обучения будет сделать точный прогноз в целевых областях, таких как результаты классификации или кластеризации.

Стратегия управления моделью

В процессе обучения знания из заранее полученной исходной модели переносятся в целевую модель. Многие фреймворки разработаны для трансферного обучения из нескольких источников; один из них — машина адаптации домена (DAM). Основная цель DAM — создать надежный классификатор для целевого домена с помощью нескольких базовых классификаторов, предварительно полученных и обученных на различных исходных доменах.

Стратегия управления параметрами

Он фокусируется на параметрах модели. В случае категоризации объектов знания, полученные из исходных категорий, могут быть перенесены в целевые категории с помощью атрибутов объекта, таких как цвет и форма. Параметры вероятностного распределения функции изображения соответствуют каждому атрибуту, полученному из исходного домена, что помогает целевому обучению классификатора. Эти параметры отражают знания, которые изучает модель.

Стратегия ансамбля моделей

Предположим, что для приложений анализа настроений для обзоров продуктов из нескольких доменов продуктов доступны данные или модели. Поскольку распределения доменов различаются, объединение данных или моделей не является самым удачным. Сборка моделей является широко используемой стратегией. Стратегия объединяет несколько слабых классификаторов, чтобы помочь сделать окончательные прогнозы — TrAdaBoost и MsTrAdaBoost объединяют слабые классификаторы путем голосования и взвешивания. TaskTrAdaBoost — это расширение TrAdaBoost для обработки случаев из нескольких источников. Он имеет две стадии:

Конструкция классификатора-кандидата:

Это первый шаг в построении группы классификаторов-кандидатов путем выполнения AdaBoost на всех исходных доменах.

Выбор классификатора и ансамбль. Второй шаг касается исправленной версии AdaBoost, где AdaBoost выполняется на экземплярах целевого домена для создания окончательного классификатора. Во всех итерациях выбирается оптимальный классификатор-кандидат с наименьшей ошибкой классификации для экземпляров целевого домена, которые помечены, и ему присваиваются веса на основе значения ошибки классификации. Вес экземпляра целевого домена обновляется в зависимости от производительности конкретного классификатора в целевом домене. После всех итераций выбранный ансамбль классификаторов дает окончательные прогнозы.

Техника глубокого обучения

Эти методы широко распространены в сфере машинного обучения. Исследователи используют методы глубокого обучения при построении моделей трансферного обучения. Двумя широкими типами подходов к глубокому обучению являются традиционное глубокое обучение или непротиворечивое и состязательное глубокое обучение.

Применения трансферного обучения

Трансферное обучение широко развивалось на протяжении многих лет и значительно решило проблемы, связанные с текстом и изображениями. Трансферное обучение также нашло применение в медицине, транспорте, биоинформатике и рекомендательных системах.

Медицинское применение

Технология Transfer Learning используется для анализа медицинских изображений. Одним из примеров является обнаружение болезни Альцгеймера. МРТ-изображения из целевого домена проходят предварительную обработку. Архитектура AlexNet обучается с использованием ImageNet в качестве исходного домена для изучения новых задач. Сверточные слои Transfer Learning фиксируются одним полносвязным слоем и выходным слоем. Этот модифицированный AlexNet обучен на наборе данных болезни Альцгеймера, который является целевой областью, и, как сообщается, обеспечивает высочайшую точность для задач мультиклассовой классификации.

Приложение для биоинформатики

Анализ экспрессии генов предсказывает ассоциации между генами и фенотипами. Проблема, с которой сталкивается это, заключается в том, что данные ограничены. Трансферное обучение помогает преодолеть эту проблему, используя дополнительную информацию и знания.

Транспортное приложение

Для понимания изображений дорожных сцен полезно использовать трансферное обучение. На изображении могут быть помехи из-за проблем с местоположением, таких как погода и условия освещения. Трансферное обучение может помочь в определении типа транспортного средства, распознавании сигналов светофора или обнаружении аномальной активности.

Рекомендовать системное приложение

Исторических данных мало; такие вопросы можно решить с помощью трансферного обучения. Подходы к трансфертному обучению могут использовать данные из различных рекомендательных систем, которые служат исходными доменами, для создания системы рекомендаций в целевом домене.

Ссылки

[1] https://ieeexplore-ieee-org.libaccess.sjlibrary.org/stamp/stamp.jsp?tp=&arnumber=9134370

[2] F. Zhuang et al., «Всесторонний обзор трансферного обучения», в Proceedings of the IEEE, vol. 109, нет. 1, стр. 43–76, январь 2021 г., doi: 10.1109/JPROC.2020.3004555.

[3] https://machinelearningmastery.com/transfer-learning-for-deep-learning/

[4] https://ruder.io/transfer-learning/

Трансферное обучение

Вопросы по теме