Ограничения традиционных ансамблевых подходов и их возможные решения

В этой статье мы рассмотрим некоторые менее традиционные методы ансамблевого обучения, которые оказались успешными в недавней литературе по глубокому обучению. Мы обсудим недостатки существующих методов и то, как они были устранены в этих новых структурах ансамбля.

Введение

Ансамблевое обучение привлекло значительное внимание исследователей, которые применили его в задачах классификации и сегментации на основе глубокого обучения. Но что такое «ансамблевое обучение»? Проще говоря, это структура, основанная на изучении мнений из нескольких моделей для того, чтобы сделать вывод; например, метка класса для классификации или метка пикселя для семантической сегментации.

Популярность ансамблевых методов объясняется их огромным успехом в сложных задачах распознавания образов - это потому, что объединение нескольких моделей снижает разброс ошибок прогнозирования.

Предпосылкой для успешного ансамбля является то, что базовые модели, составляющие ансамбль, должны предоставлять разнообразную информацию (что может быть обеспечено с помощью нескольких статистических показателей, таких как Дивергенция Кульбака-Лейблера, Дженсена-Шеннона Дивергенция и др.). Другими словами, если одна и та же информация предоставляется всеми моделями, т. Е. Модели дают неверные прогнозы на одних и тех же тестовых выборках, это эквивалентно использованию одной модели.

Примеры популярных ансамблевых схем: средняя вероятность ¹ и средневзвешенная e вероятность ². Однако с такими традиционными подходами связаны две основные проблемы. Мы обсудим эти проблемы и выделим методы, которые пытаются их решить.

Предостережение 1. Слишком упрощенно

Более простые методы ансамбля, такие как средневзвешенная вероятность, присваивают заранее определенную важность или «веса» базовым учащимся, что может быть не самым эффективным методом ансамбля. Но почему?

Как мы все, вероятно, знаем, данная модель глубокого обучения выводит «оценки достоверности» или «оценки вероятности» для каждой выборки. Кроме того, мы не можем предположить, что достоверность прогнозов по ВСЕМ тестовым выборкам будет одинакова. Таким образом, фиксированная заранее определенная важность, придаваемая классификаторам, не идеальна. Давайте разберемся в этом на простом примере.

Рассмотрим два классификатора кошек / собак, которые нужно объединить. Предположим, что в соответствии с общей точностью, полученной двумя классификаторами, вес, присвоенный Классификатору-1, равен 0,9, а вес, присвоенному Классификатору-2, равен 0,1 (гипотетический сценарий). Теперь предположим, что возникают два случая, как показано в следующей таблице:

В случае 1 для выборки класса «Кошка» Классификатор-1 предсказывает «Собака» с очень низкой достоверностью 58%, тогда как Классификатор-2 правильно предсказывает «Кошку» с очень высокой достоверностью 95%. Но из-за изначально установленных весов 0,9 и 0,1 окончательный ансамблевой прогноз вычисляется как класс «Dog». Аналогичным образом, пример другого класса также показан в Случае-2. Такие предубеждения подавляют потенциал ансамблевых подходов.

Решение: нечеткий ансамбль

Чтобы избежать вышеупомянутых ошибок в структуре ансамбля, метод ансамбля, который включает использование оценок достоверности для каждой тестовой выборки для вычисления прогноза для этого образец желателен.

Этот класс методов ансамбля называется методами «нечеткого ансамбля». Нечеткая логика отклоняется от традиционных классификаторов, основанных на «да» или «нет», и вместо этого предоставляет целый спектр возможностей для принятия более обоснованного решения, во многом подобно человеческому рассуждению.

Ряд таких методов нечеткого ансамбля был недавно предложен и применен к различным задачам распознавания образов. В этой статье мы подробно рассмотрим один из этих методов, чтобы понять интуицию и основные математические основы таких методов. В частности, мы рассмотрим принципы работы исследовательской статьи, в которой рассматривалась проблема обнаружения COVID-19 с использованием глубокого ансамблевого обучения.

В этой научной статье авторы использовали три популярные предварительно обученные модели глубокого обучения: VGG-11, WideResNet-50–2 и InceptionV3 для получения оценок достоверности на основе данных компьютерной томографии грудной клетки COVID-19, которые позже используются для нечеткий ансамбль.

В предлагаемом методе ансамбля используется математическая функция, называемая «функцией Гомперца», для создания ранжирования для каждой выборки для каждого базового учащегося с использованием оценок достоверности, сгенерированных моделями. Уравнение показано ниже. «M» - количество классификаторов (здесь M = 3), «C» - количество классов в наборе данных, а «CF »- оценка достоверности классификаторов.

Эти ранговые оценки суммируются для каждого классификатора, чтобы создать «нечеткую ранговую оценку», которая используется для вычисления окончательного ансамблевого прогноза для выборки. Таким образом, здесь, вместо прямого суммирования вероятностей, как в ансамбле средних вероятностей, они пропускаются через промежуточную функцию, а затем суммируются.

Интуиция, лежащая в основе использования такой нелинейной функции на промежуточном этапе, состоит в том, чтобы расходить метрики на основе оценки достоверности. То есть, более высокая степень достоверности экспоненциально понижается в значении (как показано на следующем рисунке), в то время как более низкая степень достоверности повышается.

Такая нелинейность гарантирует, что больший «вес» будет присвоен классификатору, который предсказывает выборку с большей достоверностью, в то время как классификатору с более низкой достоверностью назначается более низкий вес для этой выборки. Когда эта нелинейность применяется ко ВСЕМ выборкам в тестовом наборе, получается более надежный прогноз на основе доверительных интервалов.

В этом случае, поскольку более высокая достоверность приводит к более низкому значению функции, метод называется «нечеткое ранжирование», поскольку более низкий «ранг» обычно приписывается более высокой производительности. Следовательно, класс, имеющий более низкое значение сгенерированной «оценки нечеткого ранга», является прогнозируемым классом выборки. Обратите внимание, что в этом методе классификаторам не были предварительно присвоены веса, и все вычисления ансамбля выполняются «на лету».

Теперь, чтобы понять возможности этого метода, давайте применим эту ансамблевую схему к предыдущей задаче классификации кошек / собак. Результаты для того же показаны ниже:

Как упоминалось ранее, меньшее значение нечеткой суммы рангов указывает на предсказанный класс, и, таким образом, мы можем видеть, что метод ансамбля приводит к более надежным и несмещенным результатам.

Коды для статьи, описанные здесь, публично доступны через GitHub. Другие методы нечеткого ансамбля, предложенные в недавней литературе, можно найти в Справочнике⁴ (Коды) и Справочнике⁵ (Коды). Теперь давайте обсудим второй недостаток традиционных ансамблевых подходов.

Не бойтесь пропустить последние новости машинного обучения. Подпишитесь на еженедельник Deep Learning Weekly, и позвольте нам делиться им с вами и 15 000 другими каждую неделю.

Предостережение 2: сложность времени

Одним из основных недостатков ансамблевой структуры является стоимость вычислений. Поскольку для ансамбля обучаются несколько глубоких сетей, вычислительные затраты также умножаются на тот же коэффициент. Это особенно проблематично для анализа большого набора данных, где обучение каждой модели может занять несколько дней, даже с высокопроизводительными графическими процессорами. В среде с ограниченными ресурсами такие дорогостоящие методы неосуществимы, и поэтому требуется более экономичная структура.

Этот недостаток ансамблевого обучения был выявлен еще в 2006 году, и были предложены различные методы для сокращения затрат на время тестирования модели, такие как Reference⁶ и Reference⁷. Однако прорыв в этой парадигме был достигнут Хуангом и др. С их новой рентабельной структурой ансамбля, которая описывается ниже.

Решение: ансамбль снимков

Потенциальным решением проблемы вычислительных затрат является использование «ансамбля моментальных снимков (SE)», разработанного Хуангом и др., Который направлен на разработку структуры ансамбля путем обучения глубокой модели только ОДИН РАЗ.

Такой подвиг был достигнут благодаря вдохновению Лощилова и др., Которые показали, что скорости циклического обучения могут быть эффективными для обучения глубоких сверточных нейронных сетей (Дополнительная литература по скорости циклического обучения: Справочник¹⁰ и Это сообщение в блоге). Авторы показывают в своей работе, что быстрое снижение скорости обучения (LR) с последующим их перезапуском в новом цикле дает модели, которые почти сопоставимы по производительности с традиционными методами, но требуют лишь части обучающих итераций. Авторы также отметили значительное разнообразие локальных минимумов, полученных в каждом цикле LR.

Эти открытия привели к интуиции, что создание «моментальных снимков» модели, то есть отдельное сохранение весов моделей в конце каждого цикла LR, может помочь сформировать успешный ансамбль, при этом требуется только один процесс обучения. Иллюстрация процессов оптимизации с использованием традиционного планирования LR и циклического планирования LR показана ниже:

Snapshot Ensembly создает ансамбль точных и разнообразных моделей за один тренировочный процесс. В основе ансамбля моментальных снимков лежит процесс оптимизации, который проходит через несколько локальных минимумов, прежде чем перейти к окончательному решению. Мы делаем снимки модели на этих различных минимумах и усредняем их прогнозы во время тестирования. - Хуанг и др.

Для структуры SE использовался механизм планировщика циклического косинусного отжига LR, в котором LR уменьшается в очень быстром темпе, вынуждая модель сходиться к своим первым локальным минимумам, после чего цикл повторяется с более высоким начальным LR.

Хотя перезапуск цикла изначально ухудшает производительность модели, результат после завершения цикла превосходит результат, полученный при традиционном планировании LR с монотонным затуханием. Планирование LR и кривая потерь, полученная таким образом с использованием этого механизма в наборе данных CIFAR-10, показаны ниже.

Теперь, когда были получены снимки модели «M», т. Е. Было сохранено количество файлов весов модели «M», тестовые образцы проходят через эти веса для получения « M ”наборов оценок вероятности, которые теперь можно объединить для генерации окончательных прогнозов. Хуанг и др. Использовали механизм средней вероятности для проверки и сравнения своего подхода. Результаты, полученные авторами в своей статье, представлены ниже.

Авторы также провели подробный анализ ансамбля снимков по сравнению с традиционными подходами и подтвердили, что полученные снимки модели действительно разнообразны, что делает ансамбль успешным. Наряду с результатами, показанными в таблице выше, можно сделать вывод, что структура Snapshot Ensemble в настоящее время является наиболее рентабельной методикой создания ансамбля, обеспечивающей самые современные характеристики.

Будущие направления

В этой статье мы описали методы, которые устраняют текущие ограничения традиционных ансамблевых подходов. Однако улучшения все же можно сделать.

Например, мы могли бы подумать о структуре ансамбля снимков, в которой ансамбль снимков модели будет выполнен с использованием нечеткой техники. Это будет сочетание рентабельности и возможностей адаптивного увеличения веса. Можно также подумать о распространении таких ансамблевых моделей на другие области компьютерного зрения; например, в мета-обучении. Используя базовую интуицию этих подходов, можно изучить несколько возможностей.

Ссылки

  1. Рохит Кунду, Паван Кумар Сингх, Али Ахмадиан, Массимилиано Феррера, Рам Саркар, ET-NET: набор моделей обучения для прогнозирования заражения COVID-19 с помощью изображений компьютерной томографии грудной клетки, Мультимедийные инструменты и приложения, Springer (2021 г.).
  2. Рохит Кунду, Ритакета Дас, Ги-Тхэ Хан, Зонг Ву Гим, Рам Саркар, Выявление пневмонии на рентгеновских изображениях грудной клетки с использованием ансамбля моделей глубокого обучения, PLoS One, Nature ( 2021 г.).
  3. Рохит Кунду, Хритам Басак, Паван Кумар Сингх, Али Ахмадиан, Массимилиано Феррера, Рам Саркар, Нечеткое ранговое объединение моделей CNN с использованием функции Гомперца для скрининга компьютерных томографов COVID-19, »Scientific Reports, Природа (2021 г.).
  4. Рохит Кунду, Паван Кумар Сингх, Сейедали Мирджалили, Рам Саркар, «Обнаружение COVID-19 по КТ-изображениям легких с использованием ансамбля CNN на основе нечеткого интеграла», Компьютеры в биологии и медицине, Elsevier (2021).
  5. Анкур Манна, Рохит Кунду, Дмитрий Каплун, Александр Синица, Рам Саркар, Нечеткий ранговый ансамбль моделей CNN для классификации цитологии шейки матки, Научные отчеты, Nature (2021).
  6. Кристиан Бусилу, Рич Каруана и Александру Никулеску-Мизил, «Сжатие модели», Труды 12-й Международной конференции ACM SIGKDD по открытию знаний и интеллектуальному анализу данных (2006).
  7. Джеффри Хинтон, Ориол Виньялс и Джефф Дин Преобразование знаний в нейронную сеть препринт arXiv, arXiv: 1503.02531 (2015).
  8. Гао Хуан, Исюань Ли, Джефф Плейс, Чжуан Лю, Джон Э. Хопкрофт, Килиан К. Вайнбергер, Ансамбли снимков: поезд 1, получи M бесплатно, Международная конференция по обучающим репрезентациям (ICLR) (2017).
  9. Илья Лощилов и Фрэнк Хаттер, SGDR: стохастический градиентный спуск с перезапусками, препринт arXiv, arXiv: 1608.03983 (2016).
  10. Лесли Н. Смит, «Скорость циклического обучения для обучения нейронных сетей». Зимняя конференция IEEE 2017 г. по приложениям компьютерного зрения (WACV). IEEE, 2017.

Примечание редактора: Heartbeat - это онлайн-публикация и сообщество, созданное авторами и посвященное предоставлению первоклассных образовательных ресурсов для специалистов по науке о данных, машинному обучению и глубокому обучению. Мы стремимся поддерживать и вдохновлять разработчиков и инженеров из всех слоев общества.

Независимая редакция, Heartbeat спонсируется и публикуется Comet, платформой MLOps, которая позволяет специалистам по обработке данных и группам машинного обучения отслеживать, сравнивать, объяснять и оптимизировать свои эксперименты. Мы платим участникам и не продаем рекламу.

Если вы хотите внести свой вклад, отправляйтесь на наш призыв к участникам. Вы также можете подписаться на наши еженедельные информационные бюллетени (Deep Learning Weekly и Comet Newsletter), присоединиться к нам в » «Slack и подписаться на Comet в Twitter и LinkedIn для получения ресурсов, событий и гораздо больше, что поможет вам быстрее и лучше строить модели машинного обучения.