В одной из наших последних статей мы обсуждали, что случайный лес — это ансамблевый алгоритм машинного обучения, который делает прогнозы на основе комбинированных прогнозов нескольких моделей деревьев решений. Поскольку мы обнаружили, что объединение нескольких моделей или использование модели обучения ансамбля является основной причиной успеха любой модели случайного леса, это вызывает любопытство, чтобы узнать больше о теме обучения ансамбля. Итак, в этой статье мы обсудим теоретические детали метода ансамблевого машинного обучения. Мы рассмотрим следующие важные моменты по этому поводу:

Содержание

  1. Что такое ансамблевое машинное обучение
  2. Методы ансамблевого обучения

Простые методы

  1. Максимальное голосование
  2. Усреднение
  3. Взвешенное усреднение
  4. Передовые методы
  5. Укладка
  6. Смешивание
  7. Бэгинг
  8. Повышение

Что такое ансамблевое машинное обучение?

Как обсуждалось выше, ансамблевое обучение — это подход, который относится к машинному обучению с учителем, где мы используем объединенные результаты нескольких моделей обучения с учителем. Итак, давайте попробуем лучше понять это на примере. Допустим, человек написал статью на интересную тему и хочет узнать предварительный отзыв перед ее публикацией. Поэтому он думает о следующих возможных путях.

  • Попросите друга оценить статью:В этом случае велика вероятность того, что его друг дал хорошую оценку ужасной работе, потому что не хотел разбивать сердце своего друга. .
  • Попросите пятерых друзей оценить статью.Таким образом, он получил правильное представление о статье, поскольку некоторые из них решили поставить ему честную оценку. Но также есть вероятность, что люди не являются знатоками темы его статьи.
  • Попросите 50 человек оценить статью:здесь он включил всех своих друзей и некоторых незнакомцев, чтобы оставить отзыв, и получил более общий и разнообразный отзыв. Этот подход может быть лучшим из всех подходов, которые он выбрал для получения отзывов о своей работе.

Здесь мы можем сделать вывод, что если человек использует разнородную группу людей для получения обратной связи, он получит лучшие результаты по сравнению с неразнообразной группой или отдельными людьми. Этот способ также можно применять в машинном обучении, где набор нескольких моделей может дать лучшие результаты, чем одна модель. Эта диверсификация в машинном обучении может быть достигнута с использованием моделей ансамблевого обучения.

Здесь мы получили базовое понимание методики ансамблевого обучения. Давайте рассмотрим различные методы, с помощью которых мы можем выполнять ансамблевое обучение.

Методы ансамблевого обучения

Ниже приведены методы выполнения ансамблевого обучения:

Простые техники

  • Максимальное голосование: мы обычно используем этот метод для решения задач классификации. Используя каждую точку данных, несколько моделей дают свой результат, и этот результат рассматривается как голосование. Используя метод победы большинства голосов, мы получаем окончательный результат.

Предположим, что в приведенном выше примере человек выбрал второй путь и попросил пятерых друзей дать отзыв. Если 4 или 3 из 5 в положительную сторону, а значит дают больше 2 рейтинговых баллов, то человек опубликует статью. Результат этой структуры ансамблевого обучения будет выглядеть следующим образом:

  • Друг 1 = 3
  • Друг 2 = 4
  • Друг 3 = 5
  • Друг 4 = 2
  • Друг 5 = 3
  • Усреднение:как и в системе максимального голосования, здесь также все модели используют каждую точку данных, чтобы делать прогнозы, но мы рассматриваем окончательный результат как среднее значение результатов всех моделей. Метод усреднения в основном применяется в задачах регрессии.

По приведенным выше результатам мы можем вычислить окончательный результат следующим образом:

(3 + 4 + 5 + 2 + 3)/5 = 3.4

  • Средневзвешенное значение. Этот метод обучения по ансамблю отличается от других методов, поскольку мы используем важность каждой модели в качестве веса, а окончательный результат получается методом средневзвешенного значения.

Допустим, в приведенном выше примере 2 из 5 друзей имеют большее значение, и из-за этого веса или важности конечный результат будет следующим.

(3 + 4 + 5 + 2 + 3)/5 = 3.4

Передовые методы

  • Стекирование: если рассмотренные выше методы можно считать базовыми методами ансамблевого обучения, то последующие методы можно считать продвинутым ансамблевым обучением. Стекирование — это метод, при котором несколько учеников присоединяются один за другим. Дерево решений, алгоритмы KNN и SVM можно считать примерами базовых моделей, используемых при обучении стекированию. Следующие шаги, которые предпринимает многослойная модель обучения ансамбля, чтобы получить окончательные результаты:
  1. Разбивает обучающую выборку на n частей.

  1. Базовая модель учится на девяти частях и предсказывает 10-ю часть данных.

  1. Базовая модель подгоняется ко всем частям обучающих данных.
  2. Используя обученную модель, мы вычисляем прогнозы, используя тестовые данные.

  1. Шаги 2, 3 и 4 повторяются с использованием разных моделей, таких как KNN или SVM, и это также дает прогнозы, но отличные от первого цикла.

  1. Прогнозы, основанные на данных о поездах, рассматриваются как функция для построения новой модели.

  1. Окончательная или новая модель дает окончательный прогноз на основе набора тестов.
  • Смешивание.Смешение почти похоже на метод наложения, но использование проверочных данных отличает его от метода наложения. Он дает прогнозы только из набора проверки. Этот набор проверки и прогноз были сделаны с использованием набора проверки, который использовался для запуска на тестовом наборе. Шаги, которые использует этот метод, следующие:
  1. Все данные разбиты на три заката: обучение, тестирование и проверка.
  2. Модели обучаются на обучающей выборке.
  3. Набор проверки и набор поездов используются для прогнозирования.
  4. Набор проверки и прогнозы, сделанные с использованием набора проверки, используемого в качестве функции для обучения новой модели.
  5. Для окончательного прогноза используются новая модель и тестовые данные.
  • Бэггинг. Бэггинг – это продвинутая форма ансамблевого обучения, в которой несколько моделей используются для получения индивидуальных результатов для части данных. Объединение этих результатов дает окончательный результат. Поскольку несколько моделей имеют высокие шансы дать одинаковые результаты при одинаковых входных данных, в игру вступает бутстреп, чтобы нарушить это условие. Он помогает создавать различные подмножества полных данных, а затем обучает несколько моделей на этих подмножествах. На картинке ниже показана техника бэггинга.

Следующие шаги, которые этот метод использует для изучения данных:

  1. Подмножества создаются из исходных данных.
  2. Базовая модель назначается для изучения каждого подмножества.
  3. Окончательный прогноз получается как объединенный результат всех моделей.
  • Ускорение. Ускорение обучения ансамбля можно рассматривать как метод последовательного обучения, при котором каждая последующая модель пытается исправить ошибки предыдущей модели. Это означает, что результаты последующей модели зависят от результатов предыдущей модели. Следующие шаги, которые эта техника предпринимает для завершения моделирования:
  1. Создание подмножества из основных данных.
  2. На начальных этапах все точки данных имеют одинаковый вес.
  3. Базовая модель обучается на подмножестве и дает прогнозы, используя все данные.
  4. Ошибки рассчитываются с использованием исходного значения исходной модели и прогнозируемого значения.
  5. Неправильно предсказанные точки данных получают более высокие веса.
  6. Опять же, базовая модель используется для обучения и получения прогнозов по набору данных.
  7. Процесс с шагов 3 по 6 повторяется до тех пор, пока не появится последний ученик.

Заключительные слова

Здесь, в статье, мы обсудили базовое введение ансамблевого машинного обучения. На примере мы попытались понять, как это работает, и узнать о различных методах обучения ансамблю, таких как максимальное голосование, усреднение, бэггинг и бустинг. В наших следующих статьях мы обсудим модели, основанные на методах ансамблевого обучения.

О ДСВ

Data Science Wizards (DSW) — это стартап в области искусственного интеллекта и науки о данных, который в первую очередь предлагает платформы, решения и услуги для использования данных в качестве стратегии с помощью решений для ИИ и анализа данных, а также консультационных услуг, чтобы помочь предприятиям принимать решения, основанные на данных. .

Флагманская платформа DSW UnifyAI — это комплексная платформа с поддержкой ИИ, позволяющая корпоративным клиентам создавать, развертывать, управлять и публиковать свои модели ИИ. UnifyAI помогает вам создать бизнес-вариант использования, используя возможности ИИ и улучшая результаты аналитики.

Свяжитесь с нами по адресу [email protected] и посетите нас на www.datasciencewizards.ai