Метод ансамбля — один из самых фундаментальных алгоритмов классификации и регрессии в мире машинного обучения.

На выборах мы знаем, что кандидат победит, когда он наберет максимальное количество голосов, то есть большинство голосов. Метод ансамбля имеет аналогичную базовую формулу, в которой мы объединяем прогнозы из группы предикторов (моделей), которые могут быть классификаторами или регрессорами, и в большинстве случаев прогноз лучше, чем один предиктор. Такие алгоритмы называются методами ансамбля, а такие предикторы называются ансамблями.

Техника ансамбля — это комбинация нескольких моделей, нас также можно назвать множеством лиц, принимающих решения. Вместо использования одного алгоритма мы можем использовать n алгоритмов для построения модели.

Существуют три основных типа ансамблевой техники:

  1. Упаковка
  2. Повышение
  3. Стекирование

Давайте посмотрим один за другим, что это такое,

Бэгинг

Бэггинг — это метод ансамбля, в котором один алгоритм обучения используется для разных подмножеств обучающих данных, где подмножество выборки выполняется с заменой (бутстрап). После того, как алгоритм обучен на всех подмножествах, пакетирование делает прогноз, объединяя все прогнозы, сделанные алгоритмом на разных подмножествах. Бэггинг также называется Bootstrap Aggregation.

В постановке задачи регрессии прогноз представляет собой просто среднее значение всех прогнозов, а в постановке задачи классификации прогноз является наиболее частым прогнозом, т. е. большинством голосов среди всех прогнозов.

Алгоритмы бэггинга

  • Случайный лес

Преимущества мешков

  • Это поможет уменьшить дисперсию модели, поскольку мы агрегируем результат n моделей.
  • Если данные большие, это может сэкономить время вычислений за счет обучения модели на меньшем наборе данных и все же может повысить точность модели.

Вставка

Вставка также представляет собой метод ансамбля, аналогичный бэггингу, с той лишь разницей, что при выборке обучающего набора данных замена не выполняется.

Повышение

Повышение — это метод ансамбля, который начинается с более слабого решения и продолжает строить модели таким образом, что окончательный прогноз представляет собой взвешенную сумму всех более слабых лиц, принимающих решения. Веса назначаются на основе производительности каждого дерева. При вычислении веса следующего дерева решений также учитывается обучение из предыдущего дерева.

Алгоритмы повышения

  • Ada Boost (адаптивное повышение)
  • Усиление градиента
  • XG-Boost (Экстремальное усиление градиента)

Преимущества повышения

  • Он обрабатывает пропущенные значения.
  • Устойчив к выбросам.
  • Масштабирование функций не требуется.

Укладка

Стекинг — это метод ансамбля, который объединяет прогнозы двух или более моделей. Предположим, у нас есть постановка задачи, и мы хотим использовать несколько разных моделей, таких как случайный лес, машина опорных векторов, K ближайших соседей и т. д., в этом случае мы будем использовать стекирование.

Сводка

В этой статье мы увидели, что такое ансамбль, виды ансамблевых техник, преимущества каждой ансамблевой техники.

Спасибо за прочтение. Пожалуйста, дайте мне знать в комментариях ниже или отправьте мне запрос на LinkedIn, если у вас есть какие-либо сомнения.

найди меня в LinkedIn | Гитхаб | "Электронная почта"

Счастливого обучения!!! ^_^