Эта статья познакомит вас с основами ансамблевых методов машинного обучения.

Вместе мы стоим, раздельно - падаем

Я уверен, что вы выучили эту цитату в школе из известной басни о старом фермере и этих пятерых сыновьях. Я знаю, что, должно быть, прошло довольно много времени, когда вы об этом прочитали. Не волнуйтесь, мы вернемся к короткой версии этой басни.

Жил-был старый фермер. У него было пятеро сыновей. Они были очень эгоистичны. Они всегда ссорились друг с другом. Он беспокоился о них.

Когда он лежал на смертном одре, он хотел преподать им урок. Он посоветовал им жить в единстве. Но им было все равно.

Он попросил своего слугу принести связку прутьев. Затем он позвал одного за другим своих сыновей и попросил их разорвать узел. Но никто не мог этого сделать. Затем он приказал слуге развязать узел.

Теперь каждый из них мог легко сломать палки. Он посоветовал своим сыновьям жить как связка прутьев. Если они ссорятся, люди причиняют им вред. Сыновья пообещали жить дружно и усвоили большой урок.

Читая, вы узнаете, что отдельная палка очень слаба, чтобы противостоять любой силе. Но если мы соберем все эти слабые палки вместе в пучок, он станет очень прочным, чтобы выдержать любую силу.

Вот и все, это основная интуиция о методах ансамбля в машинном обучении! :)

Что такое ансамбль?

Методы ансамбля используют несколько алгоритмов обучения для повышения эффективности прогнозирования. Мы обучаем различные модели, объединяя их прогнозы для повышения стабильности и предсказательной силы, как показано ниже:

Как мы видим, нам нужно количество моделей (учащихся), предсказательная сила которых лишь немного лучше, чем случайный случай. Такие ученики называются слабыми учениками. Мы называем модель машинного обучения сильным учеником, предсказательная сила которого почти точна. Мы берем таких слабых учеников, чтобы сделать одного сильного ученика.

Почему несколько слабых учеников имеют значение?

Кто хочет стать миллионером? - реалити-шоу, в котором участнику задают вопрос с четырьмя вариантами, и он должен ответить на правильный вариант. В случае, если он не может ответить, ему предлагают какой-нибудь спасательный круг, например, позвонить другу, опрос аудитории и т. Д.

Если вы следили за шоу, вы знаете, что «Позвонить другу» иногда неправильно, но опросы аудитории почти никогда не ошибаются. Оказывается, собрание сотен неспециалистов предсказывает намного лучше, чем один эксперт во время «Позвоните другу».

Именно это и делают ансамбли: они берут группу слабых учеников и пытаются объединить их, чтобы сделать предсказательную силу модели более мощной.

Какие существуют методы ансамбля?

Жесткое голосование и мягкое голосование

Предположим, что в ансамбле пять моделей, и модель предсказывает следующие вероятности для данной точки:

0.45 | 0.40 | 0.65 | 0.58 | 0.45

  • При жестком голосовании классификатор голосования принимает большинство прогнозов своих базовых учащихся в качестве окончательного прогноза, то есть 0,45, что будет отрицательным классом.
  • В мягком голосовании классификатор голосования учитывает средние значения вероятности его базовых учащихся в качестве окончательного прогноза, то есть 0,51, что будет положительным классом.

Упаковка

Пакетирование означает B ootstrap Agg regat ing. В пакете мы обучаем каждого базового ученика разным выборкам данных. Здесь выборка точек данных происходит с заменой. Процесс выборки с заменой называется начальной загрузкой.

Вставка

Подобно тому, как при упаковке мы создаем образцы посредством повторной повторной выборки с заменой, мы можем создавать образцы без замены для каждого базового учащегося. Ансамбль на таких сэмплах известен как Склеивание.

Оценка вне сумки

При начальной загрузке выборка точек данных происходит с заменой, и около 1/3 исходной выборки не будет выбрана. Нет необходимости в отдельном наборе для проверки или перекрестной проверке, поскольку этот невыбранный образец отсутствует в пакете. Таким образом, эта проверка называется оценкой вне пакета.

Штабелирование

При наложении мы объединяем несколько моделей с помощью мета-классификатора. Индивидуальные модели обучаются на обучающем наборе данных. Выходные данные каждой отдельной модели затем подаются в качестве входных данных в мета-классификатор.

В этом посте я познакомил вас с основами ансамбля в машинном обучении и различными типами ансамблевых методов.

Спасибо за прочтение! ❤

Следите за обновлениями!