Введение в ансамблевые методы машинного обучения (часть 2/2)

Прежде всего, большое спасибо за ваш ответ на Введение в методы ансамбля машинного обучения — часть 1. Если вы еще этого не сделали, я рекомендую сначала пройти Часть 1, чтобы лучше понять эту статью. В этой статье термины классификатор и базовый учащийся будут использоваться как синонимы.

Популярные техники ансамбля

Методы ансамбля делятся на три категории: бэггинг, бустинг и обобщение стекирования.

Упаковка

Бэггинг — это метод, при котором случайные бутстреп-выборки берутся из обучающего набора данных, а классификаторы обучаются на каждой из этих выборок, как показано на рис. 1. Затем все выходные данные меток объединяются большинством голосов в задаче классификации и в регрессионной задачи ансамбль строится путем усреднения. Этот метод улучшает предсказание, значительно снижая дисперсию. Один из самых популярных методов бэггинга — это случайный лес, который подробно рассматривается в разделе ниже.

Подход со случайным лесом — это наиболее широко используемый метод формирования пакетов, в котором деревья решений используются в качестве отдельных базовых обучающих элементов. При наличии набора данных каждое дерево решений обучается с использованием выборки строк и признаков с замещающими данными. Если это проблема классификации, выходные данные объединяются в большинстве случаев, или, если это проблема регрессии, для получения окончательного прогноза берется среднее/медианное значение выходных данных. Алгоритм дерева решений имеет низкое смещение и высокую дисперсию. Значительная дисперсия каждого дерева решений постепенно уменьшается с использованием алгоритма случайного леса на обучающих данных. Кроме того, поскольку каждое дерево решений обучается с помощью выборки строк и выборки признаков с заменой, незначительные изменения в исходном наборе данных не влияют на окончательный прогноз. Алгоритм 1 ниже объясняет шаги подхода случайного леса.

2. Повышение

Этот метод основан на идее «сила слабого обучения». После того, как первоначальный базовый ученик обучен, его поведение оценивается для полного набора данных. Затем неправильно классифицированные данные используются для обучения следующего базового ученика. Еще раз оценивается его производительность, и неправильно классифицированные данные используются для обучения следующего базового ученика, и таким образом базовые ученики растут последовательно, пока не будет создано указанное количество базовых учеников. Базовые учащиеся создаются поэтапно с целью создания надежного классификатора с учетом плохо классифицированных данных из предыдущего базового учащегося, как показано на рис. 2. Повышение — это метод, используемый для решения как задач регрессии, так и задач классификации. Тремя основными формами алгоритмов повышения являются Adaboost, Gradient Boosting и Extreme Gradient Boosting. В следующем разделе мы более подробно рассмотрим методы Adaboost и Gradient Boosting.

Adaboost также известен как Adaptive Boosting. В этом методе перед обучением первого классификатора всем обучающим данным присваиваются равные веса. Неправильно предсказанные данные собираются, и веса для каждого из неправильно классифицированных данных увеличиваются, а веса для правильно классифицированных данных сбрасываются перед обучением следующего классификатора. Окончательное решение определяется взвешенным большинством голосов среди всех слабых учащихся в задаче классификации. С этой стратегией значительно уменьшаются как предвзятость, так и дисперсия. В алгоритме 2 мы рассмотрим этапы AdaBoost в задаче классификации.

Алгоритм Gradient Boosting использует деревья решений, которые добавляются последовательно, чтобы минимизировать функцию потерь. Сначала базовая модель инициализируется постоянным значением, а затем рассчитывается функция остатков или потерь с учетом данных зависимой переменной и постоянного значения базовой модели. Остаток рассчитывается путем вычисления среднеквадратичной ошибки или среднеквадратичной ошибки, если проблема представляет собой регрессию, и логарифмической потери или потери шарнира, если проблема является проблемой классификации. Функция потерь также может быть рассчитана множеством альтернативных способов. После вычисления остатка к базовой модели добавляется и обучается дерево решений с использованием независимых переменных набора данных и остатка, сгенерированного на предыдущем этапе. Таким образом, мы последовательно добавляем деревья решений до заданного предела с целью минимизации функции потерь. Окончательный прогноз делается путем суммирования постоянного значения базовой модели и всех остатков, рассчитанных для каждого дерева решений.

3. Обобщение стека

Еще один метод ансамблевого обучения - это стек, который объединяет два типа учащихся. Один из них — базовый, а другой — метаобучаемый.
Набор данных сначала разбивается на образцы, и каждый из классификаторов обучается на каждом образце. Затем выходные данные каждого классификатора объединяются для создания набора метаданных, который затем используется метаклассификатором для окончательного прогноза. Он чаще всего используется для обнаружения вторжений на основе аномалий несбалансированного сетевого трафика. Недостаток этой модели состоит в том, что она потребляет больше памяти и требует больше времени для вычислений, поскольку для прогнозирования в ней используются два типа обучающихся. Концепция обобщения стекирования показана на рис.3 ниже.

Сравнение одиночного классификатора и методов ансамбля

Давайте попробуем провести небольшой эксперимент, чтобы увидеть, лучше ли использование метода ансамбля, такого как случайный лес, Adaboost или повышение градиента, чем использование одного классификатора, такого как дерево решений, чтобы понять концепции, которые мы рассмотрели. Набор данных об автомобилях США (данные Kaggle) использовался для проведения эксперимента, в котором 75% рассматриваются как обучающие наборы данных, а 25% — как наборы тестовых данных. Среднеквадратическая ошибка (MSE), среднеквадратическая ошибка (RMSE), средняя абсолютная ошибка (MAE) и коэффициент детерминации (R²) были рассчитаны для одного классификатора дерева решений и ансамблей, таких как случайный лес, AdaBoost, повышение градиента. и суммированное обобщение, как показано в таблице ниже. В идеале, чем ниже значения MSE, RMSE и MAE, тем лучше модель соответствует данным, а чем выше значение R², тем точнее модель.

Как показано в Таблице 1, когда значение ошибок, таких как MSE, RMSE и MAE, одного классификатора дерева решений сравнивается с другими алгоритмами ансамбля, можно сделать вывод, что методы ансамбля производят меньше ошибок и являются более точными. Точно так же значение R² выше для всех используемых ансамблевых методов по сравнению с деревом решений, что указывает на то, что модели, созданные ансамблевыми методами, более надежны.

В результате мы можем сделать вывод, что для данного набора данных использование метода ансамбля дало лучшие результаты, чем использование одного классификатора. Кроме того, было показано, что метод случайного леса лучше всего подходит для нашего эксперимента с наименьшей ошибкой и максимальным коэффициентом детерминации (R²).

Факторы, влияющие на точность ансамбля

Разнообразие элементов может повлиять на точность и исполнение ансамбля.

1. Начнем с того, что гетерогенные ансамбли превосходят каждый классификатор в ансамбле, тогда как гомогенные ансамбли редко превосходят каждый классификатор в ансамбле. Давайте посмотрим на разницу между гомогенным и гетерогенным ансамблем. Однородные ансамбли используют один и тот же метод обучения, такой как деревья решений, тогда как гетерогенные ансамбли используют разные алгоритмы обучения, такие как деревья решений и нейронные сети.

2. Во-вторых, диверсифицированные данные являются наиболее важным компонентом. Чем разнообразнее используемые данные, тем выше точность ансамбля. Разнообразие может быть достигнуто за счет повторной выборки в бэггинге, сосредоточения внимания на неправильно классифицированных данных при бустинге, использования метаданных, которые создаются путем объединения выходных данных отдельных классификаторов, разнообразие в сети ANN может быть создано путем случайного назначения количества скрытых нейронов с использованием рандомизированного алгоритма и путем случайного выбора входных данных для каждого базового классификатора и многими другими методами.

3. На окончательный прогноз ансамбля также влияет индивидуальный успех базовых учеников, а также количество базовых учеников, включенных в ансамбль.

4. Использование большего количества базовых учеников потребляет больше памяти и замедляет обработку, что делает ее вычислительно затратной. Алгоритм, используемый для объединения или интеграции каждого классификатора, также оказывает значительное влияние на производительность и точность ансамбля.

Краткое содержание

Системы на основе ансамбля используются для решения множества задач машинного обучения, которые трудно решить с помощью одной системы классификаторов. Подумайте, какую разницу может иметь даже небольшое увеличение точности в области медицины. Снижая флуктуации выходных данных классификатора и, таким образом, повышая точность, системы на основе ансамбля обеспечивают очевидные, простые, элегантные и мощные решения.

В типичной системе, основанной на ансамбле, есть три этапа: на первом этапе данные отбираются с использованием нескольких алгоритмов, таких как выборка с заменой в случайном лесу, выборка по весам в Adaboost и т. д. На следующем этапе каждый классификатор обучается с использованием выборочных данных, а выходные данные объединяются на последнем этапе с использованием правила сумм, такого как голосование и вычисление среднего / медианы выходных данных. Мы также рассмотрели известные методы ансамбля, такие как бэггинг и случайный лес, подходы повышения, такие как Adaboost и повышение градиента, и обобщение стека, и провели небольшой эксперимент с набором данных, чтобы показать, как метод ансамбля превзошел одиночный классификатор.

Из-за высокой степени успеха ансамблевых методов область исследований в этой области в последнее время резко возросла, и во многих областях настоятельно рекомендуется использовать ансамблевые методы перед тем, как сделать прогноз.

Большое спасибо за чтение!

Пожалуйста 👏 и подпишитесь на меня, если вам понравился этот пост, так как он стимулирует меня писать больше! Вы можете связаться со мной через www.linkedin.com/in/avisarika-tripathy для ваших предложений или вопросов.

Введение в ансамблевые методы машинного обучения (часть 2/2)

Популярные техники ансамбля

Сравнение одиночного классификатора и методов ансамбля

Факторы, влияющие на точность ансамбля

Краткое содержание

Рекомендации

Вопросы по теме