Чтобы избавиться от моделей Over & Under fit.
Мотивация
Пока мы начинаем строить некоторые модели машинного обучения, мы столкнемся с этими символами переобучения и недообучения. Я чувствую, что это монстры в моделировании, которые мешают мне построить идеальную модель. Чтобы избавиться от них, я столкнулся с четырьмя различными способами сбалансировать набор данных и модель.
Есть четыре способа получить сбалансированную модель.
- K-кратная перекрестная проверка
- Регуляризация L1 и L2
- Анализ главных компонентов
- Бэгинг и бустинг
Прежде чем перейти к этим четырем способам, мы рассмотрим несколько важных вещей и концепций.
Дисперсия и погрешность
Дисперсия — это изменчивость между двумя сценариями набора данных во время обучения и тестирования.
Например, в одном сценарии набор данных получает ошибку обучения 0 и ошибку тестирования 75. Во втором сценарии ошибку обучения 0 и ошибку тестирования 20.
- Высокая дисперсия, когда ошибка тестирования сильно различается между двумя сценариями ошибки тестирования.
- Низкая дисперсия, когда ошибка тестирования незначительно отличается от этих сценариев ошибок тестирования.
Смещение — это измерение того, насколько точно модель может зафиксировать закономерность в наборе тестовых данных.
- Высокое смещение, когда ошибка поезда велика.
- Низкое смещение, когда ошибка поезда мала.
Здесь у нас есть диаграмма «бычий глаз» дисперсии и смещения.
Когда модель соответствует набору тестовых данных с переобучением, она получает высокую дисперсию, если недостаточно подходит, она получает высокое смещение, а в сбалансированном соответствии получает низкую дисперсию и низкое смещение.
K-кратная перекрестная проверка
Это один из лучших способов проверки набора данных для тестирования. Он выполняет сгибы на полном наборе данных, а затем использует один сгиб для тестирования модели на каждой итерации.
Регуляризация L1 и L2
Ее также называют регрессией Лассо и Риджа.
Как мы видим на рисунке выше, в нем указана формула среднеквадратичной ошибки. Добавив к нему лямбду, мы получим регуляризацию L2, которая помогает контролировать частоту ошибок в MSE с использованием лямбда. Когда лямбда мала, ошибка будет меньше. Это наказание за более высокое значение тэты.
В L2 мы используем квадрат на тета, а в L1 мы используем абсолют на тета. Когда тета мала, общая ошибка будет небольшой.
Анализ главных компонентов (PCA)
Анализ основных компонентов используется в машинном обучении для уменьшения размерности.
- Он определяет наиболее важные функции, влияющие на целевую переменную.
- Перед применением PCA нам нужно масштабировать функции.
Бэгинг и бустинг
Это комбинация методов начальной загрузки и агрегации.
- Bootstrap — это метод, при котором набор данных делится на подмножества наборов данных с использованием повторной выборки с заменой.
- Агрегация объединяет результаты начальной загрузки с суммой или средним значением.
Заключение
С помощью этих способов мы можем избавиться от проблем переобучения и получить сбалансированные данные для моделирования. Мы можем использовать любой из четырех вышеперечисленных способов для получения модели сбалансированного соответствия, а также метод проб и ошибок, позволяющий использовать те способы, которые подходят для выбранных наборов данных. Надеюсь, вы узнали что-то полезное для моделирования.
Спасибо за прочтение!!