Чтобы избавиться от моделей Over & Under fit.

Мотивация

Пока мы начинаем строить некоторые модели машинного обучения, мы столкнемся с этими символами переобучения и недообучения. Я чувствую, что это монстры в моделировании, которые мешают мне построить идеальную модель. Чтобы избавиться от них, я столкнулся с четырьмя различными способами сбалансировать набор данных и модель.

Есть четыре способа получить сбалансированную модель.

  • K-кратная перекрестная проверка
  • Регуляризация L1 и L2
  • Анализ главных компонентов
  • Бэгинг и бустинг

Прежде чем перейти к этим четырем способам, мы рассмотрим несколько важных вещей и концепций.

Дисперсия и погрешность

Дисперсия — это изменчивость между двумя сценариями набора данных во время обучения и тестирования.

Например, в одном сценарии набор данных получает ошибку обучения 0 и ошибку тестирования 75. Во втором сценарии ошибку обучения 0 и ошибку тестирования 20.

  • Высокая дисперсия, когда ошибка тестирования сильно различается между двумя сценариями ошибки тестирования.

  • Низкая дисперсия, когда ошибка тестирования незначительно отличается от этих сценариев ошибок тестирования.

Смещение — это измерение того, насколько точно модель может зафиксировать закономерность в наборе тестовых данных.

  • Высокое смещение, когда ошибка поезда велика.

  • Низкое смещение, когда ошибка поезда мала.

Здесь у нас есть диаграмма «бычий глаз» дисперсии и смещения.

Когда модель соответствует набору тестовых данных с переобучением, она получает высокую дисперсию, если недостаточно подходит, она получает высокое смещение, а в сбалансированном соответствии получает низкую дисперсию и низкое смещение.

K-кратная перекрестная проверка

Это один из лучших способов проверки набора данных для тестирования. Он выполняет сгибы на полном наборе данных, а затем использует один сгиб для тестирования модели на каждой итерации.

Регуляризация L1 и L2

Ее также называют регрессией Лассо и Риджа.

Как мы видим на рисунке выше, в нем указана формула среднеквадратичной ошибки. Добавив к нему лямбду, мы получим регуляризацию L2, которая помогает контролировать частоту ошибок в MSE с использованием лямбда. Когда лямбда мала, ошибка будет меньше. Это наказание за более высокое значение тэты.

В L2 мы используем квадрат на тета, а в L1 мы используем абсолют на тета. Когда тета мала, общая ошибка будет небольшой.

Анализ главных компонентов (PCA)

Анализ основных компонентов используется в машинном обучении для уменьшения размерности.

  • Он определяет наиболее важные функции, влияющие на целевую переменную.
  • Перед применением PCA нам нужно масштабировать функции.

Бэгинг и бустинг

Это комбинация методов начальной загрузки и агрегации.

  • Bootstrap — это метод, при котором набор данных делится на подмножества наборов данных с использованием повторной выборки с заменой.
  • Агрегация объединяет результаты начальной загрузки с суммой или средним значением.

Заключение

С помощью этих способов мы можем избавиться от проблем переобучения и получить сбалансированные данные для моделирования. Мы можем использовать любой из четырех вышеперечисленных способов для получения модели сбалансированного соответствия, а также метод проб и ошибок, позволяющий использовать те способы, которые подходят для выбранных наборов данных. Надеюсь, вы узнали что-то полезное для моделирования.

Спасибо за прочтение!!