Одной из ключевых проблем, с которой сталкивается каждая модель машинного обучения, является проблема переобучения. Так что же такое переоснащение и как его свести к минимуму? Что такое регуляризация? К концу статьи вы разберетесь с этими понятиями.

Чтобы понять эти концепции, нам нужно будет ответить на следующие вопросы.

  1. Что такое переоснащение?
  2. Что такое регуляризация?
  3. Типы регуляризации

1. Что такое переоснащение?

Переобучение происходит, когда модель изучает детали и шум в обучающих данных до такой степени, что это негативно влияет на производительность модели на новых данных.

Простое объяснение приведенного выше определения заключается в том, что переобучение — это когда модель учитывает почти все функции. Когда это происходит, модель, вероятно, «запоминает» особенности. Переобучение также известно как дисперсия. Зеленая линия на изображении ниже указывает на чрезмерную подгонку.

Одним из решений проблемы переобучения является Регуляризация.

2. Что такое регуляризация?

Формальное определение регуляризации выглядит следующим образом.

Это форма регрессии, которая ограничивает/упорядочивает или сужает оценки коэффициентов до нуля.

Проще говоря, регуляризация — это метод, который учитывает все функции, но ограничивает влияние этих функций на выходные данные модели. Давайте разберемся в этом на примере.

Давайте возьмем пример цен на жилье с использованием линейной регрессии. Эта проблема может иметь много особенностей, которые следует учитывать. Скажем, для простоты у него около 100 функций. В этой задаче модель попытается учесть все функции, чтобы получить результат. Это в конечном итоге приведет к тому, что модель «запомнит» функции в наборе данных. В результате модель будет хорошо работать на тренировочном наборе, но будет очень плохо работать на тестовом наборе, поскольку данные для нее новые.

Здесь регуляризация играет жизненно важную роль. Он гарантирует, что модель учитывает функции, но использует гиперпараметр «константа регуляризации» лямбда, чтобы ограничить влияние этих функций на выходные данные и предотвратить переподгонку модели.

3. Типы регуляризации

Существует 3 типа регуляризации. В этой статье мы рассмотрим первые два

  1. l1 регуляризация
  2. l2 регуляризация
  3. регуляризация отсева

1. l1 регуляризация

Модель, использующая регуляризацию l1, называется регрессией Лассо. Регрессия Лассо (оператор наименьшего абсолютного сокращения и выбора) добавляет абсолютное значение величины коэффициента в качестве штрафного члена к функции потерь.

Значение лямбда должно быть сбалансировано. Очень маленькое значение приведет к OLS (Обычный метод наименьших квадратов), а очень большое значение сведет коэффициенты к нулю. Следовательно, модель будет неподходящей.

2. l2 регуляризация

Модель, использующая регуляризацию l2, называется регрессией Риджа. Это одна из наиболее широко используемых техник. Этот метод добавляет «квадрат величины» коэффициента в качестве штрафа к функции потерь. Здесь значение лямбда должно быть выбрано соответствующим образом, как и при регуляризации l1. Небольшое значение лямбда приведет к OLS, а большое значение приведет к проблеме недостаточной подгонки.

Примечание. Основное различие между этими двумя методами заключается в сроке наказания.

Один ключевой момент, который следует отметить в отношении регуляризации l1 (или) регрессии Лассо, заключается в том, что она сводит менее важные функции к нулю, что делает ее чрезвычайно полезной для выбора функций.

В заключение, есть несколько других методов решения проблемы переобучения, но рассмотренные выше методы хорошо работают для больших наборов данных.