РЕГУЛЯРИЗАЦИЯ В МАШИННОМ ОБУЧЕНИИ: ЧТО, ПОЧЕМУ И КАК?

ОТВЕТ!

Здравствуйте, сегодня мы поговорим о регуляризации в машинном обучении. В частности, мы сосредоточимся на методах ридж-регрессии и регрессии Лассо, а затем дадим некоторую базовую информацию о других методах регуляризации, используемых в области машинного обучения. Итак, не теряя много времени, приступим...

ЧТО И ПОЧЕМУ РЕГУЛЯРИЗАЦИЯ:

Когда мы работаем над любым проектом по науке о данных, главная цель — получить хорошую оценку производительности (высокая точность или низкий уровень ошибок) как для данных обучения, так и для тестирования. Некоторые более простые модели, как правило, «недооценивают» данные, в то время как некоторые сложные модели имеют тенденцию к «переоснащению». Проще говоря, переобучение — это ситуация, в которой наша модель слишком много узнает об обучающих данных и, следовательно, она почти идеально подходит к обучающим данным и дает высокую оценку точности или более низкую функцию затрат на обучающих данных. Однако слишком точное изучение обучающих данных ухудшает сценарий, поскольку наша модель теряет способность обобщать тенденции данных, что приводит к очень низкой производительности на тестовых данных. В терминах машинного обучения этот случай переобучения лучше всего описывается как сцена LOW BIAS HIGH VARIANCE. С другой стороны, недообучение происходит, когда модель слишком проста, то есть модель не учится на обучающих данных и не работает лучше на тестовых данных. Мы говорим, что наша модель страдает от недообучения, когда случайное предположение оказывается более точным, чем наша модель. Недостаточное соответствие лучше всего описывается как сцена HIGH BIAS HIGH VARIANCE. Наша главная цель при разработке любой модели машинного обучения — добиться НИЗКОГО СМЕЩЕНИЯ И НИЗКОЙ ДИАГРАММЫ. Однако, как и большинство вещей в жизни, мы не можем получить лучшее из обоих миров 😉 и, следовательно, мы должны довольствоваться чем-то средним, прокладывая путь к НИЗКОМУ СМЕТЕНИЮ НИЗКОЙ ДИАГРАММЫ сценарий. Поэтому мы всегда пытаемся найти золотую середину между переоснащением и недообучением.

Регуляризация — это метод, который пытается помочь нам в поисках этой «сладкой точки». Эта корректировка установления баланса между смещением и дисперсией также называется Компромисс между смещением и дисперсией, и поэтому часто говорят, что регуляризация — это способ достижения правильного компромисса между смещением и дисперсией. Этот компромисс дисперсии смещения лучше всего визуализировать в виде строки следующим образом:

КАК РЕГУЛИРОВАНИЯ

Как вы, возможно, знаете, регрессионный анализ в основном выполняется для прогнозирования непрерывной или, проще говоря, числовой переменной отклика. Чаще всего мы используем среднеквадратичную ошибку или абсолютную среднюю ошибку, чтобы вычислить функцию ошибки и оценить, насколько хороша наша модель. Чтобы лучше понять, рассмотрим следующий пример, в котором наша модель переобучает данные обучения. Синяя кривая обозначает сценарий переобучения, где, если нашей модели предоставить данные, которые не лежат на синей кривой, это даст большую ошибку по сравнению с моделью, описанной черной линией. Чтобы противостоять этому недостатку переобучения, регуляризация пытается минимизировать наклоны модели. Когда мы говорим о наклоне в регрессионном анализе, обычно это веса атрибутов, которые мы используем для прогнозирования переменной отклика. Регуляризация пытается наказать модели, имеющие высокий вес атрибутов, путем добавления штрафного члена к функции стоимости модели.

Таким образом, если мы используем функцию стоимости как среднеквадратичную ошибку для нашего регрессионного анализа, то регуляризация добавляет дополнительный член к функции стоимости, которая является функцией весов. Этот дополнительный член затем увеличивает стоимость переобученной модели, и, следовательно, мы пытаемся минимизировать эту вновь найденную функцию стоимости. Таким образом, мы пытаемся найти более обобщенную модель для наших данных и пытаемся выбраться из ловушки переобучения.

, где wi — вес каждого признака.

Как видите, веса в гребневой регрессии (wi²) могут стремиться к нулю, но никогда не будут равны нулю, в то время как в случае лассо-регрессии вес может стать равным нулю (wi). Следовательно, у нас могут быть признаки с нулевым весом в регрессии лассо, и, следовательно, регрессия лассо также может использоваться для выбора признаков.

Теперь очень естественно подумать, как регуляризация помогает справиться со сценарием недообучения, поскольку мы в любом случае будем увеличивать нашу функцию затрат, которая ранее также имела высокое значение, прежде чем добавлять штрафной член? Стоит отметить, что регуляризация управляется значением лямбда, присутствующим в штрафном сроке, и, следовательно, мы можем настроить это значение лямбда в зависимости от того, решаем ли мы проблему переоснащения или недообучения. Короче говоря, когда мы имеем дело с переоснащением, штрафной член будет вносить значительный вклад в функцию стоимости. Это связано с тем, что у нас будут высокие веса (наклоны) для функций, поскольку линия или кривая в сценарии переобучения будут крутыми. В сценарии недообучения веса или наклоны не будут такими высокими по сравнению со сценарием переобучения, потому что наклоны или веса для признаков не будут крутыми (помните базовую тригонометрию? Наклон линии задается tan(θ)) . Таким образом, дополнительный штрафной член будет вносить меньший вклад в функцию затрат, а среднеквадратическая ошибка или абсолютная средняя ошибка будут вносить больший вклад в функцию затрат. Следовательно, мы в конечном итоге попытаемся минимизировать функцию стоимости, которая будет иметь высокую среднеквадратичную ошибку или абсолютную среднюю ошибку в случае недообучения. (Не стесняйтесь обращаться, если вам неясна эта концепция. Я люблю плодотворные дискуссии!🙂).

Регуляризация, используемая в других задачах машинного обучения:

1) Бэггинг и бустинг — это методы регуляризации, используемые в деревьях решений.

2) Слой отсева в нейронной сети реализован как средство регуляризации.

Общая идея, основанная на моем опыте:

1) Всегда стандартизируйте данные перед использованием методов регуляризации.

2) Для меньшего набора данных гребневая регрессия работает лучше, а для больших наборов данных лучше работает лассо.

3) Значение λ приводит к регуляризации. Если модель переоснащается, попробуйте использовать высокие значения лямбда, так как это приведет к резкому увеличению функции стоимости. Если модель недостаточно подходит, попробуйте использовать меньшую лямбду, так как это будет означать, что мы придаем меньшее значение уменьшению веса признаков и, следовательно, больше внимания будет уделяться уменьшению среднеквадратичной ошибки, а не штрафным терминам весов.

Не стесняйтесь давать предложения … Ура!

РЕГУЛЯРИЗАЦИЯ В МАШИННОМ ОБУЧЕНИИ: ЧТО, ПОЧЕМУ И КАК?

Вопросы по теме