Понимание смещения и дисперсии и их влияния на модели машинного обучения необходимо для разработки обобщающих моделей. Сегодня давайте поговорим об этих важных концепциях, не вдаваясь в технические подробности. Во-первых, мы попытаемся понять контролируемое обучение, прежде чем переходить к предвзятости и дисперсии.

Поскольку мы знаем, что машинное обучение — это искусство заставить компьютеры учиться самостоятельно или распознавать шаблоны из данных самостоятельно, а не явно предоставлять инструкции, такие как блок-схема, контролируемое обучение — это та часть машинного обучения, которая обучает или обучает компьютер с помощью помощи меток/целей, которые получаются из набора предикторов/входных переменных. Здесь узнаваемый паттерн — это базовая модель, которая сопоставляет входные переменные с соответствующими целями. Это может быть проблема регрессии, когда выходные данные непрерывны, или задача классификации, когда выходные данные дискретны. Допустим, мы пытаемся предсказать базовую модель или функцию вида Y = f(X).

f — неизвестная функция, которую мы хотим, чтобы компьютер нашел из доступных данных.

Предполагая, что данные распределены, как показано на приведенном выше графике рассеяния, наша цель состоит в том, чтобы определить идеальную модель, которая представляет собой красную кривую, которая обобщает модель не только для данных, но и для невидимых данных, которые могут быть доступны в будущем. В реальном времени всегда присутствует шум, о чем свидетельствует разница между точками и кривой, которую мы хотим игнорировать и определить наилучшую возможную модель для данных.

Нам нужно найти модель f -hat, которая наилучшим образом соответствует исходной модели f.

f-шляпа ~f

f-hat может быть простой моделью, такой как линейная или логистическая регрессия, или сложной, как дерево решений или нейронные сети. Модель должна отбрасывать как можно больше шума и достигать низкой ошибки прогнозирования для невидимых точек данных.

Модель должна отбрасывать как можно больше шума и достигать низкой ошибки прогнозирования для невидимых точек данных.

Поместив некоторый контекст, давайте попробуем понять это с точки зрения дерева решений.

Трудности приближения f

Как упоминалось выше, f-hat должен отбрасывать шум и достигать низкой ошибки прогнозирования, которая в случае неудачи вызовет две проблемы. Может возникнуть проблема, если модель соответствует шуму обучающих данных. Эта проблема называется Переобучение. Это приведет к низкой предсказательной способности модели.

Например, приведенный выше регрессор дерева решений пытается запомнить шум в обучающих данных, который вызывает низкую ошибку обучающего набора и высокую ошибку тестового набора.

Может возникнуть еще одна проблема, если модель недостаточно гибкая для аппроксимации f, поэтому она не может правильно предсказать данные, что называется Недообучение.

В этом случае модель регрессора дерева решений недостаточно сложна, чтобы отразить изменчивость цели, и приводит к высокой ошибке обучения и высокой ошибке теста, которые примерно равны.

Ошибка обобщения

Таким образом, чтобы понять, хорошо ли оцениваемая модель обобщает невидимые данные, ее можно разбить на три части.

Ошибка f-hat = смещение² + дисперсия + неустранимая ошибка

Непреодолимая ошибка – это ошибка, вносимая шумом, который является непредсказуемым и должен максимально отбрасываться оценочной моделью.

Термин Предвзятость показывает, насколько в среднем f-hat отличается от f.

Смещение — это в среднем то, насколько f-hat f

На приведенном выше рисунке показан сценарий с высоким смещением. Расчетная модель недостаточно сложна или гибка, чтобы аппроксимировать истинную функцию f, показанную красным цветом. Модели с высоким смещением приводят к недообучению.

Дисперсия показывает, насколько f-hat непостоянна в разных тренировочных выборках.

Дисперсия — это то, насколько f-hat несовместим с разными тренировочными наборами.

В этом случае оценочная модель настолько близко следует обучающим данным, что пропускает исходную функцию f. Модели с высокой дисперсией приводят к переоснащению.

Сложность модели задает гибкость модели для аппроксимации истинной функции f. Почти во всех контролируемых моделях сложность модели можно контролировать с помощью гиперпараметров, таких как максимальная глубина дерева для деревьев решений, количество слоев и узлов для нейронных сетей и т. д.

Когда сложность модели увеличивается, дисперсия увеличивается, а смещение уменьшается. И наоборот, когда сложность модели уменьшается, дисперсия уменьшается, а смещение увеличивается. Наша цель — найти такую ​​сложность модели, которая минимизирует ошибку обобщения.

Когда сложность модели увеличивается, дисперсия увеличивается, а смещение уменьшается.

Поскольку эта ошибка представляет собой сумму трех членов, а неустранимая ошибка постоянна, нам нужно найти баланс между смещением и дисперсией, как если бы одно увеличивалось, а другое уменьшалось. Это называется компромиссом смещения и дисперсии.

Если мы проведем аналогию между аппроксимацией f-hat и стрельбой по цели с центром, являющимся истинной функцией/моделью, приведенная выше диаграмма дает интуитивно понятный способ понять эти концепции.

Если f-hat имеет низкое смещение и низкую дисперсию, наша модель будет сгруппирована вокруг центра ближе к нему. Если f-hat имеет большое смещение и высокую дисперсию, не только модель находится далеко от центра, но и они не сгруппированы вместе и сильно различаются.

Заключение

Понимание систематической ошибки и дисперсии и понимание того, от чего страдает оцениваемая модель (либо систематическая ошибка, либо дисперсия), имеет решающее значение при разработке и улучшении модели. Надеюсь, у вас было интуитивное понимание смещения и дисперсии.

Источник: Data Camp, Aurelien Geron