Понимание смещения и дисперсии и их влияния на модели машинного обучения необходимо для разработки обобщающих моделей. Сегодня давайте поговорим об этих важных концепциях, не вдаваясь в технические подробности. Во-первых, мы попытаемся понять контролируемое обучение, прежде чем переходить к предвзятости и дисперсии.
Поскольку мы знаем, что машинное обучение — это искусство заставить компьютеры учиться самостоятельно или распознавать шаблоны из данных самостоятельно, а не явно предоставлять инструкции, такие как блок-схема, контролируемое обучение — это та часть машинного обучения, которая обучает или обучает компьютер с помощью помощи меток/целей, которые получаются из набора предикторов/входных переменных. Здесь узнаваемый паттерн — это базовая модель, которая сопоставляет входные переменные с соответствующими целями. Это может быть проблема регрессии, когда выходные данные непрерывны, или задача классификации, когда выходные данные дискретны. Допустим, мы пытаемся предсказать базовую модель или функцию вида Y = f(X).
f — неизвестная функция, которую мы хотим, чтобы компьютер нашел из доступных данных.
Предполагая, что данные распределены, как показано на приведенном выше графике рассеяния, наша цель состоит в том, чтобы определить идеальную модель, которая представляет собой красную кривую, которая обобщает модель не только для данных, но и для невидимых данных, которые могут быть доступны в будущем. В реальном времени всегда присутствует шум, о чем свидетельствует разница между точками и кривой, которую мы хотим игнорировать и определить наилучшую возможную модель для данных.
Нам нужно найти модель f -hat, которая наилучшим образом соответствует исходной модели f.
f-шляпа ~f
f-hat может быть простой моделью, такой как линейная или логистическая регрессия, или сложной, как дерево решений или нейронные сети. Модель должна отбрасывать как можно больше шума и достигать низкой ошибки прогнозирования для невидимых точек данных.
Модель должна отбрасывать как можно больше шума и достигать низкой ошибки прогнозирования для невидимых точек данных.
Поместив некоторый контекст, давайте попробуем понять это с точки зрения дерева решений.
Трудности приближения f
Как упоминалось выше, f-hat должен отбрасывать шум и достигать низкой ошибки прогнозирования, которая в случае неудачи вызовет две проблемы. Может возникнуть проблема, если модель соответствует шуму обучающих данных. Эта проблема называется Переобучение. Это приведет к низкой предсказательной способности модели.
Например, приведенный выше регрессор дерева решений пытается запомнить шум в обучающих данных, который вызывает низкую ошибку обучающего набора и высокую ошибку тестового набора.
Может возникнуть еще одна проблема, если модель недостаточно гибкая для аппроксимации f, поэтому она не может правильно предсказать данные, что называется Недообучение.
В этом случае модель регрессора дерева решений недостаточно сложна, чтобы отразить изменчивость цели, и приводит к высокой ошибке обучения и высокой ошибке теста, которые примерно равны.
Ошибка обобщения
Таким образом, чтобы понять, хорошо ли оцениваемая модель обобщает невидимые данные, ее можно разбить на три части.
Ошибка f-hat = смещение² + дисперсия + неустранимая ошибка
Непреодолимая ошибка – это ошибка, вносимая шумом, который является непредсказуемым и должен максимально отбрасываться оценочной моделью.
Термин Предвзятость показывает, насколько в среднем f-hat отличается от f.
Смещение — это в среднем то, насколько f-hat ≠ f
На приведенном выше рисунке показан сценарий с высоким смещением. Расчетная модель недостаточно сложна или гибка, чтобы аппроксимировать истинную функцию f, показанную красным цветом. Модели с высоким смещением приводят к недообучению.
Дисперсия показывает, насколько f-hat непостоянна в разных тренировочных выборках.
Дисперсия — это то, насколько f-hat несовместим с разными тренировочными наборами.
В этом случае оценочная модель настолько близко следует обучающим данным, что пропускает исходную функцию f. Модели с высокой дисперсией приводят к переоснащению.
Сложность модели задает гибкость модели для аппроксимации истинной функции f. Почти во всех контролируемых моделях сложность модели можно контролировать с помощью гиперпараметров, таких как максимальная глубина дерева для деревьев решений, количество слоев и узлов для нейронных сетей и т. д.
Когда сложность модели увеличивается, дисперсия увеличивается, а смещение уменьшается. И наоборот, когда сложность модели уменьшается, дисперсия уменьшается, а смещение увеличивается. Наша цель — найти такую сложность модели, которая минимизирует ошибку обобщения.
Когда сложность модели увеличивается, дисперсия увеличивается, а смещение уменьшается.
Поскольку эта ошибка представляет собой сумму трех членов, а неустранимая ошибка постоянна, нам нужно найти баланс между смещением и дисперсией, как если бы одно увеличивалось, а другое уменьшалось. Это называется компромиссом смещения и дисперсии.
Если мы проведем аналогию между аппроксимацией f-hat и стрельбой по цели с центром, являющимся истинной функцией/моделью, приведенная выше диаграмма дает интуитивно понятный способ понять эти концепции.
Если f-hat имеет низкое смещение и низкую дисперсию, наша модель будет сгруппирована вокруг центра ближе к нему. Если f-hat имеет большое смещение и высокую дисперсию, не только модель находится далеко от центра, но и они не сгруппированы вместе и сильно различаются.
Заключение
Понимание систематической ошибки и дисперсии и понимание того, от чего страдает оцениваемая модель (либо систематическая ошибка, либо дисперсия), имеет решающее значение при разработке и улучшении модели. Надеюсь, у вас было интуитивное понимание смещения и дисперсии.
Источник: Data Camp, Aurelien Geron