Компромисс смещения и дисперсии

В этой части статьи, целью которой является эта статья, будут рассмотрены предвзятость и дисперсия в машинном обучении. Смещение — это систематическая ошибка, возникающая в модели машинного обучения из-за неверных предположений в процессе машинного обучения. Мы можем определить предвзятость как ошибку между средней моделью и истинной правдой. Это относится к тому, насколько хорошо модель соответствует набору обучающих данных.

С другой стороны, дисперсия относится к изменениям в модели при использовании разных пропорций набора обучающих данных. Дисперсия — это изменчивость прогноза модели.

Предвзятость: предположения, сделанные моделью для облегчения изучения функции. Это частота ошибок обучающих данных. Когда частота ошибок имеет высокое значение, мы называем это высоким смещением, а когда частота ошибок имеет низкое значение, мы называем это низким смещением.

Дисперсия. Частота ошибок данных тестирования называется дисперсией. Когда частота ошибок имеет высокое значение, мы называем это высокой дисперсией, а когда частота ошибок имеет низкое значение, мы называем ее низкой дисперсией.

Переобучение-недообучение

Переобучение относится к алгоритму машинного обучения или статистической модели, которая изучает детали и шум в обучающих данных до такой степени, что это отрицательно влияет на производительность модели на новых данных. Когда это происходит, алгоритм, к сожалению, не может точно работать с невидимыми данными, что противоречит его цели. Хотя алгоритмы начинают обучать данные, если это занимает много времени, модель может изучить «шум» или нерелевантную информацию в наборе данных. В этом случае модель становится «переобученной» и не может хорошо обобщаться на новые данные.

Причины переобучения

  1. Высокая дисперсия и низкое смещение.
  2. Модель слишком сложная.
  3. Размер обучающих данных.

Недообучение — это когда алгоритм машинного обучения или статистическая модель не могут точно уловить взаимосвязь между входными и выходными переменными, что приводит к высокой частоте ошибок как в обучающем наборе, так и в невидимых данных. Модель не может ни моделировать обучающие данные, ни обобщать новые данные. Неподходящая модель машинного обучения не является подходящей моделью и будет очевидна, поскольку она будет иметь низкую производительность на обучающих данных.

Причины недообучения

  1. Высокая предвзятость и низкая дисперсия.
  2. Размер используемого обучающего набора данных недостаточен.
  3. Модель слишком проста.
  4. Обучающие данные не очищаются, а также содержат в себе шум.
  • Переоснащение: хорошая производительность на обучающих данных, плохое обобщение на другие данные.
  • Недостаточное соответствие: плохая производительность на обучающих данных и плохое обобщение на другие данные.

Как этого избежать?

Существует несколько методов, которые исследователи машинного обучения могут использовать для уменьшения переобучения.

Обучение с дополнительными данными

С увеличением обучающих данных становятся заметными важные функции, которые необходимо извлечь. Модель может распознавать взаимосвязь между входными атрибутами и выходной переменной. Единственное предположение в этом методе состоит в том, что данные, которые будут загружены в модель, должны быть чистыми; в противном случае это усугубит проблему переобучения.

Перекрестная проверка

Это делается путем разделения вашего набора данных на «тестовые» данные и данные «обучения». Постройте модель, используя набор «поезд». Набор «тест» используется для проверки во времени. Таким образом, вы знаете, каков ожидаемый результат, и вы легко сможете судить о точности вашей модели.

Увеличение данных

Альтернативным методом обучения с большим количеством данных является увеличение данных, которое дешевле и безопаснее, чем предыдущий метод. Расширение данных приводит к тому, что выборочные данные выглядят немного по-разному каждый раз, когда модель их обрабатывает.

Регуляризация

Это форма регрессии, которая упорядочивает или сужает оценки коэффициентов до нуля. Этот метод препятствует изучению более сложной модели.

Ранняя остановка

При обучении учащегося итеративным методом вы останавливаете процесс обучения перед последней итерацией. Это предотвращает запоминание моделью набора данных.

Сокращение

Этот метод применим к деревьям решений. Предварительная обрезка: прекратите «выращивать» дерево раньше, чем оно идеально классифицирует обучающий набор. Постобрезка: позволяет дереву «вырасти», идеально классифицировать обучающий набор, а затем выполнить постобрезку дерева.

Ассемблирование

Это метод машинного обучения, который объединяет несколько базовых моделей для создания одной оптимальной прогностической модели. При обучении ансамблем прогнозы объединяются для определения наиболее популярного результата. Хорошо известные ансамблевые методы включают в себя бэггинг и бустинг, которые предотвращают переоснащение, поскольку ансамблевая модель создается из агрегации нескольких моделей.