Алгоритмы машинного обучения лучше всего можно понять через призму компромисса смещения и дисперсии.

Смещение — это упрощающие предположения, сделанные моделью для облегчения изучения целевой функции.

Как правило, параметрические алгоритмы имеют высокое смещение, что делает их быстрыми для изучения и более простыми для понимания, но в целом менее гибкими. В свою очередь, они имеют более низкую прогностическую эффективность в отношении сложных проблем, которые не соответствуют упрощающим предположениям о предвзятости алгоритмов.

Деревья решений являются примером алгоритма с низким смещением, тогда как линейная регрессия является примером алгоритма с высоким смещением.

Дисперсия — это величина, на которую изменится оценка целевой функции, если использовались другие обучающие данные. Целевая функция оценивается на основе обучающих данных с помощью алгоритма машинного обучения, поэтому следует ожидать, что алгоритм будет иметь некоторую дисперсию, а не нулевую дисперсию.

Алгоритм k-ближайших соседей является примером алгоритма с высокой дисперсией, тогда как линейный дискриминантный анализ является примером алгоритма с низкой дисперсией.

Целью любого алгоритма машинного обучения прогнозирующего моделирования является достижение низкого смещения и низкой дисперсии. В свою очередь, алгоритм должен обеспечивать хорошую производительность прогнозирования. Параметризация алгоритмов машинного обучения часто представляет собой битву за балансировку смещения и дисперсии.

  • Увеличение смещения уменьшит дисперсию.
  • Увеличение дисперсии уменьшит смещение.