Алгоритмы машинного обучения лучше всего можно понять через призму компромисса смещения и дисперсии.
Смещение — это упрощающие предположения, сделанные моделью для облегчения изучения целевой функции.
Как правило, параметрические алгоритмы имеют высокое смещение, что делает их быстрыми для изучения и более простыми для понимания, но в целом менее гибкими. В свою очередь, они имеют более низкую прогностическую эффективность в отношении сложных проблем, которые не соответствуют упрощающим предположениям о предвзятости алгоритмов.
Деревья решений являются примером алгоритма с низким смещением, тогда как линейная регрессия является примером алгоритма с высоким смещением.
Дисперсия — это величина, на которую изменится оценка целевой функции, если использовались другие обучающие данные. Целевая функция оценивается на основе обучающих данных с помощью алгоритма машинного обучения, поэтому следует ожидать, что алгоритм будет иметь некоторую дисперсию, а не нулевую дисперсию.
Алгоритм k-ближайших соседей является примером алгоритма с высокой дисперсией, тогда как линейный дискриминантный анализ является примером алгоритма с низкой дисперсией.
Целью любого алгоритма машинного обучения прогнозирующего моделирования является достижение низкого смещения и низкой дисперсии. В свою очередь, алгоритм должен обеспечивать хорошую производительность прогнозирования. Параметризация алгоритмов машинного обучения часто представляет собой битву за балансировку смещения и дисперсии.
- Увеличение смещения уменьшит дисперсию.
- Увеличение дисперсии уменьшит смещение.