Когда дело доходит до точности или производительности машинного обучения, важно понимать и осваивать компромисс между отклонениями смещения. Теоретически все будут понимать концепцию смещения и дисперсии, но когда дело доходит до модели, глубокое понимание этого компромисса будет хорошей поддержкой.
Когда мы работаем с обучением моделей, основная цель — выяснить взаимосвязь между зависимой и независимой переменными в виде функции. Мы будем рассматривать каждую функцию как X1, X2,… Xn и целевую переменную как Y . Отношения между ними мы можем упомянуть как ,
Y=f(Xn)+e
Где f — фиксированная неизвестная функция значений X, а e — неустранимая ошибка. Несмотря на то, что цель состоит в том, чтобы найти оптимизированное оценочное значение f (x), невозможно сделать точную оценку для f (X), и это дает значение члена ошибки.
В основном ошибка имеет два типа,
- Уменьшаемая ошибка
- Неустранимая ошибка
Уменьшаемая ошибка - это ошибки, которые можно уменьшить путем настройки параметров, нормализации и т. д., и которые могут незначительно повысить точность модели. Однако мы не можем создать модель со 100% точностью, где это приводит к неустранимой ошибке (e). Другими словами, мы можем сказать, что неустранимые ошибки - это информация Y, которую X не может дать.
Когда мы будем выяснять, насколько точно модель соответствует данным, основным методом, на наш взгляд, будет MSE (среднеквадратичная ошибка).
Это не что иное, как сумма в квадрате разницы предсказанного результата и фактического результата. Это значение даст нам три важные информации.
- Дисперсия f(X)
- Квадрат смещения f(X)
- Дисперсия члена ошибки (e)
Услышьте предвзятость и дисперсию, которые сильно влияют на точность или производительность модели.
Предвзятость
Смещение — это ошибка, возникающая, когда модель упрощает сложные данные для точного прогнозирования. В целом можно сказать, что смещение — это разница между средним прогнозом нашей модели и правильным значением, которое мы пытаемся предсказать. При высоком смещении будет упущена важная связь между зависимой и независимой переменной, что приведет к недообучению.
Дисперсия
С другой стороны, дисперсия — это разница модели в прогнозах с разными наборами данных. Поскольку обучающие данные используются для оценки f(X), разные наборы данных будут давать разные оценочные значения. Но значения оценок не должны сильно различаться, иначе это может привести к переоснащению.
На приведенном выше рисунке красная линия обозначает MSE, зеленая линия обозначает смещение, а желтая линия обозначает дисперсию относительно гибкости модели. Как мы видим, при увеличении гибкости смещение уменьшается и в какой-то момент будет поддерживаться на том же уровне, а с другой стороны увеличится дисперсия, что приведет к высокому значению MSE. Из рисунка видно, что Минимальная MSE приведет к компромиссному значению как смещения, так и дисперсии. В идеале мы можем сказать, что низкая предвзятость и низкая дисперсия будут более хорошей моделью. Чтобы понять компромисс между ними, мы можем увидеть изображение ниже.
Где красный кружок обозначает фактический прогноз. Когда смещение и дисперсия изменяются, точки данных, которые представляют прогнозируемое значение, также перемещаются из красного круга. Например, когда модель имеет как низкое смещение, так и дисперсию, прогноз очень близок к фактическому результату, но когда дисперсия изменяется с низкого на высокий, точки данных разбросаны, что приводит к увеличению разницы с фактическим значением.
Таким образом, для модели , чтобы свести к минимуму ожидаемую ошибку теста, нам нужно выбрать модель обучения, которая одновременно обеспечивает низкую дисперсию и низкую погрешность.
Общие подходы к уменьшению дисперсии и смещения:
1 . Уменьшение размерности для отклонений.
2. Выбор признаков для дисперсии.
3. Добавление функций помогает уменьшить систематическую ошибку, но может привести к расхождениям.
Поскольку у каждой модели есть свои подходы, и каждые данные можно использовать по-разному, обширные знания практических данных помогут нам понять и определить компромисс.
Спасибо вам всем. Это небольшой обмен знаниями с моей стороны во время обучения. Пожалуйста, помогите мне понять ошибки, если таковые имеются, иначе, пожалуйста, помогите продвинуть статью.