Когда дело доходит до точности или производительности машинного обучения, важно понимать и осваивать компромисс между отклонениями смещения. Теоретически все будут понимать концепцию смещения и дисперсии, но когда дело доходит до модели, глубокое понимание этого компромисса будет хорошей поддержкой.

Когда мы работаем с обучением моделей, основная цель — выяснить взаимосвязь между зависимой и независимой переменными в виде функции. Мы будем рассматривать каждую функцию как X1, X2,… Xn и целевую переменную как Y . Отношения между ними мы можем упомянуть как ,

Y=f(Xn)+e

Где f — фиксированная неизвестная функция значений X, а e — неустранимая ошибка. Несмотря на то, что цель состоит в том, чтобы найти оптимизированное оценочное значение f (x), невозможно сделать точную оценку для f (X), и это дает значение члена ошибки.

В основном ошибка имеет два типа,

  1. Уменьшаемая ошибка
  2. Неустранимая ошибка

Уменьшаемая ошибка - это ошибки, которые можно уменьшить путем настройки параметров, нормализации и т. д., и которые могут незначительно повысить точность модели. Однако мы не можем создать модель со 100% точностью, где это приводит к неустранимой ошибке (e). Другими словами, мы можем сказать, что неустранимые ошибки - это информация Y, которую X не может дать.

Когда мы будем выяснять, насколько точно модель соответствует данным, основным методом, на наш взгляд, будет MSE (среднеквадратичная ошибка).

Это не что иное, как сумма в квадрате разницы предсказанного результата и фактического результата. Это значение даст нам три важные информации.

  1. Дисперсия f(X)
  2. Квадрат смещения f(X)
  3. Дисперсия члена ошибки (e)

Услышьте предвзятость и дисперсию, которые сильно влияют на точность или производительность модели.

Предвзятость

Смещение — это ошибка, возникающая, когда модель упрощает сложные данные для точного прогнозирования. В целом можно сказать, что смещение — это разница между средним прогнозом нашей модели и правильным значением, которое мы пытаемся предсказать. При высоком смещении будет упущена важная связь между зависимой и независимой переменной, что приведет к недообучению.

Дисперсия

С другой стороны, дисперсия — это разница модели в прогнозах с разными наборами данных. Поскольку обучающие данные используются для оценки f(X), разные наборы данных будут давать разные оценочные значения. Но значения оценок не должны сильно различаться, иначе это может привести к переоснащению.

На приведенном выше рисунке красная линия обозначает MSE, зеленая линия обозначает смещение, а желтая линия обозначает дисперсию относительно гибкости модели. Как мы видим, при увеличении гибкости смещение уменьшается и в какой-то момент будет поддерживаться на том же уровне, а с другой стороны увеличится дисперсия, что приведет к высокому значению MSE. Из рисунка видно, что Минимальная MSE приведет к компромиссному значению как смещения, так и дисперсии. В идеале мы можем сказать, что низкая предвзятость и низкая дисперсия будут более хорошей моделью. Чтобы понять компромисс между ними, мы можем увидеть изображение ниже.

Где красный кружок обозначает фактический прогноз. Когда смещение и дисперсия изменяются, точки данных, которые представляют прогнозируемое значение, также перемещаются из красного круга. Например, когда модель имеет как низкое смещение, так и дисперсию, прогноз очень близок к фактическому результату, но когда дисперсия изменяется с низкого на высокий, точки данных разбросаны, что приводит к увеличению разницы с фактическим значением.

Таким образом, для модели , чтобы свести к минимуму ожидаемую ошибку теста, нам нужно выбрать модель обучения, которая одновременно обеспечивает низкую дисперсию и низкую погрешность.

Общие подходы к уменьшению дисперсии и смещения:

1 . Уменьшение размерности для отклонений.

2. Выбор признаков для дисперсии.

3. Добавление функций помогает уменьшить систематическую ошибку, но может привести к расхождениям.

Поскольку у каждой модели есть свои подходы, и каждые данные можно использовать по-разному, обширные знания практических данных помогут нам понять и определить компромисс.

Спасибо вам всем. Это небольшой обмен знаниями с моей стороны во время обучения. Пожалуйста, помогите мне понять ошибки, если таковые имеются, иначе, пожалуйста, помогите продвинуть статью.