Что означает этот дополнительный член в уравнении линейной регрессии?

Да, ошибочный термин, но он не так прост, как кажется. Давайте углубимся. Нет, серьезно.

Некоторые основы

Если вы когда-либо отваживались на изучение машинного обучения или науки о данных, вы наверняка сталкивались с этим уравнением.

Мы знаем, что член f(x) здесь представляет собой линейное уравнение в форме m*x + c. Итак, что же это за лишний эпсилон в дополнение к нему. Этот термин известен как член случайной ошибки среднего нуля.

Уравнение, представляющее линию наименьших квадратов, выглядит следующим образом:

Обратите внимание на шляпу или кепку (назовите как хотите) на символах? Это указывает на то, что значения в приведенных выше уравнениях не являются фактическими значениями терминов.

Уравнение, представляющее линию регрессии населения, выглядит примерно так:

Вы бы заметили пропущенный член эпсилон в первом уравнении, мы вернемся к этому позже.

Потерпите меня секунду, когда будете читать следующую строчку. Приведенное выше уравнение представляет собой линию регрессии, подходящую для всей модели, а уравнение с заглавными буквами представляет линию регрессии, подходящую для набора данных из этой модели.

Сейчас! Что я имею в виду? Представьте, что у нас есть случайное линейное уравнение в виде:

Кроме того, давайте предположим, что член эпсилон в приведенном выше уравнении генерируется случайным нормальным распределением Гаусса.

Красная линия на графике выше — это представление данных без эпсилон-члена. Это настоящие отношения, основанные на нашей модели. С другой стороны, синяя линия — это оценка, основанная на данных наблюдений.

Синяя линия показывает, что в реальном мире, если бы у нас была модель, основанная на приведенном выше уравнении, мы могли бы вычислить линию наименьших квадратов. Однако красная линия остается незамеченной.

Почему?

Возьмем пример…

Представьте, что вы хотите найти среднее значение генеральной совокупности для случайной величины Y. Но среднее значение генеральной совокупности неизвестно, но у нас есть набор наблюдений для переменной Y.

Мы можем использовать эти наблюдения для расчета выборочного среднего. Теперь оно не будет таким же, как среднее значение генеральной совокупности, но среднее значение выборки обеспечит очень хорошее приближение к среднему значению генеральной совокупности.

Заключение

Точно так же и красная линия, и синяя линия различны. То есть мы пишем термин эпсилон, чтобы заполнить то, что мы не можем знать (но можем очень близко подойти к тому, чтобы найти).