Линейная регрессия — это самый простой, но самый интуитивно понятный алгоритм машинного обучения, поскольку он позволяет легко сопоставить значение «прогноза» с математической основой. Я написал эту статью после того, как много прочитал о математике, лежащей в основе работы различных алгоритмов машинного обучения. После прочтения нескольких статей и документов по теме я попытался написать эту статью, используя всю информацию и знания, которые я получил. Я попытался сжать математику и выводы, необходимые для того, чтобы прийти к используемым формулировкам довольно простым способом.

Надеюсь, вы найдете его информативным!

В линейной регрессии наша цель - установить линейную связь между зависимой (Y) и независимой переменной (X). Проще говоря, мы хотим найти функцию, которой удовлетворяют точки с X и Y в качестве абсцисс и ординат соответственно (X, Y). Итак, наша цель — найти коэффициенты такой линейной функции, представленной как a и b.

Но в реальных сценариях ни одна из зависимостей не является идеально линейной, поэтому функция не будет учитывать все точки. Цель линейной регрессии — найти наилучшую линейную функцию, которая соответствует большинству точек. Думайте об этом как о множестве случайных точек на миллиметровке. Линейная регрессия направлена ​​на то, чтобы нарисовать прямую линию с фиксированным наклоном таким образом, чтобы все эти точки лежали на прямой. Но это невозможно, если точки просто разбросаны по всему месту случайным образом. В этом случае мы выбираем линию, которая проходит через большинство точек и находится на минимальном расстоянии от остальных.

Мы определяем другую переменную Y ̂(обозначаемую как y hat), которая обозначает предсказанные значения зависимой переменной Y. Теперь эти переменные могут отличаться от фактических значений, представленных Y.

Итак, мы начнем со следующих двух уравнений,

Здесь я буду использовать одну из самых распространенных и простых функций ошибок (стоимости), то есть квадратную ошибку, для простых вычислений.

Другой распространенной функцией обработки ошибок является ошибка журнала:-

Введем Q следующим образом:

Теперь мы хотим минимизировать функцию стоимости, для этого мы продифференцируем Q относительно a и b, а затем приравняем их к 0 соответственно.

[Не беспокойтесь о частной производной, так как Q является функцией как a, так и b, поэтому при дифференцировании мы можем заменить dQ/da на ∂Q/∂a ]

Теперь подставим значение из уравнения 2:

Как мы знаем, что

и,

Итак, мы получили значение aтеперь давайте повторим процесс, чтобы найти b

Подставим значение a из полученного нами результата:

Наконец, мы получаем значение b. Теперь попробуем еще больше упростить

Как вы могли заметить,

Итак, мы можем сказать, что

Точно так же мы можем вывести другое выражение,

Вы заметите, что оба приведенных выше уравнения равны нулю, поэтому мы можем добавить их к нашему производному выражению b, ничего не меняя.

Cov(X,Y) обозначает ковариацию.

Var(X) означает дисперсию.

Теперь у нас есть значения для наших коэффициентов, мы можем подставить их и получить нашу линейную функцию.