Что такое линейная регрессия?

Это контролируемая проблема обучения. где у нас есть как точка данных, так и соответствующий вывод (X и Y).

Здесь X — независимая переменная, а Y — зависимая переменная.

Независимая переменная: переменная, которая находится под нашим контролем, например, мы можем контролировать наши входные данные X. Она называется независимой, потому что ее значение не зависит и не зависит от состояние любой другой переменной.

Зависимая переменная: переменные, которые не находятся под нашим контролем, например, мы не можем контролировать вывод линейной регрессии для данной модели и точки входных данных.

Простейшая форма уравнения регрессии с одной зависимой и одной независимой переменной определяется формулой y = c + b * X , где y = estimated dependent variable value , c = constant , b = regression coefficient и x = independent variable value

Когда мы обучаем нашу модель на входных данных, она узнает значения параметров c и b. В 2D-плоскости линейная регрессия будет представлена ​​линией, а в 3D-плоскости или более высоком порядке она будет представлена ​​гиперплоскостью.

Множественная линейная регрессия?

Когда у нас есть более одной независимой переменной, мы называем это множественной линейной регрессией.

Y = b0 + b1 * X1 + b2 * X2 + ... + bn * Xn

Из точек данных (красного цвета) видно, что мы не можем подогнать этот набор данных к простейшей форме линейной регрессии. Но полином более высокого порядка может соответствовать этим точкам данных.

Y = a0 + a1 * X + a2 * X^2 + ... + an * X^n

Мы преобразуем приведенный выше многочлен в линейное уравнение, которое имеет более одной независимой переменной.

x1 = X , x2 = X^2 , x3 = X^3 , … , xn = X^n

Теперь уравнение становится:

Y = a0 + a1 * x1 + a2 * x2 + a3 * x3 + ... + an * xn

Каковы предположения линейной регрессии?

Здесь мы перечислили некоторые предположения, связанные с линейной регрессией:

  1. Линейность: связь между X и средним значением Y является линейной.
  2. Гомоскедастичность: дисперсия остатка одинакова для любого значения X.
  3. Независимость: наблюдения независимы друг от друга. рассмотрим две точки данных (x1, y1) и (x2, y2), тогда эти две точки данных не зависят друг от друга.
  4. Нормальность: при любом фиксированном значении X Y нормально распределяется.

Что такое RMSE и MSE?

Среднеквадратическая ошибка (или MSE) говорит вам, насколько близка линия регрессии к набору точек. Он делает это, беря расстояния от точек до линии регрессии (эти расстояния являются «ошибками») и возводя их в квадрат. Возведение в квадрат необходимо для удаления любых отрицательных знаков. Это также придает больший вес большим различиям. Это называется среднеквадратической ошибкой, так как вы находите среднее значение набора ошибок. Чем ниже MSE, тем лучше прогноз.

RMSE = sqrt(MSE)

Среднеквадратическая ошибка (RMSE) — это стандартный способ измерения ошибки модели при прогнозировании количественных данных. Но почему мы здесь делим на n под квадратным корнем? Если мы оставляем n (количество наблюдений) фиксированным, все, что он делает, это масштабирует евклидово расстояние с коэффициентом √(1/n)

Какую функцию потерь вы будете использовать для проверки вашей модели линейной регрессии?

Вы можете использовать RMSE, MSE, чтобы получить производительность вашей модели.

Как вы обнаруживаете переоснащение в линейной регрессии?

Если ошибка обучения очень мала, например, 10–12%, а ошибка теста слишком высока, например, 70–80%, то, скорее всего, ваша модель просто запоминает точку данных обучения, и это явно указывает на то, что ваша модель переоснащена.

Можем ли мы использовать линейную регрессию для анализа временных рядов?

Да, конечно, мы можем использовать линейную регрессию для анализа временных рядов.

Что такое выбросы и как они помогут вам повысить точность?

Точки данных, которые значительно отличаются от остальных точек, называются выбросами.

Некоторые алгоритмы, такие как линейная регрессия, очень чувствительны к выбросам. Таким образом, правильное обращение окажет значительное влияние на точность модели. вы можете удалить эти значения или заменить их средним значением, медианой, модой или процентилем в зависимости от распределения данных и количества данных, которые у вас есть.

Влияние пропущенных значений?

Он чувствителен к отсутствующим значениям, присутствующим в данных.

Примечание: Работа с пропущенными значениями

Преимущества линейной регрессии?

  1. Для данных, которые линейно разделимы, этот алгоритм работает исключительно.
  2. Очень легко реализовать и обучить модель.
  3. Он может обрабатывать переобучение с использованием методов уменьшения размерности, перекрестной проверки и регуляризации.

Недостаток линейной регрессии?

  1. Иногда, когда данные странные, нам приходится много заниматься разработкой функций.
  2. Если независимые функции коррелированы, это может повлиять на производительность.
  3. этот алгоритм весьма чувствителен к шуму и выбросам
  4. Это приводит к мультиколлинеарности

Вариант использования линейной регрессии?

  • Медицинские исследователи часто используют линейную регрессию, чтобы понять взаимосвязь между дозировкой лекарств и артериальным давлением пациентов. таких примеров больше.

…………………..Спасибо, что прочитали эту статью

Надеюсь, вам понравилось.