Линейная регрессия — это алгоритм машинного обучения, основанный на обучении с учителем. Он выполняет задачу регрессии. Регрессия моделирует целевое значение прогноза на основе независимых переменных. Связь между независимой и зависимой переменной известна как модель линейной регрессии. Существует два типа линейной регрессии — простая и множественная.

(I) Простая линейная регрессия. Простая линейная регрессия — это регрессионная модель, которая оценивает взаимосвязь между одной независимой переменной и одной зависимой переменной с помощью прямой линии. Он ищет статистическую связь. Статистическая взаимосвязь не является точной при определении взаимосвязи между двумя переменными. Например, связь между опытом и зарплатой.

(II) Множественная линейная регрессия. В модели множественной линейной регрессии оценивается взаимосвязь между несколькими независимыми переменными и одной зависимой переменной. Она используется, когда мы хотим предсказать значение переменной на основе значения двух или более других переменных. Например, мы можем использовать множественную регрессию, чтобы понять, можно ли предсказать результаты экзамена на основе времени повторения, беспокойства при тестировании и посещаемости лекций.

Реальный сценарий

У нас есть набор данных, который содержит информацию о связи между «sqft. гостиная», «кол-во спален», «кол-во спален». ванных комнат» и «Цена дома». Вышеупомянутые требования соблюдаются и фиксируются. Это будут наши тренировочные данные. Цель состоит в том, чтобы разработать модель, которая будет прогнозировать цены на жилье, если будут заданы требования. Используя множественную линейную регрессию, получается линия регрессии, которая даст минимальную ошибку. Это линейное уравнение затем используется для новых данных. Таким образом, если мы дадим вышеупомянутые требования в качестве входных данных, наша модель должна предсказать их оценку с минимальной ошибкой.

Преимущества линейной регрессии

1. Линейная регрессия работает хорошо, когда набор данных линейно разделим. Мы можем использовать его, чтобы найти характер взаимосвязи между переменными.

2. Линейную регрессию легче реализовать, интерпретировать и очень эффективно обучать.

3. Линейная регрессия склонна к переобучению, но этого можно легко избежать, используя некоторые методы уменьшения размерности, методы регуляризации (L1 и L2) и перекрестную проверку.

Недостатки линейной регрессии

1. Основным ограничением линейной регрессии является предположение о линейности между зависимой переменной и независимыми переменными. В реальном мире данные редко линейно разделимы. Предполагается, что существует прямолинейная связь между зависимой и независимой переменными, что во многих случаях неверно.

2. Склонен к шуму и переобучению: если количество наблюдений меньше количества признаков, линейную регрессию использовать не следует, иначе это может привести к переобучению, поскольку в этом сценарии при построении модели начинает учитываться шум.

3. Склонность к выбросам: линейная регрессия очень чувствительна к выбросам (аномалиям). Таким образом, выбросы должны быть проанализированы и удалены перед применением линейной регрессии к набору данных.

Сводка

Линейная регрессия отлично подходит для изучения процесса анализа данных. Это отличный инструмент для анализа взаимосвязей между переменными, но он не рекомендуется для большинства практических приложений, поскольку чрезмерно упрощает реальные задачи, предполагая линейную взаимосвязь между переменными. приложений, потому что это упрощает проблемы реального мира.