Линейная регрессия в машинном обучении

Линейные регрессии часто называют «методами, основанными на границах», потому что они используются для определения границы решения, которая предсказывает непрерывный результат на основе входных признаков.

Регрессия обычно используется для прогнозирования целевых переменных с действительным знаком на основе данных. Поэтому, когда у вас есть целевой столбец с действительным значением или данные с действительным значением, мы выполняем линейную регрессию.

В линейной регрессии цель состоит в том, чтобы найти линейное уравнение, которое минимизирует расстояние между прогнозируемым результатом и фактическим результатом.

Эта задача регрессии, линейная регрессия попытается выполнить эти задачи, используя только уравнение линии.

Граничный метод — это не что иное, как линия.

Учитывая размеры, в одном измерении у нас есть нечто, называемое точечным уравнением.

Эту точку можно развернуть в два измерения, чтобы создать уравнение в виде линии, наклона и точки пересечения.

В 3 измерениях мы получим плоскость, в n измерениях получим гиперплоскость.

Проблема с n-мерными данными не может визуализировать более высокие измерения, поскольку у них будет несколько функций. Мы можем визуализировать только до трех измерений. Итак, за пределами трех измерений мы будем использовать математику, чтобы определить, какие формы мы получаем в этих более высоких измерениях.

когда дело доходит до граничных методов, мы будем иметь дело с линейными границами, что означает, что мы будем иметь дело с линиями, плоскостями и гиперплоскостями.

Итак, теперь давайте попробуем взять пример с учетом роста человека, чтобы предсказать его вес.

Линейная регрессия пытается найти линию, которая наилучшим образом соответствует данным, это будет одна из наиболее подходящих линий, и уравнение линии

y = mx + c

у нас может быть несколько линий, но линейная регрессия попытается найти наиболее подходящую линию, которая очень точно соответствует взаимосвязи между ростом и весом.

Это уравнение линейной регрессии для приведенного выше примера

вес = M*(рост)+C

поэтому, если мы знаем значения M и C, мы можем предсказать вес человека.

где «вес» представляет собой прогнозируемую выходную переменную, «высота» — это входной объект, «М» — это наклон, а «С» — точка пересечения по оси Y (значение прогнозируемого вывода, когда входной объект равен 0). Это уравнение представляет собой взаимосвязь между входной функцией и прогнозируемым результатом, что позволяет нам делать прогнозы на основе заданных данных.

Теперь давайте попробуем взглянуть на уравнение линии/плоскости/гиперплоскости и посмотреть, что представляют собой эти М и С.

Уравнение линии/плоскости/гиперплоскости

Размеры вдоль оси Y и оси X соответственно представлены переменными y и x. Значения по оси X представляют собой входной объект x, а значения по оси Y соответствуют прогнозируемому результату y, а m — это наклон, который рассчитывается как тангенс угла (θ), образованного с осью X в прямоугольный треугольник. Это тригонометрическое тангенсное отношение важно для определения того, как значения оси Y изменяются относительно значений оси X, что позволяет нам моделировать взаимосвязь между переменными и делать прогнозы на основе этой линейной взаимосвязи.

Угол 90 градусов, который формируется над x, поэтому, используя этот тангенс θ, вы всегда можете узнать, какой угол образует линия по отношению к оси x, и это значение есть не что иное, как наклон линия (M = Tan θ).

Этот θ не что иное, как угол между линией и осью x, а C - не что иное, как точка пересечения по отношению к осям x и y (x равен нулю), это означает, что линия линейной регрессии проходит через начало координат в контексте обеих осей x и y. Даже в более высоких измерениях, где необходимо учитывать точки пересечения для обеих осей.

В какой точке ось у пересечет заданную прямую (0, с).

Примечание

Наклон - это угол, создаваемый линией по отношению к оси x, и наклон можно вычислить как тангенс этого угла. Какой бы угол ни формировался по осям x и y, вы просто берете тангенс этого угла. , мы получим наклон линии. Точка пересечения — это не что иное, как точка на оси Y, где линия пересекает ось Y или встречается с ней.

Эти два измерения мы будем называть двухмерным векторным пространством. Причина, по которой мы называем его векторным пространством, заключается в том, что оно учитывает не только величины, но и направление, в котором обращена линия. Наличие как величин, так и направлений порождает понятие векторов. Таким образом, всякий раз, когда мы сталкиваемся с величинами, характеризуемыми как величиной, так и направлением, мы, по сути, работаем в двумерном векторном пространстве.

Параметры линии — это M и C. Чтобы нарисовать уникальную линию, нам нужны и M, и C, чтобы нарисовать линию в двух измерениях.

Существует бесконечное количество параллельных линий, которые можно создать, рисуя линии, параллельные исходной линии, сохраняя при этом тот же угол. Из-за отсутствия уникальности мы не можем идентифицировать уникальную линию на основе информации об угле. Следовательно, чтобы однозначно определить линию, нам нужно учитывать как наклон «M», так и точку пересечения «C». даже в n-мерном пространстве, где нам нужно несколько наклонов (по одному для каждого измерения) и один отрезок, чтобы точно определить конкретную линию.

Граничные методы, такие как алгоритмы машинного обучения, изучают данные, используя различные статистические и математические методы. Этот процесс обычно включает в себя выполнение исследовательского анализа данных (EDA), чтобы получить представление о данных, выявить закономерности, а затем представить эти закономерности математически для создания модели.

Во время исследовательского анализа данных (EDA) мы анализируем данные, чтобы понять их распределение, рассчитываем такие показатели, как среднее значение и стандартное отклонение, и выявляем любые выбросы или пропущенные значения. Понимание распределения данных помогает получить представление об основных характеристиках набора данных.

В двумерном анализе мы исследуем взаимосвязь между двумя непрерывными переменными, используя статистические меры, такие как коэффициент корреляции Пирсона. Этот коэффициент количественно определяет силу и направление линейной зависимости между переменными. Коэффициент корреляции Пирсона колеблется от -1 до +1. Высокое положительное значение указывает на сильную положительную корреляцию, а низкое значение указывает на слабую или отсутствие линейной связи между переменными. Значение 0 указывает на отсутствие линейной зависимости между переменными.

числовое значение указывает на степень пропорциональности, т. е. если коэффициент корреляции Пирсона положительный (диапазон от 0 до 1), то он прямо пропорционален между переменными, а если коэффициент корреляции Пирсона отрицательный (диапазон от -1 до 0), то он обратно пропорциональна между переменными.

используя скорость изменения, мы можем определить взаимосвязь между переменными.

Формула коэффициента корреляции Пирсона

Где mu x — среднее значение переменной x, mu y — среднее значение переменной y, xi — каждое наблюдение по x, а yi — каждое наблюдение по y, σx — стандартное отклонение x, σy — стандартное отклонение y. Диапазон ρ: -1 ≤ ρ ≤ +1.

Скорость изменения:

Скорость изменения относится к тому, насколько одна переменная (обычно зависимая переменная) изменяется относительно единичного изменения другой переменной (обычно независимой переменной), используя коэффициент корреляции Пирсона, мы не можем найти наклон. Итак, вот где начинается линейная регрессия. В контексте линейной регрессии скорость изменения - это не что иное, как наклон (m).

В линейной регрессии найдите прямую линию, которая лучше всего соответствует взаимосвязи между двумя переменными. Наклон представляет собой изменение зависимой переменной (y) на единицу изменения независимой переменной (x). Он определяет крутизну или угол наклона линии.

Высокий коэффициент корреляции (ρ) указывает на сильную линейную связь между двумя переменными, и, следовательно, наклон (m) будет значительным, представляя существенную скорость изменения между переменными. И наоборот, низкий коэффициент корреляции (ρ) указывает на слабую линейную связь или ее отсутствие, а наклон (m) будет близок к нулю, что предполагает незначительную скорость изменения между переменными.

Недостатки коэффициента корреляции Пирсона: в нелинейных данных он не работает и не может определить скорость изменения, т. е. наклон.

Таким образом, линейная регрессия находит линию, которая лучше всего соответствует данным.

Уравнение линии (2D)

ax + by + c = 0 (a, b и c — константы, x и y — два измерения)

Уравнение плоскости (3D):

ax + by + cz + d = 0(a, b, c и d — константы, x, y и z — 3 измерения)

Уравнение гиперплоскости (5D):

Уравнение гиперплоскости (100 D):

В 100-мерной гиперплоскости будет 99 наклонов и 1 точка пересечения.

Общее уравнение линии/плоскости/гиперплоскости

w0 — точка пересечения во всех измерениях. Для D-мерной гиперплоскости будет D-1 наклон и 1 точка пересечения.

Формулы, представляющие скалярное произведение и векторное пространство.

В этом контексте w и x являются векторами с d-размерами.

Векторное пространство и скалярное произведение

Уравнение гиперплоскости в D-измерениях

Выражение w₁x₁ + w₂x₂ + w₃x₃ + … + wdxd + w₀ представляет собой линейную комбинацию переменных x₁, x₂, x₃, …, xd с соответствующими коэффициентами w₁, w₂, w₃, …, wd и дополнительным постоянным членом или смещением срок w₀. Это стандартный способ представления линейных моделей, таких как линейная регрессия, где мы умножаем входные переменные на их соответствующие веса, суммируем произведения и добавляем смещение, чтобы получить окончательный прогноз или вывод.

Это уравнение помогает выполнять линейную регрессию и логистическую регрессию. В линейной регрессии он находит линию, которая соответствует данным, без уравнения линии мы не можем определить скорость изменения.

Линейная регрессия находит линию, которая лучше всего соответствует историческим данным. Линия в смысле наклона и точки пересечения (M и C)

Best Fit — это не что иное, как линия с минимальной среднеквадратичной ошибкой.

Минимальная среднеквадратическая ошибка

В простой линейной регрессии цель состоит в том, чтобы найти наиболее подходящую линию (прямую), которая представляет связь между двумя переменными: зависимой переменной (Y) и независимой переменной (X) (1 вход и 1 выход). Лучше всего подходит линия, которая минимизирует общую ошибку между наблюдаемыми точками данных и прогнозируемыми значениями на линии.

Множественная линейная регрессия – это расширение простой линейной регрессии, которое позволяет нам моделировать взаимосвязь между зависимой переменной (мы хотим предсказать) и несколькими независимыми переменными (переменными-предикторами). В множественной линейной регрессии мы пытаемся найти наиболее подходящую гиперплоскость (многомерную плоскость) через точки данных в многомерном пространстве.

Хотя это и не является обязательным требованием, рекомендуется обеспечить независимость всех входных признаков для линейной регрессии, т. е. избегать мультиколлинеарности входных признаков. Это помогает сохранить интерпретируемость модели.

Как найти лучшую линию? Используя градиентный спуск, мы можем найти лучшую линию.

Градиентный спуск

Градиентный спуск — это широко используемый подход к оптимизации в машинном обучении, направленный на минимизацию функции стоимости путем итеративной настройки параметров модели для уменьшения ошибки между фактическими и прогнозируемыми результатами. Основная цель градиентного спуска — минимизировать выпуклую функцию путем перебора параметров.

Выбор более низкой скорости обучения позволяет алгоритму сходиться к глобальным минимумам, но это может быть дорогостоящим в вычислительном отношении и трудоемким. С другой стороны, более высокая скорость обучения может привести к тому, что модель выйдет за рамки допустимого и окажется в нежелательном положении, из-за чего будет сложно вернуться на правильный путь для достижения глобальных минимумов. Следовательно, следует выбрать соответствующую скорость обучения, не слишком медленную и не слишком быструю, чтобы эффективно достигать глобальных минимумов в процессе оптимизации.

Этапы, необходимые для алгоритма градиентного спуска

Во-первых, инициализируйте любую случайную строку.

2. Найдите ошибку.

3. Затем попытайтесь изменить наклон и точку пересечения так, чтобы ошибка уменьшилась.

Функция стоимости, также известная как функция ошибок или функция потерь, является мерой того, насколько хорошо прогнозы модели соответствуют фактическим целевым значениям в обучающих данных. Цель линейной регрессии — найти наиболее подходящую линию, которая минимизирует разницу между прогнозируемыми значениями и истинными целевыми значениями.

Свойства функции стоимости непрерывны и выпуклы.

Этапы линейной регрессии:

1. ЭДА

2. Понимание постановки задачи (ввод и вывод)

3. Обучите алгоритм с помощью линейной регрессии

4. Анализ ошибок/остатков на обучающих данных

а. Распределение остатков:

Распределение должно быть нормальным/гауссовым с нулевым средним значением.

б. IID (независимый и идентичный):

Проверьте закономерности в остатках, закономерностей быть не должно.

в. Гомоскедастичность:

Дисперсия остатков одинакова для любого значения x

5. Прогнозы

6. Метрики оценки

Мы можем получить бесконечное количество строк для заданных данных, но с помощью оптимизатора под названием «Градиентный спуск» с оптимизационным уравнением линейной регрессии мы можем получить наиболее подходящую линию.

Градиентный спуск — это итерационный алгоритм, помогающий решить уравнение оптимизации (с выпуклой функцией стоимости).

Допущения линейной регрессии:

1. Предположение о линейности: Вход и выход должны иметь линейную зависимость.

2. Остатки должны следовать нормальному распределению с нулевым средним.

3. IID: остатки должны быть независимы друг от друга и следовать идентичному распределению.

4. Гомоскедастичность: остатки должны следовать постоянной дисперсии.

5. Независимость наблюдения (допущения для точек данных)

6. Проверка мультиколлинеарности:

Преимущества:

Простая реализация: реализация линейной регрессии проста, и легче интерпретировать выходные коэффициенты.

Линейная регрессия очень эффективна для сопоставления наборов данных с линейно разделимыми шаблонами и часто используется для понимания лежащей в основе природы взаимосвязей между переменными.

Как только модель обучена, прогнозирование становится очень быстрым и эффективным.

Регуляризация помогает уменьшить переоснащение. Переобучение происходит, когда модель машинного обучения очень точно соответствует набору данных и, следовательно, также включает зашумленные данные. Это отрицательно сказывается на функциональности модели и снижает точность ее тестового набора. Регуляризация — это метод, который можно легко реализовать и который способен эффективно уменьшить сложность функции, чтобы снизить риск переобучения.

· Важность признаков: Линейная регрессия может использоваться для выбора признаков или ранжирования переменных, поскольку она присваивает коэффициенты каждому предиктору, указывая их относительную важность в предсказании целевой переменной.

Недостатки:

Фаза обучения линейной регрессии требует много времени, поскольку она пытается найти наиболее подходящую линию из бесконечного числа возможностей.

Однако, поскольку границы метода линейной регрессии являются линейными, выбросы могут оказывать значительное влияние на регрессию.

Линейная регрессия подвержена недообучению, т. е. ситуации, когда модель не может адекватно отразить основные закономерности в данных. Обычно это происходит, когда линейная функция слишком проста для точного представления отношений внутри данных.

Чувствительность к выбросам: выброс или экстремальное значение, которое отклоняется от других точек данных в распределении, является выбросом в наборе данных. Выбросы данных могут серьезно повлиять на производительность модели машинного обучения и часто приводят к модели с низкой точностью.

Линейная регрессия предполагает, что точки данных независимы друг от друга. Однако он не предполагает мультиколлинеарность, поэтому любая мультиколлинеарность должна быть удалена перед применением линейной регрессии.

Применение линейной регрессии

Финансы. В финансах линейная регрессия используется для моделирования доходности акций, ценообразования активов, анализа рисков и оптимизации портфеля.

Экономика. Линейная регрессия широко используется в экономике для анализа взаимосвязи между экономическими переменными, такими как спрос и цена, ВВП и безработица или инфляция и процентные ставки.

Маркетинг. Линейная регрессия помогает маркетологам понять влияние маркетинговых кампаний на продажи и поведение клиентов.

Недвижимость. Линейная регрессия используется в сфере недвижимости для прогнозирования цен на жилье на основе различных характеристик, таких как местоположение, размер и удобства.

Спортивная аналитика. Линейная регрессия используется в спортивной аналитике для оценки эффективности игроков, оценки командных стратегий и прогнозирования результатов матчей.

Заключение

Модель линейной регрессии состоит из одного параметра и устанавливает линейную связь между зависимой и независимой переменными. Используя функцию стоимости, мы можем определить оптимальные значения точки пересечения и наклона, что приведет к наилучшей линии для заданных точек данных. Используя градиентный спуск, функция стоимости итеративно минимизируется в направлении наискорейшего спуска, и скорость обучения играет решающую роль в этом процессе оптимизации.

Линейная регрессия оказывается эффективной, когда отношения между зависимыми и независимыми переменными следуют линейному образцу. Несмотря на его гибкость, важно оценить набор данных на предмет его допущений, чтобы определить, является ли линейная регрессия подходящим выбором для точного моделирования данных. Понимая принципы линейной регрессии и лежащие в ее основе допущения, аналитики данных могут принимать обоснованные решения о ее применимости и обеспечивать значимые результаты своего анализа.

Спасибо за чтение. Пожалуйста, дайте мне знать, если у вас есть какие-либо отзывы.

Мои другие посты

Алгоритм K-ближайшего соседа (KNN) в машинном обучении

Наивный алгоритм Байеса | Максимум апостериори в машинном обучении

Линейная регрессия в машинном обучении

Примечание

Формула коэффициента корреляции Пирсона

Скорость изменения:

Уравнение линии (2D)

Уравнение плоскости (3D):

Уравнение гиперплоскости (5D):

Уравнение гиперплоскости (100 D):

Общее уравнение линии/плоскости/гиперплоскости

Формулы, представляющие скалярное произведение и векторное пространство.

Векторное пространство и скалярное произведение

Уравнение гиперплоскости в D-измерениях

Минимальная среднеквадратическая ошибка

Как найти лучшую линию? Используя градиентный спуск, мы можем найти лучшую линию.

Градиентный спуск

Этапы, необходимые для алгоритма градиентного спуска

Этапы линейной регрессии:

Допущения линейной регрессии:

Преимущества:

Недостатки:

Применение линейной регрессии

Заключение

Мои другие посты

Вопросы по теме