Учебник с примерами множественной линейной регрессии в R

На примерах вы узнаете, как использовать множественные линейные регрессии в R.

В разных отраслях методы регрессии используются для понимания влияния переменных на определенные темы.

Например, экономисты могут использовать их для анализа взаимосвязи между потребительскими расходами и ростом ВВП. Должностные лица общественного здравоохранения могут быть заинтересованы в понимании индивидуальных затрат на основе исторической информации. Цель состоит не в том, чтобы предсказать отдельные сценарии, а в том, чтобы оценить отношения в целом.

Мы начнем с обсуждения регрессий в целом. После этого мы предоставим инструменты, которые помогут вам интерпретировать и понять результаты регрессии, после объяснения того, что отличает простую и множественную линейную регрессию.

Мультилинейная регрессия — что это такое?

Чтобы понять множественную линейную регрессию, которая является просто расширением простой линейной регрессии, давайте сначала разберемся с простой линейной регрессией.

Линейная регрессия с простыми предположениями

Оценивая точное изменение Y на основе изменений независимой переменной X, простая линейная регрессия предназначена для моделирования взаимосвязи между двумя переменными.

Прогнозы делаются на основе независимой переменной X, также известной как предиктор.
Мы пытаемся предсказать зависимую переменную Y, также известную как отклик.

Используя следующее уравнение, мы можем предсказать Y по X, используя «линейный» аспект линейной регрессии.

Y = b0 + b1X

Прогнозируемое значение X, когда X равно 0, представлено b0, что является точкой пересечения линии регрессии.
Наклон линии регрессии равен b1.

Имеют ли смысл множественные линейные регрессии?

В этом случае мы используем линейную регрессию с несколькими переменными, и уравнение выглядит так:

Y = b0 + b1X1 + b2X2 + b3X3 + … + bnXn + e

Простая модель линейной регрессии имеет такие же Y и b0, как и многомерная модель.
Предположим, что переменные X1 и b1 являются независимыми переменными (таким образом, b1 и b1 являются соответствующими коэффициентами). Таким же образом анализируются все остальные коэффициенты и переменные регрессии.
При моделировании Y ошибка модели (остатки) представляет собой количество изменений, внесенных в модель.

Множественная регрессия не всегда может давать прямую линию. Однако форму линии можно контролировать, подобрав более подходящую модель.

Эти ключевые элементы вычисляются с помощью множественной линейной регрессии, чтобы найти линию наилучшего соответствия для каждого предиктора.

Для каждого предиктора оцениваются коэффициенты.
R-квадрат показывает, насколько хорошо модель соответствует зависимой переменной Y, что соответствует степени дисперсии, объясняемой моделью.
Для каждого коэффициента регрессии указаны t-статистика и p-значение. Статистически значимый коэффициент измеряется этими двумя показателями, которые являются зеркальным отражением друг друга. Высокая t-статистика (соответствующая значению p, близкому к нулю) указывает на то, что предиктор является значимым и должен быть включен в модель. Предиктор следует отбросить, если t-статистика очень низкая (более высокое p-значение).

Допущение множественной линейной регрессии

При построении модели множественной линейной регрессии важно убедиться, что выполняются следующие ключевые предположения.

Имеется нормальное распределение остаточных значений. Для проверки этого можно использовать гетограммы или графики нормальной вероятности.
Зависимые и независимые переменные должны быть линейно связаны. Иллюстрацию этого можно увидеть на диаграммах рассеяния, показывающих линейные или криволинейные отношения.
Другим предположением является мультиколлинеарность, которая предполагает, что независимые переменные не сильно коррелированы. В мультиколлинеарных моделях трудно определить переменные, которые лучше всего объясняют зависимую переменную. Чтобы проверить это предположение, между всеми независимыми переменными вычисляется двумерная корреляционная матрица Пирсона. Данные без коллинеарности должны иметь все значения меньше 0,8.
Согласно гомоскедастичности остаточные ошибки имеют одинаковую дисперсию независимо от значения каждой независимой переменной. Можно проверить, равномерно ли распределены точки по всем независимым переменным, нанеся прогнозируемые значения на график против стандартизированных остаточных значений.

Эти предположения будут обсуждаться в следующих разделах.

Множественная линейная регрессия в R: пошаговое руководство

В этом разделе для реализации модели полилинейной регрессии будет использоваться язык программирования R.

Когда мы говорим о потребительской ценности, что мы имеем в виду? Исходя из этого, мы можем определить ценность продукта или услуги для клиента:

Выгоды за вычетом затрат равны потребительской ценности. Выгода продукта и его стоимость — это, соответственно, Выгода и Стоимость.

Когда компания предлагает потребителям сочетание более высоких выгод и более низких затрат, ценность выше.

Анализируя ценность данного клиента, бизнес может определить наилучшую целевую возможность или следующее наилучшее действие.

Быстрое изучение данных

Чтобы применить соответствующую предварительную обработку перед подбором модели, давайте быстро взглянем на набор данных.

Наши предыдущие результаты показывают, что в наборе данных 3150 наблюдений и 14 столбцов.

Поскольку мы имеем дело с проблемой регрессии, нам не понадобится столбец оттока, основанный на постановке задачи.

Чтобы каждый раз не заключать имена переменных в двойные кавычки, давайте предварительно обработаем имена столбцов, заменив пробелы символами подчеркивания.

Используя функцию lm() в R, мы можем поместить эти недавно отформатированные данные в структуру множественной регрессии:

Давайте на мгновение поймем, что только что произошло.

lm() возвращает данные в формате: lm(formula = Y ~Sum(Xi), data = our_data)

Мы оцениваем Customer_Value в столбце Y.
В уравнениях множественной линейной регрессии Sum(Xi) представляет собой выражение суммы.
Сбрасываемые данные — это our_data.

Модель мультилинейной регрессии: что она нам говорит?

Построение модели сопровождается проверкой допущений и интерпретацией результатов. Для простоты мы не будем раскрывать всю тему.

Моделирование остаточного распределения

Для визуализации этого можно использовать функцию hist() в R.

Из-за перекошенной гистограммы мы не можем сделать вывод, что данные нормальные. Рассмотрите остатки вдоль нормального графика Q-Q вместо гистограммы. Между значениями должна быть прямая линия, если есть нормальность.

Есть некоторые части остатков, которые лежат на прямой линии на основе графика. Остатки модели, которые не подчиняются нормальному распределению, считаются ненормальными.

Проверить мультиколлинеарность

Вот код R, который делает это. Сначала необходимо удалить столбец Customer_Value.

Поскольку значения корреляции больше 0,8, мы можем наблюдать две сильные корреляции.

Возраст и возрастная группа: 0,96
Использовать частоту и использовать секунду: 0,95

Age_Group вычисляется из возраста, поэтому этот результат имеет смысл. Кроме того, количество секунд (seconds_of_use) определяется частотой вызовов (frequency_of_use).

Следовательно, мы можем исключить Age_Group и Second_of_Use из набора данных.

Вторая модель не будет включать эти две переменные.

Из-за устранения мультиколлинеарности в данных во второй модели больше остаточных значений следуют прямой линии, чем в первой модели.

Какова лучшая модель из двух?

Для ответа на этот вопрос можно использовать тест дисперсионного анализа (ANOVA). Нулевая гипотеза (H0) утверждает, что ранее удаленные переменные не имеют значения, в то время как альтернативная гипотеза (H1) подразумевает, что они значимы.

Пока новая модель является улучшением по сравнению с исходной моделью, мы не можем отвергнуть H0. Если бы это было не так, то эти переменные были бы значимыми, и по этой причине мы бы отвергли H0.

Anova(original_model, new_model) — это общее выражение.

Как видно из результатов ANOVA, маловероятно, что вторая модель лучше первой, поскольку значение p очень низкое (8,0893e-316). Поэтому мы отвергаем нулевую гипотезу.

Тест значимости — это еще один способ оценить важность переменных в модели.

Значимые переменные имеют p-значения менее 0,05. Для вычисления этого можно использовать функцию summary(). Помимо предоставления этой информации, он также предоставляет скорректированный R-квадрат, оценку производительности модели.

Остатки и коэффициенты являются двумя ключевыми разделами таблицы. Как и в разделе «Остатки», графики Q-Q предоставляют аналогичную информацию. Раздел «Коэффициенты» не считает Call_Failure, Complaints и Age_Group значимыми, поскольку их p-значения выше 0,05. Оставлять их в модели невыгодно.

На основе того же анализа получаем следующие результаты для второй модели:

Скорректированный R-квадрат для исходной модели равен 0,98, что выше скорректированного R-квадрата для второй модели (0,97). Основываясь на этих наблюдениях, исходная модель лучше, чем вторая модель, если она включает все предикторы.

Улучшение модели мультилинейной регрессии

После удаления незначимых переменных логично подогнать модель и посмотреть, улучшится ли производительность.

Использование информационных критериев Акаике (AIC) — еще одна стратегия для эффективного выбора релевантных предикторов.

Вначале учитываются все признаки, затем один за другим постепенно отсеиваются худшие предикторы. Чем меньше оценка AIC, тем лучше. Это можно сделать с помощью функции stepAIC().

Заключение

В этом руководстве были рассмотрены множественные линейные регрессии и надежные стратегии моделирования.