В: Что такое линейная регрессия?
A: Линейная регрессия — это статистический метод, используемый для моделирования связи между зависимой переменной и одной или несколькими независимыми переменными. Предполагается, что между переменными существует линейная связь, и цель состоит в том, чтобы найти наиболее подходящую линию, описывающую эту связь.

В: В чем разница между простой линейной регрессией и множественной линейной регрессией?
A: Простая линейная регрессия имеет одну независимую переменную, тогда как множественная линейная регрессия имеет две или более независимых переменных.

В: Какое уравнение для простой модели линейной регрессии?
A: y = mx + b, где y — зависимая переменная, x — независимая переменная, m — наклон линии, а b — точка пересечения с осью y.

В: Как определить наиболее подходящую линию в линейной регрессии?
A: Линия наилучшего соответствия определяется путем минимизации суммы квадратов ошибок между прогнозируемыми и фактическими значениями.

В: Каковы предположения линейной регрессии? A: Предположения линейной регрессии:

  1. Линейность: связь между независимыми и зависимыми переменными является линейной.
  2. Независимость: наблюдения независимы друг от друга.
  3. Гомоскедастичность: дисперсия ошибок постоянна на всех уровнях независимой переменной (переменных).
  4. Нормальность: ошибки нормально распределены.
  5. Нет мультиколлинеарности: независимые переменные не сильно коррелируют друг с другом.

В: В чем разница между корреляцией и регрессией?
О: Корреляция — это мера силы и направления линейной связи между двумя переменными, а регрессия — это статистический метод, используемый для моделирования связи между зависимой переменной и одной или несколькими независимыми переменными.

В: Какова цель остаточного анализа в линейной регрессии?
A: Целью остаточного анализа является проверка допущений линейной регрессии, особенно для выявления нарушений линейности, независимости, гомоскедастичности, нормальности и отсутствия мультиколлинеарности. Он включает в себя изучение моделей остатков (разницы между прогнозируемыми значениями и фактическими значениями) и проверку любых систематических тенденций или выбросов.

В: Как вы интерпретируете коэффициент наклона в модели линейной регрессии?
О: Коэффициент наклона (m) представляет собой изменение зависимой переменной (y) при увеличении на одну единицу в независимой переменной (x). Он указывает направление и величину связи между переменными. Если наклон положительный, переменные положительно связаны; если наклон отрицательный, переменные отрицательно связаны. Величина наклона показывает, насколько изменится у при увеличении х на одну единицу.

В: Что такое среднеквадратическая ошибка (MSE) в линейной регрессии?
О. Среднеквадратическая ошибка (MSE) — это распространенный показатель оценки, используемый в линейной регрессии, который измеряет среднее квадратов различий между прогнозируемыми и фактическими значениями.

В: Какова среднеквадратическая ошибка (RMSE) в линейной регрессии?
A: Среднеквадратическая ошибка (RMSE) — это квадратный корень из среднеквадратичной ошибки (MSE). Он представляет собой среднее расстояние между прогнозируемыми значениями и фактическими значениями и обычно используется в качестве оценочной метрики в линейной регрессии.

В: Каков коэффициент детерминации (R-квадрат) в линейной регрессии?
A: Коэффициент детерминации (R-квадрат) — это статистическая мера, представляющая долю дисперсии зависимой переменной, которая объясняется независимой переменной (переменными). Он находится в диапазоне от 0 до 1, причем более высокие значения указывают на лучшее соответствие между моделью и данными.

В: Что такое скорректированный R-квадрат в линейной регрессии?
A: Скорректированный R-квадрат — это модифицированная версия R-квадрата, которая снижает включение дополнительных независимых переменных, которые существенно не улучшают соответствие модели. Это лучшая мера соответствия модели при сравнении моделей с разным количеством независимых переменных.

В: Какова средняя абсолютная ошибка (MAE) в линейной регрессии?
A: Средняя абсолютная ошибка (MAE) — это показатель оценки, используемый в линейной регрессии, который измеряет среднее значение абсолютных различий между прогнозируемыми значениями и фактическими значениями. Он менее чувствителен к выбросам, чем среднеквадратическая ошибка (MSE).

Вопрос. Что такое коэффициент корреляции (r Пирсона) в линейной регрессии? Ответ. Коэффициент корреляции (r Пирсона) – это статистическая мера, которая представляет силу и направление линейной зависимости между двумя переменными. . Он находится в диапазоне от -1 до 1, причем значения ближе к -1 указывают на отрицательную корреляцию, значения ближе к 1 указывают на положительную корреляцию, а значения ближе к 0 указывают на отсутствие корреляции.

В: Какова остаточная стандартная ошибка (RSE) в линейной регрессии?
О. Стандартная ошибка невязки (RSE) — это показатель оценки, используемый в линейной регрессии, который измеряет стандартное отклонение остатков (разница между прогнозируемыми значениями и фактическими значениями). Он представляет собой среднюю величину, на которую фактические значения отклоняются от прогнозируемых значений.

В: Как вы интерпретируете показатели оценки в линейной регрессии?
A: Показатели оценки в линейной регрессии предоставляют информацию о качестве подгонки модели. Более низкие значения среднеквадратичной ошибки (MSE), среднеквадратичной ошибки (RMSE), средней абсолютной ошибки (MAE) и остаточной стандартной ошибки (RSE) указывают на лучшее соответствие модели. Более высокие значения коэффициента детерминации (R-квадрат) и скорректированного R-квадрата указывают на лучшую долю дисперсии, объясняемую независимыми переменными. Коэффициент корреляции (r Пирсона) указывает на силу и направление линейной зависимости между двумя переменными.

В: Какова функция стоимости в линейной регрессии?
A: Функция стоимости (также известная как функция потерь) – это математическая функция, которая измеряет разницу между прогнозируемыми значениями и фактическими значениями в линейной регрессии. Цель линейной регрессии состоит в том, чтобы минимизировать эту функцию стоимости.

В: Какова формула функции стоимости в линейной регрессии?
A: Функция стоимости для линейной регрессии представляет собой сумму квадратов разностей между прогнозируемыми и фактическими значениями, деленную на количество наблюдений: J(m,b) = (1/2m ) * сумма((y_pred — y_actual)²)

В: Как минимизировать функцию стоимости в линейной регрессии?
A: Функция стоимости в линейной регрессии может быть минимизирована с помощью различных алгоритмов оптимизации, таких как градиентный спуск. Градиентный спуск — это итеративный алгоритм оптимизации, который регулирует наклон и точку пересечения (m и b) модели линейной регрессии, чтобы минимизировать функцию стоимости.

В: Какова цель регуляризации в линейной регрессии?
О. Регуляризация — это метод, используемый в линейной регрессии для предотвращения переобучения модели путем добавления штрафного члена к функции стоимости. Этот штрафной член побуждает модель выбирать более простые коэффициенты (то есть коэффициенты ближе к нулю) и помогает предотвратить чрезмерную зависимость от зашумленных или нерелевантных признаков.

В: Какие два типа регуляризации используются в линейной регрессии?
A: В линейной регрессии используются два типа регуляризации: регуляризация L1 (также известная как регуляризация Лассо) и регуляризация L2 (также известная как регуляризация Риджа). Регуляризация L1 добавляет абсолютное значение коэффициентов к функции стоимости, а регуляризация L2 добавляет квадрат коэффициентов к функции стоимости.

В: В чем разница между регуляризацией L1 и L2 в линейной регрессии?
A: Регуляризация L1 имеет тенденцию создавать разреженные модели (т. е. модели с большим количеством нулевых коэффициентов), в то время как регуляризация L2 имеет тенденцию создавать модели с небольшими ненулевыми коэффициентами. Регуляризация L1 более эффективна, когда есть много нерелевантных функций, а регуляризация L2 более эффективна, когда важны все функции.

В: Каков компромисс между смещением и дисперсией в линейной регрессии?
О: Смещение и дисперсия — два источника ошибок в линейной регрессии. Смещение относится к разнице между прогнозируемыми значениями и фактическими значениями, а дисперсия относится к изменчивости прогнозируемых значений. Существует компромисс между смещением и дисперсией: увеличение сложности модели (например, добавление большего количества признаков) уменьшает смещение, но увеличивает дисперсию, в то время как уменьшение сложности модели (например, использование меньшего количества признаков) увеличивает смещение, но уменьшает дисперсию.

В: Как выбрать оптимальные значения параметра регуляризации в линейной регрессии?
О. Оптимальные значения параметра регуляризации можно выбрать с помощью таких методов, как перекрестная проверка, которая включает в себя разделение данных на наборы для обучения и проверки, подгонку модели к набору для обучения и оценку ее производительность на проверочном наборе для разных значений параметра регуляризации. Оптимальное значение — это значение, обеспечивающее наилучшую производительность в проверочном наборе.

Подписаться :: https://medium.com/@thedatabeast