«Путь к машинному обучению начинается с регрессии. Вы готовы?"

Не знаю, как вы, а мне не терпится поделиться тем, что я узнал о регрессии.

Если вы видите себя в будущем специалистом по данным или аналитиком данных, регрессия — это первый алгоритм, который вам нужно (научиться) освоить. Область науки о данных решает реальные проблемы, и вы можете ожидать большего понимания того, сколько времени вы вкладываете в построение регрессионной модели!

Но возникает вопрос, нужно ли хорошо разбираться в математике, чтобы строить модели?

Ну хорошо, ответ нет! Дело не в том, чтобы быть математически склонным, а в том, чтобы быть аналитически сильным. Немного логического мышления внутри вас может творить чудеса в этой области. Запустить регрессионную модель несложно. Одна простая математическая логика делает свое дело. Но оптимизация этой модели для более высокой точности является настоящей проблемой.

В этой статье я расскажу вам об идее регрессионного анализа с кратким изложением того, как он работает. Лессгоооо..

Что такое регрессия и почему ее следует использовать?

Регрессия — это параметрический метод, используемый для прогнозирования непрерывных (зависимых) переменных по набору независимых переменных. Он является параметрическим, поскольку делает определенные предположения на основе набора данных. Если набор данных соответствует этим предположениям, регрессия дает невероятные результаты. В противном случае он изо всех сил пытается обеспечить точность. Но не волнуйтесь, есть несколько приемов, которые вы узнаете, когда начнете больше узнавать о регрессии и различных моделях.

Математически регрессия использует линейную функцию для аппроксимации (прогнозирования) зависимой переменной, заданной как:

y = mx + c + e

где y— зависимая переменная
x— независимая переменная
c — точка пересечения
m— наклон
e— ошибка

«c» и «m» известны как коэффициенты. Это уравнение простой линейной регрессии. Он называется «линейным», потому что задействована только одна независимая переменная. При множественной регрессии у нас есть много независимых переменных.

y — это переменная, которую мы предсказываем
x — это переменная, которую мы используем для предсказания
c — это термин перехвата. Это значение прогноза, которое вы получаете, когда x = 0
m — это коэффициент наклона. Это объясняет изменение «у» при изменении «х» на 1 единицу. «e» представляет остаточную стоимость, т. е. разницу между фактическими и прогнозируемыми значениями.

Ошибка — неизбежная часть процесса прогнозирования. Какой бы мощный алгоритм мы ни выбрали, всегда останется ошибка (е), напоминающая нам о том, что «будущее неопределенно».

Реальная «регрессия»

Типичная техническая тема может показаться неинтересной, если вы не увидите, как она помогает вам в реальной жизни! Итак, давайте посмотрим на некоторые реальные приложения регрессии.

  1. Медицинские исследователи часто используют линейную регрессию, чтобы понять взаимосвязь между дозировкой лекарств и кровяным давлением пациентов. Например, исследователи могут вводить пациентам различные дозы определенного препарата и наблюдать за реакцией их кровяного давления.
  2. Компании часто используют линейную регрессию, чтобы понять взаимосвязь между расходами на рекламу и доходами.
  3. Ученые-агрономы используют регрессию для измерения влияния удобрений и воды на урожайность.
  4. Исследователи данных для профессиональных спортивных команд часто используют линейную регрессию для измерения влияния различных режимов тренировок на производительность игроков.

Удивительно, но не только это! Существует так много других применений регрессии, что даже за гранью любопытства.

Давайте поговорим о предположениях в регрессии...

Регрессия является параметрической концепцией, и это означает, что она делает предположения о данных в целях анализа. Из-за своей параметрической стороны регрессия носит ограничительный характер. Он может не дать хороших результатов с наборами данных, которые не соответствуют его предположениям. Поэтому для успешного регрессионного анализа важно проверить некоторые предположения, приведенные ниже:

  1. Должна существовать линейная и аддитивная связь между зависимыми (отклик) переменными и независимыми (предикторами) переменными. Линейная зависимость предполагает, что изменение «y» из-за изменения «x» на одну единицу является постоянным, независимо от значения «x». Аддитивная связь предполагает, что влияние «x» на «y» не зависит от других переменных.
  2. Между остаточными (ошибочными) членами не должно быть корреляции. Отсутствие этого явления называется автокорреляцией.
  3. Независимые переменные не должны быть коррелированы. Отсутствие этого явления известно как мультиколлинеарность.
  4. Члены ошибки должны иметь постоянную дисперсию. Это явление известно как гомоскедастичность. Наличие непостоянной дисперсии называется гетероскедастичностью.
  5. Члены ошибки должны быть нормально распределены.

С какими наборами данных вы можете работать, если хотите начать с регрессии?

Как упоминалось ранее, для проведения регрессионного анализа вам необходимо определить зависимую переменную, на которую влияет одна или несколько независимых переменных. Затем вам нужно будет создать всеобъемлющий набор данных для работы. Вот несколько интригующих наборов данных, с которых вы можете начать:

Угадай, какое вино лучшего качества, и попробуй сам!

Угадай лучшую конфету на Хэллоуин

The Epirecipies: исследуйте различные факторы, влияющие на удовольствие людей от еды или приготовления пищи

Исследуйте набор данных о воздушных бомбардировках

Временные ряды океанографических и личиночных данных рыб мира

Предсказать тенденции цен на недвижимость

Хорошие новости! Я бы основывал свою следующую статью на реализации кода двух наиболее часто используемых методов регрессии: «Линейная регрессия» и «Логистическая регрессия». Мы будем работать с двумя разными наборами данных и прогнозируем интересные результаты!