В этой статье объясняется, что такое регрессия с статистической точки зрения и концепции машинного обучения.

Проблемы регрессии — это задачи обучения под наблюдением (задачи с метками, используемыми для обучения модели), характеризующиеся двумя типами переменных. Первые являются переменными-предикторами, отмеченными X, а вторые являются зависимыми переменными, отмеченными Y.

Это простое уравнение иллюстрирует проблему регрессии:

  • Левая часть уравнения представляет собой зависимую переменную (выход), модель пытается предсказать эту переменную, поэтому у есть шляпа.
  • Правая часть — это входные данные, которые используются для прогнозирования выходных данных. В этом случае у вас есть n переменные-предикторы, представленные x. Thetas – это параметры задачи регрессии. Эти параметры находятся в центре внимания модели машинного обучения, которая пытается предсказать результат. Поиск правильных значений каждого из них — это сделка, позволяющая предсказать любой результат (с наименьшим пределом погрешности) на основе входных данных.
    Theta0 представляет ситуацию, когда все входные данные равны нулю. . Каждый вход имеет свой связанный параметр.

Давайте разберемся, как они представлены в классическом наборе данных.

Аналогия регрессий с данными

Поскольку эти задачи требуют много входных данных, матричные обозначения используются для написания лучших математических концепций. Нижний регистр x (увиденный ранее) представляет столбцы набора данных и может быть отмечен как X, который является матрицей всех входных переменных:

Принимая во внимание, что нижний регистр y может быть отмечен как Y, вектор выходов:

С точки зрения данных эти матрицы могут быть просто обычной таблицей данных с формой n, умноженной на n. X — это столбцы функций, а Y — столбец зависимых переменных (тот, который вы хотите предсказать):

Мы различаем два вида регрессии:

Одномерный

Регрессия, характеризуемая уникальной переменной-предиктором, является одномерной регрессией:

В машинном обучении модель будет использовать уникальную функцию (переменную-предиктор) для расчета оптимального значения тета.

Многовариантный

Когда регрессия использует более одного признака, она называется многомерной регрессией:

Ограничений по функциям нет, но производительность модели будет зависеть от хороших функций, а не от их количества.

Теперь, когда у нас есть основы, давайте углубимся в различные проблемы регрессии, самая известная из которых называется линейной регрессией…

Линейная регрессия

Задача линейной регрессии — это задача регрессии, которую можно смоделировать с помощью прямой линии:

Чем больше увеличивается функция x1, тем больше увеличивается выход. Это также может быть отрицательная корреляция с линией, которая уменьшается по мере увеличения x1.

Полиномиальная регрессия

Полиномиальные регрессии используются, когда данные не являются линейными, что означает, что их нельзя решить с помощью простой линейной регрессии. Затем идея состоит в том, чтобы добавить полиномиальные функции из существующих функций в наборе данных и повысить точность путем выявления новых отношений между входными данными. и выходные данные. После добавления этих новых функций модель обучается с помощью классической линейной регрессии.

В приведенном ниже примере используется полином второй степени:

Возьмем x в качестве функции, x степень 2 будет создана для усложнения модели и, как правило, более точной.

Можно добавлять полиномиальные функции в бесконечных степенях, но чем больше вы добавляете сложности, тем больше ваша модель будет соответствовать новым данным и будет иметь низкое качество.

Регулярная линейная регрессия

Регуляризация модели — это создание ограничений для нее, а точнее для параметров. Как правило, идея здесь состоит в том, чтобы предотвратить переоснащение модели (особенно если функция нелинейна), потому что гиперпараметр альфа уменьшит вес характеристик. Таким образом, даже если модель придает слишком большое значение признаку, его параметр будет меньше, а прогнозы будут (в среднем) более точными благодаря уменьшению дисперсии.

Наиболее часто используемые регуляризованные методы:

  • Регрессия хребта
  • Лассо-регрессия
  • Эластичная сетка

По сути, разница между 3 заключается в том, как она упорядочила модель. У Ridge и Lasso есть способ сделать это, и это подразумевает некоторые различия, такие как тот факт, что Lasso отбрасывает наименее важные функции.
Elastic Net — это комбинация методов Ridge и Lasso с использованием другого гиперпараметра, определяющего вес каждого метода.

Логистическая регрессия (нарушитель)

Этот тип модели регрессии используется не для задач регрессии, а для решения классификационных проблем. Действительно, термин логистика происходит от логической функции (сигмоидальная функция), которая характеризуется S-образной формой:

t в нижнем регистре находится между минус бесконечностью и плюс бесконечностью, но логистическая функция (g(t)) возвращает значение между 0 и 1. Эта логистическая функция является функцией стоимости, которую модель стремится минимизировать. В зависимости от порога g(t) дает вероятность попадания в положительный класс. Например, если порог равен 0,5, то логистическая функция, которая возвращает вероятность 0,7 для наблюдения, классифицирует это наблюдение как положительное (1), поскольку 0,7 больше 0,5 (например, если собака — это 1, а 0 — кошка, модель призывает собаку). Он всегда будет возвращать результат 0 или 1 (классы).

Спасибо, что прочитали эту статью. Надеюсь, теперь вы понимаете, что такое регрессии и как они могут имитировать реальные проблемы с помощью независимых переменных (функций), которые используются для прогнозирования. зависимый. Наконец, соотношение между входными данными (признаками) и выходными данными (зависимыми переменными) может характеризовать тип проблем регрессии, с которыми будет работать модель.