В этой статье объясняется, что такое регрессия с статистической точки зрения и концепции машинного обучения.
Проблемы регрессии — это задачи обучения под наблюдением (задачи с метками, используемыми для обучения модели), характеризующиеся двумя типами переменных. Первые являются переменными-предикторами, отмеченными X, а вторые являются зависимыми переменными, отмеченными Y.
Это простое уравнение иллюстрирует проблему регрессии:
- Левая часть уравнения представляет собой зависимую переменную (выход), модель пытается предсказать эту переменную, поэтому у есть шляпа.
- Правая часть — это входные данные, которые используются для прогнозирования выходных данных. В этом случае у вас есть n переменные-предикторы, представленные x. Thetas – это параметры задачи регрессии. Эти параметры находятся в центре внимания модели машинного обучения, которая пытается предсказать результат. Поиск правильных значений каждого из них — это сделка, позволяющая предсказать любой результат (с наименьшим пределом погрешности) на основе входных данных.
Theta0 представляет ситуацию, когда все входные данные равны нулю. . Каждый вход имеет свой связанный параметр.
Давайте разберемся, как они представлены в классическом наборе данных.
Аналогия регрессий с данными
Поскольку эти задачи требуют много входных данных, матричные обозначения используются для написания лучших математических концепций. Нижний регистр x (увиденный ранее) представляет столбцы набора данных и может быть отмечен как X, который является матрицей всех входных переменных:
Принимая во внимание, что нижний регистр y может быть отмечен как Y, вектор выходов:
С точки зрения данных эти матрицы могут быть просто обычной таблицей данных с формой n, умноженной на n. X — это столбцы функций, а Y — столбец зависимых переменных (тот, который вы хотите предсказать):
Мы различаем два вида регрессии:
Одномерный
Регрессия, характеризуемая уникальной переменной-предиктором, является одномерной регрессией:
В машинном обучении модель будет использовать уникальную функцию (переменную-предиктор) для расчета оптимального значения тета.
Многовариантный
Когда регрессия использует более одного признака, она называется многомерной регрессией:
Ограничений по функциям нет, но производительность модели будет зависеть от хороших функций, а не от их количества.
Теперь, когда у нас есть основы, давайте углубимся в различные проблемы регрессии, самая известная из которых называется линейной регрессией…
Линейная регрессия
Задача линейной регрессии — это задача регрессии, которую можно смоделировать с помощью прямой линии:
Чем больше увеличивается функция x1, тем больше увеличивается выход. Это также может быть отрицательная корреляция с линией, которая уменьшается по мере увеличения x1.
Полиномиальная регрессия
Полиномиальные регрессии используются, когда данные не являются линейными, что означает, что их нельзя решить с помощью простой линейной регрессии. Затем идея состоит в том, чтобы добавить полиномиальные функции из существующих функций в наборе данных и повысить точность путем выявления новых отношений между входными данными. и выходные данные. После добавления этих новых функций модель обучается с помощью классической линейной регрессии.
В приведенном ниже примере используется полином второй степени:
Возьмем x в качестве функции, x степень 2 будет создана для усложнения модели и, как правило, более точной.
Можно добавлять полиномиальные функции в бесконечных степенях, но чем больше вы добавляете сложности, тем больше ваша модель будет соответствовать новым данным и будет иметь низкое качество.
Регулярная линейная регрессия
Регуляризация модели — это создание ограничений для нее, а точнее для параметров. Как правило, идея здесь состоит в том, чтобы предотвратить переоснащение модели (особенно если функция нелинейна), потому что гиперпараметр альфа уменьшит вес характеристик. Таким образом, даже если модель придает слишком большое значение признаку, его параметр будет меньше, а прогнозы будут (в среднем) более точными благодаря уменьшению дисперсии.
Наиболее часто используемые регуляризованные методы:
- Регрессия хребта
- Лассо-регрессия
- Эластичная сетка
По сути, разница между 3 заключается в том, как она упорядочила модель. У Ridge и Lasso есть способ сделать это, и это подразумевает некоторые различия, такие как тот факт, что Lasso отбрасывает наименее важные функции.
Elastic Net — это комбинация методов Ridge и Lasso с использованием другого гиперпараметра, определяющего вес каждого метода.
Логистическая регрессия (нарушитель)
Этот тип модели регрессии используется не для задач регрессии, а для решения классификационных проблем. Действительно, термин логистика происходит от логической функции (сигмоидальная функция), которая характеризуется S-образной формой:
t в нижнем регистре находится между минус бесконечностью и плюс бесконечностью, но логистическая функция (g(t)) возвращает значение между 0 и 1. Эта логистическая функция является функцией стоимости, которую модель стремится минимизировать. В зависимости от порога g(t) дает вероятность попадания в положительный класс. Например, если порог равен 0,5, то логистическая функция, которая возвращает вероятность 0,7 для наблюдения, классифицирует это наблюдение как положительное (1), поскольку 0,7 больше 0,5 (например, если собака — это 1, а 0 — кошка, модель призывает собаку). Он всегда будет возвращать результат 0 или 1 (классы).
Спасибо, что прочитали эту статью. Надеюсь, теперь вы понимаете, что такое регрессии и как они могут имитировать реальные проблемы с помощью независимых переменных (функций), которые используются для прогнозирования. зависимый. Наконец, соотношение между входными данными (признаками) и выходными данными (зависимыми переменными) может характеризовать тип проблем регрессии, с которыми будет работать модель.