Регрессия машинного обучения — это тип контролируемого обучения, при котором математическая модель обучается прогнозировать непрерывный результат на основе входных характеристик. Цель алгоритма — изучить сопоставление между входными данными и выходными значениями, чтобы он мог делать точные прогнозы для новых, невидимых данных. Этот тип алгоритма обычно используется в таких областях, как финансы, экономика и инженерия, где необходимо прогнозировать будущие результаты на основе исторических данных.

Существует несколько типов алгоритмов регрессии, каждый из которых имеет свои сильные и слабые стороны. Некоторые из наиболее часто используемых алгоритмов регрессии:

  1. Линейная регрессия

Линейная регрессия — это простой и широко используемый алгоритм, который используется для моделирования связи между зависимой переменной (выходным или целевым значением) и одной или несколькими независимыми переменными (входными значениями или значениями признаков). Модель обучается путем нахождения линии наилучшего соответствия, которая минимизирует сумму квадратов ошибок между прогнозируемыми и фактическими значениями. Затем эту строку можно использовать для прогнозирования новых данных.

Линейная регрессия хорошо подходит для задач, где отношения между входными и выходными значениями являются линейными, но она не так эффективна для более сложных или нелинейных отношений.

Для дальнейшего чтения, пожалуйста, обратитесь к линейной регрессии: https://medium.com/@santoshshirol/linear-regression-97f61e0d6e3b

2. Полиномиальная регрессия

Полиномиальная регрессия — это тип регрессии, который используется, когда связь между зависимой и независимой переменными нелинейна. В этом случае алгоритм подбирает к данным полиномиальное уравнение, а не линейное уравнение.

Для дальнейшего чтения, пожалуйста, обратитесь к полиномиальной регрессии https://medium.com/@santoshshirol/polynomial-regression-ea0a4ca741a4

3. Регрессия дерева решений

Деревья решений — это нелинейная модель, которая использует древовидную структуру для прогнозирования. Модель обучается путем разделения обучающих данных на все более мелкие подмножества на основе значений входных переменных. В результате получается древовидная структура, в которой каждый узел представляет собой решение, основанное на входных переменных, а каждый конечный узел представляет прогнозируемое выходное значение.

Алгоритм начинается с корневого узла, который представляет весь набор данных, а затем разбивает данные на все более мелкие подмножества на основе значений признаков в данных. Алгоритм продолжает разбивать данные до тех пор, пока каждое подмножество не станет максимально чистым, что означает, что все точки данных в подмножестве имеют одинаковую метку. Затем итоговое дерево можно использовать для прогнозирования новых данных, следуя по пути вниз по дереву на основе значений признаков в новых данных.

Для дальнейшего чтения, пожалуйста, обратитесь к регрессии дерева решений https://medium.com/@santosshshirol/decision-tree-77f31a089f68.

4. Случайная регрессия леса

Случайные леса — это тип алгоритма ансамблевого обучения, который объединяет несколько деревьев решений для прогнозирования. Алгоритм обучает несколько деревьев решений на разных подмножествах данных, при этом каждое дерево делает свои собственные прогнозы. Затем делается окончательный прогноз, взяв среднее значение прогнозов по всем деревьям. Этот подход позволяет алгоритму делать более точные прогнозы, поскольку он уменьшает переобучение, которое может произойти с одним деревом решений.

Для дальнейшего чтения, пожалуйста, обратитесь к регрессии случайного леса https://medium.com/@santoshshirol/random-forest-9a881afe41ec.

5. Поддержка векторной регрессии

SVR — это мощный метод регрессии, который можно использовать для прогнозирования на основе набора входных данных. Он работает, находя гиперплоскость, которая максимизирует разницу между прогнозируемыми значениями и фактическими значениями в наборе данных. Эта гиперплоскость называется «опорным вектором» и служит основой для регрессионной модели.

Одним из ключевых преимуществ SVR является его способность обрабатывать нелинейные отношения между входными и выходными переменными. В отличие от многих других методов регрессии, которые могут моделировать только линейные отношения, SVR может моделировать более сложные отношения, используя нелинейную функцию ядра. Это позволяет ему предоставлять более точные прогнозы для сложных наборов данных.

6. Регрессор XGBoost

XGBoost Regressor — это модель машинного обучения для задач регрессии, особенно для деревьев решений, повышающих градиент. Это мощный и эффективный алгоритм, который часто используется в соревнованиях и реальных приложениях. XGBRegressor может обрабатывать большие наборы данных и может обрабатывать пропущенные значения и категориальные функции. Он также способен к параллельной обработке, что делает его быстрее, чем другие модели. XGBRegressor известен своей способностью предоставлять точные и надежные прогнозы, что делает его популярным выбором для задач регрессии.

Метрики оценки используются для оценки производительности алгоритмов регрессии. Некоторые общие показатели оценки для регрессии включают среднюю абсолютную ошибку, среднеквадратичную ошибку и среднеквадратичную ошибку.

Средняя абсолютная ошибка (MAE) измеряет среднюю разницу между прогнозируемыми значениями и фактическими значениями. Он рассчитывается путем взятия абсолютного значения разницы между каждым прогнозируемым и фактическим значением, а затем среднего значения всех этих различий.

Среднеквадратическая ошибка (MSE) измеряет среднеквадратичную разницу между прогнозируемыми и фактическими значениями. Он рассчитывается путем возведения в квадрат разницы между каждым прогнозируемым и фактическим значением, а затем путем получения среднего значения всех этих квадратов разностей.

Среднеквадратическая ошибка (RMSE) похожа на MSE, но она берет квадратный корень из среднеквадратичной разницы. Эта метрика часто предпочтительнее MSE, поскольку она выражается в тех же единицах, что и прогнозируемые и фактические значения, что облегчает ее интерпретацию.

В дополнение к этим метрикам алгоритмы регрессии также можно оценивать с использованием других метрик, таких как R-квадрат, который измеряет долю дисперсии, объясняемой моделью, и среднюю абсолютную процентную ошибку, которая измеряет среднюю процентную ошибку прогнозов.

В целом, алгоритмы регрессии являются мощным инструментом для прогнозирования или принятия решений на основе данных. Их можно применять для решения широкого круга задач, от прогнозирования цен на акции до выявления мошеннических транзакций. Хотя у каждого алгоритма есть свои сильные и слабые стороны, выбор алгоритма будет зависеть от конкретной проблемы и характеристик данных.