Регрессия дерева решений

- Быстрый прием: все, что вам нужно знать о регрессии дерева решений как новичок

Возможно, вы встречали модели линейной регрессии, множественной регрессии и полиномиальной регрессии. Кроме того, у нас есть много других моделей регрессии в машинном обучении, одна из которых - регрессия дерева решений. Модель дерева решений очень хороша для обработки табличных данных с числовыми характеристиками или категориальных характеристик с менее чем сотнями категорий. В отличие от линейных моделей, деревья решений могут фиксировать нелинейное взаимодействие между функциями и целью.

Здесь x1 и x2 - независимые переменные, а y называется зависимой переменной. Например, если мы хотим спрогнозировать стоимость жилья в различных населенных пунктах, мы можем принять x1 как количество спален и x2 как возраст дома в годах. Считается, что эти две зависимые переменные влияют на ценообразование «y».

На следующем графике разброса показан двухмерный график x1 и x2, а y - третье измерение, скажем, цены. В регрессии дерева решений сначала мы подразделяем график на несколько частей, которые фактически называются листьями. Таким образом формируются так называемые листья дерева.

Количество разделений определяется алгоритмом с учетом ценности информации, добавленной путем разделения. Таким образом, дерево решений составляется следующим образом:

Среднее значение каждого разбиения берется и назначается каждому разбиению, называемому конечным листом дерева решений. Разделив данные на соответствующие части, алгоритм машинного обучения может более точно предсказать значение независимой переменной.

Практическое приложение, например прогнозирование заработной платы сотрудника, может быть выполнено на Python. Взяв данные о зарплате и уровне должности в качестве зависимых переменных, мы можем рассчитать предполагаемую зарплату любого сотрудника с учетом его уровня должности, используя модель регрессии дерева решений.

На графике показано постоянное значение количества интервалов, попадающих в конкретный разделитель. Следует отметить интересный факт - интуицию, которую вы получаете, когда одновременно развертывается несколько таких Дерева решений. Это то, что называется моделью регрессии случайного леса.

Написано:

Джайеш Кумар

3-й курс, ECE

  • Информация и реализация являются результатом изучения онлайн-курса «Машинное обучение A – Z ™: практическое применение Python и R в науке о данных».
  • Первоначально опубликовано на https://www.linkedin.com/pulse/decision-tree-regression-jayesh-kumar/ 24 февраля 2019 г.