Я рассмотрю рабочий процесс, который я использовал, чтобы определить, можем ли мы предсказать, является ли человек мужчиной или женщиной, на основе различных переменных, используя алгоритм дерева решений. Код Github доступен здесь.

Дерево решений

Дерево решений - это инструмент поддержки принятия решений, который использует древовидную модель решений и их возможных последствий, включая случайные исходы событий, затраты на ресурсы и полезность. Это один из способов отобразить алгоритм, который содержит только условные операторы управления.

- википедия

Дерево решений, контролируемое обучение

Обучение дерева решений - один из подходов к прогнозному моделированию, используемых в статистике, интеллектуальном анализе данных и машинном обучении. Он использует дерево решений (в качестве модели прогнозирования) для перехода от наблюдений за элементом (представленных в ветвях) к выводам о целевом значении элемента (представленных в листьях). Модели деревьев, в которых целевая переменная может принимать дискретный набор значений, называются деревьями классификации; в этих древовидных структурах листья представляют метки классов, а ветви представляют соединения функций, которые ведут к этим меткам классов. Деревья решений, в которых целевая переменная может принимать непрерывные значения (обычно действительные числа), называются деревьями регрессии.

- википедия

Набор данных

  • 500 рядов
  • Пол Мужской Женский
  • Высота: Число (см)
  • Вес: Число (кг)
  • Индекс: Фитнес

Разработка функций

  • Преобразовать высоту из метров в дюймы
  • Преобразовать вес из килограммов в фунты
  • Рассчитайте ИМТ, используя вес (кг) и рост (м).

Завершенный набор данных

Разбивка целевой переменной

  • Мужчины = 245 (49%)
  • Женщины = 255 (51%)

Тренировка тестового сплита

Train = 80% (400 rows)
Test = 20% (100 rows)

Фиктивный классификатор

Я собираюсь использовать фиктивный классификатор, чтобы определить, как будет работать наша окончательная модель.

Матрица путаницы

  • Ложноотрицательный 23

Из 48 наблюдаемых мужчин мы правильно идентифицировали только 25 настоящих мужчин.

  • Ложноположительный 20

Из 52 наблюдаемых самок мы правильно идентифицировали только 32 истинных самки.

Males = 0
Females = 1

Дерево решений

Матрица путаницы

Кажется, что дерево решений считает ИМТ наиболее важной характеристикой в ​​нашем наборе данных, чтобы определить, является ли человек мужчиной или женщиной. Это может иметь смысл, потому что ИМТ рассчитывается с учетом веса и роста человека. Обычно самцы весят больше и выше самок.

Мысли

Запуск алгоритма дерева решений, похоже, не улучшает нашу оценку F1. Модель дерева решений не работает с нашими данными. Я буду пробовать разные модели, чтобы улучшить наш результат.