Это вторая часть цикла Что такое апельсин. Настоятельно рекомендуется прочитать Часть 1 — Что такое Orange, прежде чем приступить к изучению этого руководства.

Об учебнике

Мы будем использовать набор данных Kaggle Housing Prices для прогнозирования цен на жилье с использованием модели случайного леса. Загрузите файлы train.csv и test.csv с сайта kaggle. Следует отметить, что основная цель этого руководства — изучить Orange и быстро создать базовую модель для прогнозирования. Следовательно, он может не иметь лучших методов вменения или разработки признаков.

Прежде чем мы углубимся дальше, важно понять несколько основных соглашений Orange. На рис. 1 показан виджет загрузки Файл вместе с двумя виджетами Таблица данных.

  1. У каждого виджета есть сторона Ввод и сторона Вывод. на рис. 1 входная сторона виджета «Таблица данных» (1) подключена к выходной стороне виджета «Файл».
  2. Все виджеты можно либо дважды щелкнуть, либо перетащить, чтобы поместить на область холста.
  3. Два виджета можно соединить, просто нажав на выходную и входную стороны соответствующих виджетов.

Шаг 1. Загрузите данные в файл train.csv

Перетащите/дважды щелкните виджет Файл в область холста, дважды щелкните, чтобы открыть свойства, и выберите файл train.csv. Вот и все, данные загружены, и вы можете увидеть функции внизу. Мы хотим предсказать переменную SalePrice. Прокрутите вниз и выберите его роль в качестве цели. Кроме того, сделайте Id метаданным, так как это просто тег для идентификации и не играет никакой роли в прогнозировании.

Вы можете видеть, что загружено 1460 записей, а 5,9% имеют пропущенные значения.

Шаг 2. Изучите загруженные данные

Перетащите еще 2 виджета — Таблица данных и Статистика объектов и соединитесь с нашими загруженными данными. Таблица данных показывает загруженные вами данные, а Статистика функций показывает удобные сведения о каждом столбце. Мы видим, что многие данные отсутствуют.

Шаг 3. Вменение

Поскольку у нас отсутствует 5,9% данных, мы сделаем что-то, что называется Вменение в статистике. Перетащите виджет Imput и соедините его с данными. Мы делаем это, беря средние значения, если пропущенное значение является числовым, и наиболее частое значение, если оно категориальное. В свойствах виджета Импут выберите Среднее/Наиболее частое в качестве метода.

Чтобы проверить, исчезли ли отсутствующие значения, перетащите другой виджет Статистика объектов и подключите его к Импутировать.

Шаг 4. Создайте модель

Прежде чем мы построим модель, нам нужно разделить обучающие данные для проверки. Для этого мы добавляем новый виджет Data Sampler и подключаем его к Impute. Для простоты мы придерживаемся значений по умолчанию.

Теперь мы перетаскиваем модель Random Forest и подключаем ее к Data Sampler.

Затем мы добавляем виджет Test & Score, который используется для оценки производительности нашего учащегося (т. е. Random Forest) по сравнению с набором данных проверки, который мы создали с помощью Data Sample. В виджете учащийся вводит данные модели, образец данных — данные обучения, а оставшиеся данные — набор тестовых данных/проверки.

Щелкните свойства виджета Тест и оценка, чтобы оценить такие показатели, как RMSE и R-квадрат.

На этом этапе мы создали достойную модель для нашего обучающего набора данных.

Шаг 5. Прогноз

Имея модель, давайте теперь воспользуемся тестовыми данными для прогнозирования SalePrice.

Загрузите test.csv.

Перетащите виджет Прогнозы и укажите случайный лес и тестовые данные в качестве входных данных для него.

Добавьте еще один виджет Выберите столбцы, чтобы получить только прогнозы по идентификатору, и используйте Таблицу данных, чтобы просмотреть результаты, как показано ниже.

Заключение

Как видно, мы буквально создали ML-модель случайного леса с нуля без единой строчки кода. Как только вы познакомитесь с инструментом Orange, создание визуализации данных или прогнозов для проектов интеллектуального анализа данных не займет много времени. Этот урок занял всего около 50 минут с нуля.

Если вам понравилась моя статья, рассмотрите возможность поставить несколько лайков и подписаться на меня в LinkedIn. Поделитесь своим опытом использования Orange в разделе комментариев.