Версия 0.2.1 пакета modelStudio достигла CRAN на этой неделе. Кратко расскажу о самых крутых нововведениях (список всех изменений).

Краткое напоминание: пакет modelStudio создает интерактивную бессерверную панель управления D3.js для исследования прогнозных моделей, которая основана на принципах Анализ объяснительной модели. С помощью интерфейса modelStudio можно сопоставить объяснения модели на уровне экземпляра (профили Разбивка, Значения Шепли и Ceteris Paribus), объяснения модели на уровне набора данных (Графики частичной зависимости, Важность функции, Накопленные локальные данные). График эффектов ») и графики исследования данных (гистограмма и диаграммы рассеяния). В приведенных ниже примерах используется модель GBM, обученная на наборе данных kaggle FIFA 19, для прогнозирования ценности игрока на основе выбранных 40 характеристик игроков. Поиграйте с живым демо здесь.

Новые сюжеты для EDA

В modelStudio есть два новых графика для исследовательского анализа данных: Target vs Feature и Average Target vs Feature (полезно для задач классификации). Они особенно полезны при изучении профилей частичной зависимости. Оба показывают связь между целью и выбранной функцией, но сначала показывает необработанную связь в данных, а последняя показывает связь, изученную моделью.

Лучше по умолчанию

Некоторые значения по умолчанию изменены в версии v0.2.1, чтобы улучшить общее удобство использования.

Если для локальных объяснений не представлены новые экземпляры, то по умолчанию из обучающих данных случайным образом берется небольшая выборка.

При построении графика modelStudio по умолчанию для первой панели устанавливается график с разбивкой, а вторая панель нажата. Это экономит 3 клика!

Все графики для категориальных переменных теперь имеют одинаковый порядок уровней.

Подробные и стабильные расчеты

modelStudio является бессерверным, поэтому все вычисления необходимо выполнять заранее, что может занять некоторое время. По умолчанию весь процесс более подробный, показывает индикатор выполнения и информацию о текущих вычислениях.

Блоки try-catch убеждают, что даже если некоторые части выйдут из строя, остальные закончат работу, и графики появятся на панели инструментов.

На графиках важности теперь есть коробчатые диаграммы, которые показывают, насколько стабильны вычисления для отдельных переменных.

Легко создать

Приведенный ниже фрагмент кода создает случайную модель леса для набора данных квартир, а затем создает информационную панель modelStudio.

библиотека (DALEX)
библиотека (randomForest)
модель ‹- randomForest (m2.price ~., данные = апартаменты)
объяснитель‹ - объяснить (модель, данные = апартаменты [, - 1] , y = апартаменты [, 1])

библиотека (modelStudio)
modelStudio (объяснитель)

Учить больше

Дополнительную информацию можно найти в репозитории modelStudio на GitHub.