Поскольку область науки о данных продолжает развиваться, постоянно создается множество инструментов, которые позволяют специалистам по данным сделать свои рабочие процессы максимально эффективными. AutoML — один из таких инструментов, позволяющий специалистам по данным обрабатывать данные с помощью различных методов без необходимости создавать собственные рабочие процессы для каждого набора данных.

Mathworks, создатель Matlab, определяет AutoML как систему, которая «автоматизирует и устраняет шаги, необходимые для перехода от набора данных к прогнозной модели».

Для тех, кто имеет опыт работы с наукой о данных и машинным обучением, он может ускорить рабочие процессы, а для тех, кто не знаком с наукой о данных и машинным обучением, AutoML может предоставить им доступ к разработке и развертыванию модели машинного обучения. Несколько компаний предлагают услуги, связанные с AutoML, от платных облачных сервисов, таких как Google Cloud AutoML, до библиотек с открытым исходным кодом, таких как MLJar.

В то время как другие службы могут работать со многими типами входных данных, такими как видео, текст, изображения и табличные данные, MLJar ориентирован на AutoML для табличных данных.

В этой статье я расскажу, как специалисты по данным могут использовать функции AutoML MLJar для проведения исследовательского анализа данных и поиска оптимальных моделей машинного обучения для набора данных с минимальным количеством кода.

MLJar имеет четыре режима, которые можно использовать: «Объяснение», «Соревнуйтесь», «Выполнение» и «Оптуна». Объяснение выполняет исследовательский анализ данных и пытается выделить наиболее важные функции в наборе данных. Compete сочетает в себе автоматическую разработку функций и оптимизацию моделей для повышения точности соревнований по машинному обучению, таких как соревнования на Kaggle. Их режим выполнения использует перекрестную проверку для создания эффективной модели для производственных целей, таких как разработка веб-приложения. Режим Optuna создает оптимизированное тестирование модели с различными типами моделей из разных категорий. AutoML работает как для задач классификации, так и для регрессии.

Установка

Чтобы начать работу с AutoML:

pip install mljar-supervised
from supervised import AutoML

Объяснить

Исследовательский анализ данных — это метод, используемый исследователями данных для обобщения набора данных и определения его основных характеристик. Его можно выполнить перед созданием регрессионной или классификационной модели, чтобы дать специалистам по данным общее представление о создаваемой модели.

Объяснение позволяет специалистам по данным проводить автоматизированный исследовательский анализ данных. Он запускает различные методы для определения важности функций, визуализации данных или анализа графиков зависимостей и представляет эту информацию пользователю. Вы можете запустить задачу объяснения для набора данных, инициализировав экземпляр AutoML в режиме объяснения.

automl = AutoML(mode="Explain")
automl.fit(X, y)

Результаты EDA сохраняются в файлах Markdown в каталоге, который распечатывается при запуске функции подгонки.

Частью понимания того, какие функции оказывают наиболее значительное влияние, что является важной частью проведения исследовательского анализа данных, может быть синтез новых функций, зависящих от предыдущих функций. Функции объяснения MLJar делают это автоматически, предоставляя новые «золотые функции» на основе ранее предоставленных значений.

Также автоматизирована предварительная обработка категориальных функций, что избавляет тех, кто использует MLJar, от необходимости кодировать столбцы вручную при использовании определенных типов моделей, требующих кодирования функций.

Также выполняются вычисления важности признаков, чтобы определить, какие признаки в наборе данных наиболее показательны для различий в данных. Эти функции могут быть рационально обоснованы с использованием существующих знаний, могут быть нерелевантными или могут привести к новому пониманию влияния этой функции в контексте набора данных.

Выступайте, соревнуйтесь и Optuna

Настройки Perform, Compete и Optuna для MLJar создают модель, которую можно использовать на соревнованиях или в производстве. Поиск модели для Perform and Compete выполняется методом случайного поиска с восхождением на вершину, тогда как для режима Optuna для поиска оптимальной модели используется библиотека оптимизации гиперпараметров Optuna.

Подгонка модели выполняется так же, как и при использовании метода Объяснения, но вместо того, чтобы устанавливать режим Объяснения при инициализации AutoML, нужно установить для него значение Выполнить, Соревноваться или Оптуна. Если вы хотите, чтобы модель была сохранена в определенном каталоге, есть также параметр results_path, который можно использовать при инициализации AutoML, который задает каталог для сохраненных моделей и объяснения Markdown для сохранения.

automl = AutoML(mode="Optuna", results_path='AutoML_1')

Предполагая, что вы хотите загрузить модель, уже обученную с помощью библиотеки AutoML, возможно, для развертывания, вы можете загрузить модель, используя тот же код, что и выше, но поместив сохраненные веса модели в папку.

Прогнозы можно запускать с помощью следующего кода:

automl.predict(X)

Но когда вы хотите представить выводы данных пользователю и хотите, чтобы имена столбцов были прикреплены к прогнозам, метод predict_all():

automl.predict_all(X)

В целом, MLJar предлагает отличный набор инструментов AutoML, которые любой специалист по данным должен использовать для ускорения своего рабочего процесса, а любой специалист, не занимающийся данными, должен использовать для предварительного анализа своих данных.

Использованная литература:





https://www.mathworks.com/content/dam/mathworks/fact-sheet/automl-cheat-sheet.pdf

Дополнительные материалы на PlainEnglish.io. Подпишитесь на нашу бесплатную еженедельную рассылку новостей. Подпишитесь на нас в Twitter, LinkedIn, YouTube и Discord . Заинтересованы в хакинге роста? Ознакомьтесь с разделом Схема.