Первый шаг (а иногда и последний) консолидации вашей команды специалистов по обработке и анализу данных — гарантировать, что вы сможете приносить пользу как можно быстрее. В настоящее время у нас есть такие инструменты, как Feature Stores и AutoML, для облегчения этих задач.

ЗАЧЕМ МНЕ НУЖЕН ФУНКЦИОНАЛЬНЫЙ МАГАЗИН?

При структурировании рабочих процессов вы должны знать, как специалисты по данным проводят свое время на работе.

Большую часть времени они будут работать с источниками данных для получения желаемых функций, и именно здесь хранилища функций помогут сэкономить ресурсы вашей команды.

Вот базовая диаграмма того, где он вписывается в ваш рабочий процесс и чем он вам помогает.

  • Реестр
  • Мониторинг функций с течением времени
  • Управление преобразованиями
  • Хранилище с одним источником
  • Обслуживание из одного источника

Большинство платформ данных предлагают способы эффективной реализации с минимальными усилиями.

Убедитесь, что ваша команда не работает над функциями индивидуально для варианта использования, но если они это сделают, они должны включить их для всей команды через хранилище функций.

Мы, конечно, много услышим об этом в будущем. Хотя это относительно новая концепция, нет сомнений, что она является одним из ключевых компонентов, реализованных в инфраструктуре науки о данных, и будет продолжать быстро развиваться.

ПРИЧИНЫ ДЛЯ АВТОМАТИЗАЦИИ ВАШЕГО МОНИТОРИНГА

Теперь, когда мы создали хранилище функций, как нам максимально быстро извлечь из них пользу?

Sage Maker, Google AutoML, PyCaret и т. д. Вы наверняка слышали о многих решениях AutoML, доступных по скромной цене, верно?

Хотя они, безусловно, могут повысить ценность ваших продуктов, вот несколько причин, по которым стоит подумать о создании собственного решения AutoML вашей командой по науке о данных.

1 — повторно используемые компоненты

Как бы вы ни решили создать свой стандартный конвейер AutoML, вы наверняка найдете множество способов расширить его части в процессе. Это может быть хорошим способом научить ваших специалистов по данным принципам разработки программного обеспечения, что сэкономит им много времени на повторяющихся задачах.

2 – улучшить качество кода

Поддержание единого источника для ваших компонентов облегчит экспертную оценку вашей командой. Это не только сэкономит ваше время, но и позволит избежать скрытых ошибок в конвейерах машинного обучения.

Допустим, у вас есть сотня различных моделей, и каждая из них имеет различную реализацию, которая применяет очень похожую подготовку функций. Сколько усилий потребуется для ее поддержки, если ваши контракты данных изменятся?

3 — Базовый уровень проверки модели

Хотя это, безусловно, горячая тема для споров в любой команде по науке о данных, когда вам нужно придумать базовый уровень, это значительно повысит качество ваших моделей.

Целью здесь является не только выбор порогового числа метрики, но и обеспечение того, чтобы конвейер соблюдал характеристики набора поездов, такие как стабильная метка времени, объект, вес и т. д.

Цените эту возможность настраивать разбиения наборов данных, методы перекрестной проверки, графики оценки и т. д. Ключевым моментом является творческий подход и увеличение сверхурочной работы вашего процесса.

4. Улучшите мониторинг моделей

К этому моменту вы определенно улучшили свою среду MLOps, и теперь ценность, создаваемая вашими продуктами ML, будет восприниматься как должное.

Пришло время убедиться, что ваши модели стабильно работают с течением времени. Хорошей отправной точкой было бы обнаружение дрейфа данных в различных его проявлениях.

Наблюдаемость за вашими вычислительными ресурсами и выполнение конвейеров с помощью таких инструментов, как Apache Airflow, также являются хорошим способом обеспечения максимально гладкой работы.

Интеграция уведомлений из такой системы в инструменты общения вашей команды, такие как Slack, Skype и т. д.

Вместе Feature Store и решение AutoML могут помочь сделать разработку моделей машинного обучения более эффективной и результативной. Ознакомьтесь со следующими статьями, чтобы узнать, как мы создали надежный конвейер для экспериментов по автоматическому машинному обучению.