Масштабируйте машинное обучение без бездельников!

Подход, которого придерживается большинство компаний при внедрении программ обработки данных и машинного обучения, заключается в том, чтобы нанимать «бездельников на рабочие места». Промышленные компании и поставщики услуг наняли инженеров по данным, ученых и аналитиков для работы с дронами. Миллионы долларов были потрачены во всем мире на то, чтобы использовать машинное обучение и искусственный интеллект.

Характер работы, как правило, был трудоемким, а получение значимых результатов занимало месяцы — если модели когда-либо доводились до практического применения! Обычно 80% времени специалистов по данным тратится на обработку данных и манипулирование ими. Опрос по развертыванию машинного обучения показал, что большинству опрошенных компаний требуется от 30 до 90 дней для развертывания только одной модели. При таких темпах без изменения практики некоторые предприятия могут развернуть только четыре модели всего за один год. Итак, тренд на массовый набор!

Эта тенденция массового найма привела к глобальной нехватке навыков специалистов по данным. Это, в дополнение к текущей зрелости большинства программ машинного обучения, привело к завышению затрат, и некоторые предприятия полностью ощутили тяжелое разочарование известной шкалы ажиотажа Gartner.

Вместо того, чтобы выплеснуть ребенка вместе с водой из ванны, отказаться от программ и покрыть затраты на машинное обучение, компании могут рассмотреть несколько подходов, которые помогут им масштабироваться без увеличения численности персонала.

1. Хранение данных

Создание хранилища данных и инфраструктуры непосредственно перед началом любой аналитики имеет решающее значение. Масштабируемое решение для хранения всех деловых, операционных и финансовых данных может сократить время, затрачиваемое инженерами по данным и специалистами по данным на поиск данных, поиск разрешений для получения доступа, а затем последующие часы манипулирования данными и споров. Хранение данных на такой платформе, как DataHUB4.0, позволяет заинтересованным сторонам получать доступ и анализировать данные в режиме реального времени. Ценность идей, полученных с использованием надежных данных в режиме реального времени, превосходит те, которые не влияют на повседневную работу.

2. Быстрая разработка модели

Разработка модели больше не должна занимать недели или месяцы. Этот ручной индивидуальный подход к разработке моделей не является устойчивым и неэффективным для предприятий, которым необходимо показывать результаты. Бизнес может внедрить автоматизированные конвейеры искусственного интеллекта и инструменты машинного обучения (AutoML) для создания моделей постановки своих задач за считанные минуты или часы. Операционные проблемы, такие как время до отказа для активов, диагностическое обслуживание, прогнозирование или деградация, могут быть быстро смоделированы, не полагаясь на библиотеки моделей. Повышение сложности практик и программ машинного обучения не обязательно означает, что время и затраты должны резко возрасти, а также не дает специалистам по данным разрешения на чрезмерное проектирование процессов и рабочих процессов.

3. Операционализация модели

Сложная программа машинного обучения автоматизирует весь процесс от обработки данных до разработки модели и вплоть до операционализации. Модели должны иметь возможность развертывания в операционной среде, чтобы они могли продолжать обучение и предоставлять будущие прогнозы и бизнес-аналитику. Такая платформа, как OPUS, позволяет пользователям автоматически развертывать модели. Эти модели автоматически обновляются новыми данными и помечаются для простого переобучения, если их точность снижается, что делает управление тысячами моделей проще, чем когда-либо прежде. Этот автоматизированный подход к операционализации, обычно называемый MLOps, позволяет компаниям масштабировать машинное обучение.

4. Демократизация данных и аналитики

Одна из самых больших возможностей заключается в способности увеличить количество людей в организации, которые активно используют данные, создают модели и получают информацию о бизнесе. Масштаб будет следовать за компаниями, которые уменьшают свою зависимость от своих ценных специалистов по данным. Сегодня инженеры, эксперты в предметной области и специалисты, не работающие с данными, могут использовать самодельные инструменты без кода для создания моделей и получения информации. Навыки специалистов по данным лучше всего применять для решения наиболее сложных и важных бизнес-задач, в то время как остальные 80% должны решаться существующей командой, которая уже понимает все тонкости формулировки бизнес-задачи. Это верный признак того, что данные используются в компании в полной мере. Лучше всего, никаких лишних бомжей на сиденьях.

Масштабирование машинного обучения может повысить устойчивость организации и даже привести к конкурентному преимуществу. Однако для того, чтобы это произошло, предприниматели должны взять на себя следующие обязательства:

- Повышение информативности во всей организации

- Внедрение автоматизированных инструментов машинного обучения и искусственного интеллекта

- Передовая инфраструктура данных и прозрачность

- Расширение сотрудничества с мульти-талантливыми командами

- Стандартизация разработки моделей между учеными данных

В VROC мы считаем, что для компаний больше неприемлемо тратить значительные суммы денег, времени и ресурсов на масштабное внедрение промышленного ИИ и машинного обучения. Мы призываем вас думать по-другому и бросать вызов норме.

Масштабируйте машинное обучение без бездельников!

1. Хранение данных

2. Быстрая разработка модели

3. Операционализация модели

4. Демократизация данных и аналитики

Вопросы по теме