Сравнение платформ Cloud MLOps, от бывшего премьер-министра AWS SageMaker

Как сегодня можно сравнить два больших облака с инструментами платформы машинного обучения? Какие особенности имеют значение?

Компании, применяющие машинное обучение (ML) в своей организации, имеют набор инструментов в качестве своей платформы ML. При масштабировании организации каждый инженер машинного обучения, архитектор машинного обучения и ИТ-директор должны переоценить свою архитектуру, особенно когда известные поставщики облачных вычислений публикуют свои ежегодные объявления. Как бывший старший менеджер по продукту Amazon SageMaker, я собираюсь сделать обзор текущего ландшафта GCP Vertex и SageMaker и своего мнения о различных инструментах.

MLOps редко бывает единой монолитной системой. Вместо этого он состоит из ряда более мелких этапов работы с инструментами, которые я называю «большой восьмеркой MLOps»: сбор данных, обработка данных, разработка функций, маркировка данных, проектирование модели, обучение модели, оптимизация модели, а также развертывание и мониторинг модели.

Введение в подходы к платформе ML

Крупные поставщики облачных услуг создали «сквозные» платформы машинного обучения. Специалист по анализу данных, использующий Amazon SageMaker, может извлекать данные из своего хранилища данных, создавать код модели алгоритма и развертывать его в производственной среде, не выходя из набора инструментов. Хотя больше всего говорят о поставщиках облачных услуг для начала работы, есть также стартапы, которые стремятся решить те же задачи, что и Dataiku, Datarobot, C3.ai, H20.ai.

Альтернатива сквозному использованию - быть «лучшим в своем классе» инструментом, который требует от поставщиков сосредоточиться, чтобы стать лидером мнений в своей области. Хотя и GCP Vertex, и Seldon имеют возможности обслуживания моделей, опытный инженер машинного обучения обнаружит, что продукт Seldon имеет такие функции, как графы вывода и собственное развертывание Kubernetes, которые требуются во многих случаях использования клиентами. Платформам сквозного машинного обучения обычно требуется 15–36 месяцев, чтобы наверстать упущенное с точки зрения паритета функций, но продукты будут запущены гораздо раньше, чтобы сформировать интеллектуальное лидерство и получить отзывы о продукте.

На данный момент существует значительная часть совпадений с платформами основных поставщиков облачных услуг. Фактически, многие из чистых новых анонсов от Google I / O 2021 были функциями, которые SageMaker запустил на re: Invent 2020. Стратегию Google отличает от других поставщиков облачных услуг то, что у них есть ряд проектов MLOps с открытым исходным кодом, созданных Google. Brain, который GCP теперь предлагает как управляемую услугу. Vertex AI pipelines - это управляемая служба Kubeflow Pipelines, API метаданных Vertex почти идентичен MLMD, а Vertex также имеет API-интерфейсы для размещения артефактов обучения тензорной доски. Такой подход к созданию продуктов означает, что у клиентов есть мобильность, одни и те же инструменты доступны с открытым исходным кодом для их работы на AWS или локально.

Сравнение Amazon SageMaker и GCP Vertex

Каждые пару месяцев я трачу время на переоценку своей 18-месячной дорожной карты индустрии MLOps. Эта дорожная карта - это то, что я считаю ключевыми функциями, которые должны охватывать 90% того, что необходимо предприятиям для обучения и обслуживания моделей. Он состоит из кусочков запросов на функции продукта, которые я имею в разговорах с инженерами машинного обучения, ИТ-директорами и другими менеджерами по маркетингу, а также из того, что я наблюдал в своей работе. Я поместил эти функции в список и описал текущие предложения машинного обучения.

Есть два класса функций, которые есть у платформ машинного обучения. Требуемые «ставки стола» и «лучшие в своем классе» функции.

Лучший представитель породы выделен жирным шрифтом. Команды, которые не знакомы с машинным обучением, будут достаточно оснащены функциями ставок за стол, чтобы они могли быстро приступить к развертыванию моделей. И GCP Vertex, и Amazon SageMaker вложили достаточно средств, чтобы преодолеть это минимальное препятствие.

Однако одних этих функций недостаточно для серийного производства моделей. Лучшие в своем классе функции, такие как графы вывода, важны для команд машинного обучения, у которых уже есть много моделей в своей организации. На каждом этапе «большой восьмерки» есть свой набор лучших в своем классе характеристик, которые следует учитывать.

Облачные платформы все еще развивают свои лучшие в своем классе функции, даже если сегодня их окружает общедоступный продукт. Хотя GCP более честен и называет Vertex Metadata и другие лучшие в своем классе инструментами pre-GA, на самом деле их нельзя использовать в масштабе (пока). Я подчеркнул в Твиттере, что Метаданные вершин (отслеживание экспериментов) не имеют Python SDK. SageMaker имеет аналогичные недостатки. Пример находится в их магазине функций, в котором отсутствует модель сущности, с помощью которой можно было бы организовать сохраненные функции. Требуется более глубокое тестирование, чтобы выявить технический долг, который все еще существует.

Команды предприятий, которым требуются расширенные функции, выделенные жирным шрифтом, должны быть готовы к созданию собственных решений для решения их конкретных задач или написанию кода «привязки» к альтернативам (инструменты с открытым исходным кодом или другие поставщики). Этот клей - это концепция, которую инвесторы называют оркестровкой машинного обучения, и появится новый класс инструментов MLOps.

Выводы

Проведение подобных оценок показывает расхождения между тем, что ИТ-директор / вице-президент по инженерным вопросам должен создать для решения текущих задач, и тем, что можно было бы купить, если бы у них вообще не было команды разработчиков платформы MLOps. Список потребностей постоянно растет, и список достаточных функций исходит не только от платформ сквозного машинного обучения. Для более сложных предприятий с опытными пользователями это упражнение дает ясность в отношении будущего их платформы машинного обучения в классическом варианте построения и покупки. В случае стартапов и небольших компаний разработка платформы MLOps не рентабельна, и использование SageMaker или Vertex не будет иметь значения.

После AWS я основал некоммерческий программный фонд MLOps под названием Social Good Tech, чтобы решить проблему совместимости инструментов. Я планирую написать больше о том, как продумывать архитектуру платформ машинного обучения. Следите за моим анализом индустрии MLOps и дискуссий, развивающихся на рынке.