Стратегия создания ценных продуктов для науки о данных в рамках быстрорастущих стартапов.

Примечание. Проекты, упомянутые в этой статье, полностью вымышлены и предназначены только для иллюстрации обсуждаемых концепций.

Проблемы, с которыми сталкиваются специалисты по данным в быстрорастущих стартапах

Внедрение науки о данных в быстрорастущий стартап — сложная задача, которая может показаться бессмысленной. Наука о данных требует времени, ресурсов и тщательного процесса, которому трудно следовать в водовороте спринтов, ориентированных на продажи, и потушить возгорание клиентов. Несоответствие между мышлением специалиста по данным и оперативностью стартапов порождает цинизм и выгорание, поэтому я хочу выделить некоторые закономерности, которые я выявил и использовал для успешного развития программ по науке о данных в быстрорастущих стартапах. Это не какая-то универсальная концепция мышления, но я думаю, что принципы найдут отклик, если вы сделаете шаг назад и посмотрите на пересечение потребностей вашего стартапа и вашей команды по обработке данных.

Во-первых, давайте просто перечислим, почему точно реализовать науку о данных так сложно в стартапе:

  1. Стартапы, ориентированные на рост, предназначены для быстрого запуска и итерации. Исследовательские проекты плохо согласуются с гибкими рамками и сроками.
  2. Необходимые данные не всегда доступны (и уж тем более нечисты). Вы работаете с несколькими лейблами, если таковые вообще имеются, и работа йомена состоит в том, чтобы просто спорить и собирать данные. Проблема усугубляется тем, что продукты часто поставляются без учета аналитики — им не хватает инструментов, позволяющих детально разрабатывать поведенческие функции (например, потоки событий).
  3. Возможно, наиболее пагубными являются ожидания нетехнических стейкхолдеров/руководителей от специалистов по данным. Вы можете ожидать встречи с чрезмерно оптимистичными людьми, которые думают, что вы можете сразу же ответить на невероятно сложные вопросы; и те, кто не понимает, почему там как минимум три отдела со словом data в названии.

Этой литании достаточно, чтобы отговорить любого специалиста по данным от присоединения к стартапу, и в результате специалисты по данным в стартапах являются просто инженерами данных / аналитиками с разными должностями или отодвинуты в угол со своими ноутбуками Jupyter и причудливыми колодами, мало что добавляющими ценности бизнес.

Закрепление с помощью высокоэффективных продуктов данных proto-ML

У специалистов по данным есть способы как практиковать науку о данных, так и вносить ценный вклад в бизнес. Чтобы найти точку опоры для науки о данных, вам необходимо определить важные проблемы, которые повышают ценность в краткосрочной перспективе и способствуют достижению долгосрочных целей команды специалистов по данным за счет архитектуры и формулирования проблем.

Приступайте к созданию «моделей», не связанных с машинным обучением, которые вы можете запустить в производство, как если бы они были моделями машинного обучения. Это может больше относиться к области аналитической инженерии, но с мышлением специалиста по данным различия становятся все менее и менее очевидными. Эти продукты данных proto-ML будут иметь некоторые полезные качества.

1. Ценность для бизнеса не полностью зависит от прогностической способности модели. Одной из самых сложных частей запуска проекта по науке о данных в стартапе является неопределенность. Ваш информационный продукт должен приносить пользу в временной масштаб, соответствующий бизнесу (например, за один квартал) и с высокой вероятностью успеха. Первые впечатления имеют значение. Если ваше первое предложение бизнесу состоит в том, что вы потратите три месяца на разработку модели машинного обучения, которая может оказаться непригодной для производства, удачи в получении ресурсов в будущем. Возможно, вы не знаете, насколько точной будет ваша модель, но подумайте о том, какие внешние эффекты возникают при создании более крупного продукта. Можете ли вы увеличить скорость процесса, уменьшить количество ошибок, связанных с человеческим фактором, обеспечить видимость и метрики для некоторых важных компонентов? Все это ценно, и все это может быть доставлено предсказуемыми, поэтапными способами.

2. Как насчет долгосрочной ценности программы по науке о данных? Внедрение машинного обучения в производство требует гораздо большего, чем статистика. Вам нужны конвейеры разработки функций, оркестровка задач и возможности оценки моделей. Опять же, создание всей этой инфраструктуры для поддержки неопределенного результата неразумно для стартапа, ориентированного на исполнение. Возникает динамика курицы и яйца. Но, к счастью, инфраструктура обработки и анализа данных может поддерживать продукты, не связанные с машинным обучением, и действительно помогать создавать ценность, упомянутую выше. И эта ценность — та, которую можно итеративно и предсказуемо извлекать — прямо сейчас». платит за» инфраструктуру, которая в противном случае могла бы показаться нетехническим заинтересованным сторонам какой-то причудливо звучащей игрушкой.

Делаем это более конкретным

Все это может звучать абстрактно до такой степени, что бесполезно. Модели немашинного обучения платят за инфраструктуру машинного обучения, обеспечивая ценность в качестве продукта данных? Что я вообще говорю? Попробую проиллюстрировать на примере. Давайте возьмем две проблемы-кандидата для нашей молодой дорожной карты науки о данных. В обоих случаях бизнес хочет, чтобы вы применили магию машинного обучения для решения проблемы.

  1. Моделирование мошенничества: в настоящее время группа управления рисками должна загружать наборы данных о клиентах в Excel и анализировать их для выявления вероятного мошенничества.
  2. Алгоритм рекомендаций для улучшения результатов поиска. Существующая модель (простая сортировка по тенденциям на основе SQL) неоптимальна, и есть опасения, что она приводит к оттоку клиентов.

Давайте проанализируем эти проблемы на основе проблем с существующим решением и в каких аспектах мы можем его улучшить.

В существующей системе обнаружения мошенничества у нас есть ручной, подверженный ошибкам процесс, в котором мы мало видимы и из которого было бы трудно собрать какие-либо высокоуровневые показатели. Без внедрения каких-либо моделей машинного обучения (или даже введения новой логики) мы можем автоматизировать процесс и предоставить ценную информацию. Отчасти это верно и для модели поиска: можно сказать, что сегодня у бизнеса нет способа количественно оценить, насколько хорош или плох поиск. Но там улучшение результатов поиска по-прежнему требует более сложного моделирования, чем то, что существует сегодня, а это требует меньше определенных исследований и разработок.

Чтобы создать V1 продукта данных о мошенничестве, мы можем буквально вырвать логику из Excel (или мозгов аналитиков) и включить ее в инфраструктуру машинного обучения, чтобы предоставить ценный продукт данных. Давайте начнем с преимуществ передачи данных и наблюдаемости, которые можно получить, просто внедрив эти правила в хранилище данных.

  • Логика может иметь версии с датами выполнения, хэшами git и т. д., чтобы можно было детально отслеживать ошибки и проблемы.
  • Аналитики теперь могут отвечать на сложные вопросы с помощью SQL, тогда как раньше им лучше всего было объединить множество файлов Excel или попытаться поддерживать одну большую книгу (конечно, без контроля версий). Представьте себе, что вы пытаетесь определить первопричину внезапного скачка какого-либо показателя без должным образом разработанной аналитической таблицы?

Машинное обучение также не обладает монополией на преимущества метрик оценки модели. Обернутая в инфраструктуру машинного обучения логика теперь может быть эффективно протестирована и отслежена. Метрики машинного обучения, такие как отзыв с фиксированной точностью, могут помочь понять, какие правила полезны, а какие нет. Даже если метки редки (или отсутствуют), такие показатели, как «% пользовательской базы, помеченной с течением времени», в сочетании с отраслевым опытом дают представление о поведении пользователей. Отмечаем ли мы большую или меньшую часть нашей пользовательской базы, чем можно было бы ожидать, исходя из общедоступной статистики?

Более того, EDA, выполняемая в масштабе, может сама по себе стать мощным продуктом данных. Задайте такие вопросы, как «какие пользовательские атрибуты коррелируют с вероятностью того, что правила аналитика пометят их?» и «в каких когортах пользователей сконцентрирован наш риск?» и отвечайте на них с помощью информационных панелей Tableau или Looker, которые демократизируют понимание.

Склонность к машинному обучению

Использование подхода и набора инструментов, связанных с наукой о данных, для создания продукта данных, не связанного с машинным обучением, дает бизнесу возможность использовать данные способами, которые они, вероятно, не могли себе представить раньше. В конце концов, наука о данных не является синонимом машинного обучения; речь идет об извлечении значимых идей. Но такое мышление не означает, что нужно навсегда отказаться от машинного обучения.

На самом деле, использование этого подхода, скорее всего, обеспечит естественный переход (как с технической, так и с точки зрения бизнеса) к применению более продвинутых подходов к моделированию. Теперь у вас есть инфраструктура, необходимая для внедрения машинного обучения в производство, и обоснование для этого. Вы можете объяснить бизнесу, что эти новые поднятые вопросы и показатели, которые вы сделали доступными, требуют более сложных методов для дальнейшего развития. Вы управляли своим механизмом правил, оснащенным инфраструктурой обработки данных, пока он не заглох, и теперь вы заработали себе выпивку и from sklearn import ....