Большинство специалистов по обработке данных изо всех сил пытаются определить варианты использования, которые превращаются в решения для науки о данных и искусственного интеллекта / машинного обучения, приносящие реальную пользу

Вы можете спросить, почему?

Теоретически должно быть просто придумать идею, собрать отзывы и создать прототип, чтобы получить демонстрацию и проверить концепцию.

Однако на самом деле большинство специалистов по обработке и анализу данных и машинному обучению терпят неудачу на каждом этапе процесса и в результате предоставляют решения, которые редко достигают стадии производства или после запуска и не представляют никакой ценности (не повышают производительность, доход или просто не развлекайся).

Только один из каждых 10 проектов в области науки о данных действительно реализуется. (Источник)

Можно утверждать, что проекты в области науки о данных и машинного обучения носят исключительно исследовательский характер, и поэтому очевидно, что большинство из них потерпят неудачу.

Конечно, это правда, но как структурировать процесс определения и проверки вариантов использования, чтобы сократить время и затраты и повысить вероятность успеха? Создание прототипа обычно требует значительных вложений, усилий и времени, а некоторые из них строятся месяцами… с армией инженеров машинного обучения на борту.

Кроме того, из-за ограничений COVID-19 некоторые организации борются с удаленным сотрудничеством и производительностью (хотя некоторые из них оказались даже более эффективными, чем раньше!).

Определенно, здесь нет золотого правила, и процесс будет отличаться в зависимости от компании. Тем не менее, эта статья призвана предоставить специалистам в области науки о данных и машинного обучения руководство и методы, которые могут помочь им преодолевать препятствия и дать им возможность запустить производственное решение, отвечающее ожиданиям пользователей и приносящее выгоды для компании (доход, эффективность, маневренность).

Независимо от того, как структурирован процесс проверки варианта использования, он будет включать следующие два основных этапа:

Идея - определение варианта использования и подготовка к созданию прототипа.

Проверка - создание прототипа и оценка результатов.

Как определить вариант использования?

Вариант использования - это описание / возможность применения AI / ML для решения конкретной проблемы.

Все начинается с идеи, и такие идеи могут исходить из разных источников, иногда даже из необычных. Возможно, вице-президент увидел сообщение в LinkedIn и воодушевился, специалист по данным, возможно, прочитал интересную статью, или инженер машинного обучения наткнулся на новый алгоритм и хочет изучить его потенциал.

Часто варианты использования исходят от менеджеров по продукту, UX-команды или HW-команд, которые только что создали прототип нового датчика или хотели бы добавить в продукт потрясающую новую функцию.

Каждый из приведенных выше примеров может привести к интересным вариантам использования, но в то же время может привести только к впечатляющим и дорогостоящим сбоям. Например, частой ошибкой является применение крутых сложных алгоритмов глубокого обучения (которые требуют больших объемов данных, которые недоступны) к каждой проблеме, даже к тем, которые могут быть успешно решены с помощью эвристики или простых «традиционных» моделей.

Хорошо, с чего начать?

Инвестируйте в творчество и исследования!

Лучший способ начать - организовать межкомандный мозговой штурм, в котором участвуют не только ваша команда по науке о данных / машинному обучению, но и другие заинтересованные стороны из таких команд, как управление продуктами, пользовательский интерфейс, оборудование, а также любые другие, кто может внести свой вклад в использование. определение случая и последующая проверка.

Сочетание разных точек зрения и творчества - ключ к успеху!

Наука о данных - это творчество и создание значимых решений из байтов данных, которые делают наш мир лучше!

Креативность можно повысить, рассылая интересные примеры использования (документы, видео и т. Д.) Вовлеченным сторонам до начала сессии.

Стимулируйте исследования, изучая конкурентов и их продукты, примеры использования из других отраслей, а также применимые исследовательские работы.

Текущая пандемия и необходимость удаленного сотрудничества также могут стать проблемой. Обязательно сосредоточьтесь на надлежащей фасилитации и предоставьте всем участникам широкие возможности для обмена идеями и обратной связи.

Составьте список всех идей, которые возникают во время занятия. Выберите 10 или около того самых интересных из них и попросите команду изучить каждый из них, используя следующий список вопросов, чтобы расставить приоритеты для вариантов использования и выбрать наиболее многообещающие для прототипирования:

  1. Проблема - как ее решить с помощью науки о данных и машинного обучения?
  2. Воздействие - как пользователи получат выгоду от предлагаемого решения?
  3. Ценность / выгода - материальные и нематериальные; снижение затрат, эффективность, маневренность или другое?
  4. Инновация - насколько уникальна / нова идея? Сколько исследований требуется? Есть ли что-то подобное? Можно ли повторно использовать какие-либо компоненты?
  5. Данные - есть ли данные или нужно их сгенерировать / собрать для прототипирования?
  6. Проверка - насколько легко ее проверить?
  7. Сложность - насколько сложно создать решение и сколько времени может потребоваться для выпуска решения для пользователей?

На этом этапе нет необходимости беспокоиться об абсолютной точности ответов, поскольку они являются лишь приблизительными оценками, поддерживающими приоритизацию вариантов использования. Приведенный выше список является лишь примером важных вопросов, которые, конечно же, можно изменить / расширить в соответствии с вашими конкретными потребностями.

Тем не менее, делайте это кратко и просто. По возможности применяйте заранее определенные ответы. Такие ответы можно использовать в дальнейшем для применения весов и реализации алгоритма оценки.

Конечным результатом вышеупомянутого упражнения должны быть три варианта использования, включенные в окончательный список для следующего этапа.

Выберите наиболее многообещающий (прототип которого будет первым) с точки зрения ощутимых бизнес-преимуществ, влияния на пользователей и времени выхода на рынок для проведения упрощенного технико-экономического обоснования.

Результатом должно быть краткое изложение объема работ на следующем этапе (валидация) и охватывать по крайней мере следующие 6 областей: 1) цель, 2) возможности для бизнеса, 3) технологии, 4) подход к валидации, 5) данные, 6) Команда, 7) Расписание, 8) Риски.

Как проверить вариант использования?

Ответ - быстрое прототипирование.

Не тратьте время на Proof of Concept, поскольку ваша основная цель не должна заключаться в проверке возможности создания решения с технологической точки зрения. Ответ всегда положительный (хорошо, почти всегда…). В большинстве разумных случаев все сводится к вопросу доступности данных и выбора правильных алгоритмов.

Однако ваша цель валидации - это не только техническая осуществимость, но, прежде всего, создание прототипа для оценки потенциального воздействия, полезности и преимуществ решения, нацеленного на продуктивность. Кроме того, оцените усилия, ресурсы, временные рамки и риски, связанные с разработкой окончательного решения.

Несколько моих личных советов по быстрому прототипированию:

  • Четко определите и получите понимание командой цели, объема, результатов и критериев проверки!
  • Организуйте работу в еженедельных спринтах (максимум 4–5, более длительное может привести к сокращению объема работ и отказу).
  • Постройте прототип постепенно, начните с базовой модели (даже эвристики), а затем улучшите ее с помощью дополнительных улучшений, переключившись на более продвинутые подходы.
  • Небольшие гибкие межфункциональные группы (1-2 специалиста по данным, 1-2 представителя малого и среднего бизнеса + руководитель). Назначение множества инженеров машинного обучения (обычная практика) для одного и того же варианта использования - это путь к неудаче.
  • Включите МСП, которые смогут проверить вариант использования (UX / HW / Product Management или другое).
  • Ищите самый простой подход, нейронные сети требуют большого количества данных, которых у вас может не быть, и часто те же результаты можно получить с помощью классических алгоритмов, даже простой линейной регрессии или комбинации статистической модели и эвристики.
  • Попробуйте разные алгоритмы - не придерживайтесь одного, попробуйте другие для той же задачи, чтобы оценить производительность.
  • Потратьте время на исследования - повторно используйте доступные архитектуры, модели и пакеты.
  • Обеспечьте качество данных и примените необходимую очистку данных.
  • Определите ваших основных заинтересованных сторон и обеспечьте постоянное общение.

Сотрудничество в случае распределенных команд, особенно в свете текущих ограничений пандемии, может быть затруднено, поскольку быстрое прототипирование выполняется наиболее эффективно в сгруппированных командах. Тем не менее, существует множество различных технологий и приемов, которые вы можете применить, начиная от инструментов управления задачами, досок Канбан и заканчивая видео и специальными сообщениями. Я не буду продвигать здесь какие-либо конкретные инструменты, поскольку каждая компания использует свой собственный набор инструментов, которые можно эффективно применять по назначению.

Проверка, самая важная часть!

Очевидно, наша цель здесь не в том, чтобы проверить модель (это по-прежнему важно), а в том, чтобы убедиться, что созданный прототип / демонстрация соответствует варианту использования, который мы определили, имеет потенциал оказать влияние на пользователей и может создавать ощутимую ценность для бизнеса.

На этом этапе вы должны проверить прототип на соответствие количественным и качественным критериям успеха, которые вы определили с командой и заинтересованными сторонами до начала проекта.

Количественные критерии могут быть порогом ошибки (MSE, отзыв или любые другие релевантные), которых должна достичь модель. Это также может быть комбинация различных показателей, связанных с производительностью модели или прототипа.

Эта часть проста.

Самая сложная часть - качественная, когда вы не можете измерить такие аспекты, как ценность для пользователей и преимущества, которые может принести прототип. Конечно, вы можете провести фокус-группу или исследование удобства использования, однако такие методы требуют времени и значительных затрат. Поэтому оставьте их для дальнейших этапов, а пока полагайтесь на свой МСП - опыт UX и управления продуктами. Также привлекайте другие команды в своей компании, делитесь прототипом и собирайте отзывы.

Однако помните - в конце концов, все дело в деньгах…

Если вы хотите убедить заинтересованные стороны в своем бизнесе, что ваша демонстрация ценна и может принести финансовую прибыль, вам следует выполнить анализ затрат и выгод. Сначала перечислите все прямые, косвенные, а также нематериальные затраты и выгоды, включая те, которые связаны с повышением производительности и удовлетворенностью клиентов. Применяйте денежное измерение ко всем позициям, агрегируйте и сравнивайте. Если вам сложно продемонстрировать преимущества, поработайте со своей командой, чтобы определить и количественно оценить их.

Когда мне следует начинать проверку?

Ответ - как только вы приступите к быстрому прототипированию. Это должен быть непрерывный процесс, направленный на проверку полезности варианта использования.

Во время быстрого создания прототипа сообщайте результаты своим заинтересованным сторонам для одобрения и согласования следующих шагов. Это может быть короткая еженедельная встреча и / или ежедневное обновление.

Независимо от результатов проверки - обобщите результаты.

Резюме может быть документом или презентацией и должно включать не только результаты, но и аспекты, связанные с производством, такие как выявленные проблемы и риски, которые необходимо учитывать при переходе к следующему этапу и разработке решения.

Сводный документ также полезен, когда проект приостановлен из-за нехватки мощностей или других приоритетов компании в данный конкретный момент. Такое резюме может служить хорошей отправной точкой даже для других подобных вариантов использования, которые рассматриваются для разработки.

Если конкретный вариант использования после валидации не планируется для дальнейшей разработки, просмотрите свой бэклог, выберите следующий и снова начните прототипирование.

В конце концов, вы никогда не дойдете до того, что все ваши варианты использования пройдут валидацию и будут запланированы для производства.

И, честно говоря, этого не стоит ожидать. Почему?

Потому что создание прототипов и проверка являются частью исследования и предназначены для того, чтобы гарантировать, что только наиболее многообещающие варианты использования будут преобразованы в решения, и избежать сбоев.

Надеюсь, эта статья предоставит вам несколько проверенных и проверенных советов и рекомендаций о том, как структурировать определение вашего варианта использования, процесс прототипирования и проверки, чтобы максимизировать ваш коэффициент успеха. Но, как всегда, вам решать, как вы организуете и примените эти предлагаемые руководящие принципы в своей собственной компании и встроите их в уже установленные процессы и инструменты.

Удачи вам! 🙂

Спасибо за прочтение. Не стесняйтесь подключаться к LinkedIn или оставлять комментарии.

Если вы управляете или хотите создать команду по науке о данных или AI / ML, вам может быть интересна другая моя статья: