Аналитическая идея или обученная модель не имеют особой ценности, если ее не используют.

Фактически, центральный принцип ценностного предложения Data Science заключается в том, что модели машинного обучения (ML) можно интерпретировать и применять в бизнес-контексте. Инсайты, классификации и прогнозы должны влиять на лиц, принимающих решения, доходить до непосредственного персонала или быть встроенными в бизнес-приложения. Однако многие проекты машинного обучения в этом отношении терпят неудачу. Это версия проблемы последней мили в Data Science и одно из главных препятствий на пути к операционализации машинного обучения.

При попытке использовать машинное обучение для операционных решений, т. Е. Встраивания моделей на основе машинного обучения в операционные приложения и бизнес-процессы, проблема последней мили может быть подразделена на:

  • Интерпретация реакции модели для принятия решений
  • Создавайте доверие, прозрачность и организационные изменения
  • Управляйте жизненными циклами и активами в Data Science, IT и бизнесе

В этой статье основное внимание будет уделено выделенному первому пункту, который касается того, как мы вызываем модели машинного обучения, интерпретируем ответ и объединяем этот ответ с бизнес-политикой для принятия решений.

Сегодня существует впечатляющий программный и аппаратный стек для машинного обучения, который поддерживает сквозной сбор данных, создание конвейеров данных, разработку функций. обучение моделей, визуализация результатов, мониторинг моделей и развертывание моделей с помощью REST API. Очень упрощенно этот процесс можно проиллюстрировать так:

На сегодняшний день недостаточно внимания уделяется тому, что происходит после «развертывания» модели, то есть «последней мили». Развертывание модели машинного обучения на основе REST API - хорошая отправная точка, но это начало пути, а не конец. Чтобы сделать ваши прогнозы на основе машинного обучения полезными в бизнес-приложении или процессе, вам необходимо выяснить, когда вызывать модель, как интерпретировать ответ и как преобразовать этот ответ в действенное решение.

Вызов модели

Прежде всего, вам нужно решить, когда вы можете безопасно использовать прогнозы, сделанные с помощью модели машинного обучения. Обычно модель ненадежна за пределами данных, на которых она была обучена. Например, модель риска для автострахования, которая была обучена водителям в возрасте от 25 до 65 лет, может оказаться недостаточно надежной для прогнозирования риска для более молодых водителей 65. Это также распространяется на комбинации характеристик. Модель, обученная на основе достаточного количества данных о молодых водителях в городских районах, не обязательно дает надежные прогнозы относительно молодых водителей в сельской местности. Защита модели машинного обучения от случаев, в которых она не обучена, имеет важное значение для защиты вашего бизнеса.

Это приводит к необходимости в бизнес-правилах решать, когда не использовать модель, когда использовать как есть, а когда использовать с некоторыми апостериорными корректировками. Этот выбор возникает часто, независимо от того, ориентируетесь ли вы на новые сегменты клиентов, представляете новый продукт или обрабатываете транзакции нового типа.

Первый вариант - сначала игнорировать модель и запускать бизнес до тех пор, пока у вас не будет достаточно данных, чтобы быть уверенным в своих прогнозах. Обычно это означает полагаться на, возможно, менее точные прогнозы с использованием бизнес-правил или таблиц решений, созданных человеком. Если это то, что вы использовали до внедрения машинного обучения, их можно будет сохранить при наращивании.

В других случаях вы можете рискнуть, что новый продукт / транзакция / сегмент достаточно похож на то, о чем у вас уже есть достаточно данных. Возможно, «риск молодых сельских водителей = риск молодых городских водителей - 5%» - лучшая оценка риска, чем отсутствие прогнозов на основе данных вообще. Опять же, несколько бизнес-правил могут установить эту связь, вызвать модель и внести изменения.

На практике для корпоративных решений практически все вызовы моделей машинного обучения будут окружены, по крайней мере, несколькими бизнес-правилами или таблицами, которые решают, какую модель (-ы) вызывать для каждого конкретного случая.

Корректировка прогнозов

Доступность данных может ограничивать предсказательную силу моделей машинного обучения. У нас может не быть достаточных данных об известных нам или подозреваемых функциях, которые могут повлиять на прогноз. В таких случаях может потребоваться скорректировать оценку или изменить классификацию после вызова модели машинного обучения.

Например, общедоступные наборы данных по сделкам с недвижимостью доступны в нескольких странах и регионах. Версия французского правительства довольно обширна и содержит все операции с недвижимостью во Франции с 2014 по 2018 год. Данные включают местоположение собственности, количество комнат, размер внутренней жилой площади, размер участка и т. Д. Что НЕ включено, однако , есть ли в собственности вид, бассейн, состояние внутренних удобств и дата последнего ремонта. Таким образом, хотя можно построить регрессионную модель для оценки стоимости собственности, предположительно, она может быть отключена на +/- 20%, если эти дополнительные параметры не принимаются во внимание отдельно. Набор бизнес-правил или таблиц решений можно легко использовать для корректировки - вверх и вниз - значения свойства, достигая гораздо лучшего прогноза.

Эта ситуация не уникальна для недвижимости. Оценки рисков в финансовых услугах, рекомендации по продуктам в розничной торговле, обнаружение мошенничества при платежах и т. Д. - все они могут извлечь выгоду из корректировок на основе данных в реальном времени, недоступных во время обучения модели.

Возможно, когда-нибудь все данные будут доступны в чистой и удобоваримой форме для наших алгоритмов, но тем временем часто бывает необходимо внести коррективы в наши базовые прогнозы.

Объединение моделей

Ведение бизнеса - это баланс между риском и доходностью. Такое суждение распространяется и на оперативные бизнес-решения. Например, какова ориентировочная прибыль от предоставления определенного кредита по сравнению с риском дефолта клиента? Какова вероятность ухода клиентов, если мы не предложим ссуду? Какое влияние на лояльность клиентов окажет блокирование транзакции по кредитной карте по сравнению с риском потери в случае мошенничества?

Чтобы принимать оперативные решения, нам часто нужно объединить группу прогнозных моделей и правил политики. Например, в сфере финансовых услуг вот типичный список компонентов, которые необходимо учитывать, чтобы принять правильное решение:

  • Оценка риска (прогностическая модель или таблица рисков)
  • Право на участие (правила политики)
  • Жизненная ценность (прогнозная модель)
  • Показатель оттока (прогнозная модель)
  • Ценовая политика (правила политики)

Иногда даже необходимо объединить несколько моделей, которые нацелены на одно и то же, но получены из разных источников данных. Например, в сфере здравоохранения существует множество исследований, посвященных диабету, но различия в методологии исследований - продолжительность исследования, дизайн контрольной группы, собранные данные и т. Д. - затрудняют объединение данных и обучение единой модели машинного обучения. Фактически, лучший подход может заключаться в обучении и развертывании нескольких моделей риска и использовании бизнес-правил для расчета взвешенной оценки на основе оцениваемого пациента.

Фактически, несколько моделей машинного обучения часто используются при принятии бизнес-решений в сочетании с бизнес-правилами, выражающими политику. Моделирование решения - это искусство комбинировать эти прогностические и предписывающие активы.

Применение политики

Подавляющее большинство корпоративных решений зависит либо от бизнес-политик, отраслевых норм, либо от правил «здравого смысла». Вот некоторые примеры:

Рекомендации по продукту

  • Не продвигайте предложения, которые уже есть у клиентов.
  • Не продвигайте предложения, противоречащие выдающимся предложениям.
  • Не рекламируйте излишне высокие скидки (по сегментам / уровням клиентов).

Реклама

  • Ограничьте показ рекламы на основе демографических данных, географии и канала
  • Не показывайте конфликтующие объявления или рекламу конкурирующих брендов («реклама для бренда»).
  • Оптимизировать показ рекламы, чтобы удовлетворить рекламный бюджет, но не превышать его.

Страхование

  • Принудительное ручное рассмотрение претензий от ранее мошеннических клиентов
  • Автоматически выплачивать малозначительные претензии с низким уровнем риска (в зависимости от сегмента / уровня клиента)

В некоторых случаях подобные бизнес-правила являются мягкими предпочтениями, а не жесткими правилами, и их можно встроить в модель машинного обучения посредством обучения. В других случаях это сложно или нежелательно. Как убедиться, что вы не показываете конкурирующие объявления конкретным клиентам (в идеале - по сеансам и каналам)? Какой механизм обратной связи по машинному обучению может помешать модели предлагать продукты, которыми уже владеет клиент? Как ваша компания продемонстрирует аудиторам и агентствам, что ваши решения соответствуют нормам (в 100% случаев)?

На самом деле машинное обучение - это вероятностный метод, который не идеально подходит для соблюдения детерминированных политик и правил. Применение бизнес-правил после предсказаний или классификаций на основе машинного обучения обычно обеспечивает лучшее соответствие и прозрачность.

Выводы

«Пуристское» видение машинного обучения может предполагать, что бизнес-политика не нужна или что такая политика может и должна быть изучена на основе данных. Эта школа мысли утверждает, что, соединяя обучение с правильными реальными результатами и создавая эффективные петли обратной связи (включая, возможно, рандомизацию и A / B-тестирование), система машинного обучения постепенно научится принимать правильные и оптимальные решения без апостериорного вмешательства.

Пуристский подход «только на машинном языке» может хорошо работать для игры в шахматы, распознавания изображений или классификации текста. Для корпоративных решений самого по себе ML редко бывает достаточно.

На практике вопрос о том, следует ли реализовать конкретное требование путем «применения политики с правилами» или «обучения модели машинного обучения», рассматривается в каждом конкретном случае. Для организаций, плохо знакомых с машинным обучением или внедряющих машинное обучение в существующие бизнес-процессы, обычно легче обеспечить соблюдение требований политики вне модели машинного обучения, по крайней мере, для начала.

Вы могли бы спросить, какое программное обеспечение вы могли бы использовать, чтобы преодолеть последнюю милю с машинным обучением? Хотя типичная структура машинного обучения не выходит далеко за рамки развертывания моделей, существует еще одна категория программного обеспечения, которая заполняет пробел между моделями машинного обучения и бизнес-приложениями.

Эти платформы, которые чаще всего называются Decision Management - альтернативно «Digital Decisioning Platform» от Forrester, вышли из эпохи систем управления бизнес-правилами (BRMS), но теперь их внимание уделяется моделированию решений и - исполнение в целом. Это означает, что платформы управления решениями охватывают как модели прогнозирования, так и предписывающие бизнес-правила, и в целом позволяют моделировать, отслеживать и управлять операционными решениями.

Грегер работает в IBM во Франции. Приведенная выше статья носит личный характер и не отражает позиции, стратегии или мнения IBM.