Практические выводы из Манчестерского саммита по науке о данных 2018 г.

Создание собственной производственной среды

Лиэнн Фитцпатрик, руководитель отдела аналитики Hello Soda, продемонстрировала, как команды могут использовать Docker и облачные микросервисы для создания собственной производственной среды, которая позволяет развертывать модели, не зависящие от кода.

В Hello Soda Docker помог стандартизировать процессы разработки и развертывания моделей, а также протестировать модели как с производственной точки зрения, так и с точки зрения науки о данных. За счет интеграции функции извлечения образов Docker (которые содержат весь код приложения и его зависимости) в их сценарий прогнозирования развертывание осуществляется без проблем. Позволяет специалистам по обработке данных вводить информационные продукты в производство эффективным и воспроизводимым способом.

«Эта инфраструктура помогает нам быстро создавать прототипы и оценивать подходы к коммерческому успеху. Если мы хотим сравнить дерево решений с нейронной сетью в производственной среде, мы можем создать прототип каждой модели и перевести их в тестовый производственный режим, чтобы отслеживать, как они работают в реальном времени, а не только в обучающей среде ». Лиэнн Фицпатрик, Hello Soda

Платформа для решения реальных бизнес-задач

Том Липтрот, глава отдела науки о данных в Peak, представил основу для начала разработки стратегии обработки данных. Основываясь на уроках, извлеченных из своего опыта, включая создание алгоритмов рекомендаций для премии Netflix Prize 2006 года, использование машинного обучения в здравоохранении для прогнозирования риска сепсиса у пациентов, получающих химиотерапию, и создание своей компании по аналитике данных как услуге, Том определил ряд вопросы, которые помогут выявить проблемы вашего бизнеса:

  • Что вы можете сделать по-другому? Вы могли бы разработать модель для точного прогнозирования событий, но почему эта информация важна для вашей компании?
  • Какое будет влияние? Какие действия вы предпримете для создания ценности, располагая этой информацией?
  • Это можно сделать? У вас есть множество точек данных, которые можно собрать за определенный период времени?
  • Достаточно ли данных? Существует ли процесс сбора данных или его необходимо интегрировать в бизнес-операции?
  • Сможете ли вы сделать это сами? У вас есть собственный опыт и необходимые технологии?

Текущие проблемы

Профессор Сунил Вадера, декан школы вычислительной техники, науки и инженерии Салфордского университета, остановился на исследовательских проблемах, связанных с применением интеллектуального анализа данных, и рассмотрел практические вопросы для обеспечения точности, эффективности и рентабельности.

  • У вас может быть мусор на выходе! Проверка информации - всегда ключевой шаг в вашем процессе.
  • Обучение с учетом затрат по-прежнему остается открытой проблемой. В настоящее время проводятся исследования для разработки новых алгоритмов, которые работают лучше и минимизируют затраты на точность и неправильную классификацию.
  • Какие методы работают лучше всего? Будет ли он продолжать работать при изменении данных? Сунил опирался на свою работу по проверке датчиков в газовых турбинах, сокращении энергопотребления в зданиях и проектах по улучшению финансовой и социальной интеграции, чтобы продемонстрировать, где комбинирование методов позволяет добиться наилучших и самых быстрых результатов. решение.
  • Люди - это вызов. Социальные и этические проблемы, такие как конфиденциальность, согласие и деидентификация, остаются актуальными. Кроме того, по-прежнему преобладает пробел в технических навыках в области науки о данных. Магистр наук о данных в Salford и Сертификаты по прикладным наукам о данных в Cambridge Spark обеспечивают всестороннюю подготовку по науке о данных, чтобы вооружить людей соответствующими навыками в области науки о данных.