Практические выводы из Манчестерского саммита по науке о данных 2018 г.
Создание собственной производственной среды
Лиэнн Фитцпатрик, руководитель отдела аналитики Hello Soda, продемонстрировала, как команды могут использовать Docker и облачные микросервисы для создания собственной производственной среды, которая позволяет развертывать модели, не зависящие от кода.
В Hello Soda Docker помог стандартизировать процессы разработки и развертывания моделей, а также протестировать модели как с производственной точки зрения, так и с точки зрения науки о данных. За счет интеграции функции извлечения образов Docker (которые содержат весь код приложения и его зависимости) в их сценарий прогнозирования развертывание осуществляется без проблем. Позволяет специалистам по обработке данных вводить информационные продукты в производство эффективным и воспроизводимым способом.
«Эта инфраструктура помогает нам быстро создавать прототипы и оценивать подходы к коммерческому успеху. Если мы хотим сравнить дерево решений с нейронной сетью в производственной среде, мы можем создать прототип каждой модели и перевести их в тестовый производственный режим, чтобы отслеживать, как они работают в реальном времени, а не только в обучающей среде ». Лиэнн Фицпатрик, Hello Soda
Платформа для решения реальных бизнес-задач
Том Липтрот, глава отдела науки о данных в Peak, представил основу для начала разработки стратегии обработки данных. Основываясь на уроках, извлеченных из своего опыта, включая создание алгоритмов рекомендаций для премии Netflix Prize 2006 года, использование машинного обучения в здравоохранении для прогнозирования риска сепсиса у пациентов, получающих химиотерапию, и создание своей компании по аналитике данных как услуге, Том определил ряд вопросы, которые помогут выявить проблемы вашего бизнеса:
- Что вы можете сделать по-другому? Вы могли бы разработать модель для точного прогнозирования событий, но почему эта информация важна для вашей компании?
- Какое будет влияние? Какие действия вы предпримете для создания ценности, располагая этой информацией?
- Это можно сделать? У вас есть множество точек данных, которые можно собрать за определенный период времени?
- Достаточно ли данных? Существует ли процесс сбора данных или его необходимо интегрировать в бизнес-операции?
- Сможете ли вы сделать это сами? У вас есть собственный опыт и необходимые технологии?
Текущие проблемы
Профессор Сунил Вадера, декан школы вычислительной техники, науки и инженерии Салфордского университета, остановился на исследовательских проблемах, связанных с применением интеллектуального анализа данных, и рассмотрел практические вопросы для обеспечения точности, эффективности и рентабельности.
- У вас может быть мусор на выходе! Проверка информации - всегда ключевой шаг в вашем процессе.
- Обучение с учетом затрат по-прежнему остается открытой проблемой. В настоящее время проводятся исследования для разработки новых алгоритмов, которые работают лучше и минимизируют затраты на точность и неправильную классификацию.
- Какие методы работают лучше всего? Будет ли он продолжать работать при изменении данных? Сунил опирался на свою работу по проверке датчиков в газовых турбинах, сокращении энергопотребления в зданиях и проектах по улучшению финансовой и социальной интеграции, чтобы продемонстрировать, где комбинирование методов позволяет добиться наилучших и самых быстрых результатов. решение.
- Люди - это вызов. Социальные и этические проблемы, такие как конфиденциальность, согласие и деидентификация, остаются актуальными. Кроме того, по-прежнему преобладает пробел в технических навыках в области науки о данных. Магистр наук о данных в Salford и Сертификаты по прикладным наукам о данных в Cambridge Spark обеспечивают всестороннюю подготовку по науке о данных, чтобы вооружить людей соответствующими навыками в области науки о данных.