История представляет собой кросс-публикацию из еженедельника Data Engineering Weekly. Пожалуйста, подпишитесь на информационный бюллетень Data Engineering, чтобы быть в курсе последних обновлений.

www.dataengineeringweekly.com

Добро пожаловать в 29-й выпуск информационного бюллетеня по инженерии данных. Релиз на этой неделе представляет собой новый набор статей, в которых основное внимание уделяется исследовательской работе Google о каскадах данных в ИИ с высокими ставками, Fiddler Labs, отлаживающей производительность модели ML, наблюдению данных Монте-Карло с использованием SQL, внедрению Superset Airbnb, эволюции предварительных вычислений Apache Kylin, сортировке Spotify. Внедрение Merge Bucket, эффективная коммуникация в области науки о данных от Doordash, путь к управлению данными финансирующих обществ, аналитический путь самообслуживания QueryClick и Databricks Delta Lake 0.8.

Google: "Everyone wants to do the model work, not the data work" - Data Cascades in High-Stakes AI

Качество данных оказывает огромное влияние на результаты и эффективность ИИ. Качество данных имеет повышенное значение в ИИ с высокими ставками из-за его повышенного воздействия на последующие процессы, влияющего на прогнозы, такие как обнаружение рака, браконьерство и распределение кредитов. Например, плохая практика работы с данными снизила точность ИИ для лечения рака от IBM и привела к тому, что Google Flu Trends пропустил пик гриппа на 140%.

What We Can Learn From the Epic Failure of Google Flu Trends

Исследование Google опубликовало отчет о методах работы с данными в ИИ с высокими ставками, основанный на интервью с 53 практиками ИИ в Индии, странах Восточной и Западной Африки и США. В документе отражен эффект каскадирования данных, вызывающий неблагоприятные последующие последствия проблем с данными, что приводит к негативным социальным последствиям.

Один из самых неприятных моментов: 92% практиков ИИ сообщили об одном или нескольких каскадах, а 45,3% сообщили о двух или более каскадах в конкретном проекте. Я настоятельно рекомендую дата-инженерам прочитать отчет. Я считаю, что есть потенциальная возможность социального предпринимательства.



«Все хотят, чтобы работала модель, а не данные: каскады данных в ИИ с высокими ставками — Google…
Модели ИИ все чаще применяются в областях с высокими ставками как здоровье и сохранение. Качество данных несет в себе…research.google»



Fiddler Labs: Debug Machine Learning model performance issue

Тред в Твиттере — захватывающее чтение, где автор поделился опытом работы на платформе ранжирования новостных лент Facebook по отладке производительности модели машинного обучения. В треде подчеркивалось большинство проблем с производительностью модели машинного обучения из-за проблем с конвейером данных и важности объяснимого ИИ.

Кришна Гаде @krishnagade

Я был eng-лидером в новостной ленте Facebook, и моя команда отвечала за платформу ранжирования ленты. Каждые несколько дней инженер получал сообщение о том, что показатель, например, «лайки или комментарии, не работает. Обычно это переводится в проблему производительности модели машинного обучения. /нить"

11 февраля 2021 года

195 ретвитов1 177 лайков

Monte Carlo: Data Observability in Practice Using SQL

В двух предыдущих статьях говорилось о важности качества данных и влиянии неадекватной наблюдаемости конвейера данных. Как мы можем организовать самый простой мониторинг конвейера данных? Базы данных традиционно добавляли ограничения в DDL для обеспечения целостности. Современный конвейер данных требует гораздо больше опций, чем простые ограничения. Монто Карло ведет захватывающий блог, состоящий из двух частей, в котором рассказывается, как можно использовать SQL для измерения надежности конвейера критически важных данных.





Airbnb: Supercharging Apache Superset

Airbnb пишет о своей стратегии роста внедрения Apache Superset и повышения производительности. Впечатляет то, что экосистема данных Airbnb теперь включает более 100 000 таблиц и виртуальных наборов данных, поддерживающих более 200 000 диаграмм и 14 000 информационных панелей. Упреждающий прогрев кеша, сегментирование домена для обеспечения высокого уровня параллелизма и ограничение частоты запросов интересно читать о стратегиях оптимизации производительности панели мониторинга.



Apache Kylin: The Evolution of Precomputation Technology and its Role in Data Analytics

Предварительное вычисление — это распространенный метод, используемый при поиске и анализе информации, включая индексирование, материализованное представление, куб OLAP и т. д. В блоге рассказывается об эволюции предварительных вычислений, будущем предварительных вычислений и роли технологий искусственного интеллекта и автоматизации в формировании предварительных вычислений. Airbnb применил аналогичную стратегию в предыдущей статье о расширении Apache Superset.



Spotify: How Spotify Optimized the Largest Dataflow Job Ever for Wrapped 2020

Перекос данных и перемешивание — два проклятия обработки данных. Spotify пишет захватывающий пост о важном использовании соединения Sorted Merge Bucket (SMB) для оптимизации своего конвейера данных. Использование SortedBucketSink, SortedBuketSource и итератора дескриптора файла напоминает мне о реализации инфраструктуры пакетного поиска в Slack, и приятно видеть абстракцию фреймворка для реализации SMB.



Doordash: How to Drive Effective Data Science Communication with Cross-Functional Teams

Жизненно важная обязанность группы аналитиков данных состоит в том, чтобы сообщать ключевым заинтересованным сторонам полезные идеи, а не просто выявлять и измерять их. Четкая коммуникация с ключевыми заинтересованными сторонами обеспечивает четкое стратегическое направление и действенное понимание бизнеса. Аналитическая группа Doordash пишет захватывающий пост, в котором подчеркивается необходимость в устоявшейся структуре коммуникации и подробно описываются некоторые из лучших практик, которым она следует.



Funding Societies: Data governance journey at SEA’s largest digital P2P lending platform

Комплексное управление данными и управление данными необходимы для финансовой системы не только для роста бизнеса, но и для соблюдения строгих нормативных требований. Сообщество по финансированию подробно описывает свой путь управления данными от участия руководства, определяет политику управления данными, политику управления данными и доступом и дизайн, основанный на предметной области данных.





QueryClick: Our (Bumpy) Road To Self Service Analytics | QueryClick

Самообслуживающаяся аналитическая инфраструктура — это полярная звезда для любых систем инфраструктуры данных. Это требует культурных и технологических изменений, которые должна учитывать архитектура. В том же духе QueryClick делится своим самостоятельным аналитическим опытом.



Databricks: Automatically Evolve Your Nested Column Schema, Stream From a Delta Table Version, and Check Your Constraints

Databricks пишет о некоторых ключевых функциях, выпущенных в составе версии Delta Lake 0.8. Интересно прочитать о некоторых новых функциях, таких как эволюция схемы, поддержка схемы вложенных столбцов с поддержкой автоматического слияния, поддержка ограничений и возможность перемещения во времени дельта-потока из определенной версии.



Ссылки предоставляются в информационных целях и не подразумевают одобрения. Все взгляды, выраженные в этом информационном бюллетене, являются моими собственными и не отражают мнения нынешних, бывших или будущих работодателей.