Еженедельник по инженерии данных № 29

История представляет собой кросс-публикацию из еженедельника Data Engineering Weekly. Пожалуйста, подпишитесь на информационный бюллетень Data Engineering, чтобы быть в курсе последних обновлений.

www.dataengineeringweekly.com

Добро пожаловать в 29-й выпуск информационного бюллетеня по инженерии данных. Релиз на этой неделе представляет собой новый набор статей, в которых основное внимание уделяется исследовательской работе Google о каскадах данных в ИИ с высокими ставками, Fiddler Labs, отлаживающей производительность модели ML, наблюдению данных Монте-Карло с использованием SQL, внедрению Superset Airbnb, эволюции предварительных вычислений Apache Kylin, сортировке Spotify. Внедрение Merge Bucket, эффективная коммуникация в области науки о данных от Doordash, путь к управлению данными финансирующих обществ, аналитический путь самообслуживания QueryClick и Databricks Delta Lake 0.8.

Google: "Everyone wants to do the model work, not the data work" - Data Cascades in High-Stakes AI

Качество данных оказывает огромное влияние на результаты и эффективность ИИ. Качество данных имеет повышенное значение в ИИ с высокими ставками из-за его повышенного воздействия на последующие процессы, влияющего на прогнозы, такие как обнаружение рака, браконьерство и распределение кредитов. Например, плохая практика работы с данными снизила точность ИИ для лечения рака от IBM и привела к тому, что Google Flu Trends пропустил пик гриппа на 140%.

What We Can Learn From the Epic Failure of Google Flu Trends

Исследование Google опубликовало отчет о методах работы с данными в ИИ с высокими ставками, основанный на интервью с 53 практиками ИИ в Индии, странах Восточной и Западной Африки и США. В документе отражен эффект каскадирования данных, вызывающий неблагоприятные последующие последствия проблем с данными, что приводит к негативным социальным последствиям.

Один из самых неприятных моментов: 92% практиков ИИ сообщили об одном или нескольких каскадах, а 45,3% сообщили о двух или более каскадах в конкретном проекте. Я настоятельно рекомендую дата-инженерам прочитать отчет. Я считаю, что есть потенциальная возможность социального предпринимательства.

«Все хотят, чтобы работала модель, а не данные: каскады данных в ИИ с высокими ставками — Google…
Модели ИИ все чаще применяются в областях с высокими ставками как здоровье и сохранение. Качество данных несет в себе…research.google»

Fiddler Labs: Debug Machine Learning model performance issue

Тред в Твиттере — захватывающее чтение, где автор поделился опытом работы на платформе ранжирования новостных лент Facebook по отладке производительности модели машинного обучения. В треде подчеркивалось большинство проблем с производительностью модели машинного обучения из-за проблем с конвейером данных и важности объяснимого ИИ.

Кришна Гаде @krishnagade

Я был eng-лидером в новостной ленте Facebook, и моя команда отвечала за платформу ранжирования ленты. Каждые несколько дней инженер получал сообщение о том, что показатель, например, «лайки или комментарии, не работает. Обычно это переводится в проблему производительности модели машинного обучения. /нить"

11 февраля 2021 года

195 ретвитов1 177 лайков

Monte Carlo: Data Observability in Practice Using SQL

В двух предыдущих статьях говорилось о важности качества данных и влиянии неадекватной наблюдаемости конвейера данных. Как мы можем организовать самый простой мониторинг конвейера данных? Базы данных традиционно добавляли ограничения в DDL для обеспечения целостности. Современный конвейер данных требует гораздо больше опций, чем простые ограничения. Монто Карло ведет захватывающий блог, состоящий из двух частей, в котором рассказывается, как можно использовать SQL для измерения надежности конвейера критически важных данных.

Наблюдение за данными на практике с использованием SQL — данные Монте-Карло
В этой серии статей мы рассмотрим, как вы можете создавать свои собственные мониторы наблюдаемости данных с нуля, отображать…www.montecarlodata.com

Наблюдение за данными, часть II: создание собственных мониторов качества данных с помощью SQL
Использование метаданных для понимания основной причины аномалий данных.towardsdatascience.com

Airbnb: Supercharging Apache Superset

Airbnb пишет о своей стратегии роста внедрения Apache Superset и повышения производительности. Впечатляет то, что экосистема данных Airbnb теперь включает более 100 000 таблиц и виртуальных наборов данных, поддерживающих более 200 000 диаграмм и 14 000 информационных панелей. Упреждающий прогрев кеша, сегментирование домена для обеспечения высокого уровня параллелизма и ограничение частоты запросов интересно читать о стратегиях оптимизации производительности панели мониторинга.

Улучшение Apache Superset
Как Airbnb настроила Superset для бизнес-аналитики в масштабеmedium.com

Apache Kylin: The Evolution of Precomputation Technology and its Role in Data Analytics

Предварительное вычисление — это распространенный метод, используемый при поиске и анализе информации, включая индексирование, материализованное представление, куб OLAP и т. д. В блоге рассказывается об эволюции предварительных вычислений, будущем предварительных вычислений и роли технологий искусственного интеллекта и автоматизации в формировании предварительных вычислений. Airbnb применил аналогичную стратегию в предыдущей статье о расширении Apache Superset.

Эволюция технологии предварительных вычислений и ее роль в анализе данных
Предварительные вычисления — это распространенный метод, используемый для поиска и анализа информации, включая индексирование, материализованное представление…www. infoq.com

Spotify: How Spotify Optimized the Largest Dataflow Job Ever for Wrapped 2020

Перекос данных и перемешивание — два проклятия обработки данных. Spotify пишет захватывающий пост о важном использовании соединения Sorted Merge Bucket (SMB) для оптимизации своего конвейера данных. Использование SortedBucketSink, SortedBuketSource и итератора дескриптора файла напоминает мне о реализации инфраструктуры пакетного поиска в Slack, и приятно видеть абстракцию фреймворка для реализации SMB.

Как Spotify оптимизировал крупнейшее задание потока данных для Wrapped 2020
В этом посте мы обсудим, как Spotify оптимизировал и ускорил элементы из нашего крупнейшего задания потока данных, Wrapped 2019, для …engineering.atspotify.com

Doordash: How to Drive Effective Data Science Communication with Cross-Functional Teams

Жизненно важная обязанность группы аналитиков данных состоит в том, чтобы сообщать ключевым заинтересованным сторонам полезные идеи, а не просто выявлять и измерять их. Четкая коммуникация с ключевыми заинтересованными сторонами обеспечивает четкое стратегическое направление и действенное понимание бизнеса. Аналитическая группа Doordash пишет захватывающий пост, в котором подчеркивается необходимость в устоявшейся структуре коммуникации и подробно описываются некоторые из лучших практик, которым она следует.

Эффективное общение специалистов по данным с межфункциональными командами
Джеймс Уильямс Локеш Бишт Команды аналитиков, сосредоточенные на выявлении важных бизнес-идей, могут упустить из виду необходимость…doordash.engineering

Funding Societies: Data governance journey at SEA’s largest digital P2P lending platform

Комплексное управление данными и управление данными необходимы для финансовой системы не только для роста бизнеса, но и для соблюдения строгих нормативных требований. Сообщество по финансированию подробно описывает свой путь управления данными от участия руководства, определяет политику управления данными, политику управления данными и доступом и дизайн, основанный на предметной области данных.

Путь к управлению данными на крупнейшей платформе цифрового P2P-кредитования в Юго-Восточной Азии (часть 1)
medium.com

Путеводитель по управлению данными на крупнейшей платформе цифрового P2P-кредитования в Юго-Восточной Азии (часть 2)
Это вторая часть нашего пути к управлению данными, где мы рассмотрим его реализацию.средний .com

QueryClick: Our (Bumpy) Road To Self Service Analytics | QueryClick

Самообслуживающаяся аналитическая инфраструктура — это полярная звезда для любых систем инфраструктуры данных. Это требует культурных и технологических изменений, которые должна учитывать архитектура. В том же духе QueryClick делится своим самостоятельным аналитическим опытом.

Наш (ухабистый) путь к аналитике самообслуживания
На первый взгляд, аналитика самообслуживания кажется такой простой. Получайте данные, делайте их доступными, извлекайте ценность, но это не…medium.com

Databricks: Automatically Evolve Your Nested Column Schema, Stream From a Delta Table Version, and Check Your Constraints

Databricks пишет о некоторых ключевых функциях, выпущенных в составе версии Delta Lake 0.8. Интересно прочитать о некоторых новых функциях, таких как эволюция схемы, поддержка схемы вложенных столбцов с поддержкой автоматического слияния, поддержка ограничений и возможность перемещения во времени дельта-потока из определенной версии.

Как автоматически развивать схему вложенных столбцов и выполнять потоковую передачу из таблицы Delta и проверять…
Недавно мы объявили о выпуске Delta Lake 0.8.0, в котором представлена эволюция схемы и улучшения производительности…databricks.com

Ссылки предоставляются в информационных целях и не подразумевают одобрения. Все взгляды, выраженные в этом информационном бюллетене, являются моими собственными и не отражают мнения нынешних, бывших или будущих работодателей.

Еженедельник по инженерии данных № 29

Вопросы по теме