Как специалист по данным, работающий в консалтинговой компании, некоторое время назад мне посчастливилось изучить сторону проекта, связанную с разработкой данных. Знакомство с обеими сторонами помогло мне задуматься о том, что мы могли бы сделать на раннем этапе процесса создания платформ данных, которые могли бы помочь организациям получить доступ к данным на ранней стадии и подготовить их к машинному обучению.

Этот блог пытается преодолеть разрыв между обоими потоками работы и выделяет стратегии, позволяющие значительно сократить исследовательское время, необходимое в зачаточном состоянии любого проекта по науке о данных.

В эпоху данных, когда организации имеют дело с данными объемом от терабайтов до петабайтов, крайне важно иметь стратегию управления данными, чтобы помочь организации извлечь выгоду из своих активов данных. Мы рассмотрим некоторые стратегии управления, чтобы помочь специалистам по данным в любой организации начать более плавный путь. В частности, мы собираемся изучить следующие темы

  • Каталог данных
  • Деловой глоссарий
  • Словарь данных
  • Происхождение данных

Каталог данных

Цель создания платформы данных — сделать данные более наблюдаемыми, т. е. в организации пользователь платформы должен иметь возможность просматривать подробности (или метаданные) о данных.

Каталог данных — это организованный перечень всех активов данных в организации.

Исследователю данных каталог данных может помочь получить такую ​​информацию, как расположение данных на платформе и, что более важно, способ доступа к данным. Он может содержать информацию о распорядителях данных в организации, предоставляя сведения о том, какому отделу или подразделению принадлежат данные, тем самым ускоряя доступ специалистов по данным. Наконец, это дает представление о данных в масштабах всей организации, что может быть чрезвычайно полезно для определения приоритетов маршрутов исследования еще до того, как углубиться в данные.

В современных условиях каталоги могут иметь дополнительные преимущества прямого запроса данных из хранилищ объектов. Например, в озере данных, где данные хранятся в виде файлов в AWS S3, такие сервисы, как Glue, могут создавать каталоги, которые можно использовать для запроса данных с помощью Athena.

Деловой глоссарий

Приступая к любому проекту, специалисту по данным обычно требуется время, чтобы понять бизнес. Я помню, как присоединился к проекту горнодобывающей компании в качестве специалиста по данным. Моя работа заключалась в том, чтобы рекомендовать схемы проектирования газовых скважин для оптимизации добычи газа. Моей самой большой проблемой было понимание жаргона, используемого в отрасли (например, rathole, трещины, обсадные трубы и т. д.), что заняло пару недель, прежде чем я понял, как работает клиент.

Поработав с этим клиентом пару месяцев, я перешел к новому проекту. Представьте себе время, необходимое следующим специалистам по данным, чтобы снова понять бизнес, которое можно было бы сэкономить, если бы у организации был поддерживаемый бизнес-глоссарий.

Исследователю данныхбизнес-глоссарий может помочь понять бизнес-терминологию и КПЭ. Что еще более важно, это может помочь уточнить постановку задачи и получить лучшие результаты. Деловой глоссарий становится еще более важным, если жаргон может означать разные вещи в разных подразделениях/отделах одной и той же организации. В таком случае бизнес-глоссарий может помочь уменьшить двусмысленность для новых сотрудников.

Словарь данных

Еще одним шагом вниз по бизнес-глоссарию является словарь данных. Там, где бизнес-глоссарий содержит определения бизнес-жаргона и KPI, словарь данных включает определения фактических данных, таких как описание каждой таблицы, столбцы в каждой таблице, типы данных и т. д.

Как специалист по данным, словарь данных имеет решающее значение для предоставления контекста данным, поскольку он состоит не только из определений данных, но и ограничений для таблиц. Это также помогает получить бизнес-ключи и дает достаточно информации для объединения нескольких таблиц для выполнения сложного анализа. Более того, словарь данных содержит диапазон допустимых значений для каждого поля, что может помочь улучшить качество данных перед любым анализом, тем самым уменьшая вероятность ошибочных моделей.

Происхождение данных

Происхождение данных — это способ визуализации и просмотра потока данных на разных этапах платформы данных, от исходных систем до назначения. Линия данных может быть

  • такой же общий, как предоставление информации о том, какие исходные таблицы использовались для создания целевой таблицы
  • как конкретный, как предоставление информации о том, какие столбцы в таблицах использовались для создания поля в целевой таблице

Как специалист по данным, работающий над платформой данных, данные претерпели несколько преобразований, прежде чем они стали доступны. Крайне важно понять, какие преобразования были внесены в данные, чтобы провести беспристрастный и точный анализ.

Например, при построении озера данных данные подвергаются жесткому преобразованию, чтобы заменить пустые значения в столбце на ноль, прежде чем достичь смоделированного слоя. Затем специалист по данным должен знать о таких изменениях, потому что нулевые значения в наборе данных могут представлять шаблон, который был стерт из-за преобразования.

Заключение

Из-за огромного количества данных, с которыми сейчас имеют дело организации, управление данными набирает обороты. Управление данными помогает специалисту по данным и организации понять свои данные и открывает двери для многих интересных возможностей.

В этом блоге мы рассмотрели несколько простых стратегий, которые следует учитывать при создании платформы данных, ускоряющей анализ данных. Крайне важно реализовать описанную выше стратегию по мере того, как организация растет и получает больше данных для эффективного использования активов данных.

Читайте другие похожие блоги



Подключиться к LinkedIn