СОДЕРЖАНИЕ

1. Введение

2. Сбор данных

3. Оценка данных

4. Очистка данных

ВВЕДЕНИЕ

Говорят, что данные — это топливо будущего, и, как и любое другое топливо, они должны пройти через нефтеперерабатывающий завод, чтобы стать полезными. Мы научимся уточнять данные, чтобы сделать их полезными. Процесс уточнения не является очисткой данных. Не удивляйтесь, это называется обработкой данных. Хотя заблуждение состоит в том, что очистка данных является важным шагом в обработке данных, но без первых двух процессов мы можем эффективно очищать данные.

Чтобы вам было легче, я сравню этот процесс с получением бензина из сырой нефти. Как и ожидалось, первым шагом будет извлечение сырой нефти, а затем идентификация примесей, прежде чем мы окончательно отделим наш конечный продукт, бензин.

Точно так же в обработке данных этапы

1.Сбор данных:где мы получаем данные из источника.

2. Оценка данных:где мы проверяем проблемы в данных.

3. Очистка данных: мы решаем проблемы, выявленные при оценке данных.

СБОР ДАННЫХ

Сбор данных — это процесс сбора данных из источника. Данные могут быть классифицированы как первичные или вторичные данные в зависимости от цели их сбора по сравнению с тем, для чего вы их используете. Первичные данные собираются и используются для тех же целей, что и NetFlix, используя данные о клиентах для предоставления рекомендаций по фильмам. Напротив, вторичные данные собираются для другой цели, для которой вы их используете, например, когда бизнес использует данные, полученные правительством или другой организацией, для принятия деловых решений. Первичные данные могут быть собраны с использованием различных методов в зависимости от организации, в то время как вторичные могут быть собраны любым из перечисленных методов, но не ограничиваются ими.

1.Онлайн-загрузка. Это включает в себя загрузку данных непосредственно из того места, где они сохранены в Интернете, например загрузку набора данных из Kaggle или любого открытого источника данных. Это так же просто, как нажать на кнопку загрузки.

2. Веб-скраппинг: сюда входит получение данных непосредственно из данных с использованием таких библиотек, как Beautiful Soup, Selenium или Autoscraper.

Пример кода с использованием запросов и Beautifulsoup.

Запрос like используется для получения разрешения на получение содержимого на конкретном сайте. Кроме того, такие функции, как find или find_all, используются для получения определенного контента с веб-сайта, например

3. Интерфейс прикладной программы (API). Это похоже на просмотр веб-страниц, но предполагает получение разрешения непосредственно от владельца платформы. Кроме того, если наборы данных изменяются, они автоматически обновляются, в то время как в случае удаления веб-страниц вам придется пройти этот процесс заново.

ОЦЕНКА ДАННЫХ

Оценка данных — это этап, на котором персонал, работающий с данными, проводит необходимый тест данных, чтобы узнать проблемы в данных, точно так же, как когда врач проводит тест на пациенте. В отличие от людей, на данные могут влиять только две основные проблемы/болезни, а именно:

1. Проблема с качеством

2. Проблема с опрятностью

Прежде чем углубляться в то, как справляться с проблемами, с которыми сталкиваются наши данные, давайте разберемся, в чем заключаются эти проблемы. Как вы думаете, будет ли разница между вопросом качества и опрятности. угадайте, и я хотел бы знать, что вы думаете здесь, в разделе комментариев.

Вот отличный способ расшифровать это: данные, имеющие проблемы с качеством, называются грязными, а данные, имеющие проблемы с аккуратностью, — беспорядочными. Чтобы лучше понять, давайте рассмотрим вещи, которые делают комнату на картинке грязной и грязной.

Вещи, которые загрязняют комнату, — это содержимое, которое не принадлежит спальне, например, бутылки и чашки, в то время как вещи, которые делают ее грязной, — это вещи, которые принадлежат комнате, но находятся в неправильном положении, например, одежда на полу, книги и сливки. сторона кровати. Давайте используем эту же идею в наших данных.

Проблема качества данных:

Вопросы качества связаны с содержанием данных. Существует четыре основных проблемы качества.

1. Полнота: наличие пропущенного значения.

2. Действительность: Наличие ошибочных входных данных или типа данных. Например, иметь почтовый индекс в виде типа данных int вместо строки или дату в виде строки вместо типа данных DateTime.

3. Точность: неточные данные из источника данных. Например, если возраст учащегося указан как 1000, 1000 является допустимым типом данных, но возможно ли, что у нас есть учащийся, возраст которого равен 1000 годам.

4. Согласованность. Несогласованные данные могут быть действительными и точными, но иметь различные формы для представления одной и той же записи. Например, США, США, Соединенные Штаты и Соединенные Штаты Америки представляют одну и ту же страну. По моим наблюдениям, это очень часто встречается в именах собственных. В столбце состояния в таблице ниже указано GA.

Проблема аккуратности данных:

Эти проблемы должны иметь дело со структурой входных данных. Есть три основных требования, чтобы сделать данные аккуратными.

1. Каждая переменная образует столбец.

2. Каждое наблюдение образует строку.

3. Каждый тип единицы наблюдения образует таблицу.

Типичным примером является наличие нескольких записей в одном столбце. Например, наличие номера телефона и адреса электронной почты в столбце контактов, которые должны находиться в разных столбцах, таких как номер телефона и адрес электронной почты, соответственно, как показано в таблице выше.

После выявления всех проблем с вашими данными важно задокументировать проблемы качества и аккуратности, наблюдаемые в данных, как показано ниже.

ОЧИСТКА ДАННЫХ

Это просто включает в себя решение проблем, выявленных при оценке данных. Это можно сделать вручную или программно. Для небольшого набора данных с несколькими проблемами мы можем решить проблемы вручную из источника, в то время как для большого набора данных следует использовать программный подход (здесь будут очень полезны встроенные функции Python, такие как Pandas, Numpy и т. д.).

Независимо от того, какой фреймворк вы решите использовать, важно создать копию документа перед очисткой с помощью функции копирования (df_copy = df.copy()). Хотя вы не обязаны использовать это, но структура DCT позволяет вам и вашему коллеге-программисту легко понять, почему и как выполняется каждый шаг очистки.

Структура DCT

D — определение проблемы

C — код

T — проверьте, решена ли проблема.

Это было частью нескольких вещей, которые я узнал, пройдя курс Udacity Data Analyst Nano Degree, и вы можете нажать здесь, чтобы получить доступ к одному из моих проектов, где я обрабатывал данные, используя tweepy и Twitter API.

Ставьте лайки, комментируйте и делитесь. Вы можете связаться со мной через LinkedIn или Email.