D-Tale для интерактивного исследования данных

D-Tale — это библиотека Python, которая позволяет нам визуализировать Pandas DataFrame. D-Tale создает интерактивный графический интерфейс.

D-Tale представляет множество подробностей о предоставленных данных. Он поддерживает широкий спектр форматов файлов, включая CSV, TSV, XLS, XLSX. Это библиотека Python, созданная с использованием бэкэнда Flask и React в качестве внешнего интерфейса.

Есть два способа запуска интерфейса D-Tale и загрузки данных в блокноты Jupyter:

1. Либо передайте объект dataframe функции D-Tale. Это создает экземпляр GUI только в ячейке Jupyter.

импортировать историю

набор данных = pd.read_csv («eda_train.csv»)

dtale.show (набор данных)

2. Инициализировать интерфейс D-Tale без передачи кадра данных. Появится меню взаимодействия с графическим интерфейсом для загрузки данных и предоставления различных других опций.

импортировать историю

dtale.show (open_browser = Истина)

Как только мы запустим этот код, мы получим это меню графического интерфейса:

Первоначальный интерфейс

Здесь у нас есть следующие варианты -

1. Загрузка данных из файла

2. Загрузка данных с веб-сайтов. Здесь нам нужно передать ссылку на веб-сайт, откуда мы можем получить такие файлы, как CSV, JSON, TSV или Excel.

3. Загрузка выборочных наборов данных. Для этих наборов данных может потребоваться некоторая фоновая загрузка для получения наборов данных с сервера.

Когда мы загружаем набор данных, таблица будет отображаться так же, как кадр данных pandas. Все ячейки этой таблицы можно редактировать, и мы можем вносить прямые изменения в значения, как в Excel.

Функции меню столбцов

Всякий раз, когда мы нажимаем на заголовок столбца, мы получаем список параметров в зависимости от типа данных, содержащихся в столбце. Общим во всех трех из них является сортировка по возрастанию или по убыванию. Помимо этого, для разных типов данных будут разные подходы к фильтрации.

Кроме того, в столбце строкового типа не будет параметров Тепловая карта и Отчет об отклонениях, но будет новый параметр под названием Очистить столбцы, который отсутствует в столбце значений integer и datetime.

1. Заблокировать

Опция блокировки прикрепляет столбец к левой части экрана, позволяя нам свободно прокручивать/переходить к другим столбцам без смещения заблокированного столбца. Это может оказаться полезным в тех случаях, когда мы хотим взглянуть на столбцы, которые расположены отдельно друг от друга.

2. Скрыть и удалить

Опция скрытия удаляет столбец из представления фрейма данных. Он не удаляется из фактического фрейма данных. Мы можем просто отобразить столбец в верхней правой полосе.

Опция удаления навсегда удалит столбец из фрейма данных. Это похоже на функцию падения панд. В бэкэнде он перебирает список столбцов, чтобы выбрать столбец для удаления из фрейма данных.

3. Замены и преобразование типов

Параметр замены используется для замены некоторых значений столбца постоянным или числовым значением. Мы можем сделать эту замену на месте или создать отдельный столбец. Тип замены также можно определить как замену определенных значений, пробелов или замену определенной строки.

4. Описать

Функция описания в pandas помогает предоставить статистическую сводку по столбцу или набору данных. Опция описания здесь работает так же, но предоставляет гораздо больше информации, чем обычные функции pandas. Поскольку это называется анализом столбцов, он предоставляет уникальную сводку для каждого типа данных.

Он также генерирует гистограмму и график value_counts для функций:

Для столбцов целочисленного типа он предоставляет меры центральности и разброса, а также частоту наиболее часто встречающихся значений, а также эксцесс и асимметрию. Он также представляет данные на ящичной диаграмме, гистограмме, графике value_count и графике Q-Q.

Для столбцов строкового типа он предоставляет наиболее часто встречающееся слово и его частоту, подробную сводку по присутствующим символам, график подсчета значений слов и график подсчетов значений.

5. Фильтры

Они используются для создания подмножества данных. Фильтровать данные в D-Tale очень просто, и нам просто нужно указать тип фильтров, которые мы хотим.

6. Отчет об отклонениях

Этот параметр недоступен для значений строкового типа. Отчет о дисперсии показывает, имеет ли функция низкую дисперсию или нет. Он решает это на основе двух проверок:

1. Количество уникальных значений признака/размер выборки ‹ 10%

2. Количество наиболее распространенных значений / Количество вторых наиболее распространенных значений › 20

Он отображает результат с расчетами и гистограммой для представления результатов.

7. Очистить столбцы

Этот параметр доступен только для значений строкового типа. D-Tale предоставляет все возможные методы очистки текста, которые можно применить к тексту. Нам просто нужно выбрать методы, которые мы хотим применить к тексту, и работа будет выполнена в бэкэнде.

8. Форматы

С помощью опции «Форматы» мы можем определить, как будут отображаться числа.

Параметры главного меню

В главном меню есть почти все те же параметры, что и в меню столбцов, но в главном меню они являются обобщенными, и мы можем выполнять операции в одном месте для нескольких столбцов, а не выбирать их вручную на дисплее. Вот некоторые из опций, которые являются эксклюзивными для главного меню и работают по-другому.

1. Построить столбец

Эта опция позволяет нам создавать новые функции/столбцы из уже доступных столбцов. Мы можем создать эти новые функции, выполняя арифметические операции над столбцами или используя два столбца для выполнения операций. Мы также можем указать имя создаваемого нового столбца и его тип данных.

2. Суммировать данные

В пандах мы суммируем данные с помощью групповых или сводных таблиц. То же самое мы можем сделать и с этим пакетом. Панды требовали, чтобы мы написали код для каждой группы и сводных таблиц, но с D-Tale мы можем выбрать столбцы, функцию агрегирования и столбцы, которые мы хотим в конечном наборе данных.

3. Отсутствует анализ

D-Tale использует пакет Missingno Python для визуализации отсутствующих значений, присутствующих в наборе данных. Он также предоставляет матрицу, гистограмму, тепловую карту и дендрограмму.

4. Графики

D-Tale использует plotly для создания интерактивных сюжетов на ходу. Он предлагает Line, Bar, Scatter, Pie, облако слов, Heatmap, 3D-Scatter, Surface, Maps, Candlestick, Treemap и воронкообразные диаграммы. Различные типы данных поддерживают различные типы графиков.

5. Маркеры

Они используются для выделения некоторых разделов набора данных. Подобно тому, как мы используем стили в пандах, чтобы выделить нечетные значения, хайлайтеры делают ту же работу. Мы можем выделить отсутствующие значения, типы данных, выбросы и диапазон.

6. Экспорт кода и экспорт данных

Все операции, которые мы проделали с нашим фреймом данных в D-Tale, автоматически преобразуются в их код, эквивалентный python/pandas/plotly. Доступ к ним можно получить, щелкнув параметр экспорта кода, присутствующий в графическом интерфейсе каждой операции и диаграммы.

Параметр экспорта кода в главном меню фиксирует все изменения, внесенные в фрейм данных. Мы можем напрямую экспортировать окончательный набор данных после внесения изменений в CSV или TSV, используя опцию экспорта.

Вы можете найти код в моем профиле GitHub.