5 НАИБОЛЕЕ ИСПОЛЬЗУЕМЫХ ВИЗУАЛИЗАЦИИ В АНАЛИЗАХ ДАННЫХ
Визуализация данных — важная часть работы специалиста по данным. Визуализация нашего набора данных — один из лучших способов понять тенденции в нашем наборе данных, особенно когда мы имеем дело с большими наборами данных.
Matplotlib и Seaborn — это популярные библиотеки Python, которые можно использовать для простого создания визуализаций данных.
Визуализация нашего набора данных помогает нам понять тенденцию, закономерности и выбросы в большом наборе данных, а также помогает нам определить корреляции или отношения между независимыми переменными.
В этом посте я поделюсь с нами 5 наиболее часто используемыми визуализациями и некоторыми простыми быстрыми функциями для них с помощью python matplotlib и seaborn.
- Диаграмма рассеяния: это тип визуализации matplotlib, который используется для выявления выбросов в наборе данных. Он также отлично подходит для демонстрации взаимосвязи между переменными, поскольку вы можете напрямую увидеть необработанное распределение данных.
dataset =pd.read_csv(r"D:\titanic.csv") x= np.linspace(0,10,25) y=x*x*8 plt.scatter(x,y) plt.show()
2. Гистограмма.Гистограмма представляет собой графическое отображение числовых данных в виде вертикальных полос, площадь каждой из которых представляет частоту. Гистограммы полезны для просмотра или обнаружения распределения точек данных.
n =np.array([1,2,3,4]) plt.bar(n,n**2,align='center') plt.show()
3. Гистограмма. Гистограммы наиболее эффективны, когда вы визуализируете категориальные данные, которые имеют несколько категорий. Наличие слишком большого количества категорий сделает данные на рисунке загроможденными и трудными для понимания.
n =np.array([1,2,3,4]) plt.bar(n,n**2,align='center')
4. Блочная диаграмма:коробки используются для отображения общих шаблонов ответов для группы. Они обеспечивают полезный способ визуализации диапазона, медианы, межквартильного диапазона, верхнего квартильного диапазона и других характеристик для большой группы.
import numpy as np;np.random.seed(42) import matplotlib.pyplot as plt import pandas as pd import seaborn as sns %matplotlib inline df=pd.DataFrame(np.random.random(size=(4,4)), index=df.index, columns=['A','B','X','Y']) sns.boxplot(x="variable",y="value",data=pd.melt(df))
5. Тепловая карта.Тепловая карта — это графическое представление данных, в котором каждая матрица значений представлена в виде цвета. Он в основном используется для проверки корреляций между независимыми функциями.
df_dict={"District_No":[21,27,30,31], "Year":[2000,2001,2002,2003], "population":[10000,8500,35000,12000], "age":[50,80,70,100]} df=pd.DataFrame(df_dict,index=[2,4,6,8]) corrmat=df.corr() fig=plt.figure(figsize=(12,9)) sns.heatmap(corrmat, vmax=.8)