5 НАИБОЛЕЕ ИСПОЛЬЗУЕМЫХ ВИЗУАЛИЗАЦИИ В АНАЛИЗАХ ДАННЫХ

Визуализация данных — важная часть работы специалиста по данным. Визуализация нашего набора данных — один из лучших способов понять тенденции в нашем наборе данных, особенно когда мы имеем дело с большими наборами данных.

Matplotlib и Seaborn — это популярные библиотеки Python, которые можно использовать для простого создания визуализаций данных.

Визуализация нашего набора данных помогает нам понять тенденцию, закономерности и выбросы в большом наборе данных, а также помогает нам определить корреляции или отношения между независимыми переменными.

В этом посте я поделюсь с нами 5 наиболее часто используемыми визуализациями и некоторыми простыми быстрыми функциями для них с помощью python matplotlib и seaborn.

  1. Диаграмма рассеяния: это тип визуализации matplotlib, который используется для выявления выбросов в наборе данных. Он также отлично подходит для демонстрации взаимосвязи между переменными, поскольку вы можете напрямую увидеть необработанное распределение данных.
dataset =pd.read_csv(r"D:\titanic.csv")
x= np.linspace(0,10,25)
y=x*x*8
plt.scatter(x,y)
plt.show()

2. Гистограмма.Гистограмма представляет собой графическое отображение числовых данных в виде вертикальных полос, площадь каждой из которых представляет частоту. Гистограммы полезны для просмотра или обнаружения распределения точек данных.

n =np.array([1,2,3,4])
plt.bar(n,n**2,align='center')
plt.show()

3. Гистограмма. Гистограммы наиболее эффективны, когда вы визуализируете категориальные данные, которые имеют несколько категорий. Наличие слишком большого количества категорий сделает данные на рисунке загроможденными и трудными для понимания.

n =np.array([1,2,3,4])
plt.bar(n,n**2,align='center')

4. Блочная диаграмма:коробки используются для отображения общих шаблонов ответов для группы. Они обеспечивают полезный способ визуализации диапазона, медианы, межквартильного диапазона, верхнего квартильного диапазона и других характеристик для большой группы.

import numpy as np;np.random.seed(42)
import matplotlib.pyplot  as plt
import pandas as pd
import seaborn as sns
%matplotlib inline
df=pd.DataFrame(np.random.random(size=(4,4)), index=df.index, columns=['A','B','X','Y'])
sns.boxplot(x="variable",y="value",data=pd.melt(df))

5. Тепловая карта.Тепловая карта — это графическое представление данных, в котором каждая матрица значений представлена ​​в виде цвета. Он в основном используется для проверки корреляций между независимыми функциями.

df_dict={"District_No":[21,27,30,31],
        "Year":[2000,2001,2002,2003],
        "population":[10000,8500,35000,12000],
        "age":[50,80,70,100]}
df=pd.DataFrame(df_dict,index=[2,4,6,8])
corrmat=df.corr()
fig=plt.figure(figsize=(12,9))
sns.heatmap(corrmat, vmax=.8)