Что такое график рассеяния?

Точечная диаграмма — это тип диаграммы, в которой точки данных представлены точками относительно горизонтальной и вертикальной осей. Таким образом, график использует декартову систему координат для отображения точек данных на графике. Этот график обычно используется для отображения и наблюдения взаимосвязей между переменными, чтобы проверить, есть ли какая-либо корреляция между переменными. Точечная диаграмма также известна как точечная диаграмма, точечная диаграмма или точечная диаграмма.

Когда использовать точечные диаграммы

Существует множество применений точечной диаграммы, некоторые из них позволяют увидеть корреляцию и выявить тенденции или взаимосвязи между переменными. Также полезно проверить зависимости и то, как изменения одной переменной влияют на другую.

Изучение атрибутов точечной диаграммы

Точечная диаграмма имеет множество атрибутов, которые делают ее более понятной и визуально более привлекательной. Давайте рассмотрим каждый атрибут один за другим и изменения, которые он вносит на графике.

matplotlib.pyplot.scatter(x, y, s=None, c=None, маркер =Нет, cmap=Нет, norm=Нет, vmin=Нет, vmax=Нет , alpha=None, linewidths=None, *, edgecolors=None, plotnonfinite=False, data=None, **kwargs)[источник]

1. х, у (ось)

значения, присвоенные оси x и оси y

import pandas as pd
import seaborn as sns
import numpy as np
import matplotlib
import matplotlib.pyplot as plt
iris = sns.load_dataset("iris")
plt.scatter(iris.index,iris['sepal_width'])

2. с (размер)

Этот атрибут используется для определения размера точек данных.

plt.scatter(iris.index,iris['sepal_width'],s=75)

3. в (цвет)

Он устанавливает для точек данных назначенный цвет. Он принимает строку, шестнадцатеричные значения и RGB (двумерный массив).

plt.scatter(iris.index,iris['sepal_width'], s = 75,c  = "red")

4. маркер

маркеры используются для изменения формы точек данных. Вы можете проверить множество вариантов, таких как.,o,v,^,‹,›,1,2,3,4,8,s и многие другие.

plt.scatter(iris.index,iris['sepal_width'],s=75,c ="purple",marker = '*')

5. смап

Экземпляр карты цветов или зарегистрированное имя карты цветов использует предопределенные темы для сопоставления скалярных данных с цветами.

пример тем: «Акцент», «bw_r», «Blues», «Blues_r», «BrBG», «binary», «spring_r», «океан», «BuPu», «BuPu_r», «CMRmap», «осень», 'Dark2', 'Dark2_r', 'GnBu', 'GnBu_r', 'Зеленые'

t = iris.index
plt.scatter(iris.index,iris['sepal_width'],c = t,cmap = 'turbo')

6. Норма

Метод нормализации масштабирует данные в диапазоне от 0 до 1 включительно перед сопоставлением с цветами. Существуют различные типы имен масштабов, такие как log, symlog и logit, но по умолчанию для масштабирования данных используется линейный метод.

cmap = matplotlib.cm.viridis_r
norm = matplotlib.colors.BoundaryNorm([30,60,90,120], cmap.N,clip = True)
plt.scatter(iris.index,iris['sepal_width'],c=t,norm=norm)

7. Альфа

Альфа — это значение прозрачности в диапазоне от 0 до 1.

0 — нет цвета

1- непрозрачный

plt.scatter(iris.index,iris['sepal_width'],s=200,c = t,cmap = 'turbo',alpha= 0.4)

8. ширина линии, цвет края

linewidth - это толщина границы, а edgecolors задает цвет границы в соответствии с вводом.

plt.scatter(iris.index,iris['sepal_width'],c = t,cmap = 'spring',s=100,edgecolors='black',linewidth=3)

Плюсы и минусы графика рассеяния

Плюсы:

1. легко понять.

2. диапазон данных (мин, макс).

3. простое обнаружение выбросов.

Минусы:

  1. Не может обрабатывать большие наборы данных.

2. Ограничение до 2 переменных.