В моей предыдущей статье под названием Раскрытие секретов ИИ — Часть 2: Важность описательной статистики в ИИ — 1 мы обсудили два жизненно важных инструмента и метода, часто используемых в описательной статистике, гистограмму и показатели центральной тенденции, такие как среднее, мода и медиана.

Продолжая наше исследование, в этой статье мы рассмотрим дополнительные инструменты и методы, используемые в описательной статистике.

Мы еще раз воспользуемся примером роста учеников класса, чтобы эффективно продемонстрировать применение и анализ этих методов.

Let's consider an example of analyzing the heights of students in 
a class. Suppose we have the following heights of ten students 
in centimeters
Heights: 170, 175, 160, 165, 180, 172, 168, 172, 173, 169

Итак, вперед

Введение:

В области статистики понимание распространения и изменчивости данных имеет важное значение для получения значимых выводов и принятия обоснованных решений. Меры дисперсии играют решающую роль в этом процессе, обеспечивая ценную информацию о том, как отдельные точки данных отклоняются от центральной тенденции. В этой статье мы углубимся в некоторые из наиболее распространенных показателей дисперсии, в том числе следующие:

  • Диапазон
  • Межквартильный размах (IQR)
  • Дисперсия
  • Среднеквадратичное отклонение
  • И коэффициент вариации.

Изучая эти меры, мы получим более глубокое понимание того, как данные распределяются в наборе данных, что позволит нам более эффективно анализировать и интерпретировать информацию.

Диапазон

Диапазон — это простейшая мера дисперсии, представляющая разницу между максимальным и минимальным значениями в наборе данных. Для заданного роста учеников:

Range = Max height - Min heigh
Range = 180 - 160
Range = 20t

Диапазон роста составляет 20 сантиметров, что указывает на то, что самый высокий ученик на 20 сантиметров выше, чем самый низкий ученик в классе.

Важно: добавление значений выбросов резко влияет на диапазон

Межквартильный диапазон (IQR)

Межквартильный размах (IQR) обеспечивает более надежную меру дисперсии, на которую меньше влияют экстремальные значения или выбросы. Чтобы рассчитать IQR, нам сначала нужно найти первый квартиль (Q1) и третий квартиль (Q3) набора данных.

Step 1: Arrange the data in ascending order
160, 165, 168, 169, 170, 172, 172, 173, 175, 180
Step 2: Calculate Q1 and Q3:
Q1 position = (25th percentile) * (n + 1) / 100
Q3 position = (75th percentile) * (n + 1) / 100
where n is the total number of data points, which is 10 in this case.
Q1 ≈ 168
Q3 ≈ 175
Step 3: Calculate the IQR:
IQR = Q3 - Q1
IQR = 174 - 168
IQR = 6:

Межквартильный диапазон роста составляет 6 сантиметров, что представляет собой разброс средних 50% роста учащихся в классе.

Дисперсия

Дисперсия — это простая мера дисперсии. Дисперсия измеряет, насколько далеко каждое число в наборе данных от среднего

Наблюдение рядом со средним значением дает более низкий результат, а вдали от среднего — более высокое значение.

Variance = Σ (Xi - X̄)² / N

Где Xi — каждая точка данных, X̄ — среднее значение, а N — количество точек данных.

Step 1: Calculate the mean (X̄) of the heights
X̄ = (170 + 175 + 160 + 165 + 180 + 172 + 168 + 172 + 173 + 169) / 10
X̄ = 171.4

Step 2: Calculate the variance:
Variance = [(170 - 171.4)² + (175 - 171.4)² + ... + (169 - 171.4)²] / 10
Variance = 26.04:

Дисперсия роста составляет 26,04 квадратных сантиметра, что указывает на среднеквадратичное отклонение отдельных высот от среднего.

Среднеквадратичное отклонение

Стандартное отклонение — это квадратный корень из дисперсии для получения исходных значений. Низкое стандартное отклонение указывает на точки данных, близкие к среднему значению.

Standard Deviation = √Varianc
Standard Deviation ≈ √26.04
Standard Deviation ≈ 5.10e

Стандартное отклонение высоты составляет примерно 5,10 см, что обеспечивает более интуитивное понимание разброса данных по средней высоте.

Низкое стандартное отклонение означает, что данные сгруппированы вокруг среднего значения, а высокое стандартное отклонение означает, что данные более разбросаны.

Коэффициент вариации (CV)

Коэффициент вариации — это относительная мера дисперсии, используемая для сравнения изменчивости наборов данных с разными единицами измерения. Он рассчитывается как отношение стандартного отклонения к среднему значению.

Coefficient of Variation = Standard Deviation / Mea
Coefficient of Variation ≈ 5.10 / 171.4
Coefficient of Variation ≈ 0.0297

Коэффициент вариации роста учащихся составляет примерно 0,0297, что указывает на относительно низкую вариабельность роста по сравнению со средним значением.

Краткое содержание:

Меры дисперсии, такие как размах, межквартильный размах (IQR), дисперсия, стандартное отклонение и коэффициент вариации, дают ценную информацию о разбросе и изменчивости данных в наборе данных. На примере анализа роста учащихся в классе мы обнаружили, что разброс составляет 20 сантиметров, IQR — 6 сантиметров, дисперсия — 26,04 квадратных сантиметра, стандартное отклонение — примерно 5,10 сантиметра, коэффициент вариации — примерно 0,0297. Эти меры помогают нам лучше понять распределение высот и сделать значимые выводы о наборе данных. Используя меры дисперсии, статистики и аналитики данных могут получить более глубокое представление о изменчивости данных и принимать более обоснованные решения.

Спасибо