Делая менее интуитивные концепции более интуитивными

Эксцесс — одно из основных понятий описательной статистики, а также часть стандартизированных моментов в математике. Сама концепция, хотя и простая, часто неверно истолковывается и понимается из-за связанного с ней расплывчатого определения. В этой статье я попытаюсь объяснить интуицию, стоящую за эксцессом, и его характеристики очень простыми словами, как я бы передал это 10-летнему ребенку.

Если вы впервые слышите слово «эксцесс», эта история поможет понять основную концепцию, стоящую за ним. Если вы хорошо это знаете и, возможно, хотите объяснить это своей племяннице или племяннику (или кому-то, кто не разбирается в статистике), это поможет в этом.

История выглядит так:

Представьте, что вы идете за продуктами с родителями. Поскольку у них руки заняты, они просят носить на каждой руке сумки по два, по пять кг. Вы неохотно соглашаетесь и носите каждую сумку по 5 кг в каждой руке.

Теперь вы кое-что замечаете. Чем ближе сумки к телу, тем легче их носить. Чем дальше вытянуты руки от тела, тем сложнее вам будет управлять весами.

В этом конкретном примере, чем дальше вы отходите от своего тела, тем тяжелее становится и выше эксцесс. Расстояние от вашего центра тяжести в приведенном выше примере пропорционально интуитивному эксцессу (и сложности управления весами) или, для простоты, можно сказать, что он равен эксцессу.

Теперь, если мы увеличим вес с 5 кг до 10 кг, а затем до 15 кг, сложность, начинающаяся с легкого, среднего и сложного, также быстро возрастет, как и значение эксцесса.

Теперь замените себя в приведенном выше примере функцией плотности вероятности нормального распределения. Поскольку большая часть вашего веса сосредоточена очень близко к вашему центру тяжести, говорят, что у вас эксцесс Пирсона 3 или эксцесс Фишера 0.

Что мы узнали:

Проще говоря, эксцесс — это вес крайних концов распределения. В приведенном выше примере веса, расположенные дальше от вашего центра тяжести, было труднее обрабатывать/управлять.

Эксцесс Фишера сравнивает, насколько тяжелым хвостом является распределение по отношению к нормальному распределению (независимо от его среднего значения и стандартного отклонения). Положительный эксцесс Фишера означает, что распределение имеет значительные выбросы, в то время как отрицательный эксцесс Фишера будет означать, что распределение плотности вероятности намного более равномерно по сравнению с нормальным распределением.

Распределения, которые имеют нулевой или очень близкий к нулю эксцесс Фишера, называются мезокуртическими распределениями. Под это ведро подпадает нормальное распределение.

Распределения, которые являются однородными или плосковершинными, имеют отрицательный эксцесс Фишера и также называются платикуртическими распределениями. Пример: равномерное распределение

Распределения с высоким положительным эксцессом Фишера называются лептокуртическими распределениями. Лептокуртические распределения — это распределения с тяжелыми хвостами, которые страдают от выбросов, которые могут потребовать обработки или обработки в зависимости от варианта использования. Пример: распределение Леви, распределение Лапласа и т. д.

Формула для вычисления эксцесса:

Компонент -3 добавляется к эксцессу Пирсона, чтобы сделать его сосредоточенным вокруг нормального распределения, и поэтому его также называют «избыточным эксцессом».

Реализация Python

Эксцесс можно удобно вычислить с помощью пакета scipy. Ниже приведен код для справки для вычисления эксцесса для различных важных распределений.

import scipy.stats as stats
from scipy.stats import kurtosis
distribution_names = ['uniform', 'norm', 'laplace', 'levy']
for distribution_name in distribution_names:
    if distribution_name == 'uniform':
        distribution = getattr(stats, distribution_name)(loc=-2, scale=4)
    else:
        distribution = getattr(stats, distribution_name)
    sample_data = distribution.rvs(size=1000)
    kurtosis_value = kurtosis(sample_data, fisher=True) # notice the fisher param
    print(f"kurtosis value of the {distribution_name} distribution is {round(kurtosis_value, 2)}")

Вывод:

Как и ожидалось, эксцесс для распределения сборов, печально известного распределения с большим выбросом, имеет очень высокое значение эксцесса по сравнению с другими распределениями. Значение нормального распределения не равно нулю, так как оно не берется из непрерывного распределения. Если вы поэкспериментируете с размером выборки, то чем больше размер sample_data, тем ближе вы будете к нулю. Если мы увеличим размер набора данных до 10⁸, мы получим следующий результат.

Как вы могли также заметить, эксцесс для распределения с тяжелыми хвостами резко возрастает по мере увеличения размера выборки.

Дополнительная информация:

  1. Документация Python Scipy: https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.kurtosis.html
  2. Моменты в математике: https://en.wikipedia.org/wiki/Moment_(mathematics)

Если вам понравилась интуитивность и простота статьи, вам также могут понравиться некоторые другие упрощенные версии концепции статистики ниже:

  1. Собственные векторы и собственные значения — как объяснить 10-летнему ребенку Сундареш Чандран в книге На пути к науке о данных
  2. Энтропия, объясненная просто Сундареш Чандран в книге На пути к науке о данных

Пожалуйста, оставьте аплодисменты/комментарии, если вы нашли это полезным.