Узнайте о некоторых статистических концепциях, которые помогут вам в вашем путешествии в качестве специалиста по данным или аналитика.

[Отказ от ответственности: этот пост содержит партнерские ссылки на мой курс Udemy]

Статистика является одним из основных компонентов должностной инструкции специалиста по данным. Знание статистики особенно важно, когда дело доходит до выводов о данных или моделях, избегая распространенных ошибок, в которые мы можем попасть при построении моделей или анализе.

Может возникнуть искушение отказаться от статистики в мире, где вычислительная мощность и инновации в области искусственного интеллекта растут каждый божий день. Зачем изучать p-значения, распределения данных или корреляцию с причинно-следственной связью, когда можно построить простую .fit с такими мощными моделями, которые могут даже говорить или видеть?

Есть три аргумента в пользу противоположного взгляда на отбрасывание статистики:

  • Большинство проблем не решаются с помощью современного ИИ.
  • Большинство организаций не готовы переучивать модели каждый божий день.
  • Статистика — это наука, которая изучает способность к обобщению и делает оценки и предположения относительно данных, которых у вас нет.

В этом посте мы собираемся обсудить 6 статистических концепций, которые специалисты по данным могут изучить, чтобы улучшить свои статистические знания и глубже погрузиться в красоту статистического мира.

Распределение данных

Большинство переменных следуют определенному распределению данных. Вы, вероятно, видели случайные величины, которые на графике выглядят следующим образом:

Это знаменитая колоколообразная кривая, представляющая нормальное распределение. Но есть и много других, например логарифмически нормальное распределение:

Распределения характеризуются параметрами, определяющими их форму. Кроме того, тип переменной (непрерывная или дискретная) — еще одна важная характеристика, определяющая ожидаемое поведение и значения, которые может принимать переменная.

Вы можете узнать больше о распределении данных на ресурсах ниже:

CLT (центральная предельная теорема)

Центральная предельная теорема (ЦПТ) — это довольно мощное правило, которое поможет вам понять среднее значение генеральной совокупности на основе случайно выбранных выборок. По сути, если у вас есть переменная x и вы хотите узнать реальное среднее значение переменной (μ), вы можете записать среднее значение меньших выборок (рекомендуется не менее n = 30), и эти выборочные средние значения будут иметь приблизительное нормальное распределение со средним значением, подобным µ генеральной совокупности.

Чистая часть? Это правило остается в силе независимо от основного распределения населения. Например, если распределение логарифмически нормальное, и вы берете случайные выборки из этой переменной, среднее выборочных средних также будет стремиться к реальной совокупности µ!

Чтобы CLT выполнялся, есть некоторые допущения, которые необходимо учитывать при отборе выборок из населения:

  • Выборки должны быть случайными из популяции. Если вы выберете необъективную выборку (например, только отфильтрованную часть на основе переменной), CLT не будет верен для всей совокупности.
  • n ≥ 30. Если вы уверены, что базовое распределение данных является нормальным, вы можете использовать даже меньше данных.
  • Образцы независимы.

Подробнее о ЦЛТ:

Корреляция против причинно-следственной связи

Если вы работаете в индустрии данных, вы, наверное, слышали это миллион раз. Понимание этого утверждения имеет основополагающее значение для специалистов по данным. В эпоху, когда обнаружение ложных корреляций находится на расстоянии пары строк кода, понимание последствий высказывания о том, что что-то вызывает что-то еще, еще важнее.

Конечно, для некоторых проектов это не проблема. Но в большинстве случаев при работе с данными необходимо знать, почему связаны явления, а не только как они связаны.

Когда дело доходит до проектов по науке о данных, вам действительно нужно понимать, что ищут ваши пользователи. Будет ли каким-то образом использоваться влияние переменных на результат? Например, если вы строите модель оттока и обнаруживаете, что существует положительная корреляция между звонком компании клиентам и оттоком клиентов, означает ли это, что компания должна прекратить звонить клиентам, и они больше не будут уходить? Нет!

Если немного углубиться в данные, вы заметите, что есть третья переменная, объясняющая такое поведение — компания звонила клиентам, потому что у них были какие-то проблемы с их обслуживанием, и это было причиной их оттока!

Чтобы убедиться в причинно-следственной связи, необходимо выполнить какой-либо контролируемый A/B-тест или использовать другие статистические тесты. Наблюдательных исследований недостаточно, поскольку они не гарантируют взаимозаменяемости или отсутствия поддельности.

Подробнее о корреляции и причинно-следственной связи читайте здесь:

Центральная тенденция и рассеяние

Две переменные могут иметь точно такое же среднее значение, но сильно различаться по диапазону своих значений. Понимание этого является ключом к пониманию выборки и сравнения того, как две выборки отличаются друг от друга.

Центральная тенденция и дисперсия — две чрезвычайно важные характеристики распределения данных. Центральную тенденцию можно измерить с помощью различных показателей, таких как среднее значение, медиана или мода, а дисперсию можно измерить с помощью стандартного отклонения или дисперсии. Зная эти два параметра и тип распределения, вы сможете частично визуализировать форму распределения и то, как случайная величина движется вокруг своего ожидаемого значения.

Обнаружение этих двух аргументов будет важно для понимания того, как ожидается, что случайная величина будет вести себя в будущем, особенно когда дело доходит до сравнения между выборками или понимания того, насколько похожи данные. Например, в контексте науки о данных понимание центральной тенденции и дисперсии поможет вам обойти ожидаемые значения и создать надежные методы обнаружения выбросов.

Вы можете прочитать больше по ссылкам ниже:

P-значения

Р-значение — это вероятность того, что мы наблюдали определенное значение в статистическом тесте при условии, что нулевая гипотеза верна.

Например, в регрессионных моделях к каждому коэффициенту привязано p-значение. Почему? Поскольку это значение p используется для проверки гипотезы о том, что эффект коэффициента равен 0. Если у вас есть низкое значение p (например, 0,01), связанное с коэффициент, то вы заявляете, что вероятность того, что коэффициент равен 0 (то есть не влияет на результат), составляет около 1%, что очень мало.

P-значения очень важны для понимания проверки статистических гипотез, и их можно обобщить в предложении: «Насколько вероятно, что я буду смотреть на это p-значение, если моя нулевая гипотеза верна?». В статистических тестах вы обычно стремитесь к низким значениям p, которые отвергают вашу нулевую гипотезу.

Один важный момент: поскольку p-значение связано с проверкой нулевой гипотезы, p-значение не подразумевает достоверность альтернативной гипотезы.

Вы можете узнать больше о p-значении по следующим ссылкам:

Надеюсь, вам понравилось это резюме, и оно дает вам хорошее руководство о том, что следует изучать дальше в вашем путешествии по статистике! Некоторые из этих концепций важны для множества задач, с которыми вы столкнетесь как специалист по данным или анализу, например:

  • при построении обнаружения выбросов
  • регрессионные модели
  • проверки гипотез
  • построение функций на основе распределений данных
  • проведение A/B тестов

Есть ли другие концепции статистики, которые, по вашему мнению, относятся к этому руководству? Напишите их в комментариях ниже!

Если вы хотите посетить мои курсы по R, присоединяйтесь сюда (Программирование на R для начинающих) или здесь (Учебный лагерь по науке о данных). Мои курсы подходят для начинающих/разработчиков среднего уровня, и я бы хотел, чтобы вы были рядом!