Узнайте о некоторых статистических концепциях, которые помогут вам в вашем путешествии в качестве специалиста по данным или аналитика.
[Отказ от ответственности: этот пост содержит партнерские ссылки на мой курс Udemy]
Статистика является одним из основных компонентов должностной инструкции специалиста по данным. Знание статистики особенно важно, когда дело доходит до выводов о данных или моделях, избегая распространенных ошибок, в которые мы можем попасть при построении моделей или анализе.
Может возникнуть искушение отказаться от статистики в мире, где вычислительная мощность и инновации в области искусственного интеллекта растут каждый божий день. Зачем изучать p-значения, распределения данных или корреляцию с причинно-следственной связью, когда можно построить простую .fit
с такими мощными моделями, которые могут даже говорить или видеть?
Есть три аргумента в пользу противоположного взгляда на отбрасывание статистики:
- Большинство проблем не решаются с помощью современного ИИ.
- Большинство организаций не готовы переучивать модели каждый божий день.
- Статистика — это наука, которая изучает способность к обобщению и делает оценки и предположения относительно данных, которых у вас нет.
В этом посте мы собираемся обсудить 6 статистических концепций, которые специалисты по данным могут изучить, чтобы улучшить свои статистические знания и глубже погрузиться в красоту статистического мира.
Распределение данных
Большинство переменных следуют определенному распределению данных. Вы, вероятно, видели случайные величины, которые на графике выглядят следующим образом:
Это знаменитая колоколообразная кривая, представляющая нормальное распределение. Но есть и много других, например логарифмически нормальное распределение:
Распределения характеризуются параметрами, определяющими их форму. Кроме того, тип переменной (непрерывная или дискретная) — еще одна важная характеристика, определяющая ожидаемое поведение и значения, которые может принимать переменная.
Вы можете узнать больше о распределении данных на ресурсах ниже:
CLT (центральная предельная теорема)
Центральная предельная теорема (ЦПТ) — это довольно мощное правило, которое поможет вам понять среднее значение генеральной совокупности на основе случайно выбранных выборок. По сути, если у вас есть переменная x и вы хотите узнать реальное среднее значение переменной (μ), вы можете записать среднее значение меньших выборок (рекомендуется не менее n = 30), и эти выборочные средние значения будут иметь приблизительное нормальное распределение со средним значением, подобным µ генеральной совокупности.
Чистая часть? Это правило остается в силе независимо от основного распределения населения. Например, если распределение логарифмически нормальное, и вы берете случайные выборки из этой переменной, среднее выборочных средних также будет стремиться к реальной совокупности µ!
Чтобы CLT выполнялся, есть некоторые допущения, которые необходимо учитывать при отборе выборок из населения:
- Выборки должны быть случайными из популяции. Если вы выберете необъективную выборку (например, только отфильтрованную часть на основе переменной), CLT не будет верен для всей совокупности.
- n ≥ 30. Если вы уверены, что базовое распределение данных является нормальным, вы можете использовать даже меньше данных.
- Образцы независимы.
Подробнее о ЦЛТ:
- Страница CLT в Википедии (с технической и математической информацией);
- Статистика по объяснению Джима CLT;
Корреляция против причинно-следственной связи
Если вы работаете в индустрии данных, вы, наверное, слышали это миллион раз. Понимание этого утверждения имеет основополагающее значение для специалистов по данным. В эпоху, когда обнаружение ложных корреляций находится на расстоянии пары строк кода, понимание последствий высказывания о том, что что-то вызывает что-то еще, еще важнее.
Конечно, для некоторых проектов это не проблема. Но в большинстве случаев при работе с данными необходимо знать, почему связаны явления, а не только как они связаны.
Когда дело доходит до проектов по науке о данных, вам действительно нужно понимать, что ищут ваши пользователи. Будет ли каким-то образом использоваться влияние переменных на результат? Например, если вы строите модель оттока и обнаруживаете, что существует положительная корреляция между звонком компании клиентам и оттоком клиентов, означает ли это, что компания должна прекратить звонить клиентам, и они больше не будут уходить? Нет!
Если немного углубиться в данные, вы заметите, что есть третья переменная, объясняющая такое поведение — компания звонила клиентам, потому что у них были какие-то проблемы с их обслуживанием, и это было причиной их оттока!
Чтобы убедиться в причинно-следственной связи, необходимо выполнить какой-либо контролируемый A/B-тест или использовать другие статистические тесты. Наблюдательных исследований недостаточно, поскольку они не гарантируют взаимозаменяемости или отсутствия поддельности.
Подробнее о корреляции и причинно-следственной связи читайте здесь:
Центральная тенденция и рассеяние
Две переменные могут иметь точно такое же среднее значение, но сильно различаться по диапазону своих значений. Понимание этого является ключом к пониманию выборки и сравнения того, как две выборки отличаются друг от друга.
Центральная тенденция и дисперсия — две чрезвычайно важные характеристики распределения данных. Центральную тенденцию можно измерить с помощью различных показателей, таких как среднее значение, медиана или мода, а дисперсию можно измерить с помощью стандартного отклонения или дисперсии. Зная эти два параметра и тип распределения, вы сможете частично визуализировать форму распределения и то, как случайная величина движется вокруг своего ожидаемого значения.
Обнаружение этих двух аргументов будет важно для понимания того, как ожидается, что случайная величина будет вести себя в будущем, особенно когда дело доходит до сравнения между выборками или понимания того, насколько похожи данные. Например, в контексте науки о данных понимание центральной тенденции и дисперсии поможет вам обойти ожидаемые значения и создать надежные методы обнаружения выбросов.
Вы можете прочитать больше по ссылкам ниже:
P-значения
Р-значение — это вероятность того, что мы наблюдали определенное значение в статистическом тесте при условии, что нулевая гипотеза верна.
Например, в регрессионных моделях к каждому коэффициенту привязано p-значение. Почему? Поскольку это значение p используется для проверки гипотезы о том, что эффект коэффициента равен 0. Если у вас есть низкое значение p (например, 0,01), связанное с коэффициент, то вы заявляете, что вероятность того, что коэффициент равен 0 (то есть не влияет на результат), составляет около 1%, что очень мало.
P-значения очень важны для понимания проверки статистических гипотез, и их можно обобщить в предложении: «Насколько вероятно, что я буду смотреть на это p-значение, если моя нулевая гипотеза верна?». В статистических тестах вы обычно стремитесь к низким значениям p, которые отвергают вашу нулевую гипотезу.
Один важный момент: поскольку p-значение связано с проверкой нулевой гипотезы, p-значение не подразумевает достоверность альтернативной гипотезы.
Вы можете узнать больше о p-значении по следующим ссылкам:
Надеюсь, вам понравилось это резюме, и оно дает вам хорошее руководство о том, что следует изучать дальше в вашем путешествии по статистике! Некоторые из этих концепций важны для множества задач, с которыми вы столкнетесь как специалист по данным или анализу, например:
- при построении обнаружения выбросов
- регрессионные модели
- проверки гипотез
- построение функций на основе распределений данных
- проведение A/B тестов
Есть ли другие концепции статистики, которые, по вашему мнению, относятся к этому руководству? Напишите их в комментариях ниже!
Если вы хотите посетить мои курсы по R, присоединяйтесь сюда (Программирование на R для начинающих) или здесь (Учебный лагерь по науке о данных). Мои курсы подходят для начинающих/разработчиков среднего уровня, и я бы хотел, чтобы вы были рядом!