МАТЕМАТИКИ ДЛЯ НАУКИ ДАННЫХ

Объяснение: проверка гипотез с помощью Python

Тестирование параметров популяции, а не статистики!

У профессионалов из разных отраслей все время возникают вопросы по поводу своих данных. Наша работа как аналитика данных - ответить на эти вопросы. Но сначала мы переводим эти вопросы в гипотезу.

Мы собираем данные, чтобы подтвердить, какая гипотеза может быть верной!

В этой статье я расскажу о проверке гипотез и всех ее мелочах. Далее я перейду к его программной части.

Что такое проверка гипотез?

Отвечая на вопрос, поставленный данными, мы должны принять во внимание гипотезу, прежде чем мы начнем.

Допустим, мы создаем новое объявление для существующего продукта. Мы уверены, что старое объявление более привлекательно, чем новое.

Проверка гипотез начинается с двух типов гипотез:

Нулевая гипотеза (H0) и альтернативная гипотеза (H1)

Мы верим, что гипотеза о нуле верна. Это правда, прежде чем вы собираете какие-либо данные. Старое объявление выглядит более привлекательно - для нас это не гипотеза.

Альтернативная гипотеза конкурирует с нулевой гипотезой. Это другой случай нулевой гипотезы. Новое объявление будет более привлекательным - альтернативная гипотеза.

Прежде чем мы сделаем шаг дальше, при проверке гипотез следует помнить о некоторых правилах:

  1. H0 истинно до того, как вы собираете какие-либо данные.
  2. H0 обычно указывает, что эффекта нет или что две группы равны.
  3. H0 и H1 - конкурирующие, неперекрывающиеся гипотезы.
  4. H1 - это то, что мы хотели бы подтвердить.
  5. H0 содержит какой-либо знак равенства - либо =, ≤, либо ≥.
  6. H1 содержит оппозицию нулю - ≠, ›или‹.

Ошибки при проверке гипотез

Теперь, когда вы сформулировали свою гипотезу. Вы можете подумать, зачем выдвигать гипотезы.

Рассмотрим пример. В судебной системе США есть известная поговорка: «Виновен невиновен, пока его вина не доказана». Наша нулевая гипотеза здесь - «невиновен», а альтернативная - «виновен».

Теперь возможны четыре исхода:

  • Признан виновным, виновен фактически
  • Решено невиновно, фактически невиновно
  • Признан виновным, фактически невиновен
  • Признано невиновным, фактически виновным

Ошибка типа I / ложное срабатывание: выбор альтернативы (H1) истинен, когда на самом деле (H0) истинно. Это означает, что человек «невиновен», но присяжные признали его виновным.

Ошибка типа II / ложноотрицательный результат: определение нуля (H0) истинно, когда на самом деле (H1) истинно. На самом деле это означает, что человек «виновен», но присяжные признали его «невиновным».

Проведение проверки гипотез

Проверка гипотез выполняется по параметру населения, а не по статистике. Есть много способов проверить гипотезу.

  1. Проверка среднего значения генеральной совокупности (t-критерий для одной выборки)
  2. Проверка разницы в средних (двухвыборочный t-критерий)
  3. Проверка разницы до и после лечения у одного и того же человека (парный t-тест)
  4. Проверка доли населения (один образец z-критерия)
  5. Проверка разницы между долями населения (z-тест из двух выборок)

После того, как гипотеза сформулирована, нам нужно использовать данные, чтобы выяснить, какая гипотеза вероятнее всего окажется верной. И для этого есть два подхода.

Доверительный интервал. Смоделируйте распределение выборки и проверьте, согласуется ли наша гипотеза с тем, что мы наблюдаем в распределении выборки.

Имитация того, что, по нашему мнению, возможно, с нулевым значением и проверка соответствия данных этому.

Использование доверительного интервала для проверки гипотез

Предположим, мы ищем пользователей среднего роста, которые пьют кофе. Наша нулевая гипотеза утверждает, что средний рост пьющих кофе не превышает 70 дюймов.

Я использовал начальную загрузку и создал выборку из 200 строк из набора данных. Процесс повторялся 10 000 раз. И их среднее значение было добавлено в список «bootstrap».

В конце концов, я создал гистограмму и пересмотрел нижнюю и верхнюю границы, чтобы увидеть, где находится наша средняя высота.

У нас есть 95% -ная вероятность, что среднее значение находится между 67,64 и 68,57. В конце концов, мы видим, что наша нулевая гипотеза верна, то есть средний рост пьющих кофе менее 70 дюймов.

Резюме

Выше я затронул следующие темы:

  • Проверка гипотезы
  • Тип ошибок
  • Проведение проверки гипотез
  • Испытание доверительного интервала для проверки гипотез


Мир!