Проверка гипотезы

Это будет охватывать темы, связанные с проверкой гипотез, включая проверку гипотез, ошибки типа 1 и типа 2 и P-значение.

Проверка гипотез очень важна в задачах классификации машинного обучения.

Начнем с обсуждения Что такое гипотеза?

Гипотеза – это обоснованное предположение о чем-то в окружающем вас мире. Это может быть что угодно, например фильм, который, по вашему мнению, станет хитом, или лучшим способом проведения экзаменов будет онлайн и т. д.

На самом деле это может быть что угодно, если вы можете проверить это.

Что такое проверка гипотез?

Проверка гипотез в статистике — это способ проверить результаты эксперимента, чтобы увидеть, есть ли у вас значимые результаты. Так что, по сути, это проверка того, верны ли ваши результаты, путем выяснения вероятности того, что ваши результаты были получены случайно.

В широком смысле процесс проверки гипотезы можно разбить на 3 этапа:

  1. Узнайте, что такое нулевая гипотеза
  2. Сформулируйте нулевую гипотезу
  3. Либо подтвердите, либо отклоните нулевую гипотезу, используя различные тесты.

Теперь возникает вопрос

Что такое нулевая гипотеза?

Как правило, нулевая гипотеза является общепринятым фактом (то, что все знают, верно). Например, Земля круглая (не обращая внимания на плоскоземельцев) или употребление наркотиков вредно для здоровья (иначе все бы их принимали).

Теперь мы выяснили, какой будет наша нулевая гипотеза, и пришло время перейти к следующему шагу, то есть к формулировке гипотезы.

Как сформулировать нулевую гипотезу?

Нулевая гипотеза утверждает, что параметр генеральной совокупности (такой как среднее значение, стандартное отклонение и т. д.) равен гипотетическому значению.

Пример: средний балл класса составляет 60%.

Противоположностью нулевой гипотезе является альтернативная гипотеза, которая меньше, больше или не равна нулевой гипотезе.

Пример: средний балл класса меньше 60%.

μ=60 is Null Hypothesis 
μ<60 is Alternate Hypothesis

Существует 2 типа гипотез:

Двусторонняя: здесь альтернативная гипотеза является ненаправленной, т. е. она может быть меньше или больше, чем нулевая гипотеза.

μ=60 is Null Hypothesis
μ≠60 is Alternate Hypothesis

Односторонний: здесь альтернативная гипотеза является направленной, т. е. она относится к большему или меньшему (только к одной стороне) по сравнению с нулевой гипотезой.

Односторонний тест имеет большую мощность, чем двусторонний тест, но он не может определить, отличается ли параметр совокупности в противоположном направлении.

μ=60 is Null Hypothesis
μ<60 is Alternate Hypothesis

С этого момента я буду рассматривать H₀ как нулевую гипотезу, а Hₐ как альтернативную гипотезу.

Ошибка типа 1 и типа 2

Для проверки нашей гипотезы мы берем выборочные данные, которые могут предоставить или не предоставить достаточно данных, чтобы точно сказать, верна нулевая гипотеза или нет. В таком случае мы принимаем по умолчанию, что альтернативная гипотеза верна.

Возьмем пример случая, когда у человека не было COVID

H₀= человек не болеет COVID

Hₐ= У человека COVID

Случай 1:

Тестирование доказывает, что у человека нет COVID.

Итак, нулевая гипотеза принята и верна.

Это идеальный идеальный случай.

Случай 2:

Тестирование доказывает, что у человека может быть COVID.

В таком случае альтернативная гипотеза принимается как верная, но на самом деле это не так. Таким образом, эта ситуация становится ошибкой типа 1 и также называется ложным срабатыванием.

Сейчас ситуация изменилась и у человека действительно есть COVID

Случай 3:

Тестирование доказывает, что у человека нет COVID.

Здесь нулевая гипотеза должна быть отвергнута, но это не так. Таким образом, эта ситуация становится ошибкой типа 2 и также называется ложноотрицательной ошибкой.

Случай 4:

Тестирование доказывает, что у человека может быть COVID.

В этом случае мы отвергаем нулевую гипотезу, и она верна. Таким образом, альтернативная гипотеза верна, и это также идеальный случай.

Для всех этих случаев мы можем составить матрицу путаницы.

Примечание. Отклонено и не отклонено относится только к H₀.

H₀ верно и не отклонено: хорошо

H₀ верно, но отклонено: ошибка типа 1

Hₐ истинно, но H₀ не отклонено: ошибка типа 2

Hₐ верно, а H₀ отклонено: хорошо

р-значение

При проверке значимости нулевой гипотезы p-значение представляет собой вероятность получения результатов теста, по крайней мере, столь же экстремальных, как и фактически наблюдаемые результаты, при условии, что нулевая гипотеза верна. Это можно лучше понять, взяв пример.

Например: Возьмем монету и подбросим ее 100 раз.

H₀= Монета честная

Hₐ= Монета нечестная

Для того, чтобы H₀ было истинным, идеальным условием было бы 50 орлов и 50 решек.

Это дает нам, что среднее значение (μ) будет равно 50.

Реальный мир далек от идеала.

Поэтому, когда мы проводим этот эксперимент, появляется такая кривая для плотности вероятности. мк здесь 50.

Теперь, если мой эксперимент показывает, что значение находится в районе 95%, тогда нулевая гипотеза будет принята, а если она находится в районе 5% (две стороны по 2,5% каждая), она будет отклонена.

Значение p здесь равно 0,05 (5%). Это также называется значением значимости (α).

Итак, если P(Heads= X)‹ p-значение, тогда и только тогда нулевая гипотеза будет отклонена. [P — вероятность, X — любая случайная величина]

Эти значения приходят с использованием различных типов вероятностей, которые мы узнали в предыдущих статьях.

Написание вероятностей основано на условных случаях, т. Е. Вероятность ситуации при нулевой гипотезе верна, а вероятность ситуации при заданной альтернативной гипотезе верна.

В зависимости от ситуации существуют различные тесты, которые можно использовать для определения того, какая область графика должна быть отклонена. Они называются z-тестом, f-тестом, t-тестом и критерием хи-квадрат.

Оставайтесь с нами, чтобы узнать больше о контенте



🔵 СТАНЬТЕ ПИСАТЕЛЕМ