МАТЕМАТИКИ ДЛЯ НАУКИ ДАННЫХ

Создание доверительного интервала с помощью Python NumPy

Оценка параметра совокупности с помощью выборки!

Чтобы Pythoneers занялись наукой о данных, действительно важно понимать концепции статистики и вероятности. Одна из таких концепций - доверительный интервал! Это частотная идея (статистики, которые рассматривают вероятность как частоту). Если [a, b] представляет собой 95% доверительный интервал для выборочного среднего, то есть 95% времени, доверительные интервалы будут содержать выборочное среднее.

В этой статье я обсудил доверительные интервалы и способы их проверки с помощью библиотеки Python NumPy.

Доверительные интервалы

Как использовать распределение выборки, чтобы найти местоположение параметра?

Используя распределение выборки, мы можем найти наиболее вероятные значения для нашего параметра. Но как?

Допустим, у нас есть выборочное распределение любой интересующей статистики. Фактически мы можем использовать это распределение выборки для построения доверительного интервала - нижней и верхней границ для наших интересующих параметров.

Если мы разрежем 2,5% колоколообразного графика с каждой стороны, мы получим доверительный интервал 95%, т. Е. наш параметр находится в этом интервале.

Нахождение нашего интервала с помощью NumPy

Я импортировал набор данных «coffee_dataset.csv». И затем извлек из него образец из 200 строк. Потому что в реальном мире вы получите только образец, чтобы вывести параметр.

Итак, наш образец - «coffee_red», и мы будем над этим работать. Давайте посмотрим, сколько пользователей пьют кофе, а кто нет.

Я проверил средний рост для всех пьющих кофе.

После этого я решил взять образец начальной загрузки из 200 строк. Если вы заметили, я указал параметр «replace = True». Это означает, что строки могут повторяться в образце.



Один ряд может встречаться в образце дважды или трижды!

Итак, я вычислил средний рост пьющих кофе в начальной выборке.

И если вы заметили, что вычисленное среднее значение в coffee_red и bootstrap_sample отличается. Просто из-за параметра «replace = True».

Теперь давайте воспользуемся начальной загрузкой, чтобы создать образцы 10 000 раз. И добавьте среднее значение каждого образца в список, например bootstrap. И после этого создайте гистограмму.

А теперь перейдем к мясной части. На данный момент мы создали распределение статистики, то есть среднего значения. Но как построить доверительный интервал.

Я взял 2,5 и 97,5 процентилей данных начальной загрузки. У нас есть значения 65,99 и 67,58, то есть вероятность того, что наш параметр находится между этими двумя числами, составляет 95%.

Резюме

Доверительный интервал позволяет нам оценить параметр населения, используя данные выборки!

Доверительные интервалы применимы во время A / B-тестирования, когда мы сравниваем две группы. Если компания ищет новую веб-страницу, они могут сравнить ее с предыдущей страницей и провести тест. Кроме того, они могут видеть, какая страница привлекает больше трафика. И принимайте решение дальше!



Ссылка

Какая польза от доверительного интервала?

Мир!