МАТЕМАТИКИ ДЛЯ НАУКИ ДАННЫХ
Создание доверительного интервала с помощью Python NumPy
Оценка параметра совокупности с помощью выборки!
Чтобы Pythoneers занялись наукой о данных, действительно важно понимать концепции статистики и вероятности. Одна из таких концепций - доверительный интервал! Это частотная идея (статистики, которые рассматривают вероятность как частоту). Если [a, b] представляет собой 95% доверительный интервал для выборочного среднего, то есть 95% времени, доверительные интервалы будут содержать выборочное среднее.
В этой статье я обсудил доверительные интервалы и способы их проверки с помощью библиотеки Python NumPy.
Доверительные интервалы
Как использовать распределение выборки, чтобы найти местоположение параметра?
Используя распределение выборки, мы можем найти наиболее вероятные значения для нашего параметра. Но как?
Допустим, у нас есть выборочное распределение любой интересующей статистики. Фактически мы можем использовать это распределение выборки для построения доверительного интервала - нижней и верхней границ для наших интересующих параметров.
Если мы разрежем 2,5% колоколообразного графика с каждой стороны, мы получим доверительный интервал 95%, т. Е. наш параметр находится в этом интервале.
Нахождение нашего интервала с помощью NumPy
Я импортировал набор данных «coffee_dataset.csv». И затем извлек из него образец из 200 строк. Потому что в реальном мире вы получите только образец, чтобы вывести параметр.
Итак, наш образец - «coffee_red», и мы будем над этим работать. Давайте посмотрим, сколько пользователей пьют кофе, а кто нет.
Я проверил средний рост для всех пьющих кофе.
После этого я решил взять образец начальной загрузки из 200 строк. Если вы заметили, я указал параметр «replace = True». Это означает, что строки могут повторяться в образце.
Один ряд может встречаться в образце дважды или трижды!
Итак, я вычислил средний рост пьющих кофе в начальной выборке.
И если вы заметили, что вычисленное среднее значение в coffee_red и bootstrap_sample отличается. Просто из-за параметра «replace = True».
Теперь давайте воспользуемся начальной загрузкой, чтобы создать образцы 10 000 раз. И добавьте среднее значение каждого образца в список, например bootstrap. И после этого создайте гистограмму.
А теперь перейдем к мясной части. На данный момент мы создали распределение статистики, то есть среднего значения. Но как построить доверительный интервал.
Я взял 2,5 и 97,5 процентилей данных начальной загрузки. У нас есть значения 65,99 и 67,58, то есть вероятность того, что наш параметр находится между этими двумя числами, составляет 95%.
Резюме
Доверительный интервал позволяет нам оценить параметр населения, используя данные выборки!
Доверительные интервалы применимы во время A / B-тестирования, когда мы сравниваем две группы. Если компания ищет новую веб-страницу, они могут сравнить ее с предыдущей страницей и провести тест. Кроме того, они могут видеть, какая страница привлекает больше трафика. И принимайте решение дальше!
Ссылка
Какая польза от доверительного интервала?
Мир!