Выходите за рамки имеющихся данных.

Статистика является неотъемлемой частью науки о данных. Это не только помогает нам понимать, исследовать и оценивать данные, но и выходить за рамки того, что есть в наших руках.

Та часть статистики, которая помогает нам делать выводы, выходящие за рамки того, что есть в руках, называется статистикой логического вывода.

Предположим, у нас есть задача выяснить, получают ли студенты колледжа, которые спят 8 часов в день, более высокие оценки, чем те, кто спит менее 6 часов в день. Чтобы провести тщательную оценку, нам нужно получить оценки всех студентов колледжа в этой области, что невозможно и нецелесообразно.

Вместо этого мы получаем выборку из каждой группы и проводим сравнение на основе их данных.

  • Население — это все элементы, представляющие группу.
  • Выборка – это подмножество генеральной совокупности.
  • Студенты колледжей в США составляют население. Случайно выбранные 1000 студентов колледжей в США представляют собой выборку, составленную из этой совокупности.

Здесь в игру вступает логическая статистика. Это помогает нам подтвердить наши выводы по образцам и узаконить, можно ли применить эти результаты ко всей популяции.

A/B-тестирование позволяет нам делать выводы о населении, используя выборочные данные. В этой статье мы ответим на 5 вопросов, чтобы понять процесс A/B-тестирования.

Вопросы организованы так, чтобы кратко объяснить весь процесс, чтобы помочь нам понять, как выполняется A/B-тестирование.

Вопрос 1

Ваша команда работает над новым дизайном сайта компании. Прежде чем начать использовать новый дизайн, вы хотите увидеть, увеличит ли новый дизайн рейтинг кликов (CTR). Как бы вы подошли к этой задаче?

Отвечать

Эту задачу можно решить с помощью A/B-тестирования. A и B представляют собой два разных сценария. В этом случае один является текущим дизайном, а другой — предлагаемым новым дизайном.

Трафик на веб-сайт будет разделен на две группы, которые видят либо текущий дизайн, либо новый дизайн. A/B-тестирование продолжается в течение заранее определенного периода времени, а затем результаты анализируются, чтобы решить, какой дизайн лучше.

вопрос 2

Что такое выборка и совокупность в этой задаче?

Отвечать

Население — это информация о рейтинге кликов с начала эксперимента и до конца. Таким образом, невозможно собрать.

Выборка — это та же информация, собранная в течение заранее определенного периода времени, например 30 дней.

Вопрос 3

В только что упомянутом A/B-тестировании, как бы вы определили нулевую и альтернативную гипотезы?

Отвечать

Результаты A/B-тестирования оцениваются по гипотезе. Требуется заранее определить нулевую и альтернативную гипотезы.

Нулевая гипотеза говорит в пользу текущей ситуации и не предполагает никаких изменений. Альтернативная гипотеза основана на внесении изменений.

  • Нулевая гипотеза: новый дизайн не повышает рейтинг кликов.
  • Альтернативная гипотеза: новый дизайн увеличивает рейтинг кликов.

Вопрос 4

Вы собираете результаты A/B-тестирования и видите, что средний рейтинг кликов выше. Вы сразу меняете сайт на новый дизайн?

Отвечать

Нет. Поскольку мы сравниваем выборки, для подтверждения результатов требуется проверка статистической значимости. Нам нужно убедиться, что рейтинг кликов с новым дизайном не будет выше случайно.

Вопрос 5

Вы выполняете тест статистической значимости (например, t-тест или z-тест), и значение p оказывается равным 0,04. Достаточно ли этого, чтобы доказать, что новый дизайн лучше?

Отвечать

Прежде всего, p-значения недостаточно для принятия решения. Он должен оцениваться на основе предопределенного уровня достоверности.

Значение p, равное 0,04, означает, что вероятность того, что результаты получены случайным образом, составляет 4%. Другими словами, мы на 96% уверены в результатах.

Доверительный уровень должен быть установлен до A/B-тестирования. Если уровень достоверности определен как 95%, то нам нужно значение p менее 5% (т. е. 0,05), чтобы сделать вывод, что альтернативная гипотеза верна, а именно, что новый дизайн увеличивает рейтинг кликов.

Вопрос 6

Что такое ошибки первого и второго рода?

Отвечать

При проверке гипотез, даже если мы на 96 % уверены в своем решении, есть небольшая вероятность совершить ошибку. Эти ошибки можно разделить на ошибки первого и второго рода.

Ошибка типа I, также известная как «ложноположительная», представляет собой неправильное отклонение нулевой гипотезы или неправильное принятие альтернативной гипотезы.

В нашем случае мы принимаем альтернативную гипотезу, которая заключается в том, что новый дизайн увеличивает рейтинг кликов. Если окажется, что новый дизайн не увеличивает кликабельность, то это становится ошибкой первого рода.

Ошибка типа II, также известная как «ложноотрицательный результат», представляет собой неправильное принятие нулевой гипотезы или неправильное отклонение альтернативной гипотезы.

В нашем примере, если мы приходим к выводу, что новый дизайн не увеличивает рейтинг кликов, а действительно увеличивает, то это становится ошибкой второго рода.

Заключение

Статистические знания являются обязательными для специалистов по данным. Если вы планируете стать специалистом по данным, обязательно изучите как описательную, так и логическую статистику на достойном уровне.

В этой статье мы рассмотрели типичный процесс A/B-тестирования, включая ключевые термины и понятия, такие как проверка гипотез, p-значение, доверительный интервал, выборка, популяция и т. д.

Вы можете стать членом Medium, чтобы разблокировать полный доступ к моему творчеству, а также к остальной части Medium. Если вы сделаете это, используя следующую ссылку, я получу часть вашего членского взноса без каких-либо дополнительных затрат для вас.



Спасибо за чтение. Пожалуйста, дайте мне знать, если у вас есть какие-либо отзывы.