Размышление о проблемах в контексте сценариев реального мира. A/B-тестирование — это один из способов определить на основе наблюдений и экспериментов, есть ли влияние изменения различных параметров конкретного объекта, таких как макет веб-сайта / характеристики продукта и т. д., на внедрение или конверсию и т. д. Этот метод настолько популярен, что он основан на наблюдениях пользователей за тем, что он был очень хорошо принят такими компаниями, как Netflix, Facebook, Google и т. д. Семья Google однажды провела A/B-тест, чтобы определить синий цвет на основе 41 различных оттенков синего в гиперссылках, которые увеличили там рейтинг кликов или коэффициент конверсии. Netflix активно проводит A/B-тестирование, чтобы улучшить пользовательский опыт и коэффициент конверсии.

Моя цель в этом блоге — рассмотреть различные шаги, чтобы понять A/B-тестирование и обратиться к статистике, лежащей в его основе. Конечно, существуют различные A/B-тесты, такие как

  • Параметрические тесты
  • Непараметрические тесты
  • Тесты передискретизации

Параметрические и непараметрические, по сути, являются классическими методами, в то время как тесты передискретизации включают в себя начальную загрузку и т. д.

Некоторыми важными компонентами A/B-тестирования является знание того, как разработать гипотезу, а затем разбить ее на нулевую гипотезу и альтернативную гипотезу.

Мне лично нравится метод PICOT для разработки гипотезы, а затем, исходя из гипотезы, нам нужно разработать эксперимент, который не является A / B-тестом, чтобы подтвердить или проверить нашу гипотезу.

Давайте посмотрим на пример, где мы представляем различные макеты посетителям веб-сайта и посмотрим, является ли их коэффициент конверсии более высоким.

Гипотеза, написанная примерно так на основе PICOT

- Нулевая гипотеза: посетители веб-сайта (P — население), которые получают макет B (группа лечения), не будут иметь более высокий коэффициент конверсии по сравнению с теми, кто получает макет A (контрольная группа) в конце посещения
- Альтернативная гипотеза: посетители веб-сайта (P — население), которые получают макет B (группа лечения), будут иметь более высокий коэффициент конверсии по сравнению с теми, кто получает макет A (контрольная группа) в конце посещения.

PICOT означает → P — Популяция посетителей, I — Вмешательство в форме макета A/B, C — Сравнение — Лечебная группа и контрольная группа, O — Результат — Уровень конверсии, T — в какое время — В конце визит.

Перевод: пусть средний коэффициент конверсии старой страницы будет Co, а новой страницы - Cn.

H0 = Co — Cn >=0
H1 = Co — Cn <0

Затем вышеизложенное формирует нашу гипотезу.

T-тест/Z-тест для проверки гипотез

При проверке гипотез мы пытаемся использовать выборку данных и пытаемся выдвинуть гипотезу, основанную на среднем значении выборки, об истинном среднем значении генеральной совокупности. Наша нулевая гипотеза обычно состоит в том, что мы считаем, что среднее значение генеральной совокупности равно, где альтернативная гипотеза обычно состоит в том, что среднее значение больше или меньше среднего значения генеральной совокупности. Если мы не знаем, означает ли это, что оно больше или равно населению, мы просто говорим, что оно не равно. Разница заключается в том, как мы проводим T-тест, чтобы определить, нужно ли отклонять Null или нет. Давайте посмотрим на ниже.

  • H1: βk › c, здесь мы делаем правильный тест с одним хвостом

  • H1: βk ‹ c, Здесь мы делаем левый один хвостовой тест

  • H1: βk ≠ c , Здесь мы используем парный тест. Таким образом, уровень значимости 5 % нарушается с обеих сторон распределения.

Теперь мы также должны иметь представление о том, в чем разница между статистикой Z и статистикой T, а также о том, где какую из них применять. Используйте тест Z, если у вас есть выборка с более чем 30 точками данных, и тест T, если меньше 30 точек данных. Кроме того, Z-тест обычно выполняется, когда мы знаем, что распределение нормальное, когда его неизвестно, а точек данных меньше 30, мы используем T-тест. Кроме того, важно отметить, что другие предположения теории центрального предела выполняются.

Проверьте эту ссылку с кодом A/B-тестирования на моем github.

Статистика хи-квадрат для проверки гипотез

По сути, это помогает нам понять качество подгонки, т. е. когда мы смотрим на распределения. Критерий хи-квадрат используется для определения того, существует ли значительная разница между ожидаемыми частотами и наблюдаемыми частотами в одной или нескольких категориях. Таким образом, тест хи-квадрат помогает нам ответить на такие вопросы, как «Различается ли показатель успеха в двух группах?»

Предположения

  • Образцы берутся случайным образом
  • Ожидаемое значение/результат/доля как минимум больше или равно 5
  • Независимый

Т-тест против теста хи-квадрат

Важно понимать, что мы пытаемся протестировать.

С помощью Т-теста мы задаем вопрос «Является ли средний коэффициент конверсии выше или ниже для экспериментальной группы по сравнению с контрольной группой?» или Отличается ли среднее значение в двух группах?“

С помощью теста хи-квадрат мы спрашиваем «Различается ли коэффициент конверсии в двух группах?»

Вывод

В конце концов, A / B-тестирование оказалось очень надежным в определении того, как различные варианты помогают конверсии потребителей или рейтингу кликов и т. Д. Очень скромный, но полезный метод науки о данных. Конечно, такие компании, как Google, Netflix, Facebook и т. д., проводят обширные и агрессивные A/B-тесты на своих пользователях. Один хороший ресурс, который я нашел, был в Блогах Netflix о том, как это ключевая неотъемлемая часть их разработки.

Проверьте эту ссылку на A/B-тестирование в python с тестом T и тестом Chi Sqr на моем github. Надеюсь, это поможет вам.