Общий непараметрический A/B-тест на основе случайного леса с использованием R-пакета hypoRF

Авторы: Лорис Мишель, Джеффри Нэф

Важность A/B-тестирования для принятия бизнес-решений — не новая тема. Мы можем указать читателю на эту историю, чтобы получить хорошее представление об основных шагах и проблемах, лежащих в основе A/B-тестирования.

Однако, когда дело доходит до выбора тестовой статистики, это иногда оказывается сложной задачей из-за отсутствия точной метрики для сравнения двух групп A и B. Действительно, может случиться так, что мы не не знаю заранее, чего ожидать, поскольку возможный сдвиг данных в двух группах. Однако мы по-прежнему хотим получить доступ к действительному статистическому тесту, который мог бы:

  • выявлять сложные шаблоны сдвигов между группами A и B (это означает, что тест должен иметь силу против широкого спектра альтернатив);
  • информировать о смещении распределения (предоставляет информацию о разнице в распределении, если тест отклоняется).

В этой статье мы хотим обсудить недавнее направление исследований по использованию классификации в двухвыборочном тестировании, которое позволяет строить довольно гибкие и непараметрические тесты, как предложено в нашей бумаге. >»р.

Как проводить A/B-тестирование с помощью классификации?

Общая проблема тестирования с двумя выборками заключается в том, чтобы на основе двух групп выборок (A: X_1, …, X_2 и B: Y_1, .. , Y_2), которые, как предполагается, поступают соответственно из двух разных распределений P и Q, решить, будут ли они на самом деле происходят из одного и того же распределения, то есть P = Q (нулевая гипотеза).

Представьте на мгновение, что мы присваиваем образцам из группы А метку (скажем, 1), а образцам из группы В другую метку (скажем, 0), соответствие классификации начинается с интересной аналогии:

Если можно классифицировать (различить) две группы выборок A и B в соответствии с заданной мерой классификации (например, точностью) лучше, чем случайным образом, то это должно свидетельствовать о разнице в распределении между двумя группами. И наоборот, если между группами A и B существует разница в распределении, то (соответствующий) классификатор должен быть в состоянии обнаружить эту разницу и, таким образом, классифицировать две группы лучше, чем случайным образом (опять же в соответствии с определенной мерой классификации).

Более формальное и исчерпывающее сравнение концепций тестирования и классификации можно найти в Kim et al. 2016. Теперь мы представляем конкретный выбор, который мы сделали в нашей статье, а именно использование алгоритма случайного леса и его хорошо известных нестандартных мер.

Случайный лес и внеплановые меры (OOB)

Random Forest — очень известный алгоритм статистического обучения (мы можем указать читателю на этот пост для интуитивного понимания Random Forest). Его хорошая производительность в наборах реальных данных, когда дело доходит до задачи классификации, делает его очень популярным алгоритмом в машинном обучении (см., например, Delgado et al. 2012).

В нашей статье мы предлагаем использовать известные внепакетные (OOB) меры алгоритма Random Forest (см. этот пост для интуитивного понимания OOB-мер). В частности, мы используем сумму точности OOB для каждой группы (A и B) в качестве статистики теста и строим действительный тест, используя перестановки. На рис. 2 представлена ​​схема, визуально описывающая нашу процедуру, для формального представления мы отсылаем читателя к нашей бумагеr, в частности к введению для более подробной информации. подробности и контекст о нашем тесте.

Пример

В качестве игрушечного иллюстративного примера рассмотрим выборки из двух распределений P и Q по 5 измерениям со следующими свойствами:

  • и P, и Q являются многомерными нормальными распределениями со стандартными нормальными пределами;
  • P имеет единичную матрицу как ковариационную матрицу (независимые поля), тогда как Q отличается от P только наличием положительной корреляции 0,8 между его 4-м и 5-м компонентами.

На рисунке 1 мы можем наблюдать, что значение p довольно мало (значительно, например, на уровне 5%), что указывает на то, что тест отклонил бы нулевое значение (P = Q) и смог определить движущие силы изменения распределения (даже если в этом случае изменение проявляется только в зависимости) в соответствии с графиком переменной важности внизу слева. Правый график отображает последние два компонента точек выборки. В левом верхнем углу оценочные средние значения по компонентам и классам, что указывает на отсутствие видимой разницы в распределении, если просто посмотреть на поля. Мы видим, что последние два компонента выбираются как релевантные переменные в соответствии с нулевым порогом (пунктирная красная линия).

Заключение

Когда дело доходит до A/B-тестирования (двухвыборочное тестирование), часто оказывается, что очень простых и фундаментальных тестов (t-критерий, биномиальный критерий и т. д.) достаточно, если это позволяет план эксперимента. Однако стоит помнить, что современные подходы, вдохновленные классификацией в машинном обучении, могут предоставлять достоверные и мощные тесты с двумя выборками. Эти тесты могут помочь специалисту по данным в сложных условиях, когда нет реальных знаний заранее о разнице потенциалов между двумя группами A и B.

отказ от ответственности и ресурсы: мы осознаем, что упустили многие детали (эффективность, рекомендации о том, когда использовать или не использовать такой тест, исследования мощности и т. д.), но надеемся открыть горизонт мышления. Более подробную информацию и сравнение с существующими тестами можно найти в нашей бумагеrи проверить ГипоРЧ R-пакета на CRAN.