Почему «A/B» тестирование может быть или не быть правильной терминологией для тестирования и дизайна веб-сайтов?

Почему искусственный интеллект и машинное обучение вытесняют тестирование Bandit (MAB) на мейнфрейм, следующий уровень A/B-тестирования.

Включая советы экспертов от Peep Laja (основатель CXL)

Элисон Гилберт

На этой неделе я поставил перед собой задачу пройти курс основателя платформы курсов CXL Пипа Лайи по актуальной теме A/B-тестирования. К счастью, это короткая глава, поэтому мы с командой CXL провели еще один счастливый уик-энд вместе.

Как и в большинстве случаев, я испытываю настоящее FOMO о днях роста некоторых современных интернет-монолитов, таких как Google и Amazon, и чувствую большое давление, чтобы «идти в ногу» со временем.

Учитывая взрывной рост компьютерных технологий и разговоры об искусственном интеллекте и машинном обучении, которые доминируют в разговоре, как маленькие ребята используют те немногие инструменты, которые у них есть, чтобы попробовать и конкурировать?

Изменения во времени «a/b-тестирования» или «как поддерживать свой веб-сайт в интересах получения максимальной отдачи от вашего веб-сайта» — это очень хороший способ измерить, насколько сложными стали наши самые передовые системы. что-то, что мы все уже знаем, но каждый день узнаем больше, когда пытаемся конкурировать.

Хорошие новости: если мы НЕ проводим каких-либо массовых испытаний MVT или Bandit, то стратегия в основном представляет собой K.I.S.S. one, Keep It Simple, Silly Rabbit, и следите за своими записями — со временем вы увидите некоторый прогресс!

A/B-тестирование очень часто быстро превращается в A/B/C/D/E/F/G-тестирование, поэтому проясните его перед внедрением.

— искать прирост 20% для своего сайта все равно, что искать золотое яйцо, которого не существует!!!

На первом месте принцип Парето; 80% усилий организации должно быть сосредоточено на планировании тестирования. Остальные 20 — это сама реализация.

Многовариантное тестирование (MVP) просто бесполезно, если вы не смотрите на взаимодействие между компонентами на своей странице. В целом, тестирование нескольких переменных не требует проверки гипотез и не рекомендуется.

Весьма вероятно, что если вы читаете это, у вас нет доступа к организационной силе или пропускной способности для выполнения таких футуристических подвигов, как алгоритмы машинного обучения Bandit, которые делают огромные организации, использующие обучающие модели. Интересно, что даже если да, то, скорее всего, это для более мелких, более поверхностных компонентов сайта, например, где логотип сравнивается с баннером.

Если на вашем веб-сайте совершается 100 транзакций в месяц или меньше, в формальном A/B-тестировании нет необходимости. Вы по-прежнему будете проводить оптимизацию диалогов, используя свои глазные яблоки, но формальная настройка не потребуется.

CXL предоставляет несколько отличных калькуляторов для координации статистической мощности, размеров выборки и временного окна в неделях, когда вы должны провести тест. 4 недели — это максимум, который рекомендует Пип.

Калькуляторы размера выборки для тестов AB от CXL
Один калькулятор для ответов на все ваши вопросы по анализу до и после тестирования.cxl.com

Приоткрывая занавес P-значений
Что касается всех разговоров о том, насколько прекрасны (и велики, не забывайте, велики) большие данные, один из любимых инструментов в…cxl.com

На самом деле больше нечего сказать — кроме того, почему. Но так как с «почему» трудно справиться, нужно найти прибежище в «как». — Тони Моррисон

Наличие общеорганизационных соглашений об именах для определения приоритетов проверки гипотез могло бы помочь установить общеизвестный стандарт и помочь любому, кто может быть слишком смелым и прыгнуть вглубь, не выполнив соответствующей домашней работы. Приоритизация тестов может быть истинным словом для набора навыков, который мы обычно называем A/B-тестированием. Вот несколько методологий, позволяющих выяснить, с чего начать, и не попасть на темную и запутанную территорию тестирования алфавитного супа из факторов.

Потенциал - Важно - Матричная система оценки легкости (P.I.E.)

Лайя считает, что некоторые из этих вещей трудно измерить заранее. Субъективность системы нумерации этой модели может привести к проблемам.

Вторая модель похожа на первую, это будет Impact, Cost, Effort (I.C.E.) — это тоже более старая модель (из 90-х годов!), и Лайя испытал те же субъективные проблемы, что и с первой. Рубрика из 4 пунктов не дает большого диапазона или расстояния между проблемами.

Другая идея состоит в том, чтобы быстро перечислить проблемы гипотезы источника проблемы с рейтингом «5 звезд», где 5 звезд являются наиболее серьезными и больше всего влияют на систему, а 1 звезда затрагивает наименьшее количество пользователей. Это метод мозгового штурма, который может быстро привести вас к «исходной проблеме», если она существует, однако, как вы видите, это действительно не помогает разбить потенциальные проблемы на составные части и может упустить некоторые нюансы решения проблемы. тестирование приоритетов.

Опять же, опыт Лайи в поиске и устранении неполадок веб-сайтов является здесь настоящей жемчужиной, и презентация его собственной методологии, основанной на прошлых шутках с отслеживанием в Интернете, — это то место, где мы подходим к сути проблемы.

Система показателей PXL, разработанная Peep Laja для оценки тестовой гипотезы, основана на 3 факторах:

воздействие — («выше сгиба», «заметно в течение 8 секунд?» и т. д.)

2. достоверность — (обнаруживается при пользовательском тестировании, с помощью опросов или других данных, таких как тепловые карты слежения за мышью)

3. усилие — (оценка по простоте реализации)

См. приведенный ниже пример системы показателей и ссылку на общедоступную электронную таблицу Excel под ней.

ПУБЛИЧНОСТЬ: Модель приоритезации тестов Speero PXL
Тестовая гипотеза Проблема Номер слайда Тема Классификация проблем В верхней части страницы? Заметно в течение 5 секунд? (2 или 0) Добавление…docs.google.com

Несколько слов для банка о прикладной статистике для веб-сайта и дизайна клиентского опыта:

Проведение экспериментов — это то, что вы ДЕЛАЕТЕ, а не изучаете.

Лайя придает особый характер этому курсу, добавляя свой полезный дискурс о наиболее полезной статистике для аналитика потребительского опыта.

Его мысли о разных школах статистики: байесовская иерархия против частотных: если вы говорите со статистиками, есть существенные различия. В его практике есть много способов снять шкуру с одного и того же кота, но он еще не сталкивался с набором тестов, который безоговорочно доказывал бы корреляцию.

Другими словами, тесты, которые вы запускаете, никоим образом не существуют в вакууме, на самом деле, вместо ошибок тестирования, из-за которых вы выбираете методы, наиболее распространенными проблемами, которые у вас возникнут, являются следующие:

1. Эффект инструментирования: (недостаточный контроль качества): что-то сломалось или не будет отображаться на определенных устройствах. Мне это показалось первой областью, в которую Лайя рекомендует инвестировать, поскольку большинству компаний не хватает внутренних ресурсов для полного управления надлежащие принципы обеспечения качества. Наймите кого-нибудь извне, чтобы убедиться, что ваше A/B-тестирование не сломает дисплей вашего мобильного устройства или кнопку «Добавить в корзину».

2. Предвзятость выбора (проверено на неправильных данных): данные обучения не были репрезентативными, вы купили немного трафика, чтобы получить размер выборки, а аудитория не была репрезентативной для ваших истинных потребителей.

3. Эффект истории (внешние обстоятельства). Возможно, ваш конкурент провел лучшую кампанию в честь Черной пятницы, или неожиданно разразился шторм, и люди изменили свои планы на отпуск. Как мы выяснили за последние 2 года — нельзя недооценивать обоснованность внешних угроз.

4. Несоответствие коэффициента выборки. Проще говоря, если трафик на A отличается от трафика на B, это автоматически приведет к дисквалификации и аннулированию результатов вашего теста.

В качестве примечания: машинное обучение в форме тестирования Bandit перевернет эту идею с ног на голову, и машинные алгоритмы смогут быстро научиться быстро использовать любые преимущества, которые они могут обнаружить, немедленно отправляя более успешные креативы большему количеству зрителей.

В заключение, эта глава курса CXL Digital Analytics помогла мне действительно понять, каковы масштабы и ограничения тестирования, которые я могу выполнить с веб-сайтами моего малого и среднего бизнеса.

Я оценил развернутый комментарий о тестировании веб-сайтов, и это был глоток свежего воздуха, когда у меня была готовая дорожная карта о том, на что обратить внимание в первую очередь. Всегда приятно слышать, где обычно летают красные флаги, и понимание того, что причинно-следственная связь может быть просто безнадежным делом, бесценно.

Доказательство готово, поэтому важно не закончить эту статью, не показав пример «выигрышного» результата оптимизации веб-сайта, клиент CXL, у которого были некоторые удивительные изменения в коэффициентах конверсии с изменениями, изображенными ниже.

Условием здесь будет то, что эти изменения будут считаться самыми рискованными и потенциально самыми дорогими, но также и с самой большой выплатой.

Чтобы прояснить это, позвольте мне оставить вас с изображением Лайи «пирамиды расстановки приоритетов», поскольку он умно резюмирует ваше руководство по составлению плана действий в этом изображении пирамиды с 3 уровнями:

Почему «A/B» тестирование может быть или не быть правильной терминологией для тестирования и дизайна веб-сайтов?

Почему искусственный интеллект и машинное обучение вытесняют тестирование Bandit (MAB) на мейнфрейм, следующий уровень A/B-тестирования.

Включая советы экспертов от Peep Laja (основатель CXL)

Вопросы по теме