Калькулятор A/B-тестов: для чего он нужен и как им пользоваться

21.06.2022 | 45 мин. | 4403 Просмотра
-->

Сквозная веб-аналитика от 800 рублей в месяц

Узнать подробнее

Статья обновлена 21.06.2022

A/Б-тест или A/B — один из самых простых и надежных методов для статистической проверки гипотез. Эта методика появилась в начале ХХ века. Сначала ее использовали только ученые для проведения научных экспериментов. В мир маркетинга метод вошел, когда американский копирайтер Клод Хопкинс применил первый калькулятор A/B-тестов к рекламе. Хопкинс использовал коэффициент возврата рекламных купонов для измерения эффективности различных кампаний. 

С развитием интернет-рекламы и электронной коммерции калькулятор A/B-тестирования стал совершеннее и теперь умеет больше, чем лишь прогнозирование того, какой сравниваемый вариант изменений лучше, А или Б. Рассмотрим, для чего применяют такие калькуляторы в digital-маркетинге и как ими правильно пользоваться.

Основы АБ-тестирования в цифровом маркетинге

A/Б-тестирование стало ключевым ресурсом для SaaS, электронной коммерции и сайтов для бизнеса. Сделать выборку и отследить реакцию посетителей ресурса легко — подавляющее большинство из них никогда даже не узнает, что входили в тестовую группу. 

Сегодня такие компании, как Microsoft, Amazon и Booking ежегодно проводят десятки тысяч А/Б-тестов. Они исследуют разные CTA, иллюстрации, UX-дизайн, тексты, в общем, все, что поддается изучению на сайте.

Основы АБ-тестирования в цифровом маркетинге

Идея А/Б-тестирования состоит в том, чтобы проверить 2 версии одной веб-страницы. Версия A — текущая, «Контроль» или Control. Версия Б — измененная страница, «Обработка» или Treatment. 

Запустив обе страницы одновременно, можно увидеть, какая из них приносит желаемый эффект — увеличение конверсий, переходов по ссылке и так далее. Математическая модель построена так, что при одновременном выполнении обоих тестов любые мешающие или пропущенные факторы сглаживаются. То есть почти равномерно распределяются между двумя тестами и, следовательно, не искажают результаты. Это похоже на то, как при отсчете крупных горошин мы не принимаем в расчет мелкие песчинки, которые попадаются между ними. Они не влияют на то, сколько горошин у нас окажется в итоге.

Контролируемые А/Б-тесты помогают установить причинно-следственные связи между изменениями и их влиянием на поведение пользователей. Для проведения эффективных тестов нужна гипотеза, возможность редактирования сайта и инструмент для записи результатов. 

Гипотеза — это ваше представление о том, как улучшить сайт, выраженная в странице Б. Это может быть изменение расположения кнопки с CTA, макета страницы или даже цвета ссылки. Программное обеспечение для А/Б-тестирования отслеживает и записывает влияние изменений на поведение посетителей. Наиболее известные инструменты — это Adobe Target, Google Optimize и Webtrends Optimize. Также возможности А/Б-тестирования доступны в крупных сетях по размещению платной цифровой рекламы.

Сервис А/Б-тестирования разделяет трафик между «гипотезой» и «контролем» и измеряет полученные значения. Продвинутые инструменты вроде VWO или Webtrends Optimize направляют больше трафика на наиболее эффективную страницу, так что вы даже не теряете потенциальных клиентов во время выполнения тестов. 

Как только оба варианта наберут достаточное для анализа количество посещений, программное обеспечение выбирает победителя. Однако необходимо сделать еще один важный шаг, прежде чем внедрять «лучший» вариант. Далее о нем и поговорим. 

Калькулятор статистической значимости А/Б-теста: как пользоваться

Для успешного завершения A/Б-тестов важно понимать: полученные данные были правильно интерпретированы. Это нужно, чтобы убедиться: результаты не являются случайными. 

Если вы пропустите этот шаг, есть вероятность, что принимать решения придется необоснованно. Ведь даже положительные цифры могут ввести в заблуждение. Если их интерпретировать неправильно, вы рискуете внести на сайт ненужные изменения, что приведет к снижению конверсии.

Когда мы выполняем A/Б-тест, который является формой проверки гипотез, то создаем 2 конкурирующие версии веб-страницы. И показываем их двум группам случайно выбранных людей. 

В новой версии — страница Б — будут разные кнопки, веб-формы, уведомления или любые другие варианты, которые можно проверить. Различные коэффициенты конверсии, которые мы получаем для страницы A и страницы Б, вроде бы дают понять, какая из версий показала более высокие результаты. И наш тест определяет победителя, но как мы узнаем, что победитель действительно лучше? Для этого и нужен специальный инструмент, который считает статистическую значимость.

Что такое статистическая значимость A/Б-тестирования и зачем ее считать? Результаты имеют статистическую значимость, если они получены не из-за случайных отклонений. Другими словами, вы вряд ли получите 2 разных коэффициента конверсии для страницы A и страницы Б, если не изменится что-то конкретное. Статистическая значимость — это способ убедиться, что ваши результаты надежны, прежде чем делать какие-либо выводы.

Нужна уверенность в полученных данных, прежде чем выбрать «выигрышный» вариант. В статистике A/Б-тестирования результаты считаются значительными, если они не получены случайно. Так, достижение статистической значимости с уровнем достоверности 95% означает, что результаты будут появляться случайно только 1 раз из 20.

Приведем пример того, как рассчитать статистическую значимость на калькуляторе. Таких онлайн-сервисов очень много — можно выбрать наиболее удобный для вас. Мы воспользуемся версией калькулятора в составе интегрированного решения VWO. Важно понимать, что какой бы инструмент вы ни выбрали, важно правильно интерпретировать результаты.

Допустим, после завершения А/Б-теста двух веб-страниц мы получили следующие данные:

  • Страница А: трафик 1200 посетителей, конверсия 2 посетителя.
  • Страница Б: трафик 800 посетителей, конверсия 10 посетителей.

Вводим эти данные в калькулятор, чтобы проверить, достигли ли наши результаты статистической значимости. 

Калькулятор статистической значимости А/Б-теста параметры

Важно также выбрать так называемый уровень достоверности, Confidence Level. Это приблизительное значение статистической значимости, которое, как мы думаем, имеют наши данные. Выбираем 95%, получаем следующий отчет:

Калькулятор статистической значимости А/Б-теста результаты

Что означают эти значения и как их «прочитать»?

Коэффициент конверсии, CR

Это количество конверсий, которое планируется получить на каждого посетителя страницы. Он выражается в процентах и рассчитывается следующим образом:

Коэффициент конверсии = (Конверсии / Трафик) х 100%

Для страницы А это значение равно 0,167% или (2/1200)*100%. Для страницы Б — 1,25% или (10/800)*100%.

A/Б-тестирование — лучший способ убедиться, что коэффициент конверсии увеличится, если изменения будут благоприятными.

Повышение, Uplift

Повышение — это относительное увеличение коэффициента конверсии при сравнении страниц А и Б. Возможно даже отрицательное значение повышения, если исходная страница более эффективна, чем новая. Метрика рассчитывается так:

 (Коэффициент конверсии Б / Коэффициент конверсии А) х 100%

Повышение в нашем случае равно 750% или (1,25/0,167) х 100%.

Важно помнить, что повышение — это увеличение количества конверсий, а не абсолютных продаж.

Значение P, P-value

P-Value — это вероятность того, что ваши результаты были получены случайно. Рассчитывается значение по сложной математической формуле, которая заложена в калькулятор. Приводить ее не будем, поясним только общий принцип трактовки. Как видим, в нашем случае калькулятор выдал значение P-Value равное 1,2%. Много это или мало?

Если полученное в результате число ниже значения «альфа», тогда полученные результаты значительны. Под «альфой» понимается значение, которое представляет собой результат формулы:

«Альфа» = 100 — Значение уровня достоверности

В нашем случае значение «альфа» составляет 5%, то есть 100-95. Наше P-Value в 1,2% значительно меньше 5%, так что вероятность ошибок низкая.

Высокое значение P-Value означает, что ваши результаты не значительны. Это может быть связано с размером выборки, размером повышения или разбросом данных.

Итоговое значение статистической значимости, которое рассчитал калькулятор, в нашем примере составляет 98,8%. Это даже больше, чем заложенные нами изначально 95%, поэтому мы можем с некоторой уверенностью вносить изменения по варианту Б. Почему не со стопроцентной? Об этом стоит рассказать отдельно.

Как интерпретировать результаты статистической значимости

Даже А/Б-тест с высокой статистической значимостью, которую показал калькулятор, может в итоге давать ложноположительные результаты. Лучше всего менять вещи постепенно. Оптимизация одного показателя — конверсии — может отрицательно повлиять на другой, например, на возвращение клиентов. Поэтому нужно следить за всеми KPI и стараться избегать классических ошибок, связанных со значимостью.

Как интерпретировать результаты статистической значимости

Классические ошибки, связанные со статистической значимостью

Вера в результат

Мы принимаем на веру вероятность того, что страница Б лучше, чем страница А. Фактически, цифры показывают нам лишь вероятность того, что наши результаты не случайны.

Магия цифр

Полученный результат «доказывает», что один подход лучше другого. Это не так. Вы не можете доказать такую обобщенную гипотезу с помощью А/Б-тестирования. Результат всего лишь показывает, что во время теста произошло увеличение целевых показателей. Оно наблюдалось при тестировании изменений, сделанных на сайте, на определенной группе людей. 

Значимость мышления

Не стоит думать, что пользователи «предпочли» версию страницы Б. Все, что вы измеряете, — это влияние изменений на поведение пользователей, а не то, как увиденная страница влияет на их восприятие.

Но если вы хотите действительно повысить значение статистической значимости А/Б-тестов, которое показывает калькулятор, стоит внести некоторые изменения в сам процесс их проведения.

Как исправить результаты калькуляции статистической значимости

Чтобы повысить статистическую значимость A/Б-тестов, можно воспользоваться следующими советами:

  • Получить более согласованные данные с меньшими отклонениями.
  • Обеспечить высокое значение повышения, то есть увеличения коэффициента конверсии при сравнении страниц А и Б.
  • Увеличить размер выборки.

Получаем согласованные данные

Выбранные для тестов даты могут непредсказуемо повлиять на коэффициент конверсии. Если вы объедините такое событие, как «Черная пятница», с запуском рекламной акции с подарками, тесты могут показать увеличение конверсии, хотя по сути это не так. Обязательно проверяйте время и даты запуска тестов. Например, выбирайте низкий сезон, чтобы исключить аномалии.

Обеспечиваем высокое значение повышения

1. Попробуйте более существенный вариант изменений. Цвета кнопок, текст CTA и заголовки могут иметь большое значение, но только в некоторых случаях. Обычно для достижения заметного эффекта требуются более серьезные правки. Они скорее всего вызовут повышение, если по-новому сообщают о предложении или ценности товара.

2. Один из наиболее успешных вариантов — это версия веб-страницы с красочными уведомлениями. Они привлекают внимание посетителей и могут использоваться для создания психологических эффектов, таких как социальное доказательство, ограничения по времени и так далее.

3. Еще один способ — увеличить юзабилити страницы. Вы можете сделать это, удалив какое-то количество полей в форме, добавив полезный текст или введя визуальные подсказки.

Увеличиваем длительность тестирования и размер выборки 

1. Выполняйте тесты дольше, чтобы накопилось больше статистики. Оптимальный срок — 10-14 дней. Но помните: большинство браузеров удаляют любые файлы cookie в течение 1 месяца, а некоторые — уже через 2 недели. 

Поскольку инструменты А/Б-тестирования используют файлы cookie для сортировки посетителей по группам A и Б, более длинные тесты подвержены риску пересечения данных. Зато выполнив А/Б-тест за более длительный срок, вы можете уменьшить количество статистических ошибок. 

2. Направляйте больше трафика на тестовые страницы. Например, включите ссылки на главной, используйте тесты в качестве целевых страниц и так далее. К сожалению, это также может вызвать предвзятость мнений, поскольку трафик будет состоять из разных пользователей, в том числе нерелевантных.

Выборка данных — предмет отдельного разговора и даже собственного калькулятора. Давайте посмотрим, как он работает и что считает.

Калькулятор размера выборки для А/Б-теста: как пользоваться

Размер выборки — это количество людей, посетивших 2 варианта веб-страницы. Как правило, чем это число больше, тем точнее будет тест. При работе с меньшими наборами данных более вероятны отклонения — группы людей, которые ведут себя совершенно иначе, чем целевая аудитория в целом. Поэтому уменьшить статистические ошибки можно за счет увеличения размера выборки.

Калькулятор размера выборки для А/Б-теста

Чтобы рассчитать размер выборки, которая понадобится для достижения статистически значимых результатов, необходимо знать 3 вещи:

  • уровень достоверности, Confidence Level;
  • коэффициент конверсии, CR;
  • статистическая мощность теста, Statistical Power;
  • ожидаемый прирост конверсии.

Первые две метрики мы уже рассматривали в предыдущем калькуляторе, поговорим о мощности. 

Способность А/Б-теста проявлять эффект известна как статистическая мощность. Она измеряется в процентах — от 1 до 100% или по шкале от 0 до 1, в десятых долях — например, 0,5 или 0,7. 

В разных калькуляторах расчет этого значения реализован по-разному. Обозначает он одно и то же — это время — в процентах или баллах, в течение которого будет обнаружен минимальный эффект от теста. При условии, что этот эффект вообще существует. Чем выше процент, тем больше вы уверены в результатах теста и тем меньше в нем ошибок. 

Если эксперимент А имеет статистическую мощность 70%, а эксперимент Б — 95%, то есть высокая вероятность, что Б более надежен, чем А. Точно так же эксперимент А с более низкой мощностью содержит больше погрешностей. Обычно для расчетов достаточно брать значение 80-85%.

Что касается ожидаемого прироста конверсии, то его назначение понятно из названия. Вам нужно понимать, какого результата вы хотели бы добиться, чтобы повысить CR в результате следующего А/Б-тестирования. Есть одно «но»: чем ниже вы установите этот показатель, тем больше людей понадобится для получения надежных результатов. Математически это объясняется тем, что для подтверждения незначительных колебаний всегда требуется большая выборка.

Посмотрим на пример работы калькулятора размера выборки. Их много и в англоязычном, и в русскоязычном Интернете, так что просто выберите самый удобный для вас. Мы провели расчеты на калькуляторе выборки от Mindbox.

Зададим следующие данные:

  • коэффициент конверсии, CR — 1,25%, именно это значение мы вычислили выше с помощью статистической значимости;
  • статистическая мощность — 80%;
  • уровень достоверности — 95%, тот же, что и в предыдущем расчете;
  • ожидаемый прирост конверсии — 0,4%.

В результате получим необходимый размер выборки при заданных условиях — 12 111 человек.

Калькулятор размера выборки для А/Б-теста расширенные параметры

Существует и другая, более простая версия калькулятора статистической выборки. Его математическая модель построена на трех метриках — уровне достоверности, доверительном интервале и генеральной совокупности. Мы воспользуемся простым решением от Центра БМА.

Уровень достоверности мы уже разбирали. Под доверительным интервалом в данном случае понимается процент ошибок, который вы готовы допустить в данных. Чем меньше процент доверительного интервала, тем более точные результаты вы хотите получить, и тем больше будет нужная выборка. 

Генеральная совокупность — это общее количество пользователей в целевой аудитории. Например, если вы рассчитываете охватить жителей определенного города, то генеральной совокупностью будет общее количество живущих там людей.

Мы зададим для расчета следующие значения:

  • уровень достоверности — 95%;
  • доверительный интервал — 3%;
  • генеральная совокупность — 100 000.

В результате получим размер выборки в 1056 человек. 

Калькулятор размера выборки для А/Б-теста простая версия

Как видите, здесь не учитывается нужное число конверсий или ожидаемый их прирост. Это просто расчетные цифры для понимания репрезентативной выборки из определенной целевой аудитории. Такими калькуляторами можно пользоваться, например, перед началом А/Б-тестирования, чтобы понимать, когда можно заканчивать тесты.

Помимо калькуляторов статистической значимости и выборки, существуют другие методы контроля цифр для проведения А/Б-тестов — они касаются необходимого трафика и проверки гипотез.

Сколько трафика нужно для проведения A/Б-тестирования

Некоторые считают, что если у сайта большой трафик, то можно смело проводить любые А/Б-тесты — результаты будут статистически достоверными. Но это не так. Для ресурсов с высокой посещаемостью критичны малейшие изменения. Внедрив «проверенный» тестом вариант, вы можете потерять тысячи или даже миллионы рублей. Небольшая ошибка здесь обходится очень дорого, поэтому требования к статистической значимости намного выше — и это затрудняет тестирование.

Найти способ для повышения конверсий с сайта непросто. Так же, как и достичь высокой статистической значимости А/Б-тестов. Поэтому нужно заранее подумать об объеме нужного трафика, прежде чем запускать эксперимент. Посмотрите на диаграмму размера выборки для А/Б-тестирования на рисунке ниже. Она наглядно показывает, сколько посетителей понадобится, чтобы добиться статистически значимых результатов в течение 30-ти дневного периода.

Сколько трафика нужно для проведения A/Б-тестирования

График основан на условиях, которые отражают средние значения для сайтов электронной коммерции:

  • конверсия сайта — 2%;
  • продолжительность тестирования — 30 дней, так как тестировать дольше нельзя: удаление файлов cookie сделает результаты недостоверными;
  • 1 контрольная страница A и 1 вариант для тестирования Б;
  • уровень уверенности: 95%;
  • статистическая мощность теста — 80%.

Все сайты можно разделить на 4 основных группы в зависимости от их ежемесячной посещаемости.

1. Группа «риска»

При менее чем 10 000 посетителей в месяц результаты А/Б-тестирования будут очень ненадежными. Поскольку нужно повысить коэффициент конверсии более чем на 25%, чтобы получить «выигрышный» вариант в течение 30 дней.

2. Группа «острых ощущений»

При количестве посетителей от 10 000 до 100 000 в месяц А/Б-тестирование может стать реальной проблемой. Для обеспечения значимых результатов необходимо улучшение коэффициента конверсии не менее чем на 9%.

3. Группа «интереса»

При количестве посетителей от 100 000 до 1 000 000 в месяц мы входим в зону «интереса»: нужно повысить коэффициент конверсии на 2-9%, в зависимости от количества посетителей.

4. Безопасная группа

Если у сайта более миллиона посетителей в месяц, мы находимся в «безопасной» зоне, что позволяет проводить ряд тестов с высокой статистической значимостью.

С ростом числа пользователей для каждой группы в диаграмме видно уменьшение коэффициента конверсии, которое потребуется для получения точного результата. Большинство начинающих «тестировщиков» бывают удивлены тем, насколько большим должен быть объем трафика для получения надежных результатов. Как видно из диаграммы, значительный рост CR — например, более 10%, уменьшает размер выборки, необходимый для достижения статистической значимости.

Как провести сегментацию для А/B-тестирования

Ключ к успешному A/B-тестированию — это сегментация аудитории. Вариант B может проиграть варианту A по общим результатам, но превзойти его по отдельным параметрам. Например, это может быть органический трафик, количество посетителей из Facebook, мобильных устройств и так далее. 

Так, для грамотной сегментации аудитории в А/Б-тестах применяются 2 основных правила.

  1. Убедитесь, что у вас достаточно большой размер выборки в каждом сегменте. Рассчитайте ее заранее. Если на один вариант в каждом сегменте приходится менее 250–350 конверсий, значит, нужно увеличить выборку. 
  2. Не проводите тестирование в сегментах, не имеющих статистической достоверности, то есть в слишком маленьких.
    Нормальным значением по мнению агентства WebArts, считается 3000-4000 конверсий на каждый вариант с продолжительностью теста 3-4 недели. 

Вы можете многому научиться, сегментируя аудиторию. Наверняка обнаружатся закономерности, которые можно использовать в дальнейшем. Например, больше всего конверсий с мобильного трафика. Главное — применять одни и те же статистические правила к меньшим наборам данных. Чем больше выборка, тем достовернее результат.

Как бороться с непостоянством веб-данных

При проведении A/B-тестов у владельцев сайтов обычно возникает одна и та же проблема: все полученные данные не постоянны. На научном языке они называются нестационарными. Стационарный временной ряд данных — это тот, статистические свойства которого постоянны во времени. 

Данные с сайтов всегда не постоянны. А это означает, что мы не можем делать те же предположения, что и в случае постоянных данных, которые никогда не меняются. Вот несколько причин, по которым результаты А/Б-тестирования на сайте могут изменяться: 

  • сезон;
  • день недели;
  • каникулы или праздничные дни;
  • статьи в прессе о компании — положительные или отрицательные;
  • изменения рекламы CPC;
  • изменения в SEO, например, новые ключевики;
  • слухи.

Вы можете проверить собственные данные с сайта на подобные на колебания. Создайте в системе аналитики, которую используете, индивидуальный отчет и назовите его «Конверсии по дням недели». Это удобно делать, например, в системе сквозной аналитики ROMI center. 

Такая отчетность позволит наглядно увидеть все временные изменения, касающиеся вашего бизнеса. Например, вы выясните, что коэффициент конверсии в субботу намного ниже, чем в четверг. Так что, если вы начнете тест в пятницу и закончите в воскресенье, это исказит результаты.  

То же самое касается сезона. Если вы проводите тест перед Новым Годом, ваш «победитель» может стать абсолютным аутсайдером к февралю. Опять же, это происходит в силу непостоянства веб-данных. 

На результаты тестов однозначно влияют внешние факторы. Чтобы сгладить последствия, нужны 2 вещи:

  • перепроверка полученных в ходе А/Б-тестирования данных; 
  • регулярное отслеживание изменений на сайте и выделение закономерностей.

Если у вас есть тест, который показывает хороший результат в праздничные дни или в течение рекламных акций, запустите его повторно в «правильное» время. И выбирайте период для проведения тестирования тогда, когда на вашем сайте наблюдается наименьшее количество колебаний данных.

Как просчитать гипотезу для А/Б-тестирования

Существует широкий спектр инструментов, которые могут помочь просчитать гипотезу для А/Б-тестирования, то есть вариант Б, который вы будете сравнивать с контрольным. Они предлагают разные методики расчетов, от построения интеллект-карт до сервисов опросов. Но не всегда дают полную картину. Хорошая гипотеза A/Б-тестирования должна быть четко сформулирована, основана на конкретных данных и тесно связана с вашими KPI.

Просчет гипотезы по контрольному списку из 5 приоритетов поможет решить, какие идеи проверить в первую очередь. Хотя оценки, которые вы выставляете в каждой категории, субъективны, такой контрольный список позволит сосредоточиться на целевых факторах, а не на поверхностных проблемах.

  • Цель — насколько тесно ваша гипотеза связана с KPI?
  • Предмет — насколько важна страница или функция, которую вы меняете, для бизнеса в целом?
  • Положение — увеличатся ли конверсии в результате изменений и насколько это будет заметно?
  • Ценность — повлияет ли изменение на ценность вашего предложения для клиентов или это просто «косметическое» улучшение?
  • Доказательства — есть ли эффективные примеры изменений подобного типа в прошлом?

Каждый приоритет нужно оценить по шкале от 1 до 5, где 1 — очень мало, а 5 — максимум. Общий набранный балл выше 20 указывает, что проверяемая гипотеза имеет хорошие шансы стать статистически значимой после тестирования.

Вот пример таблицы для расчета нескольких гипотез, составленный по 5 приоритетам.

ГипотезаЦельПредметПоложениеЦенностьДоказательстваИтого
Другой заголовок H15554423
Фото продукта в 3605553119
Расположение кнопок на карточке товара5334318
Новый поисковый алгоритм по сайту5141112

Теперь, когда мы знаем особенности работы с разными калькуляторами и расчетами при А/Б-тестировании, стоит узнать несколько общих правил.

Правила работы с А/Б-текстами

Правило возврата

Пересматривайте результаты своих ранних тестов как минимум раз в полгода. Это даст новые идеи и, возможно, заставит поменять подход к сплит-тестированию. 

Поясним на примере. A/B-тестирование обычно длится не день и не два. Каждый тест собирает статистику в течение как минимум нескольких недель. Это дает достаточно большой размер выборки для получения убедительных результатов.

Допустим, вы запускаете 4 или 5 разных сплит-тестов для кнопки CTA. Только на один этот элемент может потребоваться 2-3 месяца. Затем вы проверяете заголовки, изображения, цветовую палитру и процесс оформления заказа.

К тому времени, как вы закончите все эти тесты, может пройти год или два. Это удачный момент, чтобы вернуться к самому началу и проверить, насколько эффективен ваш призыв к действию. 

Возможно, поздние изменения привели к ухудшению конверсии. И стоит обдумать их заново. А возможно условия изменились — нужно заново просчитывать размер выборки и статистическую значимость. Потому что на сайте у вас стало больше посетителей из разных источников.  Или вы вовсе сменили направление деятельности. 

Правило А/А-теста

Ваш A /B-тест поможет проверить нужную гипотезу — это базовый статистический эксперимент. У него существуют свои отклонения. Мы можем скорректировать их по уровню статистической значимости. Но это не всегда работает. Потому что вводит значения и интерпретирует их человек, а не калькулятор. Есть простой способ, как проверить статическую значимость и быстро обнаружить любые отклонения. Достаточно провести так называемый А/А-тест.

Да, это одновременное тестирование двух одинаковых страниц при заданной выборке аудитории. С одними и теми же параметрами. Если данные, полученные в результате такого условного сплит-тестирования, похожи — все в порядке. Если значения отклоняются более чем на 10%, значит, реальное сплит-тестирование проводить рано. 

Нужно еще раз перепроверить исходные условия — трафик, выборку, заданный уровень статистической значимости. И только после того, как разница сравняется, приступать к основному этапу проверки новых гипотез.

Если A/А-тест даст рост конверсии одной из страниц на 15%, только представьте, как можно интерпретировать результаты А/Б-теста! Вы будете думать, что повышение CR связано с внесением реальных изменений. А это будет всего лишь ошибка выборки. 

Особенно правило А/А-теста важно, когда вы начинаете тестирование на новой платформе. Например, в Яндекс.Директе. Настройте А/А-тест, подождите 3-4 дня — и увидите, стоит ли продолжать. 

Правило общего тестирования

Все, что мы обсуждали до сих пор, связано с вашим сайтом. Но это наверняка не единственная платформа, которую вы используете для получения конверсий. Поэтому недальновидно ограничивать A/B-тестирование только веб-ресурсом. Вы также можете проверить другие свои маркетинговые инструменты. Например, всплывающие окна на сайте или рассылки по электронной почте. 

В них тоже можно протестировать CTA, цвета, изображения, заголовки и текст — самые распространенные элементы. Но не только. Тестируйте и другие факторы — время получения рассылки или само письмо. 

Например, используйте A/B-тестирование для проверки, есть ли значительная разница у показателей открытия писем в зависимости от темы. При этом содержание вашего сообщения будет одинаковым. Также можно проверить зависимость количества слов и конверсий. Исследования Boomerang показывают, что электронные письма, содержащие от 50 до 125 слов, имеют самый высокий CR.

Правило «Не подглядывать» или «No Peeking» Rule 

При пользовании калькуляторами для А/Б-тестов часто встречается одна и та же ошибка. Вы начинаете проверять статистическую значимость А/Б-теста чуть ли не ежедневно, в надежде завершить его пораньше. Так делать нельзя. Иначе может возникнуть соблазн закончить эксперимент, когда вы увидите высокие значения значимости. Но до того, как будет достигнут необходимый размер выборки.

Правило «Не подглядывать» или «No Peeking» Rule гласит: положительный результат, полученный на небольшой выборке, скорее всего, вызван случайностью. Он вряд ли указывает на значительный эффект. Из-за ошибки выборки значения статистической значимости могут искажаться. 

Если вы начнете оценивать результаты своих A/Б-тестов до того, как наберется достаточное количество статистики, результаты будут нереалистичными. И доверять им нельзя. 

Например, в какой-то день вы можете увидеть, что статистическая значимость теста равна 99% и явно указывает на вариант Б. Однако этот всплеск может быть вызван выходом нового сериала. Когда множество пользователей гуглили определенную книгу, там упомянутую. А вы продаете майки с принтом одноименной группы. Ложноположительный результат за 1-2 дня вообще не стоит принимать в расчет. Последующее тестирование в течение 10-14 дней расширит выборку и даст более реалистичные данные.

Чтобы соблюдать правило «Не подглядывать», не стоит просчитывать результаты, пока не будет собрана значительная часть выборки. Кстати, некоторые комплексные сервисы для проведения А/Б-тестирования уже учитывают этот момент и предоставляют статистику только после определенного количества рабочих дней. 

Другие правила проведения А/Б-теста

Есть еще несколько правил, которым стоит следовать при расчетах, независимо от размера вашей выборки и стратегии.

  • Выполняйте А/Б-тестирование последовательно и не тестируйте меньше недели, поскольку продажи в воскресенье вряд ли будут соответствовать продажам в понедельник.
  • Не пользуйтесь калькуляторами пока не наберется достаточно статистики для анализа и результаты не станут значительными.
  • Никогда не останавливайте тестирование, чтобы изменить его параметры, так как это исказит все данные.

В дополнение — лайфхак. Если у вас нет времени на А/Б-тесты по всем вариантам в ходе конкретной рекламной кампании, можно облегчить себе жизнь. Подключите сквозную аналитику на основе коннекторов — и вы сразу увидите, какие изменения принесли вам больше всего клиентов, а какие — просто слили бюджет. И не только это.

Частые вопросы

Для чего нужно вычислять статистическую значимость А/Б-теста?
Это нужно, чтобы определить, насколько можно верить результатам, полученным в ходе А/Б-тестирования. Калькулятор основан на математической модели, которая просчитывает релевантность данных. Для расчетов необходимо знать уровень достоверности данных и коэффициент конверсии. Также важно значение уровня повышения, то есть увеличения коэффициента конверсии между версиями А и Б. Еще в расчет принимается значение P-value — вероятность того, что данные получены случайно.
Для чего применяют калькулятор выборки?
Такие калькуляторы существуют в упрощенном и более «продвинутом» виде. Версия с расширенными функциями позволяет рассчитать размер выборки, которая понадобится для достижения статистически значимых результатов А/Б-теста. Чтобы пользоваться таким калькулятором, нужно знать уровень достоверности данных, коэффициент конверсии и его ожидаемый прирост, а также статистическую мощность теста — то есть его эффективность. Упрощенная версия помогает приблизительно оценить размер выборки на основе общего размера целевой аудитории, на которую нацелен А/Б-тест.
Как рассчитать необходимый для А/Б-теста трафик?
Есть модель расчета, которая оценивает трафик исходя из общей посещаемости ресурса. При менее чем 10 000 посетителей в месяц CR должен быть больше 25%, до 100 000 — не менее чем 9%, до 1 млн. достаточно 2-9% в зависимости от точного числа визитов.
Оцените статью:
Средняя оценка: 4.5 Количество оценок: 2023
Читать также
Как увеличить продажи в несколько раз с помощью ROMI center?

Закажите презентацию с нашим экспертом. Он просканирует состояние вашего маркетинга, продаж и даст реальные рекомендации по её улучшению и повышению продаж с помощью решений от ROMI center.

Запланировать презентацию сервиса
Попробуйте наши сервисы:
  • Импорт рекламных расходов и доходов с продаж в Google Analytics

    Настройте сквозную аналитику в Google Analytics и анализируйте эффективность рекламы, подключая Яндекс Директ, Facebook Ads, AmoCRM и другие источники данных за считанные минуты без программистов

    Попробовать бесплатно
  • Импорт рекламных расходов и доходов с продаж в Яндекс Метрику

    Настройте сквозную аналитику в Яндекс.Метрику и анализируйте эффективность рекламы, подключая Facebook Ads, AmoCRM и другие источники данных за считанные минуты без программистов

    Попробовать бесплатно
  • Система сквозной аналитики для вашего бизнеса от ROMI center

    Получайте максимум от рекламы, объединяя десятки маркетинговых показателей в удобном и понятном отчете. Отслеживайте окупаемость каждого рекламного канала и перестаньте сливать бюджет.

    Попробовать бесплатно
  • Сквозная аналитика для Google Analytics позволит соединять рекламные каналы и доходы из CRM Получайте максимум от рекламы, объединяя десятки маркетинговых показателей в удобном и понятном отчете. Отслеживайте окупаемость каждого рекламного канала и перестаньте сливать бюджет.

    Подробнее → Попробовать бесплатно
  • Сквозная аналитика для Яндекс.Метрики позволит соединять рекламные каналы и доходы из CRM Получайте максимум от рекламы, объединяя десятки маркетинговых показателей в удобном и понятном отчете. Отслеживайте окупаемость каждого рекламного канала и перестаньте сливать бюджет.

    Подробнее → Попробовать бесплатно
  • Сквозная аналитика от ROMI позволит высчитывать ROMI для любой модели аттрибуции Получайте максимум от рекламы, объединяя десятки маркетинговых показателей в удобном и понятном отчете. Отслеживайте окупаемость каждого рекламного канала и перестаньте сливать бюджет.

    Подробнее → Попробовать бесплатно