Demo
Запишитесь на демо Demo Самый быстрый и простой способ познакомиться:
  • Выясним, какая аналитика требуется для вашего проекта в зависимости от предстоящих задач.
  • Подберем оптимальный вариант: начиная от сквозной аналитики на базе Яндекс Метрики или Google Analytics 4 до продвинутой маркетинговой аналитики с моделями атрибуции и когортами.
  • Поможем считать CPL, CAC, AOV, LTV, ROAS, ДРР и ROMI.
  • Расскажем, как оптимизировать рекламу на целевых пользователей, используя информацию о сделках.
  • Отправим доступы к демо-кабинету с примерами отчетов.

Калькулятор A/B-тестов: для чего он нужен и как им пользоваться

Статья обновлена 07.08.2023

A/Б-тест, или эксперимент A/B, — один из самых простых и надежных методов для статистической проверки гипотез. Эта методика появилась еще в начале ХХ века. Сначала ее использовали только в научных целях при проведении экспериментов, разделяя объекты опыта на контрольную и экспериментальную группы. 

Позднее метод стал использоваться и в маркетинге, когда американский копирайтер Клод Хопкинс провел в рекламе первый A/B-тест. Хопкинс задействовал коэффициент возврата рекламных купонов, чтобы измерить эффективность различных кампаний.

С развитием интернет-рекламы и электронной коммерции A/B-тестирование стало совершеннее. Теперь метод умеет больше, чем просто показывать, какой вариант изменения лучше — А или Б. Рассмотрим, для чего применяют различные калькуляторы A/B-тестов в digital-маркетинге и как ими пользоваться.

Основы А/Б-тестирования в цифровом маркетинге

A/Б-тестирование стало ключевым ресурсом для SaaS, электронной коммерции и сайтов для бизнеса. Теперь можно легко сделать выборку и отследить реакцию посетителей ресурса — большинство из них даже не узнает о своем попадании в тестовую группу. 

Сегодня такие компании, как Яндекс, Google, Microsoft, Amazon и Booking ежегодно проводят десятки тысяч А/Б-тестов. Они исследуют разные CTA, иллюстрации, UX-дизайн, тексты — всё, что поддается изучению на сайте.

Основы АБ-тестирования в цифровом маркетинге

Идея А/Б-тестирования состоит в том, чтобы проверить 2 версии одной веб-страницы, объявления, креатива и так далее. Версия A — текущая, «Контроль», или Control. Версия Б — измененная страница, «Обработка», или Treatment. 

Тест проходит следующим образом.

  1. Вы запускаете две версии «в жизнь». Например, начинаете крутить оба варианта объявления или открываете страницы с двумя разными CTA. 
  2. На варианты А и Б вы направляете трафик из одного и того же источника. Это должна быть однотипная аудитория для обеих версий. 

Математическая модель построена так, что при одновременном выполнении обоих тестов любые посторонние факторы сглаживаются. То есть они почти равномерно распределяются между двумя тестами и, следовательно, не искажают результаты. Похожая аналогия: при отсчете крупных горошин мы не принимаем в расчет мелкие песчинки, которые попадаются между ними. Они не влияют на то, сколько горошин будет отобрано в итоге.

  1. Вы собираете статистику и делаете вывод, какой из вариантов повышает важные для вас бизнес-показатели: конверсию, переходы и так далее. 

Контролируемые А/Б-тесты помогают установить причинно-следственные связи между изменениями и их влиянием на поведение пользователей. Для проведения эффективных тестов нужны: 

  • гипотеза;
  • возможность редактирования сайта, объявления или другого объекта, который вы будете менять;
  • инструмент для записи результатов. 

Гипотеза — это ваше представление о том, как улучшить сайт, рекламный креатив или текст, выраженное в варианте Б. Это может быть изменение расположения кнопки с CTA, макета страницы или даже цвета ссылки. 

Не нужно вручную отслеживать, как изменения влияют на поведение посетителей. Есть специальные сервисы для А/Б-тестирования. Наиболее известные инструменты: Adobe Target, Google Optimize и Webtrends Optimize. Также возможности А/Б-тестирования доступны в крупных сетях по размещению платной цифровой рекламы — например, Яндекс.Директ.

Сервис А/Б-тестирования разделяет трафик между «гипотезой» и «контролем», затем измеряет полученные значения. Продвинутые инструменты вроде VWO или Webtrends Optimize со временем направляют больше трафика на наиболее эффективную страницу, так что вы даже не теряете потенциальных клиентов во время выполнения тестов. 

Как только оба варианта наберут достаточное для анализа количество посещений, программное обеспечение выбирает победителя. Однако нужно совершить еще один важный шаг, прежде чем внедрять «лучший» вариант. Поговорим о нем далее. 

Калькулятор статистической значимости А/Б-теста: как пользоваться

Для успешного завершения A/Б-тестов нужно быть уверенным, что вы корректно интерпретировали полученные данные. Важно убедиться, что результаты не являются случайными. 

Если вы пропустите этот шаг, есть вероятность, что принимать решения придется необоснованно. Ведь даже положительные цифры могут ввести в заблуждение. Если интерпретировать их неправильно, вы рискуете внести на сайт ненужные изменения, что приведет к снижению конверсии или бесполезным тратам.

Когда вы проводите A/Б-тест, который является формой проверки гипотез, то создаете две конкурирующие версии веб-страницы. И показываете их двум группам случайно выбранных людей из вашей целевой аудитории. 

В новой версии — страница Б — будут разные кнопки, веб-формы, уведомления или любые другие варианты, которые можно проверить. Изменение должно быть только одно, иначе вы запутаетесь, чему именно приписывать результат. 

Затем вы получаете различные коэффициенты конверсии или другого показателя для страниц A и Б. Казалось бы, эти значения дают понять, какая из версий приносит лучшие результаты. Но как убедиться, что «победитель» действительно лучше? Для этого и нужен специальный инструмент, который подсчитывает статистическую значимость.

Что такое статистическая значимость A/Б-тестирования и зачем ее считать? 

Результаты имеют статистическую значимость, если они получены не из-за случайных отклонений. Другими словами, вы вряд ли получите 2 разных коэффициента конверсии для страницы A и страницы Б, если не изменится что-то конкретное. Статистическая значимость — способ убедиться, что полученные результаты надежны, прежде чем делать какие-либо выводы.

В статистике A/Б-тестирования результаты считаются значимыми, если они получены не случайным образом. Так, достижение статистической значимости с уровнем достоверности 95% означает, что результаты будут появляться случайно только 1 раз из 20. 

Приведем пример того, как рассчитать статистическую значимость на калькуляторе. Таких онлайн-инструментов очень много — можно выбрать наиболее удобный для вас. В примере ниже мы воспользуемся версией калькулятора достоверности теста в составе интегрированного решения VWO. Важно понимать, что какой бы инструмент вы ни выбрали, следует правильно интерпретировать результаты по статзначимости. 

Пример

После завершения А/Б-теста двух веб-страниц вы получили следующие данные:

  • страница А: трафик 1200 посетителей, конверсия 2 посетителя;
  • страница Б: трафик 800 посетителей, конверсия 10 посетителей.

Введите эти данные в калькулятор A/B-тестирования, чтобы проверить, достигли результаты достаточной статистической значимости или нет.

Калькулятор статистической значимости А/Б-теста параметры

Важно также выбрать так называемый уровень достоверности, Confidence Level. Это приблизительное значение статистической значимости, которое, как вы думаете, имеют ваши данные. Выберите 95% и нажмите «Рассчитать». Вы получите следующий отчет. 

Калькулятор статистической значимости А/Б-теста результаты

Далее разберем, что означают эти значения и как их «прочитать».

Коэффициент конверсии, CR

Количество конверсий, которое планируется получить на каждого посетителя страницы. Коэффициент выражается в процентах и рассчитывается по формуле:

CR = (конверсии / трафик) × 100%

Для страницы А это значение равно 0,167%, или (2/1200)×100%. Для страницы Б — 1,25%, или (10/800)×100%.

A/Б-тестирование — лучший способ убедиться, что коэффициент конверсии увеличится, если изменения будут благоприятными.

Повышение, Uplift

Повышение — это относительное увеличение коэффициента конверсии при сравнении страниц А и Б. Метрика рассчитывается так:

Uplift = (коэффициент конверсии Б / коэффициент конверсии А) × 100%

Повышение в нашем случае равно 750%, или (1,25/0,167)×100%.

Рассматриваемый термин «повышение» — это увеличение количества конверсий, а не фактических продаж.

Значение P, P-value

P-Value — вероятность того, что ваши результаты были получены случайно. Значение рассчитывается по сложной математической формуле, которая заложена в калькулятор. Приводить ее не будем, поясним только общий принцип трактовки. В нашем примере калькулятор выдал P-Value 1,2%. Это много или мало?

Если полученное в результате число ниже значения «альфа», тогда полученные результаты значительны. Под «альфой» понимается значение, которое представляет собой результат формулы:

«Альфа» = 100 – значение уровня достоверности

В нашем случае значение «альфа» составляет 5%, то есть разность между 100 и 95. Калькулятор выдал P-Value в 1,2%. Это меньше 5%, так что вероятность ошибок низкая.

Высокое значение P-Value означает, что ваши результаты не являются значительными. Это может быть связано с недостаточным размером выборки, недостаточным размером повышения (Uplift) или большим разбросом данных.

Итоговое значение статистической значимости, которое рассчитал калькулятор, в нашем примере составляет 98,8%. Это даже больше, чем заложенные изначально 95%, поэтому можно достаточно уверенно вносить изменения по варианту Б. 

Почему получился результат не со стопроцентной статзначимостью? Разберем в следующем разделе. 

Как интерпретировать результаты расчета статистической значимости

Даже А/Б-тест с высокой статистической значимостью, которую показал калькулятор, может в итоге давать ложноположительные результаты. Поэтому лучше всего вносить изменения постепенно. Оптимизация одного показателя — конверсии — может отрицательно повлиять на другой, например, на возвращение клиентов. Поэтому следите за всеми значимыми для вас KPI и старайтесь избегать ошибок, связанных со значимостью.

Как интерпретировать результаты статистической значимости

Частые ошибки, связанные со статистической значимостью

Вера в результат

Вероятность того, что страница Б лучше, чем страница А, просто принимается на веру. Фактически цифры показывают лишь вероятность того, что полученные результаты не являются случайными.

Магия цифр

Полученный результат «доказывает», что один подход лучше другого. Это не так. Вы не можете доказать такую обобщенную гипотезу с помощью А/Б-тестирования. Результат всего лишь показывает, что во время теста произошло увеличение целевых показателей. Оно наблюдалось при тестировании изменений, сделанных на сайте, на определенной группе людей. 

Значимость мышления

Не стоит думать, что пользователи «предпочли» версию страницы Б. Всё, что вы измеряете в ходе теста, — это влияние изменений на поведение пользователей, а не то, как увиденная страница влияет на их восприятие.

Но если вы хотите действительно повысить значение статистической значимости А/Б-тестов, стоит внести некоторые изменения в сам процесс их проведения.

Как увеличить статистическую значимость

Как повысить статистическую значимость А/Б-тестов:

  • собирайте более согласованные данные с меньшими отклонениями;
  • обеспечивайте высокое значение повышения, то есть увеличение коэффициента конверсии при сравнении страниц А и Б;
  • увеличивайте размер выборки и продолжительность тестов.

Собирать согласованные данные

Выбранные для тестов даты могут непредсказуемо повлиять на коэффициент конверсии. Если вы проведете эксперимент во время «Черной пятницы», тесты могут показать увеличение конверсии, хотя причиной будет вовсе не внесенное изменение. 

Проверяйте время и даты запуска тестов. Например, избегайте экспериментов во время праздников и акций, чтобы исключить ошибки. Также можно провести повторный тест в другое время и сравнить результаты. 

Обеспечивать высокое значение повышения

  1. Попробуйте более существенный вариант изменений. Цвета кнопок, текст CTA и заголовки могут иметь большое значение, но только в некоторых случаях. Обычно для достижения заметного эффекта требуются более серьезные правки: заменить полный текст объявления, перерисовать рекламный креатив, задать новый сегмент таргетинга. Они наверняка вызовут большее повышение (Uplift), если по-новому сообщают о предложении или ценности товара.
  2. Нередко один из наиболее успешных вариантов — это версия веб-страницы с заметными уведомлениями. Они привлекают внимание посетителей и могут использоваться для создания психологических эффектов: социальное доказательство, ограничение предложения по времени и так далее.
  3. Еще один способ — улучшить юзабилити страницы. Для этого можно удалить какое-то количество полей в форме, добавить полезный текст или ввести визуальные подсказки.

Увеличивать длительность тестирования и размер выборки 

  1. Выполняйте тесты дольше, чтобы накопилось больше статистики. Оптимальный срок — 10-14 дней. Но помните: многие браузеры удаляют любые файлы cookie в течение 1 месяца, а некоторые — уже через 2 недели. 

Поскольку инструменты А/Б-тестирования используют файлы cookie для сортировки посетителей по группам A и Б, во время более длинных тестов данные могут пересекаться и накладываться. Зато длительный А/Б-тест помогает уменьшить количество статистических ошибок. 

  1. Направляйте больше трафика на тестовые страницы. Например, включите ссылки на главной, используйте тесты в качестве целевых страниц и так далее. К сожалению, это также может вызвать предвзятость мнений, поскольку трафик будет состоять из разных категорий пользователей, в том числе нерелевантных.

Выборка данных — предмет отдельного разговора и даже собственного калькулятора. Давайте посмотрим, что определяют подобные инструменты и как рассчитать размер выборки для А/Б-теста. 

Калькулятор размера выборки для А/Б-теста: как пользоваться

Размер выборки — суммарное количество людей, посетивших два варианта веб-страницы. Как правило, чем это число больше, тем точнее будет тест. При работе с меньшими наборами данных более вероятны отклонения — группы людей, которые ведут себя совершенно отлично от целевой аудитории в целом. Поэтому уменьшить статистические ошибки можно за счет увеличения размера выборки. 

Пример

Среди посетителей окажется пользователь, который просто от скуки кликает по всем разделам, хотя они ему неинтересны. В выборке из 10 человек такой посетитель исказит результат теста на 10%. А если в эксперименте участвует 1000 пользователей, то влияние подобных индивидов будет сведено к минимуму.

Калькулятор размера выборки для А/Б-теста

Чтобы рассчитать размер выборки, с которой вы получите статистически значимые результаты, нужно знать 4 вещи:

  • уровень достоверности, Confidence Level;
  • коэффициент конверсии, CR;
  • статистическая мощность теста, Statistical Power;
  • ожидаемый прирост конверсии.

Первые две метрики мы уже рассматривали в предыдущем разделе, поговорим о мощности. 

Статистическая мощность — способность А/Б-теста проявлять эффект. Она измеряется в процентах от 0 до 100% или в десятых долях по шкале от 0 до 1, например, 0,5 или 0,7. 

В разных калькуляторах расчет этого значения реализован по-своему. Но он означает одно и то же — вероятность, что будет обнаружен минимальный эффект от теста. При условии, что этот эффект вообще существует. Чем выше процент, тем больше вы можете быть уверены в результатах теста и тем меньше в нем ошибок. 

Пример

Если эксперимент 1 имеет статистическую мощность 70%, а эксперимент 2 — 95%, то есть высокая вероятность, что 2 более надежен, чем 1. Точно так же эксперимент 1 с более низкой статистической мощностью содержит больше погрешностей. 

Обычно для расчетов достаточно опираться на значение статистической мощности 80-85%.

Что касается ожидаемого прироста конверсии, то его назначение понятно из названия. Вам нужно понимать, какого результата вы хотели бы добиться, чтобы повысить CR в результате следующего А/Б-тестирования. Есть одно «но»: чем ниже вы установите этот показатель, тем больше участников эксперимента понадобится для получения надежных результатов. Математически это объясняется тем, что для подтверждения незначительных колебаний всегда требуется большая выборка.

Посмотрим на пример работы калькулятора размера выборки. Мы провели расчеты на калькуляторе выборки от Mindbox, но это далеко не единственный инструмент в Сети.

Пример

Зададим следующие данные:

  • коэффициент конверсии, CR — 1,25%, именно это значение мы вычислили выше с помощью статистической значимости;
  • статистическая мощность — 80%;
  • уровень достоверности — 95%, тот же, что и в предыдущем расчете;
  • ожидаемый прирост конверсии — 0,4%.

В результате получим необходимый размер выборки при заданных условиях — 12 111 человек.

Калькулятор размера выборки для А/Б-теста расширенные параметры

Существует и более простая версия калькулятора статистической выборки. Его математическая модель построена на трех метриках — уровне достоверности, доверительном интервале и генеральной совокупности. 

Доверительный интервал в данном случае — процент ошибок, который вы готовы допустить в данных. Чем меньше процент доверительного интервала, тем более точные результаты вы хотите получить, тем больше будет нужная выборка. 

Генеральная совокупность — общее количество пользователей в целевой аудитории. Например, если вы рассчитываете охватить жителей определенного города, то генеральной совокупностью будет общее количество живущих там людей.

Пример

Воспользуемся калькулятором от Центра БМА. Уровень достоверности мы уже разбирали. Зададим для расчета следующие значения:

  • уровень достоверности — 95%;
  • доверительный интервал — 3%;
  • генеральная совокупность — 100 000.

В результате получим размер выборки в 1056 человек.

Калькулятор размера выборки для А/Б-теста простая версия

Как видите, здесь не учитывается нужное число конверсий или их ожидаемый прирост. Это просто расчетные цифры для понимания репрезентативной выборки из определенной целевой аудитории. Такими калькуляторами можно пользоваться, например, перед началом А/Б-тестирования, чтобы правильно провести расчет выборки и понимать, когда можно заканчивать тесты.

Помимо калькуляторов статистической значимости и выборки есть и другие методы контроля цифр для проведения А/Б-тестов. Они касаются необходимого трафика и проверки гипотез.

Сколько трафика нужно для проведения A/Б-тестирования

Некоторые считают, что если у сайта большой трафик, то можно смело проводить любые А/Б-тесты — результаты будут статистически достоверными. Но это не так. Для ресурсов с высокой посещаемостью критичны малейшие изменения. Внедрив «проверенный» тестом вариант, вы можете потерять тысячи или даже миллионы рублей. Небольшая ошибка здесь обходится очень дорого, поэтому требования к статистической значимости намного выше — и это затрудняет тестирование.

Непросто найти способ для повышения конверсий сайта. Так же сложно достичь высокой статистической значимости А/Б-тестов. Поэтому нужно подумать об объеме нужного трафика, прежде чем запускать эксперимент. 

Ниже показана диаграмма размера выборки для А/Б-тестирования. Она наглядно показывает, сколько посетителей понадобится, чтобы добиться статистически значимых результатов в течение 30-дневного периода.

Сколько трафика нужно для проведения A/Б-тестирования

График основан на условиях, которые отражают средние значения для сайтов электронной коммерции:

  • конверсия сайта — 2%;
  • продолжительность тестирования — 30 дней, так как тестировать дольше нельзя: удаление файлов cookie сделает результаты недостоверными;
  • 1 контрольная страница A и 1 вариант для тестирования Б;
  • уровень достоверности — 95%;
  • статистическая мощность теста — 80%. 

Все сайты можно разделить на 4 группы в зависимости от их ежемесячной посещаемости.

1. Группа риска

При менее 10 000 посетителей в месяц результаты А/Б-тестирования будут ненадежными. В этой ситуации нужно повысить коэффициент конверсии более чем на 25%, чтобы получить «лучший» вариант в течение 30 дней.

2. Группа «острых ощущений»

При количестве посетителей от 10 000 до 100 000 в месяц А/Б-тестирование может стать реальной проблемой. Для обеспечения значимых результатов вам нужно получить улучшение коэффициента конверсии на 9% или больше.

3. Группа интереса

При количестве посетителей от 100 000 до 1 000 000 в месяц начинается зона интереса: нужно повысить коэффициент конверсии на 2-9% в зависимости от количества посетителей.

4. Безопасная группа

Если у сайта более миллиона посетителей в месяц, это «безопасная» зона, что позволяет проводить ряд тестов с высокой статистической значимостью.

С ростом числа пользователей для каждой группы на графике видно уменьшение коэффициента конверсии, которое требуется для получения точного результата. Большинство начинающих «тестировщиков» не ожидают, насколько большим должен быть объем трафика для получения надежных результатов. Как видно из диаграммы выше, значительный рост CR — например, более 10%, — уменьшает размер выборки, необходимый для достижения статистической значимости.

Как провести сегментацию аудитории для А/B-тестирования

Ключ к успешному A/B-тестированию — сегментация целевых пользователей. Вариант B может проиграть варианту A по общим результатам, но превзойти его по отдельным параметрам. Например, это может быть органический трафик, количество посетителей из ВКонтакте, с мобильных устройств и так далее. 

Так, для корректной сегментации аудитории в А/Б-тестах применяют два правила. 

  1. Убедитесь, что у вас достаточный размер выборки в каждом сегменте. Рассчитайте необходимую величину заранее. Если на один вариант в каждом сегменте приходится менее 250–350 конверсий, значит, нужно увеличить выборку. 
  2. Не проводите тестирование на слишком маленьких сегментах. Они не будут иметь достаточной статистической достоверности.
    По мнению агентства Affde, нормальным значением считается 3000-4000 конверсий на каждый вариант при продолжительности теста 3-4 недели. 

Вы можете многому научиться, сегментируя аудиторию. Наверняка обнаружатся закономерности, которые можно использовать в дальнейшем. Например, больше всего конверсий с мобильного трафика — значит, нужно уделить больше внимания адаптивной верстке для таких устройств. Главное — применять одни и те же статистические правила к меньшим наборам данных. Чем больше выборка, тем достовернее результат. 

Как бороться с непостоянством веб-данных

При проведении A/B-тестов у владельцев сайтов обычно возникает одна и та же проблема: все полученные данные не являются постоянными. На научном языке они называются нестационарными. 

Стационарный временной ряд данных — это тот, который не меняется во времени. 

Данные с сайтов всегда непостоянны. Это означает, что вы не сможете делать те же предположения, что и в случае стабильных данных. 

Несколько возможных причин, по которым результаты А/Б-тестирования на сайте могут изменяться: 

  • сезон;
  • день недели;
  • каникулы, праздничные дни;
  • статьи в прессе о компании — положительные или отрицательные;
  • изменения ставок в рекламе CPC;
  • изменения в SEO, например, новые ключевики;
  • перемены в репутации компании, например, из-за слухов.

Вы можете проверить собственные данные с сайта на подобные на колебания. Создайте индивидуальный отчет в системе аналитики, которую используете, назовите его «Конверсии по дням недели». Это удобно делать, например, в системе сквозной аналитики ROMI center. 

Такая отчетность позволит наглядно увидеть все временные изменения, касающиеся вашего бизнеса. Например, вы выясните, что коэффициент конверсии в субботу намного ниже, чем в четверг. Значит, если вы начнете тест в пятницу и закончите в воскресенье, это исказит результаты. 

То же самое касается сезона. Если вы проводите тест перед Новым Годом, ваш «победитель» может стать абсолютным аутсайдером к февралю. Это снова происходит в силу непостоянства веб-данных. 

На результаты тестов однозначно влияют внешние факторы. Чтобы сгладить последствия, нужно:

  • перепроверять данные, полученные в ходе А/Б-тестирования; 
  • регулярно отслеживать изменения на сайте и выделять закономерности.

Если у вас есть тест, который показывает хороший результат в праздничные дни или в течение рекламных акций, запустите его повторно в «обычное» время. В будущем выбирайте период для проведения тестирования тогда, когда на вашем сайте данные меньше всего колеблются.

Как просчитать гипотезу для А/Б-тестирования

Есть множество инструментов, которые могут помочь просчитать гипотезу для А/Б-тестирования, то есть вариант Б, который вы будете сравнивать с контрольным. Они предлагают разные методики расчетов — от построения интеллект-карт до сервисов опросов. Но не всегда дают полную картину. 

Хорошая гипотеза A/Б-тестирования должна быть четко сформулирована, основана на конкретных данных и тесно связана с вашими KPI. 

Просчет гипотезы по контрольному списку из 5 приоритетов поможет решить, какие идеи проверить в первую очередь. Хотя оценки, которые вы выставляете в каждой категории, субъективны, такой контрольный список позволит сосредоточиться на целевых факторах, а не на поверхностных проблемах.

  • Цель — насколько тесно ваша гипотеза связана с KPI?
  • Предмет — насколько для бизнеса в целом важна страница или функция, которую вы меняете?
  • Положение — увеличатся ли конверсии в результате изменений и насколько это будет заметно?
  • Ценность — повлияет ли изменение на ценность вашего предложения для клиентов или это просто «косметическое» улучшение?
  • Доказательства — есть ли эффективные примеры изменений подобного типа в прошлом?

Каждый приоритет нужно оценить по шкале от 1 до 5, где 1 — очень мало, а 5 — максимум. Общий набранный балл выше 20 указывает, что проверяемая гипотеза имеет хорошие шансы стать статистически значимой после тестирования.

Вот пример таблицы для расчета нескольких гипотез, составленный по 5 приоритетам.

ГипотезаЦельПредметПоложениеЦенностьДоказательстваИтого
Другой заголовок H15554423
Фото продукта в 360°5553119
Расположение кнопок на карточке товара5334318
Новый поисковый алгоритм по сайту5141112

Теперь, после разбора особенностей работы с разными калькуляторами и расчетами при А/Б-тестировании, перечислим несколько общих правил.

Правила работы с А/Б-текстами

Правило возврата

Пересматривайте результаты своих ранних тестов как минимум раз в полгода. Это даст новые идеи и, возможно, подскажет вам, как поменять подход к сплит-тестированию. 

A/B-тестирование обычно длится не день и не два. Каждый тест собирает статистику в течение как минимум нескольких недель. Это дает достаточный размер выборки для получения убедительных результатов.

Пример

Вы запускаете 4 или 5 разных сплит-тестов для кнопки CTA. Только на один этот элемент может потребоваться 2-3 месяца. Затем вы проверяете заголовки, изображения, цветовую палитру и процесс оформления заказа.

Когда вы закончите все эти тесты, может пройти несколько месяцев. Это удачный момент, чтобы вернуться к самому началу и проверить, насколько эффективен ваш призыв к действию. 

Возможно, поздние изменения привели к ухудшению конверсии, так что стоит обдумать их заново. Вероятно, еще и условия изменились — нужно снова возвращаться к тому, как рассчитать размер выборки для А/Б-теста, а также статистическую значимость. Потому что на сайте у вас стало больше посетителей из разных источников или вы вовсе сменили направление деятельности. 

Правило А/А-теста

Ваш A/B-тест поможет проверить нужную гипотезу — это базовый статистический эксперимент. У него существуют свои отклонения. Их можно скорректировать по уровню статистической значимости. Но это не всегда работает, потому что вводит значения и интерпретирует их человек, а не калькулятор. Есть простой способ проверить статическую значимость и быстро обнаружить любые отклонения. Достаточно провести так называемый А/А-тест.

А/А-тест — одновременное тестирование двух одинаковых страниц при заданной выборке аудитории с одними и теми же параметрами. 

Если данные, полученные в результате такого условного сплит-тестирования, похожи — всё в порядке. Если значения отклоняются более чем на 10%, значит, реальное сплит-тестирование проводить рано. 

Нужно еще раз перепроверить исходные условия — трафик, выборку, заданный уровень статистической значимости. И только после того, как разница уменьшится, приступать к основному этапу проверки новых гипотез.

Пример

A/А-тест даст рост конверсии одной из страниц на 15%. Значит, интерпретировать результаты А/Б-теста точно нельзя с высокой достоверностью. Вы будете думать, что повышение CR связано с внесением реальных изменений. А это будет всего лишь ошибка выборки. 

Особенно правило А/А-теста важно, когда вы начинаете тестирование на новой платформе. Например, в системе Яндекс.Директ. Настройте А/А-тест, подождите 3-4 дня и оцените, стоит ли продолжать. 

Правило общего тестирования

Всё, что мы обсуждали до сих пор, связано с вашим сайтом. Но это наверняка не единственная платформа, которую вы используете для получения конверсий. Поэтому недальновидно ограничивать A/B-тестирование только веб-ресурсом. Вы также можете проверить другие свои маркетинговые инструменты. Например, всплывающие окна на сайте или рассылки по электронной почте. 

В них тоже можно протестировать CTA, цвета, изображения, заголовки и текст — самые распространенные элементы. Также тестируйте и другие факторы — время получения рассылки или само письмо. 

Например, используйте A/B-тестирование для проверки, есть ли значительная разница у показателей открытия писем в зависимости от темы. При этом содержание вашего сообщения будет одинаковым. Также можно проверить зависимость количества слов и конверсий. Исследования Boomerang показывают, что электронные письма, содержащие от 50 до 125 слов, имеют самый высокий CR. 

Правило «Не подглядывать», или «No peeking» rule 

При проведении А/Б-тестов часто встречается одна и та же ошибка. Человек начинает проверять статистическую значимость А/Б-теста чуть ли не ежедневно, надеясь завершить его пораньше. Так делать нельзя. Иначе возникнет соблазн закончить эксперимент, когда вы увидите высокие показатели значимости. Но это может случиться до того, как будет достигнут необходимый размер выборки.

Есть правило «Не подглядывать», или «No peeking» rule: положительный результат, полученный на небольшой выборке, наверняка случаен. Он вряд ли указывает на значительный эффект изменения. Из-за ошибки выборки значения статистической значимости могут искажаться. 

Если вы начнете оценивать результаты своих A/Б-тестов до того, как наберется достаточное количество статистики, результаты будут нереалистичными. Доверять им нельзя. 

Пример

В какой-то день вы можете увидеть, что статистическая значимость теста равна 99% и явно указывает на вариант Б. Однако этот всплеск может быть вызван выходом нового сериала, когда множество пользователей гуглили определенную упомянутую там книгу. А вы продаете майки с принтом одноименной группы. Ложноположительный результат за 1-2 дня вообще не стоит принимать в расчет. Последующее тестирование в течение 10-14 дней расширит выборку и даст вам более реалистичные данные.

Чтобы соблюдать правило «Не подглядывать», дождитесь окончания теста. Не проверяйте результаты, пока тест прошел только для малой выборки. Кстати, некоторые комплексные сервисы для проведения А/Б-тестирования уже учитывают этот момент и предоставляют статистику только после определенного количества рабочих дней. 

Другие правила проведения А/Б-теста

Есть еще несколько правил, которым стоит следовать при расчетах независимо от размера вашей выборки и стратегии.

  • Выполняйте А/Б-тестирование последовательно и не тестируйте меньше недели, поскольку продажи в воскресенье вряд ли будут соответствовать продажам в понедельник.
  • Не пользуйтесь калькуляторами, пока не наберется достаточно статистики для анализа и результаты не станут значительными.
  • Не останавливайте тестирование, чтобы изменить его параметры, так как это исказит все данные.

Если у вас нет времени на А/Б-тесты по всем вариантам в ходе конкретной рекламной кампании, можно облегчить себе жизнь. Подключите сквозную аналитику на основе коннекторов — и вы сразу увидите, какие изменения принесли вам больше всего клиентов, а какие — просто слили бюджет. И не только это.

Частые вопросы

Для чего нужно вычислять статистическую значимость А/Б-теста?
Чтобы определить, насколько можно верить результатам, полученным в ходе А/Б-тестирования на калькуляторе или другим способом. Метод основан на математической модели, которая просчитывает релевантность данных. Для расчетов необходимо знать уровень достоверности данных и коэффициент конверсии. Также важно значение уровня повышения, то есть увеличения коэффициента конверсии между версиями А и Б. Еще в расчет принимается параметр P-value — вероятность того, что данные получены случайно.
Для чего применяют калькулятор выборки?
Такие калькуляторы существуют в упрощенном и более продвинутом виде. Версия с расширенными функциями позволяет рассчитать размер выборки, которая понадобится для достижения статистически значимых результатов А/Б-теста. Чтобы пользоваться таким калькулятором, нужно знать уровень достоверности данных, коэффициент конверсии и его ожидаемый прирост, а также статистическую мощность теста — то есть его эффективность. Упрощенная версия сервиса помогает как определить размер выборки для А/Б-теста, так и выполнить расчеты на основе объема целевой аудитории, для которой он предназначен.
Как рассчитать необходимый для А/Б-теста трафик?
Есть модель расчета, которая оценивает трафик на основе общей посещаемости ресурса. При ежемесячном числе посетителей 10 000 и меньше нужен CR больше 25%, до 100 000 — не менее 9%, до 1 млн — достаточно 2-9% в зависимости от точного числа визитов.
Оцените статью:
Средняя оценка: 4.5 Количество оценок: 2029
Куда можно передавать данные
Google Analytics 4

Настройте сквозную аналитику в Google Analytics самостоятельно и без привлечения программиста. Анализируйте эффективность рекламы, подключая Яндекс.Директ, Facebook Ads* и любые другие источники данных.

Подробнее
Яндекс Метрика

Передавайте данные в Яндекс.Метрику и стройте сквозную аналитику, идеально подходящую для проектов с любыми бюджетами. Вам останется выбрать нужный формат данных: стандартные отчеты, дашборды в Looker Studio или отправка в базу данных.

Подробнее
Рекламные площадки

Оптимизируйте рекламу на тех, кто у вас покупает. Настройте передачу данных из CRM в пиксели рекламных площадок без помощи программиста.

Подробнее
Google Looker Studio

Настройте автоматическую передачу данных из популярных рекламных площадок и CRM в Looker Studio. Используйте готовые шаблоны отчетов или создавайте свои.

Скоро!
Google BigQuery

Соберите все маркетинговые данные в Google BigQuery без затрат на разработку. Систематизируйте, объединяйте информацию из разных источников и получайте в отчетах только те данные, в которых вы нуждаетесь.

Скоро!
MySQL

Отправляйте информацию по рекламе и продажам в одну из самых популярных систем управления базами данных. Снижайте время и затраты на организацию подключения к источникам. Сделайте фокус на разработку отчетов и анализ данных.

Скоро!
Telegram-канал для маркетологов

Авторский контент от специалистов по маркетингу ROMI center: реальные кейсы, рабочие стратегии и лайфхаки работы с трафиком

Перейти в канал
Оптимизируйте рекламу по прибыли, а не стройте догадки
Начать бесплатно 14 дней бесплатного тестового периода без привязки банковской карты

Телефон: +7 (495) 445-64-30

E-mail: team@romi.center