Построение процесса тестирования гипотез на примере крупного банка

Содержание статьи

1 Руководитель отдела аналитических исследований в AIC Виталий Черемисинов поделился советами, как построить процесс тестирования гипотез. Иллюстрируется это рассказом о проекте: обучение команды крупного банка процессам тестирования гипотез. Интервью в рамках проекта Нормально делай, нормально будет

Руководитель отдела аналитических исследований в AIC Виталий Черемисинов поделился советами, как построить процесс тестирования гипотез. Иллюстрируется это рассказом о проекте: обучение команды крупного банка процессам тестирования гипотез.
Интервью в рамках проекта Нормально делай, нормально будет

Начало: пилотный проект

В большом продукте нередко сложно перейти к принятию data-driven решений на уровне менеджмента. Особенно — если это организационно сложный продукт — например, банк.

Какие проблемы есть у среднестатистического менеджера в консервативной организации? Собственные амбиции, желание до последнего убеждать окружающих в собственной экспертизе и отказываться ставить ее под сомнение.

Чтобы показать компании, что от новых процессов будет ощутимая польза для продукта, AIC договаривается о запуске пилотных экспериментов.

В крупном банке, о котором идет речь, первой задачей было организовать серию лекционных мероприятий и воркшопов. На них мы на примерах демонстрировали ключевым стейкхолдерам необходимость проведения корректных вычислений. В редком эксперименте достаточно посчитать и сравнить два средних значения — нужно использовать подходящий математический аппарат.

Совет аналитикам: начинайте с малого

Начните с простой воронки. Например, для банка — воронка от заинтересованности клиента до заявки. Затем разделите пользователей на простые когорты — и уже можно найти самые очевидные точки роста. Дополнительно можно привести Custdev, сформировать перечень гипотез и протестировать что-то минимальными усилиями, не привлекая разработку.

Проблема многих компаний в том, что бэклог всегда занят доработками и исправлением ошибок. Для гипотез не остается времени. Здесь могут помочь сервисы, которые позволяют быстро делать простейшие эксперименты. Например, Google Tag Manager позволит разделять потоки данных трафика для A/B теста. Начиная с малого, можно постепенно привести руководство и команду к пониманию ценности работы с данными.

Если начать с долгостроя, ты можешь просто не дожить до его окончания в компании. Либо с тобой попрощаются, либо ты просто устанешь от этой рутины. Поэтому самый лучший сценарий — начать с малого.

Первые гипотезы: проверяем чувствительность метрик

Вместе с командой продукта наша команда аналитиков AIC составила перечень гипотез и запустили несколько небольших экспериментов.

Целью экспериментов было не увеличить конверсию, а дать попробовать команде сам процесс, и показать, что он практически не затрагивает внутренние ресурсы. Эксперименты разрабатывались, запускались и анализировались силами самой аналитической команды.

Одновременно выяснялось, какие изменения могут «пошатнуть» определенную метрику: как влияет изменение текста, изображения, маленькое добавление функциональности. Это подсказывает, в каком векторе нужно двигаться для более глобальных изменений.

Примеры первых экспериментов, которые мы запускали в банке:

Изменение в отображении карточных продуктов

На карточках в списке были описаны характеристики каждого продукта. В эксперименте для каждого продукта в явной форме добавили плюсы и бонусы каждой карты: например, конкретный кэшбэк. Ожидали повышения CTR, то есть отношения количества кликнувших на продукт к просматривавшим список.

Добавление в превью продукта количества просмотров продукта

По аналогии с сайтом booking.com мы предположили, что отображенное количество просмотров побудит пользователей к выбору. Этим экспериментов мы должны были ответить на вопрос, существуют ли для пользователей иные факторы, влияющие на выбор продукта, кроме характеристик самого продукта.

В эксперименте наблюдали комплекс из микрометрик:

время от захода на список (сколько прошло времени от попадания на список до клика на карточку с продуктом)
CTR превью продукта
количество попыток отправить заявку на продукт
время, проведённое на странице со списком продуктов и количество просмотренных продуктов

Совет аналитикам: проверяйте чувствительность метрик

Последняя микрометрика отвечала на вопрос: «Пользователь сразу принял решение, что ему этот продукт нужен, или продолжал смотреть другие?»

Подобные эксперименты вряд ли могут значительно изменить макрометрики (количество оформленных заявок, выданных кредитов или заказов в интернет-магазине). Однако с помощью микрометрик можно понять, что влияет на пользовательское поведение, и дальше развивать это направление.

Проведение экспериментов

Для каждого эксперимента готовятся два варианта страницы: текущий и с изменениями (для эксперимента). Затем запускается А/Б тест и собирается необходимое количество данных.

Приоритет метрик определяют заранее, чтобы принять решение даже в неочевидных случаях, когда одна важная метрика упала, а другая пошла вверх.

Например, в случае второй гипотезы (добавление количества просмотров продукта на превью) был видно влияние на микрометрики: стали быстрее переходить на популярный продукт, стали чаще переходит от списка к продукту. Значит, другие факторы (популярность продукта) тоже важны.

Выводы этого эксперимента можно использовать и по-другому: например, добавить визуальные триггеры или уведомления для повышения интереса пользователя к продукту.

После того, как мы провели такую презентацию своих возможностей, мы смогли убедить коллег в том, что это действительно может быть полезно бизнесу.

Если данные не помогают убедить

Многое зависит от коммуникационных навыков человека, который презентует результаты пилота. Стоит развиваться в области выступлений и учиться подбирать максимально наглядные эксперименты для примера. Но иногда действительно сложно договориться с менеджментом.

Когда я только-только начинал работать аналитиком, у меня было чёткое убеждение, что с цифрами не спорят. На самом деле спорят, и ещё как! К сожалению, у меня нет универсального решения. Только объяснять, доказывать, пересчитывать, показывать риски, что вы потеряете, если вы это не внедрите.

Запуск проекта

После успешного пилота в банке клиента начался полномасштабный проект по обучению команды и построению процессов. Это может происходить несколько лет, пока растет экспертиза и навыки продуктовой команды.

Сбор данных

Для принятия информированных решений необходимо обеспечить себя набором данных. Как правило, вся нужная информация хранится в разных источниках: внутренних базах данных, разных контурах.

На разных проектах получается работать с различными средами анализа данных. Как правило, к источникам данных подключаются по API через R и сводят это в одной среде.

С каких инструментов начинать

Начинать строить продуктовую аналитику самостоятельно лучше с максимально доступных и распространенных инструментов, которые хорошо задокументированы и имеют клиентскую поддержку, например Google Analytics и Google Optimize.

Сбор данных будет происходить в Analytics, а запуск экспериментов — в Optimize. Для более серьезного анализа можно использовать API для обращения к данным через R или Python, выгрузить и обработать математическими методами. Для большинства продуктов этого вполне достаточно.

Безусловно, можно строить свои кластеры, выделять отдельные сервера. Однако это нужно не каждому продукту, а хранение данных в облаке (Amazon, Google) может быть значительно дешевле с точки зрения поддержки инфраструктуры. Кластеры скорее нужны тем, кто переживает за сохранность своих данных — например, банкам.

Генерация гипотез

Для генерации гипотез полезно ознакомиться с бенчмаркингами поведения пользователей в какой-то области. Наша компетенция в знании поведения пользователей банков помогло предположить, где кроются точки роста. При этом всегда могут присутствовать аномалии в отдельных сегментах, так что все нужно тестировать.

В проекте, о котором идет речь, изучалась воронка с отложенным спросом на различных сегментах пользователей. Тут полезно знать, на протяжении какого периода пользователи обычно принимают решение по заполнению заявки. Если нормальным поведением для отрасли является три дня, тогда уход пользователя без завершения заявки в самую первую сессию — это норма, и вряд ли это связано с неудобством интерфейса.

Например, пользователь заходит на первый шаг анкеты, начинает вводить паспортные данные, а затем уходит. Это не означает, что паспортные данные ему вводить неудобно, возможно у него нет с собой паспорта.

Где хранить гипотезы

Все гипотезы заносятся в обычный Google Doc. Потом они приоризитируются и переносятся в TeamGantt, где из них делается что-то вроде роудмапа. В нем показывается зависимость гипотез друг от друга как просто по времени, так и по результатам: какие-то гипотезы могут быть похожими, и если одна из них не сработала, то и другую тестировать меньше смысла. Этот файл постоянно обновляется и является важным для команды документом.

Приоритизиация гипотез

Обычно приоритет гипотез включает в себя несколько критериев. Два ключевых:

Сложность технической реализации. Не всегда маленькую гипотезу легко сделать: может не хватать данных или нужно сочетание нескольких условий.
Емкость трафика. Гипотезы могут касаться разных частей воронки, и где-то данных достаточно для быстрого эксперимента, где-то их меньше. Тесты желательно выпускать как можно чаще, поэтому чем меньше данных, тем хуже для процесса.

Как быть, если к концу воронки доходит очень мало данных

Нередко продуктовые команды не запускают A/B тесты в сегментах с небольшим количеством траффика (очень узких, или когда речь идет о конце воронки, куда доходит очень маленькое количество лидов). В некоторых случаях можно воспользоваться методом ресемплинга, чтобы работать с этими данными — если дисперсия внутри группы не очень большая.

Подсчеты A/B тестов

Подход к подсчету зависит и от количества групп A/B/C/D в тесте, и от самой анализируемой метрики, и от формы распределения данных.

Например, при тестировании фичи в ecommerce анализируемая метрика — выручка на пользователя. Распределение будет сильно скошено влево, дальше — длинный хвост. Модой будут являться самые часто встречающиеся значения — например, 1500 рублей. Дальше будет хвост, который может доходить до 1,5 млн — в такой ситуации среднее или медиану будет брать некорректно.

Исходя из распределения, важно подобрать правильный критерий, чтобы полученный результат был корректным, и его можно было правильно интерпретировать с точки зрения бизнеса.

Совет аналитикам: не принимайте решение эмоционально

В одном продукте команда аналитиков самостоятельно запустила A/B тест для нового дизайна сайта. Новая версия отличалась по дизайну, много функционала было изменено, а также было некоторое количество технических ошибок, которые исправлялись по мере нахождения.

В течение первых пяти дней вариант с новым дизайном давал такие низкие метрики, что эксперимент завершили раньше срока, а работу над новым дизайном прекратили. Мы решили пересчитать результаты эксперимента, чтобы понять, было ли это решение обоснованным.

Обнаружилось, что если разложить данные по временному ряду и корректно обработать, то в начале новый дизайн давал низкие показатели, но они росли с каждым днем. Большой процент лояльных пользователей действительно сначала был смущен новым дизайном, но ситуация исправлялась.

В этой ситуации стоило не прекращать эксперимент, а снизить долю пользователей, которые попали на новый вариант дизайна, чтобы избежать сильного понижения ключевых показателей, и подождать еще. Такие ситуации, когда не дожидаются итогового результата и принимают опрометчивое и эмоциональное решение, опасны для продукта.

Мне кажется, это даже бо́льшая проблема, чем вообще не верить данным — слепое доверие первому же сигналу без уверенности: случайность это или тенденция.

Именно поэтому в AIC такое большое внимание уделяется работе с изучением данных: что за данные, как они описаны, как они характеризуются. Уже под это подбираются релевантные критерии, которыми можно лучше всего описать эксперимент. Большая часть этой работы — математика и статистика, с добавлением экспертизы в области.

***

Интервью целиком доступно по ссылке.

Подписывайтесь на телеграм-канал «Нормально делай, нормально будет», чтобы читать самые интересные кейсы по созданию и продвижению digital-продуктов и задавать вопросы экспертам — гостям передачи.

Статья была опубликована на vc.ru.