Аналитика самообслуживания (self-service аналитика)
В КОМПАНИЯХ МНОГО ДАННЫХ, НО МАЛО ИНСАЙТОВ
90%
времени

Аналитики тратят на поиск, сбор и подготовку данных

10%
времени

Аналитики тратят на ответы на реальные вопросы, которые помогают бизнесу принимать решения

ИНЖЕНЕРНАЯ СЛОЖНОСТЬ BI-РЕШЕНИЙ ОГРАНИЧИВАЕТ ДОСТУПНОСТЬ ДАННЫХ
Данные в сложных BI-системах доступны только «элите»: аналитикам и data-scientist'ам.
И не доступны людям, которые должны принимать бизнес-решения на основе данных: продакт-менеджерам, маркетологам, финансистам итп.

Зачастую люди, принимающие конкретные проектные решения, не знают, какие данные доступны в принципе и поэтому принимают бизнес-решения интуитивно, не задавая вопросов по данным.
ЗАДАЧА АНАЛИТИКОВ
Подготовка отчетов по запросу бизнеса
БИЗНЕС-ИНСАЙТ НЕЛЬЗЯ СОЗДАТЬ ПО ЗАКАЗУ

Но можно создать среду, внутри которой возникают бизнес-инсайты.


Этого можно достичь, если бизнес-пользователи могут самостоятельно работать с полными данными, а не только с подготовленными дашбордами.

ИНСТУМЕНТЫ
Компоненты self-service аналитики
1 / ПИРАМИДА МЕТРИК
Определение Пирамиды или Иерархии метрик — это первый этап работы над выстраиванием аналитики в компании.

Пирамида метрик помогает выявить ключевые метрики бизнеса, их взаимосвязи, а также оценить достаточность данных для расчета метрик.
ИЕРАРХИЯ МЕТРИК
Иерархия Метрик – это другое представление Пирамиды, позволяет найти зависимости между метриками и оценить, как метрики каждого из процессов влияют на конечную цель.
Ценность пирамиды метрик для бизнеса
Сотрудники каждого департамента понимают:
  • За какие метрики/KPI несет ответственность их департамент
  • Как эти метрики связаны с общей целью бизнеса
2 / СБОР ВСЕХ ДАННЫХ В АНАЛИТИЧЕСКОМ СЛОЕ

Мы любим использовать облачные сервисы (BigQuery или Athena) в качестве DWH.


Собираем две основные бизнес-сущности: ПОЛЬЗОВАТЕЛЬ и СОБЫТИЯ.


При необходимости построения сквозной аналитики, собираем сущность MARKETING PAYBACK, используя готовые модели атрибуции (библиотека может расширяться).


Поверх сущностей ПОЛЬЗОВАТЕЛЬ и СОБЫТИЯ могут работать готовые ML-модели, которые предсказывают отток, LTV, фрод и тп. Библиотека моделей расширяется.


В ходе работы над проектом мы описываем данные в дата-каталоге и делаем описание доступным для бизнес-пользователей.

Библиотека может расширяться
ДОСТУПНЫЕ МОДЕЛИ АТРИБУЦИИ
Liner
Time Decay
Position Based
First interaction
Last non-direct click
ИСПОЛЬЗОВАНИЕ АНАЛИТИЧЕСКОГО СЛОЯ И ПИРАМИДЫ МЕТРИК
После того как данные подготовлены к использованию в аналитическом слое, мы открываем их в BI-инструменте (мы используем Metabase).

Сами метрики мы также заносим в Metabase.

После этого любой сотрудник компании может визуализировать любую метрику в один клик, без необходимости писать сложные SQL-запросы.
Любой сотрудник сможет в несколько кликов самостоятельно построить нужный ему отчет или даже целый дашборд, не опасаясь того, что он неправильно рассчитывает какую-то метрику (например, “новый пользователь” или “пользователь в оттоке”)

Если бизнес примет решение изменить логику расчета какой-то метрики, ее нужно будет изменить только в одном месте в BI-инструменте, и все отчеты с этой метрикой пересчитаются автоматически.
Любой сотрудник сможет работать с данными в визуальном интерфейсе, напоминающем Excel:

  • Фильтровать данные
  • Группировать по различным признакам
  • Строить сводные таблицы
  • Выбирать подходящий способ визуализации данных
Такой подход позволяет демократизировать доступ к данным, а это важно потому что ...
ИНСТУМЕНТЫ
ML-модели
Библиотека может расширяться
ДОСТУПНЫЕ ML-МОДЕЛИ
1
Предсказание LTV
2
Динамическое ценообразование
3
Предсказание фрода
4
Предсказание типовых действий
5
Продуктовые и контентные рекомендации
6
Скоринг клиентов
7
Предсказание оттока
8
Сегментация клиентов
C помощью алгоритмов машинного обучения
Мы умеем выделять факторы, которые сильнее всего влияют на продажи
Моделировать их и собирать предсказательную модель, которая учитывает эти факторы.
Пример отчета, в котором модель машинного обучения натренирована на профилях пользователей, которые совершили покупку или ушли с сервиса.
ML-модель нашла факторы, влияющие на отток или покупку, приоритизировать их и оценила степень их влияния.
ИНСТУМЕНТЫ
Техника и роадмап
  • Google BigQuery
    Облачное решение от Google
    для DWH. Нет ограничений по дисковому пространству, поэтому можно подключить любое количество источников и залить любое количество «сырых» данных.

    В распоряжении аналитиков мощности большого количества серверов Google, поэтому на DWH можно выполнить запрос любой сложности.

    Относительная дешевизна решения: стоимость обработки 5 $ за 1Тб, что позволяет держать чек за DWH в районе $ 100-$ 300 в месяц и не требует дополнительных затрат на железо и системное администрирование.
  • Prefect
    Opensource-инструмент для оркестрирования ETL-запросов.

    Позволяет аккуратно организовать процессы извлечения сырых данных из источников и их загрузку в DWH (EL).

    На основе сырых данных позволяет организовать трансформацию (Т) данных, сбор аналитических сущностей и оптимизированных таблиц под конкретные бизнес-отчеты.
  • Metabase
    Opensource-инструмент для визуализации данных.

    Ситема визуализации данных с очень низким порогом входа (сложность построения репорта сравнима со сложностью построения сводной таблицы в Excel)

    Позволяет получать бизнес-отчеты по подготовленным данным за пару кликов, как в Excel

    Позволяет вести дата-каталог: детальное описание таблиц и полей данных, которые находятся в DWH.
Концептуальное проектирование
РОАДМАП

Аудит данных

1 неделя
Мы проводим аудит имеющихся данных, в ходе которого понимаем текущую архитектуру данных, состояние as is и формулируем целевое состояние системы и ключевые запросы бизнеса

Интервью и воркшоп с бизнес-пользователями про основные KPI и атрибуты пользователя

1 неделя
Мы проводим серию интервью с бизнес-пользователями и командами о потребностях в данных. Как данные используются при принятии решений? Какие KPI имеют разные отделы и как они связаны с общей целью компании?

Проектирование системы метрик и атрибутов пользователей

1 неделя
Мы перечисляем все метрики и атрибуты пользователей, которые нужны разным подразделениям компании, и связи между ними. Документ дает всем бизнес-пользователям обзор, какие метрики влияют на цель компании, а также является ТЗ для следующих этапов внедрения

В результате этапа мы определяем цель и строим иерархию метрик, которые на нее влияют.
Метрики, которые напрямую влияют на цель – это хорошие кандидаты для верхнеуровневых дашбордов.

Также в ходе этапа мы понимаем доступность и достаточность данных.

После командного воркшопа в конце этапа, мы получаем шортлист ключевых активностей для команды аналитиков: например, может выясниться, что нужно добавить дополнительный трекинг для построения некоторых метрик, или можем перейти к проектированию DWH.
Дата-инженерия
РОАДМАП

Репликация данных из внешних источников в DWH

1 неделя на 1 источник данных
Мы разворачиваем инфраструктуру DWH и забираем в DWH данные из внешних источников.

Проектирование аналитического слоя и аналитических таблиц

2-6 недель
Мы проектируем сущности USER и EVENTS, а также расчитываем сущность MARKETING PAYBACK для маркетинговых отчетов. А также проектируем дополнительные необходимые таблицы в аналитическом слое под бизнес-задачи

Добавление метрик из Пирамиды Метрик в BI

1-2 часа на метрику
Унифицируем правила расчета метрик и добавляем их в BI-инструмент, чтобы они были доступны всем пользователям
В результате этапа все данные, необходимые для построения метрик, входящих в пирамиду метрик, оказываются доступными в DWH и в инструменте по визуализации данных.
Построение дашбордов по «аналитическому слою» — супер-быстрое и простое, занимает несколько минут на один вопрос, не требует SQL и доступно бизнес-пользователям.
Доступная аналитика
РОАДМАП

Описание данных в дата-каталоге

1-2 часа на таблицу 
Мы описываем все данные, доступные в нашем аналитическом слое, чтобы бизнес-пользователи понимали значение таблиц и полей и могли работать с данными независимо

Обучение бизнес-пользователей

1-2 недели
Мы проводим вебинары и записываем скринкасты, в ходе которых бизнес-пользователи понимают, как они самостоятельно могут получить нужные им метрики в нужных разрезах.
В результате бизнес-пользователи могут найти ответы на 70% типичных бизнес-вопросов самостоятельно, без аналитиков.
Предсказательные модели под задачи клиента
РОАДМАП

Обучение черновой ML-модели

1-2 недели
Мы строим черновую ML-модель по собранным данным, которая решает заданную задачу, но может быть неоптимальна с точки зрения метрик

Запуск, тестирование и доработка для достижения KPI

2-4 недели
После того, как базовые метрики качества модели собраны, мы проводим несколько итераций улучшения качества и выкладываем модель в бой