Отчеты по географии в Яндекс.Метрике — насколько им можно доверять

Вдогонку к предыдущему посту. Такая же засада, которая нас подстерегает при попытке выудить информацию по поисковым фразам, подстерегает и при попытке выудить информацию по городам. Допустим, вы хотите сравнить два годичных периода по распределению регионов. Увы, и здесь все гораздо сложнее, чем это выглядит в интерфейсе Яндекс.Метрики с отчётом по географии.

Во-первых, можно дополнить, что во всех случаях, хоть с информацией по поисковым фразам, хоть с информацией по регионам, с прошествием времени все данные архивируются, сжимаются и по большей части теряются, а восстанавливаются опять-таки по вычислительному методу с большой погрешностью и потерями. Поэтому выяснить что-то до единиц невозможно, а иной раз погрешности совсем большие — до десятков процентов.

Во-вторых, с географией всё ещё хуже. Например, вас интересуют данные по Свердловской области. По факту люди могут ходить с московскими или любыми другими IP-адресами, сидя в Свердловской области, и доля таких людей растет с реогранизацией операторов, покупкой региональных провайдеров и перераспределением диапазонов IP-адресов, переходом их на новые технические решения, маршрутизацию и т.п., а также в связи с ростом мобильного трафика. Это усиливает погрешность, хотя метод определения географии по IP в принципе очень неточный — вы наверняка встречались с сайтами, где ваш город определялся неверно. То есть тут даже тенденции оценивать тяжело без дополнительных исследований — если по отчетам вы видите, что доля интересующего вас региона упала, то все совсем не очевидно. Может, доля упала, а может, и выросла, но ходит по московским или неопределенным IP.

Например, мобильный трафик загружается из прокси, люди ходят через VPN, через браузеры с турбо-режимом, которые тоже работают через прокси, и так далее. Учитывая, что маркетингом и им же в интернете в компаниях часто занимаются люди без технического образования, им можно только посочувствовать. Или посоветовать не гнаться за излишней точностью. Гораздо важнее, чем отчёты, реальные действия, в силу которых ваш посетитель от вас не уйдёт, а придёт и купит у вас что-либо, и неважно, какой у него IP и какой он сделал запрос.

А какие именно действия, расскажем в следующих посланиях.

Отчеты Яндекс.Метрики по поисковым фразам и насколько они точны

Допустим, вы хотите узнать, как часто из поиска приходят по запросам, включающим ваше название — так называемые витальные запросы. Вы пытаетесь сравнить два годичных периода между собой по этому параметру. Как найти эти данные и насколько можно им доверять?

Если вы хотите пользоваться отчётами Яндекс.Метрики (а заказчикам это самый доступный вид аналитики), то первое, что приходит в голову — это отчёт «Поисковые системы» по сегменту «Последняя поисковая фраза которая содержит *название_бренда* «. И тут мы можем встретить данные, которые сводят на нет нашу попытку выяснить хоть что-то с точностью хотя бы 10%. Мы имеем дело с очень приблизительными данными, которые к тому же разнятся от отчёта к отчёту и даже в разные моменты времени!

Например, иной раз мы видим, что в отчете Яндекс поставил тильду (~70000) — это математический символ, который означает «примерно 70000». А если смотреть отчет по поисковым фразам, то там кардинально другие цифры о проценте фраз с названием бренда из общего количества. Причем каждый раз он дает разные данные. Например, снимали одни и те же данные два раза, и получили:

15,8 % визитов из 64 561
13,3 % визитов из 69 112

Еще как-то раз было ~14% и ~12%. И попадалось также округление ~64000.

В целом, когда вы снимаете данные, вы должны понимать, что Яндекс не берет все данные из хранилищ — это нереально, он не хранит все до цифры. Он вычисляет представленные по запросу данные каждый раз заново. То есть берет референтные значения и экстраполирует их с заданной погрешностью. Цифры в 69112 и 70000 имеют одинаковую точность, поскольку они обе вычисленные и обе с погрешностью. Просто один раз он вычислил до 1, а в другой раз — до 1000, сколько было выделено ресурсов в данный момент времени, он оптимизирует ресурсы при большой нагрузке. Но обе цифры отражают порядок — округленные средние значения, умноженные на округленный коэффициент, и не являются точными. Единицы носят успокоительный для пользователя характер, создают иллюзию точности, но на самом деле вводят в заблуждение.

Кроме того, большая часть поисковых фраз шифруется. Если пользователь в момент поиска был авторизован в системе, то его поисковая фраза шифруется, и мы не знаем, по какому запросу он пришел. Это давно работает у Гугла, особенно для внешних систем аналитики. У Яндекса это правило заработало позже и вводилось постепенно, так что расхождение может быть вызвано тем, что в одном случае он шифровал фразы, а в другом нет, или при работе с отчетом «Поисковые системы», а не «Поисковые фразы» он их мог посчитать в одном году и не посчитать в другом, а в отчете «Поисковые фразы» вообще не считает, т.к. там нужны точные фразы, а не вычисленные по заданным условиям, а его политика предусматривает защиту конфиденциальных данных, к коим он относит поисковые фразы для авторизованных пользователей. Были открытые данные, что Яндексом шифруется 2/3 поисковых фраз, и распределение фраз с запросом *название_бренда* и без него в каждый момент времени неизвестно. Всякий раз говорится о «косвенном определении поисковых фраз» — то есть с определенной степенью вероятности, а по факту с гигантской погрешностью.

Материалов на эту тему в сети очень много, можно убедиться, что проблема существует и хорошо известна практикам, и адекватного решения по выделению этих данных из отчётов так и не предложено.