Отчеты Яндекс.Метрики по поисковым фразам и насколько они точны

Допустим, вы хотите узнать, как часто из поиска приходят по запросам, включающим ваше название — так называемые витальные запросы. Вы пытаетесь сравнить два годичных периода между собой по этому параметру. Как найти эти данные и насколько можно им доверять?

Если вы хотите пользоваться отчётами Яндекс.Метрики (а заказчикам это самый доступный вид аналитики), то первое, что приходит в голову — это отчёт «Поисковые системы» по сегменту «Последняя поисковая фраза которая содержит *название_бренда* «. И тут мы можем встретить данные, которые сводят на нет нашу попытку выяснить хоть что-то с точностью хотя бы 10%. Мы имеем дело с очень приблизительными данными, которые к тому же разнятся от отчёта к отчёту и даже в разные моменты времени!

Например, иной раз мы видим, что в отчете Яндекс поставил тильду (~70000) — это математический символ, который означает «примерно 70000». А если смотреть отчет по поисковым фразам, то там кардинально другие цифры о проценте фраз с названием бренда из общего количества. Причем каждый раз он дает разные данные. Например, снимали одни и те же данные два раза, и получили:

15,8 % визитов из 64 561
13,3 % визитов из 69 112

Еще как-то раз было ~14% и ~12%. И попадалось также округление ~64000.

В целом, когда вы снимаете данные, вы должны понимать, что Яндекс не берет все данные из хранилищ — это нереально, он не хранит все до цифры. Он вычисляет представленные по запросу данные каждый раз заново. То есть берет референтные значения и экстраполирует их с заданной погрешностью. Цифры в 69112 и 70000 имеют одинаковую точность, поскольку они обе вычисленные и обе с погрешностью. Просто один раз он вычислил до 1, а в другой раз — до 1000, сколько было выделено ресурсов в данный момент времени, он оптимизирует ресурсы при большой нагрузке. Но обе цифры отражают порядок — округленные средние значения, умноженные на округленный коэффициент, и не являются точными. Единицы носят успокоительный для пользователя характер, создают иллюзию точности, но на самом деле вводят в заблуждение.

Кроме того, большая часть поисковых фраз шифруется. Если пользователь в момент поиска был авторизован в системе, то его поисковая фраза шифруется, и мы не знаем, по какому запросу он пришел. Это давно работает у Гугла, особенно для внешних систем аналитики. У Яндекса это правило заработало позже и вводилось постепенно, так что расхождение может быть вызвано тем, что в одном случае он шифровал фразы, а в другом нет, или при работе с отчетом «Поисковые системы», а не «Поисковые фразы» он их мог посчитать в одном году и не посчитать в другом, а в отчете «Поисковые фразы» вообще не считает, т.к. там нужны точные фразы, а не вычисленные по заданным условиям, а его политика предусматривает защиту конфиденциальных данных, к коим он относит поисковые фразы для авторизованных пользователей. Были открытые данные, что Яндексом шифруется 2/3 поисковых фраз, и распределение фраз с запросом *название_бренда* и без него в каждый момент времени неизвестно. Всякий раз говорится о «косвенном определении поисковых фраз» — то есть с определенной степенью вероятности, а по факту с гигантской погрешностью.

Материалов на эту тему в сети очень много, можно убедиться, что проблема существует и хорошо известна практикам, и адекватного решения по выделению этих данных из отчётов так и не предложено.

Реклама
Tagged with: , , , ,
Опубликовано в Статьи
%d такие блоггеры, как: