Прогнозирвоание выхода запроса в топ: просто и эффективно (исследование корреляции)

Автор: Андрей Буйлов, агентство «Муравейник»

Существует проблема с оперативной фильтрацией семантики и недостаточной скоростью получения первых результатов. Так как мы занимаемся клиентским SEO, понятно, что клиенты хотят увидеть результаты как можно быстрее (уже в конце первого месяца). Добились мы этого, используя приоритезацию запросов.

Выявляя те запросы, которые имеют шанс поскорее выстрелить, и беря их в работу в первый же месяц, мы ощутимо ускоряем достижение первых результатов.

На входе у нас был ворох гипотез о том, какие же факторы особенно сильно влияют на вероятность выхода запроса в топ. В результате долгих обсуждений сформировалась одна, которую мы проверили опытным путем.

Взяли 120 000 грязных запросов, которые напарсили с баз поисковых слов (Serpstat, SpyWords и т.д.), и к ним применили алгоритм определения индекса эффективности запроса (KEI).

Что обычно учитывается в KEI:

Количество документов в ПС Яндекс
Количество главных страниц в ПС Яндекс
Количество вхождений в заголовки в ПС Яндекс
Ссылки
тИЦ
возраст

Для проверки был написан скрипт: на вход подается список запросов, регион, глубина парсинга и список похожих/непохожих сайтов (можно подать прямо списком, а можно оценить внутри инструмента). Можно также подать произвольные параметры конкурентов (возраст, кол-во документов в индексе и т.д.). На выходе мы получаем рейтинг похожести топа, позволяющий понять, насколько много в топе похожих сайтов, и медианное значение произвольных параметров по топам.

Для проверки гипотезы мы тестировали множество корреляций. В результате одинаково хорошо себя показали следующие корреляции:

с текущей позицией (по каким запросам тот или иной сайт в топе)
с ростом позиций (берем позиции, например, год назад, и сравниваем с тем, что есть сейчас, выявляя запросы, которые выросли, и за счет каких факторов)

Какие запросы брать (варианты):

Все
Только оцененные вручную
Только в топе

В этом эксперименте мы брали только оцененные вручную запросы и считали корреляцию с текущей позицией. В итоге мы оценили:

Количество документов в ПС Яндекс [KEI]
Sumantra Roy KEI
Количество главных страниц в ПС Яндекс [KEI]
Ссылающиеся домены по LinkPad
Бэклинки по MI
Количество вхождений в заголовки в ПС Яндекс [KEI]
Возраст конкурентов
тИЦ конкурентов
тИЦ по похожим конкурентам
Majestic CF
Количество страниц в индексе Яндекса у конкурентов
Траф с органики по MI (похожие)
Рейтинг Alexa
Похожесть

Количество документов в ПС Яндекс [KEI]

Это довольно интересный показатель, связанный с Sumantra Roy индексом (раньше бытовало мнение, что полезность запроса и вероятность его выхода в топ прямо пропорциональна частоте этого запроса, и обратно пропорциональна количеству конкурирующих документов. Когда-то это было справедливо, но на сегодняшний день в Яндексе реально оценить конкурентов по этому фактору не представляется возможным). Мы здесь получили обратную корреляцию: +10%. Получилось, что чем больше конкурирующих документов – тем лучше для нас, что, конечно же, является полным бредом. Вывод – этот пункт использовать для оценки запроса нельзя.

2. Sumantra Roy KEI

Впрочем, как и саму формулу Sumantra Roy (которую по умолчанию используют многие, и которая, по умолчанию же, вбита в KeyKollector). Средняя корреляция здесь была на уровне 0%, что позволяет сделать вывод, что формула не работает и ее нужно менять.

3. Количество главных страниц в Яндексе [KEI]

Мы видим, что чем меньше главных страниц в топе, тем позиция хуже, и чем их больше – тем позиции выше. Что тоже противоречит многим формулам, использующимся некоторыми компаниями по продвижению.

Средняя корреляция: +11%. Выходит, что чем больше морд в топе, тем для нас лучше?

По факту получается, что этот параметр больше коррелирует с коммерческостью запроса. Т.е. чем более коммерческий запрос, тем больше вероятность того, что там будут выходить топы, и если мы продвигаем коммерческий сайт, то нам легче его продвинуть по коммерческому запросу, чем по некоммерческому.

Вывод – этот фактор также совершенно бесполезен, поэтому его лучше отбросить.

Ссылающиеся домены по LinkPad

Средняя корреляция: -5%. То есть, чем больше ссылок на конкурентов, тем хуже для нас. Вроде бы все логично, однако, корреляция очень слабая, поэтому от этого фактора не стоит многого ожидать.

Бэклинки по MI

Что касается бэклинков по Мегаиндексу, то здесь абсолютно та же история, что и выше. Средняя корреляция: — 4%. Она есть, но очень слабо выражена.

Количество вхождений в заголовки в ПС Яндекс [KEI]

Средняя корреляция: -6%. Чем больше вхождений в заголовки страниц конкурентов, тем хуже для нас. Корреляция есть, но слабая.

Возраст конкурентов

Средняя корреляция: -11%. Чем больше возраст конкурентов, тем хуже для нас. Вывод: можно использовать.

тИЦ конкурентов

Средняя корреляция: -5%. Чем больше ТИЦ конкурентов, тем хуже для нас. Корреляция слабая, фактор лучше не использовать.

тИЦ по похожим конкурентам

Когда мы оценили тИЦ сайтов конкурентов, похожих на наш сайт, то результат оказался в 3 раза лучше -15%. Чем больше ТИЦ у похожих сайтов конкурентов, тем хуже для нас. Вывод: метрику можно использовать.

Majestic CF

Средняя корреляция: -14%. У всех сайтов она была отрицательной (корреляция срабатывает без исключений). Чем больше Citation Flow у сайтов конкурентов, тем хуже для нас. Вывод: можно использовать.

Количество страниц в индексе Яндекса у конкурентов

Для любого коммерческого сайта важно, насколько его ассортимент отличается от ассортимента его конкурентов в нише. Этот параметр показал среднюю корреляцию: -14%. У всех сайтов была отрицательная зависимость. Чем больше страниц в индексе конкурентов, тем хуже для нас. Вывод: можно использовать.

Траф с органики по MI (похожие)

Анализ трафика с органики по Мегаиндексу по похожим на нас сайтам конкурентов показал среднюю корреляцию -11%. У всех сайтов отрицательная зависимость. Чем больше трафик с органики в индексе похожих на нас конкурентов, тем хуже для нас.

Вывод: нужно использовать.

Рейтинг Alexa

Средняя корреляция: -12%. У всех сайтов отрицательная. Чем лучше рейтинг Alexa конкурентов, тем хуже для нас. Вывод: можно использовать

Похожесть

Похожесть и непохожесть сайтов вообще мало кто использует в своей оценке запросов.

Это график зависимости числа похожих документов в топ-20 и позиций:

Чем больше похожих сайтов в топе, тем лучше для нас. Средняя корреляция: +25%. У всех сайтов положительная. Вывод: нужно использовать.

Практически то же самое и по непохожим сайтам:

Чем больше непохожих сайтов в топе, тем хуже для нас. Средняя корреляция: -17%. У всех сайтов отрицательная. Вывод: можно использовать.

Итого у нас получилась следующая таблица факторов для оценки выхода запросов в топ:

красные – не нужно использовать
желтые – можно использовать, а можно и обойтись
зеленые – рекомендуются к использованию

Количество документов в ПС Яндекс [KEI]

2. Sumantra Roy KEI

3. Количество главных страниц в Яндексе [KEI]

Ссылающиеся домены по LinkPad

Бэклинки по MI

Количество вхождений в заголовки в ПС Яндекс [KEI]

Возраст конкурентов

тИЦ конкурентов

тИЦ по похожим конкурентам

Majestic CF

Количество страниц в индексе Яндекса у конкурентов

Траф с органики по MI (похожие)

Рейтинг Alexa

Похожесть

Другие посты по теме: