21.11.2009 15:19Снежинск – значимые параметры ранжирования.

Не забывай подписываться на RSS – впереди много интересного – не пропусти!
Или подпишись на обновления по е-mail!
Введи e-mail:

Реклама: Надоело продвигать за копейки? Займись дорвеестроительством: марафон начинающего дорвейщика

Как всем уже известно, Яндекс ввел новый алгоритм под кодовым названием Снежинск. Был я проездом в этом городке, у меня даже машина в нем сломалась :) Но это лирика.

Что же мы видим на самом деле? Как заявляет Яндекс, введен кардинально новый алгоритм MatrixNet, особенностью которого является выбор решения на каждом шаге. Знающие люди говорят, что алгоритм очень быстрый, поэтому Яндексу удалось учесть в расчете релевантности более 1000 факторов. Для тех, кто реально понимает в математике, даю ссылку на русскоязычный текст описания алгоритма: http://www.buyfish.ru/articles/69/

Для тех, кто не хочет разбираться, можно выделить три ключевых момента:

  1. Основой расчета релевантности является обучающая выборка оценок экспертов.
  2. Формула расчета древовидная.
  3. Учитывается огромное количество параметров.

Давайте остановимся на каждом моменте более подробно.

Обучающая выборка. Суть в том, что в северо-западном округе страны находится центр, где работаю асессоры, люди, которые являются экспертами в той или иной области. Именно они оценивают результаты выдачи, то есть релевантен ли документ, найденный Яндексом, запросу. На основе их оценок составляется обучающая выборка сайтов, которые структуризируются по факторам. В итоге получаем список параметров (из пункта 3) который, по сути, является эталонным. Качество поиска, кстати, тоже оценивается, как именно – рассказано И. Кураленком в документе Официальные метрики РОМИП. Этот документ без проблем найти в сети.

Но что нам это дает? А это нам дает возможность поглядеть “чего и сколько надо подкрутить”, для того чтобы оказаться в ТОПе по поисковому запросу. Правды ради, надо отметить, что далеко не все параметры можно подкрутить, пример тому возраст сайта, или возраст ссылок. То есть процесс попадания в топ стал сложнее, но интереснее. В Снежинске, как и в более ранних алгоритмах действует простое правило продвиженца: “если не знаешь как, то подгляди у конкурентов”. Именно этим я и предлагаю заняться. Так как в топе, по большинству запросов находятся максимально релевантные документы по мнению Яндекса. Но не спешите лезть в выдачу, давайте пока обсудим ключевой момент 2.

Древовидная формула расчета. Простым языком теперь формула расчета не линейная, расчет каждого параметра может повлиять на вид формулы, по которой буду рассчитываться следующие параметры, участвующие в формуле.

Давайте приведем примеры. Одним из параметров может быть количество слов в запросе. В итоге, если запрос состоит из одного слова, то последующая формула расчета будет одной, если запрос двухсловный, то формула будет другой, если запрос состоит из трех слов, то формула будет третьей и т.п. Вот еще пример: если запрос региональный, то рассчитывается релевантность по одной формуле, если запрос не региональный, то по другой. Последний пример: мы знаем, что запросы классифицируются как транзакционные, информационные и навигационные, так вот в алгоритме Снежинск для каждого типа запросов скорее всего своя формула релевантности. Переходим к самому интересному – сами факторы, влияющие на релевантность.

Факторы, влияющие на релевантность. Ключевым вопросом данного момента является то, с чего начинается расчет. Это очень важно, т.к. первый фактор, который определяет дальнейшую формулу имеет наибольший приоритет. Второй фактор будет иметь несколько меньший приоритет. В итоге получаем дерево параметров, в корне которого стоит наиболее приоритетный фактор. На мой взгляд, первым фактором должен являться типа запроса, на втором месте будет стоять региональность, а далее начинаются варианты.

Давайте попробуем написать хотя бы несколько параметров, которые могут учитываться при расчете релевантности документа запросу. Это может быть:

  • Тип запроса
  • Региональность сайта
  • Возраст домена
  • Возраст документа
  • Дата последнего обновления сайта
  • Количество страниц на сайте (размер сайта)
  • Возраст ссылок, которые ведут на сайт
  • Возраст ссылок, которые ведут на документ
  • Текст ссылок, ведущих на сайт
  • Околоссылочный текст (определение тематичности ссылки)
  • Средний возраст ссылок, ведущих на сайт
  • Средний возраст ссылок, ведущих на документ
  • Место размещения ссылок (К примеру, когда для сайта присвоен регион Москва, а ссылки стоят с сайтов, которым присвоен регион Новосибирск. Логично предположить, что такие ссылки будут слабо учитываться при расчете релевантности)
  • Структура сайта, то есть внутренние ссылки, которые ведут на документ
  • Наличие запроса в имени домена
  • Наличие запроса в тайтле
  • Наличие запроса в тесте страницы
  • Наличие запроса в заголовочных тегах
  • CTR документа, находящегося в ТОПе Яндекса
  • Качество исходящих ссылок.

Как видите, я привел всего несколько параметров, хотя их более тысячи. Но я думаю, что я написал ключевые параметры, которые максимально влияют на формулу расчета релевантности. Буду признателен читателям. Если в комментариях будут высказаны мнения, какие параметры еще учитываются Яндексом.

Подводя итоги, можно сказать, что для каждого направления продвижения необходимо оценивать сайты, которые находятся в Топе по нужным Вам запросам и делать так же. Это конечно сильно усложняет продвижение, но это еще цветочки. Дело в том, что обучающая выборка не статична, соответственно, формула может постоянно меняться, а значит оптимизаторам необходимо постоянно отслеживать параметры сайтов, находящихся в топе.

На этом все, жду жесткой критики своих мыслей.

Не забывай подписываться на RSS – впереди много интересного – не пропусти!
Или подпишись на обновления по е-mail!
Введи e-mail:

Комментарии 13 | Рубрики: SEO и не только

Комментарии:

  1. tar729 says;
    21 Nov 2009 - 15:44

    про семейство поведенческих хаактеистик забыли

  2. Не забыл, специально не написал. Хотz направление мысли показал в параметре про CTR ;)

  3. У меня со снежинском многие СДЛ полезли в топ по ВЧ и в задницу по НЧ, не знаю почему так.

  4. tar729, спасибо за ссылки!

    Satoved, пока рано делать какие-либо выводы, надо смотреть дальше.

  5. Подробный и интересный пост, спасибо.
    Лично я пока особых изменений не наблюдаю.

  6. Привет!
    Решил тоже поподробнее разобраться с ранжированием в Яндексе. Читал-читал и теперь тока каша в голове.
    Опустим процесс обучения алгоритма, тут все понятно - асессоры, тестовая выборка, построение функции ранжирования.
    Вопрос, что из себя представляет эта функция?
    Насколько я понял, это полином, где несколько тысяч параметров (образованных из исходных 250 факторов) (http://www.shkondin.ru/search_engines/tyisyachi-chertey-ili-pochemu-yandeksoidyi-ne-breyutsya.html)
    Вопрос - сколько таких полиномов? Ну для каждого региона свой, это как минимум. Для однословных запросов, двух-, трех- и более - свои. Это как я думаю. Плюс, возможно, для транзакционных, информационных, коммерческих запросов - тоже свои вариации полинома.
    У вас получается другой подход. Т.е. есть огромное дерево решений, которое включает тысячи параметров и по которому обсчитывает релевантность. Как такового полинома нет.

  7. что-то не впечатлила их “региональная” выдача. по запросу “объявления в бобруйске” торчит википедия

  8. Дмитрий, полиномов ровно столько, сколько веток в дереве. А судя по матчасти, это просто громаднейшее вол-во.

  9. Но ведь получается, что если у нас есть громадное дерево решеий + для каждой ветки своя формула ранжирования (полином) - получается, что нужна тестовая выборка на несколько порядков больше, чтобы обучить и построить такого монстра…
    Мне почему-то все больше кажется, что изменен именно подход к обучению ранжированию, т.е. изменен способ построения полинома (как следствие - полином стал сложнее, включив в себя несколько тысяч параметров). Дальнейшее ранжирование, т.е. использование построенного полинома, осталось таким же.

  10. Я не говорил о том, что 1000 параметров будет участвовать в построении дерева, может быть дерево состоит всего из 3 уровней, а может из 10ти или 30ти? :)

  11. 1 - а разве мету он не учитывает теперь?
    2 - почемуже wiki везде вылазиет ведь она же не принадлежит не только к москве но и вообще к россии?!
    3 - много непонятностей вылазиет, самое 1 есть сайт chertyaka.ru по запросу былины 2 место(1 wiki) а по запросу русские былины 1место(2 wiki), что там такого весового?! ссылки на сайт не покупные, текст не совсем уникален, запросы вч., позиции не меняются уже год, в то время как все сайты с третьего места переколбас каждую неделю!!!
    Кто сможет это обьяснить? (если не сложно, ответы кидайте на почту)

  12. вики мега доверенный ресурс с мега объемным весом входящих ссылок и сумасшедшим количеством уникального текста. странно, и почему она вылазит в выдаче при наличии в ней статьи с запросом в названии.
    А к автору - правильнее сказать что они формируют не 1 дерево а несколько деревьев для различных типов тематик, а внутри тематик, создавая первоначальную систему генерации деревьев. А “роботы” дальше по аналогии генерят деревья для под тематик, и пересчитывают их либо за счет ИИ либо за счет вторичной контрольной группы - уравновешивают. Причем не обязательно это должны быть деревья:) граф вычисления выдачи может быть условно закольцованным по нескольким параметрам, например по региону.
    Единственная вкуснота их новых решений то, что теперь просчитать код пополнения для мобильника на порядок проще, чем просчитать состояние алгоритма хотя бы для 1 тематики

Post Your Comment

Немного о себе




Я не робот.

Комментарий