Ранжирование в поисковиках

Основная задача ранжирования

Задача ранжирования состоит в упорядочении документов коллекции по убыванию степени их соответствия запросу, т.е. более релевантные (адекватные) документы должны занимать более высокие позиции в выдаче. Для решения этой, основной задачи поиска, большинство поисковых систем используют «функции релевантности» (способ получить числовую оценку соответствия документа запросу). Другими словами, поисковая программа вычисляет значение релевантности документа в контексте запроса и сортирует коллекцию согласно данному числу.

Как правило, релевантность является функцией от набора переменных (их ещё называют факторами). В качестве факторов выступают различные числовые характеристики, которые должны помогать различать релевантные документы и нерелевантные. Для многих поисковых систем результирующая функция релевантности является простой комбинацией небольшого множества (от 5-15 штук) факторов. Некоторые более комплексные факторы используются сами в качестве самостоятельных функций ранжирования.

Подход крупнейших поисковых систем Yandex и Google использует значительно большее количество факторов — ранжирование коллекции (тестовых) основано на более чем 150 компонентах.
Большинство из факторов представляют собой простые числовые характеристики документа или запроса. Ключевым моментом в построении ранжирования является способ комбинации факторов, т.е. вид функции релевантности. Для получения функции ранжирования используются методы машинного обучения. Такой подход позволяет достаточно легко добавлять новые ранжирующие факторы, тем самым развивая и улучшая поисковую систему.

Главные факторы ранжирования

Количество факторов не является неизменяемой константой или сколько-нибудь фиксированным числом. Поисковая система Google, к примеру, при ранжировании абсолютно не учитывает мета-тэг «keywords», хотя ранее, на него возлагались определённые функции в определении результатов поиска и их региональной принадлежности.

В случае, если вы являетесь пользователем сервиса «поиск по сайту» (скажем Яндекс.Сервер), то при ранжировании страниц с одного вашего сайта, многие факторы также отбрасываются. Так как всеми факторами ранжирования являются свойства текста документа и поискового запроса (без учёта внешних ссылок на страницы).

Поиск ведётся в данном случае по следующим основным критериям:

  • Точное совпадение запроса и фрагмента текста
  • Полное вхождение запроса в заголовок страницы
  • Язык запроса документа
  • Поиск соответствующих документов и упорядочивание их с помощью различных «яндексовских» модификаций специализированной математической формулы ранжирования Okapi BM25

Также в качестве факторов ранжирования интернет сайтов выступают:

  • Отношение числа ссылок точно содержащих запрос, к общему числу ссылок
  • Логарифм от числа внешних ссылок на страницу (можно напомнить читателю, что логарифм довольно быстро «насыщающиеся» функция, т.е. её производная быстро уменьшается с ростом аргумента)

Полный список критериев, а также конкретный вид модифицированной формулы ранжирования Okapi BM25, был и остаётся главным коммерческих секретом крупных поисковых систем. Это связано с постоянным желанием оптимизаторов воздействовать на алгоритмы ранжирования (для поискового продвижения сайтов) максимально эффективно.

Вы можете оставить комментарий, или ссылку на Ваш сайт.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *