Национальные особенности поиска

06 Ноя 2012

Национальные особенности поиска

Поиск в интернете появился в тот же миг, когда появился и сам Ин­тер­нет. Сначала, когда результаты поиска озадачивали ищу­ще­го сво­ей не­пред­ска­зу­е­мо­стью, возникла привычка кивать на соседний, отдел, ко­то­рый на­хо­дил­ся в 404-й комнате, где юти­лись про­грам­ми­сты-поисковики. Со вре­ме­нем технология шаг­ну­ла вперед, интернет стал глобальной па­у­ти­ной, а поисковики выросли из «коротких шта­ни­шек»: они по ту сто­ро­ну океана организовали бизнес-проекты Yahoo!, Google, Bing, а на на­шей — Апорт, Рамблер, Яндекс, Нигма. И стали конкурировать.

Процесс конкуренции сам по себе предполагает поиск новых решений. На одном из них мы ос­та­но­вим­ся, чтобы подробно проанализировать, в какую сторону дуют ветры в исследовательских интернет-лабораториях.

Простую задачу предложила сама жизнь. Среди огромного множества компьютеров понадобилось найти плат­фор­мы, поддерживающие предложенную корпорацией Intel технологию под названием Active Managment, со­кра­щен­но — AMT. Уже давно тривиальные запросы типа "Intel+­Active+­Man­age­ment+­Technology" попадают в разряд высокочастотных (ВЧ) и, как следствие, выдача по ним переходит все разумные пределы: Гугль предлагает 289.000 вариантов, Bing — 44.500, Яндекс — 76.000. Примитивно простое "Intel Active Management Technology Yes" — не упрощает ситуацию.

Рассмотрим следующую строку поиска на сайте компании Интел:

Поиск в Яндексе фразы "Intel+Active+Management+Technology.+Yes." на сайте компании Intel

«Бинго!» — скажем мы, и не угадаем. Потому что именно так находится нужный ответ в Яндексе! Обратите вни­ма­ние на синтаксис запроса. Мы специально продублируем скриншот текстовой ин­фор­ма­цией, выделив красным цве­том проблемные участки: «Intel Active Management Technology. Yes.»

Посмотрим, какие сюрпризы преподнесут заокеанские гранды. Запрос к поисковику Google дает такой результат:

Поиск в Google фразы "Intel+Active+Management+Technology.+Yes." на сайте компании Intel

Поиск в Bing позволяет увидеть следующую картину:

Поиск в Bing фразы "Intel+Active+Management+Technology.+Yes." на сайте компании Intel

В чем же дело? Почему в поисковой выдаче против тысячи найденных Яндексом результатов Bing и Google могут предложить не более, чем десяток подходящих URL-строк?

А дело в том, что лишь Яндекс разбирает любой запрос логически и семантически. Другие поисковики её просто игнорируют, удаляя в процессе парсинга (разбора предложения на слова), и только Яндекс точку учитывает. Для него точка — не "лишний" знак, что и раньше было известно. Вне понимания ос­та­ва­лось то, что он её учитывает именно так: нужно искать содержимое одной ячейки таблицы (формы ввода) и содержимое следующей смежной ячейки (формы ввода). В целом поисковая фраза выглядит как конкатенация двух запросов, адресованных смеж­ным элементам html-разметки. Это уже се­ман­ти­че­ская логика, которую получилось «запрограммировать» внутри закавыченного запроса, внедрив в него в качестве разделителей точки.

Рассмотрим одну из найденных страниц Intel 82801GB I/O Controller в той части, где расположена таб­ли­ца Ad­vanc­ed Technologies:

Для Яндекса — это таблица, а не «просто текст», каковым его считают Google, Bing и другие по­ис­ко­ви­ки. Когда программисты начали разбирать русский язык и приняли решение сконцентрировать мак­си­мум внимания на се­ман­ти­ческой логике, они стали эту логику учитывать в разрезе разбора страничной верстки. Из возможности раз­би­рать ячейки, родился и анализ форм, недавно анонсированный Ян­дек­сом, о котором достаточно подробно ска­за­но в статье «Новая функция Яндекс.Метрики называется Анализ Форм».

Таковы национальные особенности поиска в условиях приближенных к боевым :) Безусловно, говорить о аб­со­лют­ном доминировании поисковых алгоритмов Яндекса над всеми остальными поисковыми ма­ши­на­ми рановато. Без­ус­ловно, в выдаче Яндекса даже сейчас видно несколько недочетов и не­со­от­вет­ствий. Одно совершенно оче­вид­но: точки, как символ разделителя, придумал Яндекс. И это видно в снип­пе­тах. А как известно, от того, где по­став­лена точка, порой зависит смысл всей фразы.

Теги: