
Поиск в интернете появился в тот же миг, когда появился и сам Интернет. Сначала, когда результаты поиска озадачивали ищущего своей непредсказуемостью, возникла привычка кивать на соседний, отдел, который находился в 404-й комнате, где ютились программисты-поисковики. Со временем технология шагнула вперед, интернет стал глобальной паутиной, а поисковики выросли из «коротких штанишек»: они по ту сторону океана организовали бизнес-проекты Yahoo!, Google, Bing, а на нашей — Апорт, Рамблер, Яндекс, Нигма. И стали конкурировать.
Процесс конкуренции сам по себе предполагает поиск новых решений. На одном из них мы остановимся, чтобы подробно проанализировать, в какую сторону дуют ветры в исследовательских интернет-лабораториях.
Простую задачу предложила сама жизнь. Среди огромного множества компьютеров понадобилось найти платформы, поддерживающие предложенную корпорацией Intel технологию под названием Active Managment, сокращенно — AMT. Уже давно тривиальные запросы типа "Intel+Active+Management+Technology" попадают в разряд высокочастотных (ВЧ) и, как следствие, выдача по ним переходит все разумные пределы: Гугль предлагает 289.000 вариантов, Bing — 44.500, Яндекс — 76.000. Примитивно простое "Intel Active Management Technology Yes" — не упрощает ситуацию.
Рассмотрим следующую строку поиска на сайте компании Интел:
«Бинго!» — скажем мы, и не угадаем. Потому что именно так находится нужный ответ в Яндексе! Обратите внимание на синтаксис запроса. Мы специально продублируем скриншот текстовой информацией, выделив красным цветом проблемные участки: «Intel Active Management Technology. Yes.»
Посмотрим, какие сюрпризы преподнесут заокеанские гранды. Запрос к поисковику Google дает такой результат:
Поиск в Bing позволяет увидеть следующую картину:
В чем же дело? Почему в поисковой выдаче против тысячи найденных Яндексом результатов Bing и Google могут предложить не более, чем десяток подходящих URL-строк?
А дело в том, что лишь Яндекс разбирает любой запрос логически и семантически. Другие поисковики её просто игнорируют, удаляя в процессе парсинга (разбора предложения на слова), и только Яндекс точку учитывает. Для него точка — не "лишний" знак, что и раньше было известно. Вне понимания оставалось то, что он её учитывает именно так: нужно искать содержимое одной ячейки таблицы (формы ввода) и содержимое следующей смежной ячейки (формы ввода). В целом поисковая фраза выглядит как конкатенация двух запросов, адресованных смежным элементам html-разметки. Это уже семантическая логика, которую получилось «запрограммировать» внутри закавыченного запроса, внедрив в него в качестве разделителей точки.
Рассмотрим одну из найденных страниц Intel 82801GB I/O Controller в той части, где расположена таблица Advanced Technologies:
Для Яндекса — это таблица, а не «просто текст», каковым его считают Google, Bing и другие поисковики. Когда программисты начали разбирать русский язык и приняли решение сконцентрировать максимум внимания на семантической логике, они стали эту логику учитывать в разрезе разбора страничной верстки. Из возможности разбирать ячейки, родился и анализ форм, недавно анонсированный Яндексом, о котором достаточно подробно сказано в статье «Новая функция Яндекс.Метрики называется Анализ Форм».
Таковы национальные особенности поиска в условиях приближенных к боевым :) Безусловно, говорить о абсолютном доминировании поисковых алгоритмов Яндекса над всеми остальными поисковыми машинами рановато. Безусловно, в выдаче Яндекса даже сейчас видно несколько недочетов и несоответствий. Одно совершенно очевидно: точки, как символ разделителя, придумал Яндекс. И это видно в сниппетах. А как известно, от того, где поставлена точка, порой зависит смысл всей фразы.