Реклама:

Индексатор - это обработчик скачанных веб-пауком страниц. Он извлекает оттуда все слова и складывает их в поисковую (индексную) базу. При этом индексатор записывает, где именно было найдено то или иное слово, и эта информация потом используется в поиске.

Алгоритм поиска - это главное ноу-хау любой поисковой системы. От алгоритма зависит эффективность полученного результата — то есть насколько быстро и точно пользователь найдет то, что его интересует.

Таким образом, когда пользователь вводит свой запрос, поисковая система ищет ответ в своей индексной базе и выводит результаты в соответствии со своим алгоритмом поиска.

Для хорошей работы поисковой системы важны все три компонента. Причем каждый из них на самом деле весьма сложен, и его работа подчиняется огромному количеству всевозможных хитрых правил, которые, к тому же, постоянно корректируются.

Поисковик должен иметь и шустрого паука, и мощную индексную базу, и эффективный алгоритм поиска — только тогда вы будете получать действительно хорошие результаты.

Загадочное слово «релевантность»

Когда говорят о поисковых системах, очень часто упоминают загадочно звучащее слово «релевантность». «Да ну ее, у нее поиск нерелевантный!» - говорят об одной поисковой системе. «Отлично ищет, классная релевантность!» - говорят о другой. Таким образом, можно догадаться, что «релевантность» — это хорошо, а отсутствие релевантности — плохо. Да, именно так и есть!

Релевантность - это степень соответствия документа запросу.

Что значит «степень соответствия»? Вот смотрите. Например, вы студент (школьник, аспирант, кандидат, профессор), и вам нужно написать какой-то реферат. Как продвинутое дитя интернетовского века, вы не собираетесь его писать самостоятельно, а хотите найти соответствующий текст в Интернете и выдать его за свой. Не пытаясь оценивать подобное действо с точки зрения морали, будем рассматривать это просто как пример.

Итак, прежде всего вам нужно найти сайт с рефератами. Вы заходите на поисковую систему И вводите слово для поиска «рефераты». Поисковая система заглядывает в свою индексную базу и видит там ссылки примерно на 7864295 страниц, на которых это слово встречается 31378327 раз. (Цифры абсолютно реальны и предоставлены поисковой системой Yandex.) Причем это слово присутствует как на страницах сайта «Банк рефератов», так и на страницах дневника блондинки Леночки, где дословно написано следующее: «Сегодня пыталась писать реферат.

Шесть ногтей покрасила, но так ни черта и не написала. Какой-то сегодня прям нерефератный день, дивчонки, да?»

Так какую ссылку пользователь хочет получить первой: на банк рефератов или на страничку блондинки Леночки, где просто употребляется слово «реферат»? Разумеется, на банк рефератов! Вот это и называется — релевантность, то есть степень соответствия запросу.

Каким образом поисковая система может определить эту релевантность, то есть какие из страничек, где встречается заданная поисковая строка наиболее интересны и полезны пользователю? В этом как раз и заключается ноу-хау различных поисковиков, однако общий принцип у них приблизительно один и тот же, и анализ результатов делается примерно следующим образом:


⇐ Предыдущая страница| |Следующая страница ⇒