воскресенье, 11 мая 2008 г.

Как работает поисковая система?

     Наверное глупо спрашивать - "Что такое поисковая система?" Ибо здается мне, что каждый ,кто хотя бы раз, заглядывал в интернет знает что это такое. Но не о Google или Yandex, мне бы хотелось поговорить в данной статье, а о том как работают поисковые системы, каков принцип их работы.  Я считаю это важным, потому что как только становится понятно, что такое поисковые машины и как они работают, становится ясно, как происходит поиск и как его результаты появляются на странице при указании определенного ключевого слова.
Из чего состоят поисковые системы?    Поисковые системы состоят из пяти отдельных программных компонентов. Давайте подробнее рассмотрим каждый из них:
Паук (Spider)  - это программа, которая скачивает веб-страницы. Она работает по тому же принципу что и браузер, скачивая HTML-код веб-ресурсов.
Краулер (Crawler)  - программа, которая автоматически проходит по всем ссылкам, найденным на странице, и выделяет их. Его задача - определять, куда дальше должен пойти паук, основываясь на ссылках или исходя из заранее заданного списка адресов. Краулер, следуя по найденным ссылкам, осуществляет поиск новых документов, еще не известных поисковой системе.
Индексатор (Indexer) - разделяет страницу на части и анализирует их. Такие элементы, как заголовки страниц, заголовки в тексте страницы, ссылки, собственно текст и его структурные элементы. 
База данных (Database)  - хранилище всех данных, которые поисковая система скачивает и анализирует. Она требует очень значительных ресурсов. Как то в интерьвью представитель Yandex Илья Сегалович, на вопрос: "успеваете ли апдейты делать?", ответил "успеваем, кроме апдейтов, у нас еще идет технологическое обновление, т.е мы каждый день "кушаем" по 3 сервера: на завтрак, обед и ужин". Вот так вот, а может сейчас уже и поболее добавляется. Сколько Google или Yahoo добавляет серверов каждый день, увы не знаю, но думаю что прилично...
Система выдачи результатов (Search engine results)  - извлекает результаты поиска из базы данных. 
     "Мифом" является мнение, что поисковые машины просматривают весь Интернет в поисках нужного вам запроса. Они осуществляют поиск только в пределах собственной базы данных.  Вот почему, если ввести одинаковый запрос по ключевому слову в 3-4 различных поисковиках мы получим разные ответы. 
     Приоритетом поисковых систем является обнаружение и индексация так называемых релевантных страниц ( от англ. relevane - относящийся к делу). Но вот вопрос, как машина может определить, насколько важна та или иная страница для пользователя? В дальнейшем мы поговорим с вами о методах, используемых поисковыми машинами для оценки "релевантности" или значимости веб-страниц. На днях я хочу более детально изучить что такое TИЦ и PR, ведь именно на их основании Яша и Гугл, определяют важность той или иной страницы для пользователей. Хорошо, что в свое время купил книгу А.Яковлева, много о поисковых машинах я нашел именно в ней. 
Мой подписной индекс:  Оформить подписку! 
Если вы еще не знаете как это сделать то прочитайте серию статей п о RSS
Еще почитать: 

0 коммент.:

Tu comentario será moderado la primera vez que lo hagas al igual que si incluyes enlaces. A partir de ahi no ser necesario si usas los mismos datos y mantienes la cordura. No se publicarán insultos, difamaciones o faltas de respeto hacia los lectores y comentaristas de este blog.