ПОИСКОВЫЙ РОБОТ

Поисковый робот (веб-краулер, web crawler) — специальная программа, входящая в состав каждой поисковой системы. Основная задача робота: сканирование веб-страниц, известных поисковой системе, с целью обновления данных об их содержимом, а также поиск новых страниц, еще не включенных в индекс.


Смотреть больше слов в «Словаре компьютерных терминов»

ПОЛОСА ПРОКРУТКИ →← ПОИСКОВАЯ СИСТЕМА

Смотреть что такое ПОИСКОВЫЙ РОБОТ в других словарях:

ПОИСКОВЫЙ РОБОТ

— специальная программа, принадлежащая определенной поисковой системе и предназначенная для индексирования (занесения в базу сайтов поисковой системы) веб-сайтов и их страниц, найденных в интернет-пространстве. Также принятые названия: <i>краулер</i>, <i>бот</i>, <i>паук</i>, <i>webcrawler</i>, <i>bot</i>, <i>automaticindexer</i>, <i>ant</i>, <i>webrobots</i>, <i>webspider</i>, <i>webscutter</i>.<h2 class="library_h">Принцип работы</h2><p>Поисковый робот является браузерного типа программой. Он постоянно сканирует веб-пространство, посещая уже известные ему (проиндексированные) сайты, проходя по ссылкам с них и находя, таким образом, новые ресурсы. Обнаружив неизвестный сайт, и проведя некоторые процедуры, робот добавляет его в индекс поисковой системы.</p><p>Кроме того, поисковым роботом индексируются обновления на сайтах. Причем, периодичность обновлений фиксируется. К примеру, сайт, обновляемый раз в неделю, будет посещаться роботом с той же частотой, а информация на новостных сайтах может индексироваться уже через несколько минут.</p><p>Сайтам, не обладающим внешней ссылочной массой, то есть тем из них, на которые не ведут ссылки с других ресурсов, чтобы быть проиндексированными, необходимо привлечь внимание поисковых роботов. Для этого сайт добавляется в специальную форму поисковой системы. К примеру, в панель вебмастера Яндекс, или в Центр вебмастеров Google.</p><h2 class="library_h">Виды поисковых роботов</h2><p>На самом деле понятием «поисковый робот» объединена их некоторая совокупность. Каждая поисковая система улучшает процесс сканирования веб-пространства и индексацию, используя несколько роботов, наделенных более узкой специализацией. К примеру, Яндекс сегодня использует следующие, действующие одновременно боты:</p><ul class="library_ul"> <li> <b>Yandex/1.01.001</b> (compatible; Win16; I) — это основной робот Яндекса, занимающийся индексацией.</li> <li> <b>Yandex/1.01.001</b> (compatible; Win16; P) — его задача: индексация картинок.</li> <li> <b>Yandex/1.01.001</b> (compatible; Win16; H) — предназначается для обнаружения зеркал сайтов.</li> <li> <b>Yandex/1.03.003</b> (compatible; Win16; D) — определяет соответствие параметрам индексации страницы, добавленной через форму панели вебмастера. Он первым посещает добавленный ресурс, и только после его положительной оценки за работу принимается основной поисковый бот <b>Yandex/1.01.001</b>.</li> <li> <b>Yandex/1.03.000</b> (compatible; Win16; M) — данный робот посещает страницу после ее открытия по ссылке «Найденные слова» в поисковой выдаче.</li> <li> <b>YaDirectBot/1.0</b> (compatible; Win16; I) — индексирует сайты из рекламной сети Яндекса.</li> <li> <b>Yandex/1.02.000</b> (compatible; Win16; F) — отвечает за индексацию фавиконов сайтов.</li> </ul>Второй по значимости в Рунете поисковик Google использует похожих по функциям поисковых роботов:<ul class="library_ul"> <li> <b>Робот Googlebot</b> — основной индексирующий робот системы.</li> <li> <b>Googlebot News</b> — специально созданный для сканирования и индексирования новостей робот.</li> <li> <b>Googlebot Images</b> — робот, занимающийся поиском и индексацией изображений.</li> <li> <b>Googlebot Video</b> — поиск и индексация видео.</li> <li> <b>Google Mobile</b> — индексация сайтов для мобильных устройств.</li> <li> <b>Google AdSense и Google Mobile AdSense</b> — индексация сайтов, участвующих в рекламной сети Google.</li> <li> <b>Google AdsBot</b> — робот, проверяющий качество целевой страницы.</li> </ul>Другие поисковые системы также используют несколько видов роботов, функционально схожих с перечисленными. Имена поисковых роботов наиболее популярных поисковых систем:<ul class="library_ul"> <li> <b>Яндекс</b> — «Yandex».</li> <li> <b>Google</b> — «googlebot».</li> <li> <b>Рамблер</b> — «StackRambler».</li> <li> <b>MSN</b> — «msnbot».</li> <li> <b>Yahoo!</b> — «Yahoo! Slurp».</li> </ul><h2 class="library_h">Управление индексацией</h2><p>Несмотря на то, что чтобы быть замеченным, сайт должен оказаться проиндексированным, далеко не всегда требуется, чтобы вся информация с него была доступна пользователям и, соответственно, поисковому роботу. К примеру, интернет-магазины закрывают от индексации страницы с реквизитами покупателей, значительная часть сайтов — административные данные и т.п.</p><p>Закрыть от индексации поисковыми роботами все содержимое сайта или только часть информации, размещенной на нем, можно с помощью файла robots.txt. В нем, согласно определенным правилам, с помощью специальных директив в текстовом формате прописываются указания для поисковых роботов. Надо заметить, что роботы, попадая на сайт, ищут в первую очередь файл robots.txt. Знакомятся с инструкциями (если файл существует) и в соответствии с ними индексируют страницы.</p><p>Директивы файла robots.txt:</p><ul class="library_ul"> <li> <b>User-agent</b> — обращение к конкретному роботу конкретной поисковой системы.</li> <li> <b>Disallow</b> — может закрывать как весь сайт, так и отдельные его файлы и страницы.</li> <li> <b>Host</b> — сигнализирует роботу, под URL какого зеркала (если сайт имеет зеркала) индексируется ресурс.</li> </ul><h2 class="library_h">См. также</h2><ul class="library_ul"> <li>Поисковая система</li> <li>Поисковый алгоритм</li> <li>Индекс</li> </ul>... смотреть

T: 161