Поисковые роботы - роботы поисковых систем

Продвижение сайтов самостоятельно | Внутренняя оптимизация сайта

Поисковый робот (бот, паук, spider, crawler) - это специальная программа поисковика, предназначенная для сканирования сайтов в сети Интернет. Многие не знают, что сканирующие боты просто собирают и сохраняют информацию. Они не занимаются ее обработкой. Это делают другие программы.

Если у вас есть желание посмотреть на сайт глазами поискового робота, то можно это сделать через панель вебмастера.

Посмотреть как Google можно через панель вебмастера. Там нужно добавить свой сайт и потом можно будет посмотреть на странице:

https://www.google.com/webmasters/tools/googlebot-fetch?hl=ru


Посмотреть как Яндекс можно через сохраненную копию страницы. Для этого находим нужную страницу в поиске Яндекса, жмем «сохраненная копия» и дальше «посмотреть текстовую версию».

Ниже приведу список поисковых роботов, которые ходят по нашим с вами сайтам. Одни из них индексируют сайты, другие следят за контекстной рекламой. Есть специализированные роботы, которые занимаются определенными узкими задачами. Например, индексируют картинки или новости. Зная в лицо робота, можно запретить или разрешить ему ползать по сайту, тем самым можно снизить нагрузку на сервер. Ну или защитить свою информацию от попадания в сеть.

Поисковые роботы Яндекса


У поисковой системы Яндекс десятка полтора известных нам поисковых роботов. Список ботов, который мне удалось раскопать, в том числе и из официального хелпа, ниже.

YandexBot - основной индексирующий робот;
YandexMedia - робот, индексирующий мультимедийные данные;
YandexImages - индексатор Яндекс.Картинок;
YandexCatalog - «простукивалка» Яндекс.Каталога, используется для временного снятия с публикации недоступных сайтов в Каталоге;
YaDirectFetcher - робот Яндекс.Директа;
YandexBlogs - робот поиска по блогам, индексирующий посты и комментарии;
YandexNews - робот Яндекс.Новостей;
YandexWebmaster – приходит придобавлении сайта через форума AddURL;
YandexPagechecker - валидатор микроразметки;
YandexFavicons - индексатор фавиконок
YandexMetrika - робот Яндекс.Метрики;
YandexMarket - робот Яндекс.Маркета;
YandexCalendar - робот Яндекс.Календаря.



Поисковые роботы (боты) Google


Пролистав рекомендации Google для вебмастеров, а так же help, удалось найти упоминание только одного поискового робота. Это основной индексирующий паук Googlebot. Остальные боты были найдены в логах сайтов.

Googlebot - основной индексирующий робот;
Googlebot Nes - индексатор новостей;
Googlebot Images - индексатор картинок;
Googlebot Video - робот для видео данных;
Google Mobile - индексатор мобильного контента;
Google Mobile AdSense - робот мобильного AdSense
Google AdSense - робот AdSense
Google AdsBot – бот проверки качества целевой страницы
Mediapartners-Google - робот AdSense



Роботы других поисковых систем


Так же, в логах своего сайта, вы можете наткнуться на некоторых роботов других поисковиков.

Рамблер - StackRambler
Мэйл.ру - Mail.Ru
Yahoo! - Slurp (или Yahoo! Slurp)
AOL - Slurp
MSN - MSNBot
Live - MSNBot
Ask - Teoma
Alexa - ia_archiver
Lycos - Lycos
Aport - Aport
Вебальта - WebAlta (WebAlta Crawler/2.0)



Кроме ботов поисковиков, по сайтам бегает огромная армия всяких левых пауков. Это различные парсеры, которые собирают информацию с сайтов, как правило, в корыстных целях их создателей. Одни воруют контент, другие картинки, третьи взламывают сайты и расставляют втихаря ссылки. Если вы заметили, что подобный парсер присосался к вашему сайтук - закройте ему доступ всеми возможными способами, в том числе и через файл robots.txt. Надеюсь, данная информация вам пригодится.

Читайте в следующей статье Как добавить сайт на индексацию

Оглавление