Файл robots.txt для популярных CMS
В прошлой статье мы подробно рассмотрели, как правильно составить файл robots.txt. Из каких директив он состоит, как управлять роботами ПС и индексацией.
В этой статье я хочу выложить готовые и проверенные файлы robots.txt для основных CMS.
Правильный robots.txt для WordPress
Самый популярный движок WP стоит на огромном количестве блогов. Поэтому начнем с него. Универсальный файл robots.txt для WordPress такой:
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
User-agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Host: seob.info
Sitemap: /sitemap.xml
Он отличается от того robots.txt, что советую официальные разработчики WordPress. Но, на мой взгляд, это самый оптимальный вариант настройки.
Правильный robots.txt для Joomla
Следующая CMS по популярности — Джумла. Сделаем совсем небольшие изменения в официальной версии robots.txt. А именно пропишем host и sitemap и мы получим правильный файл robots.txt для Joomla
User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
User-agent: Yandex
Disallow: /administrator/
Disallow: /cache/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/
Host: seob.info
Sitemap: /sitemap.xml
Файл robots.txt для uCoz
На бесплатной платформе uCoz когда вы делаете сайт, там по умолчанию подгружается настроенный системой файл robots.txt. Но бывают случаи, когда надо его изменить. Например, дописать директивы закрытия каких-то страниц. Но многие не знаю где же найти robots.txt на uCoz. Прикол в том, что его на сайте нет, он подгружается из системы.
Поэтому если вас не устраивает тот, что есть по умолчанию его надо создать. Создаем в блокноте файл с названием robots.txt, пишем в него дрективы и загружаем в корень сайта. Ниже приведен пример стандартного файла robots.txt для uCoz
User-agent: *
Disallow: /a/
Disallow: /stat/
Disallow: /index/1
Disallow: /index/2
Disallow: /index/3
Disallow: /index/5
Disallow: /index/7
Disallow: /index/8
Disallow: /index/9
Disallow: /panel/
Disallow: /admin/
Disallow: /secure/
Disallow: /informer/
Disallow: /mchat
Disallow: /search
Disallow: /shop/order/
Disallow: /?ssid=
Sitemap: //forum.ucoz.ru/sitemap.xml
Sitemap: //forum.ucoz.ru/sitemap-forum.xml
Sitemap: //forum.ucoz.ru/sitemap-shop.xml
Robots.txt для OpenCart
Набирающий популярность движок для создания онлайн OpenCart я тоже не могу обойти стороной. Файл robots.txt для OpenCart имеет такую структуру:
User-agent: *
Disallow: /*route=account/
Disallow: /*route=affiliate/
Disallow: /*route=checkout/
Disallow: /*route=product/search
Disallow: /index.php?route=product/product*&manufacturer_id=
Disallow: /admin
Disallow: /catalog
Disallow: /download
Disallow: /export
Disallow: /system
Disallow: /*?sort=
Disallow: /*&sort=
Disallow: /*?order=
Disallow: /*&order=
Disallow: /*?limit=
Disallow: /*&limit=
Disallow: /*?filter_name=
Disallow: /*&filter_name=
Disallow: /*?filter_sub_category=
Disallow: /*&filter_sub_category=
Disallow: /*?filter_description=
Disallow: /*&filter_description=
Disallow: /*?tracking=
Disallow: /*&tracking=
Disallow: /*?page=
Disallow: /*&page=
Disallow: /wishlist
Disallow: /login
Disallow: /index.php?route=product/manufacturer
Disallow: /index.php?route=product/compare
Disallow: /index.php?route=product/category
Host: seob.info
Sitemap: /sitemap.xml
Robots.txt для CMS Drupal
Для друпала правильный robots.txt будет таким:
User-agent: *
Disallow: /database/
Disallow: /includes/
Disallow: /misc/
Disallow: /modules/
Disallow: /sites/
Disallow: /themes/
Disallow: /scripts/
Disallow: /updates/
Disallow: /profiles/
Disallow: /xmlrpc.php
Disallow: /cron.php
Disallow: /update.php
Disallow: /install.php
Disallow: /index.php
Disallow: /admin/
Disallow: /comment/reply/
Disallow: /contact/
Disallow: /logout/
Disallow: /search/
Disallow: /user/register/
Disallow: /user/password/
Disallow: /user/login/
Disallow: /top-rated-
Disallow: /messages/
Disallow: /book/export/
Disallow: /user2userpoints/
Disallow: /myuserpoints/
Disallow: /tagadelic/
Disallow: /referral/
Disallow: /aggregator/
Disallow: /files/pin/
Disallow: /your-votes
Disallow: /comments/recent
Sitemap: //noindex.by/sitemap.xml
Disallow: /*/edit/
Disallow: /*/delete/
Disallow: /*/export/html/
Disallow: /taxonomy/term/*/0$
Disallow: /*/edit$
Disallow: /*/outline$
Disallow: /*/revisions$
Disallow: /*/contact$
Disallow: /*downloadpipe
Disallow: /node$
Disallow: /node/*/track$
Disallow: /*&
Disallow: /*%
Disallow: /*?page=0
Allow: /*?page=
Disallow: /*?
Host: seob.info
Sitemap: /sitemap.xml
Файл robots.txt DLE
Часто возникают вопросы по настройке индексации Datalife Engine. Рекомендованный robots.txt для DLE примерно такой.
User-agent: *
Disallow: /*print
Disallow: /autobackup.php
Disallow: /admin.php
Disallow: /engine/go.php
Disallow: /user/
Disallow: /newposts/
Disallow: /favorites/
Disallow: /statistics.html
Disallow: /*subaction=userinfo
Disallow: /*do=lastcomments
Disallow: /*do=feedback
Disallow: /*do=register
Host: seob.info
Sitemap: /sitemap.xml
В следующей статье рассмотрим вопрос ошибки при оптимизации страниц