Денис Болтиков уже публиковал в своем блоге тут и тут свои варианты, но они не подходят на мой взгляд под все блоги. Из-за разных чпу виды урлов будут иметь разный вид, следовательно жесткая привязка к урлу не пройдет. Я попробовал создать свой вариант роботса.
Задача – выкинуть из индекса архивы, теги, фиды, страницы навигации, админки, xmlrpc и прочий мусор.
- User-agent: *
- Host: alexvolkov.ru
- Sitemap: http://alexvolkov.ru/sitemap.xml
- Sitemap: http://alexvolkov.ru/sitemap.xml.gz
- Disallow: /xmlrpc.php
- Disallow: /wp-
- Disallow: *tag
- Disallow: */feed # при дефолтных чпу / меняется на ?
- Disallow: *paged # при дефолтной навигации
- Disallow: /page # для установленного wp-pagenavi
- Disallow: *?s=
Хост, как я уже писал , можно не вставлять, это просто рекомендация вебмастерам, явно указывать зеркало.
Далее, две карты сайта, одна xml, вторая сжатый xml. Xmlrpc, понятно, закрывается полюбому.
Насчет пункта 6 неуверен. Неуверен в плане, что не закроет ли такая конструкция индексацию картинок. И не короче ли будет сделать вот так:
Disallow: /wp-*
7 пункт, закрытие тегов. У меня их нет, поэтому точно не могу узнать формат урла.
8 пункт, закрываем фиды. Также имеет разный вид для разных чпу. Регэкспом можно было бы записать как-то так:
Disallow: ^(.)[\?|\/]feed(.*)?
Не уверен, что такой синтаксис поддерживается ботами, и в индексе у меня нет фидов, проверить не могу.
9 и 10 пункт закрывается индексация страниц навигации.
11 пункт – закрываем поиск.
В итоге остается чистый контент в индексе. Хотя конечно у меня не так много постов и возраст блога маловат, но то, что имеется, приносит ежедневно небольшой трафик с ПС, в основном на тему линукса.
7 responses
Do you want to comment?
Comments RSS and TrackBack Identifier URI ?
Trackbacks