Денис Болтиков уже публиковал в своем блоге тут и тут свои варианты, но они не подходят на мой взгляд под все блоги. Из-за разных чпу виды урлов будут иметь разный вид, следовательно жесткая привязка к урлу не пройдет. Я попробовал создать свой вариант роботса.
Задача — выкинуть из индекса архивы, теги, фиды, страницы навигации, админки, xmlrpc и прочий мусор.
- User-agent: *
- Host: alexvolkov.ru
- Sitemap: http://alexvolkov.ru/sitemap.xml
- Sitemap: http://alexvolkov.ru/sitemap.xml.gz
- Disallow: /xmlrpc.php
- Disallow: /wp-
- Disallow: *tag
- Disallow: */feed # при дефолтных чпу / меняется на ?
- Disallow: *paged # при дефолтной навигации
- Disallow: /page # для установленного wp-pagenavi
- Disallow: *?s=
Хост, как я уже писал , можно не вставлять, это просто рекомендация вебмастерам, явно указывать зеркало.
Далее, две карты сайта, одна xml, вторая сжатый xml. Xmlrpc, понятно, закрывается полюбому.
Насчет пункта 6 неуверен. Неуверен в плане, что не закроет ли такая конструкция индексацию картинок. И не короче ли будет сделать вот так:
Disallow: /wp-*
7 пункт, закрытие тегов. У меня их нет, поэтому точно не могу узнать формат урла.
8 пункт, закрываем фиды. Также имеет разный вид для разных чпу. Регэкспом можно было бы записать как-то так:
Disallow: ^(.)[\?|\/]feed(.*)?
Не уверен, что такой синтаксис поддерживается ботами, и в индексе у меня нет фидов, проверить не могу.
9 и 10 пункт закрывается индексация страниц навигации.
11 пункт — закрываем поиск.
В итоге остается чистый контент в индексе. Хотя конечно у меня не так много постов и возраст блога маловат, но то, что имеется, приносит ежедневно небольшой трафик с ПС, в основном на тему линукса.
7 комментариев
привет, спасибо за пост, как раз в тему, хочу уделить немного внимания настройке блога. А вот вопрос, не подскажешь как сделать такого же формата УРЛ как у тебя _http://alexvolkov.ru/robotstxt-dlya-vordpressa.html?
Параметры — постоянные ссылки — /%postname%.html
тю, все гениальное просто, спасибо
Я сейчас как раз изучаю разные варинаты схемы ЧПУ на блогах.
Кстати, у тебя совершено все неправелно написано.
1) Два вида дирректив Disallow и Dissalow
2) Host и Sitemap надо писать внизу под Disallow, а не после User-agent
По поводу первого — невнимательность. Disallow конечно же.
По поводу второго — хост я думаю надо выносить в отдельную секцию для яндекса, т.к. кроме него все равно никто не поймет. А вот про порядок расположения карт я так и не нашел инфы в нете. Есть порядок, определяющий очередность расположения директив?
Спасибо, Александр.
Сейчас создаю свой robots.txt, информация пригодилась.
Здравствуйте!
А можно просто использовать
User-agent: *
Disallow:
Без заморочек?
Чем этак плохо?