Денис Болтиков уже публиковал в своем блоге тут и тут свои варианты, но они не подходят на мой взгляд под все блоги. Из-за разных чпу виды урлов будут иметь разный вид, следовательно жесткая привязка к урлу не пройдет. Я попробовал создать свой вариант роботса.

Задача – выкинуть из индекса архивы, теги, фиды, страницы навигации, админки, xmlrpc и прочий мусор.

  1. User-agent: *
  2. Host: alexvolkov.ru
  3. Sitemap: http://alexvolkov.ru/sitemap.xml
  4. Sitemap: http://alexvolkov.ru/sitemap.xml.gz
  5. Disallow: /xmlrpc.php
  6. Disallow: /wp-
  7. Disallow: *tag
  8. Disallow: */feed # при дефолтных чпу / меняется на ?
  9. Disallow: *paged # при дефолтной навигации
  10. Disallow: /page # для установленного wp-pagenavi
  11. Disallow: *?s=

Хост, как я уже писал , можно не вставлять, это просто рекомендация вебмастерам, явно указывать зеркало.
Далее, две карты сайта, одна xml, вторая сжатый xml. Xmlrpc, понятно, закрывается полюбому.

Насчет пункта 6 неуверен. Неуверен в плане, что не закроет ли такая конструкция индексацию картинок. И не короче ли будет сделать вот так:

Disallow: /wp-*

7 пункт, закрытие тегов. У меня их нет, поэтому точно не могу узнать формат урла.

8 пункт, закрываем фиды. Также имеет разный вид для разных чпу. Регэкспом можно было бы записать как-то так:

Disallow: ^(.)[\?|\/]feed(.*)?

Не уверен, что такой синтаксис поддерживается ботами, и в индексе у меня нет фидов, проверить не могу.

9 и 10 пункт закрывается индексация страниц навигации.

11 пункт – закрываем поиск.

В итоге остается чистый контент в индексе. Хотя конечно у меня не так много постов и возраст блога маловат, но то, что имеется, приносит ежедневно небольшой трафик с ПС, в основном на тему линукса.

Возможно, это будет интересно...

7 responses


Do you want to comment?

Comments RSS and TrackBack Identifier URI ?

привет, спасибо за пост, как раз в тему, хочу уделить немного внимания настройке блога. А вот вопрос, не подскажешь как сделать такого же формата УРЛ как у тебя _http://alexvolkov.ru/robotstxt-dlya-vordpressa.html?

Февраль 5, 2009 12:33 пп

Параметры — постоянные ссылки — /%postname%.html

Февраль 5, 2009 2:51 пп

тю, все гениальное просто, спасибо

Февраль 5, 2009 3:08 пп

Я сейчас как раз изучаю разные варинаты схемы ЧПУ на блогах.

Кстати, у тебя совершено все неправелно написано.
1) Два вида дирректив Disallow и Dissalow
2) Host и Sitemap надо писать внизу под Disallow, а не после User-agent

Февраль 5, 2009 3:36 пп

По поводу первого – невнимательность. Disallow конечно же.
По поводу второго – хост я думаю надо выносить в отдельную секцию для яндекса, т.к. кроме него все равно никто не поймет. А вот про порядок расположения карт я так и не нашел инфы в нете. Есть порядок, определяющий очередность расположения директив?

Февраль 5, 2009 4:23 пп

Спасибо, Александр.
Сейчас создаю свой robots.txt, информация пригодилась.

Февраль 25, 2009 12:20 дп

Здравствуйте!
А можно просто использовать
User-agent: *
Disallow:
Без заморочек?
Чем этак плохо?

Июнь 14, 2010 1:29 дп

Comment now!
















Trackbacks