Денис Болтиков уже публиковал в своем блоге тут и тут свои варианты, но они не подходят на мой взгляд под все блоги. Из-за разных чпу виды урлов будут иметь разный вид, следовательно жесткая привязка к урлу не пройдет. Я попробовал создать свой вариант роботса.

Задача — выкинуть из индекса архивы, теги, фиды, страницы навигации, админки, xmlrpc и прочий мусор.

User-agent: *

Host: alexvolkov.ru

Sitemap: http://alexvolkov.ru/sitemap.xml

Sitemap: http://alexvolkov.ru/sitemap.xml.gz

Disallow: /xmlrpc.php

Disallow: /wp-

Disallow: *tag

Disallow: */feed # при дефолтных чпу / меняется на ?

Disallow: *paged # при дефолтной навигации

Disallow: /page # для установленного wp-pagenavi

Disallow: *?s=

Хост, как я уже писал , можно не вставлять, это просто рекомендация вебмастерам, явно указывать зеркало.
Далее, две карты сайта, одна xml, вторая сжатый xml. Xmlrpc, понятно, закрывается полюбому.

Насчет пункта 6 неуверен. Неуверен в плане, что не закроет ли такая конструкция индексацию картинок. И не короче ли будет сделать вот так:

Disallow: /wp-*

7 пункт, закрытие тегов. У меня их нет, поэтому точно не могу узнать формат урла.

8 пункт, закрываем фиды. Также имеет разный вид для разных чпу. Регэкспом можно было бы записать как-то так:

Disallow: ^(.)[\?|\/]feed(.*)?

Не уверен, что такой синтаксис поддерживается ботами, и в индексе у меня нет фидов, проверить не могу.

9 и 10 пункт закрывается индексация страниц навигации.

11 пункт — закрываем поиск.

В итоге остается чистый контент в индексе. Хотя конечно у меня не так много постов и возраст блога маловат, но то, что имеется, приносит ежедневно небольшой трафик с ПС, в основном на тему линукса.

0.00 avg. rating (0% score) - 0 votes

7 комментариев

привет, спасибо за пост, как раз в тему, хочу уделить немного внимания настройке блога. А вот вопрос, не подскажешь как сделать такого же формата УРЛ как у тебя _http://alexvolkov.ru/robotstxt-dlya-vordpressa.html?
- Февраль 05, 2009 12:33 ПП
- By sergisnew
- Параметры — постоянные ссылки — /%postname%.html
  - Февраль 05, 2009 2:51 ПП
  - By Alex Volkov
тю, все гениальное просто, спасибо
- Февраль 05, 2009 3:08 ПП
- By sergisnew
Я сейчас как раз изучаю разные варинаты схемы ЧПУ на блогах.

Кстати, у тебя совершено все неправелно написано.
1) Два вида дирректив Disallow и Dissalow
2) Host и Sitemap надо писать внизу под Disallow, а не после User-agent
- Февраль 05, 2009 3:36 ПП
- By Денис Болтиков
- По поводу первого — невнимательность. Disallow конечно же.
  По поводу второго — хост я думаю надо выносить в отдельную секцию для яндекса, т.к. кроме него все равно никто не поймет. А вот про порядок расположения карт я так и не нашел инфы в нете. Есть порядок, определяющий очередность расположения директив?
  - Февраль 05, 2009 4:23 ПП
  - By Alex Volkov
Спасибо, Александр.
Сейчас создаю свой robots.txt, информация пригодилась.
- Февраль 25, 2009 12:20 ДП
- By Endr
Здравствуйте!
А можно просто использовать
User-agent: *
Disallow:
Без заморочек?
Чем этак плохо?
- Июнь 14, 2010 1:29 ДП
- By Юрок

Linux, кодинг, митолл и прочая хрень :)

robots.txt для вордпресса

7 комментариев