robots.txt для вордпресса

Денис Болтиков уже публиковал в своем блоге тут и тут свои варианты, но они не подходят на мой взгляд под все блоги. Из-за разных чпу виды урлов будут иметь разный вид, следовательно жесткая привязка к урлу не пройдет. Я попробовал создать свой вариант роботса.

Задача — выкинуть из индекса архивы, теги, фиды, страницы навигации, админки, xmlrpc и прочий мусор.

  1. User-agent: *
  2. Host: alexvolkov.ru
  3. Sitemap: http://alexvolkov.ru/sitemap.xml
  4. Sitemap: http://alexvolkov.ru/sitemap.xml.gz
  5. Disallow: /xmlrpc.php
  6. Disallow: /wp-
  7. Disallow: *tag
  8. Disallow: */feed # при дефолтных чпу / меняется на ?
  9. Disallow: *paged # при дефолтной навигации
  10. Disallow: /page # для установленного wp-pagenavi
  11. Disallow: *?s=

Хост, как я уже писал , можно не вставлять, это просто рекомендация вебмастерам, явно указывать зеркало.
Далее, две карты сайта, одна xml, вторая сжатый xml. Xmlrpc, понятно, закрывается полюбому.

Насчет пункта 6 неуверен. Неуверен в плане, что не закроет ли такая конструкция индексацию картинок. И не короче ли будет сделать вот так:

Disallow: /wp-*

7 пункт, закрытие тегов. У меня их нет, поэтому точно не могу узнать формат урла.

8 пункт, закрываем фиды. Также имеет разный вид для разных чпу. Регэкспом можно было бы записать как-то так:

Disallow: ^(.)[\?|\/]feed(.*)?

Не уверен, что такой синтаксис поддерживается ботами, и в индексе у меня нет фидов, проверить не могу.

9 и 10 пункт закрывается индексация страниц навигации.

11 пункт — закрываем поиск.

В итоге остается чистый контент в индексе. Хотя конечно у меня не так много постов и возраст блога маловат, но то, что имеется, приносит ежедневно небольшой трафик с ПС, в основном на тему линукса.

0.00 avg. rating (0% score) - 0 votes

7 комментариев

  • привет, спасибо за пост, как раз в тему, хочу уделить немного внимания настройке блога. А вот вопрос, не подскажешь как сделать такого же формата УРЛ как у тебя _http://alexvolkov.ru/robotstxt-dlya-vordpressa.html?

    • Параметры — постоянные ссылки — /%postname%.html

  • тю, все гениальное просто, спасибо

  • Я сейчас как раз изучаю разные варинаты схемы ЧПУ на блогах.

    Кстати, у тебя совершено все неправелно написано.
    1) Два вида дирректив Disallow и Dissalow
    2) Host и Sitemap надо писать внизу под Disallow, а не после User-agent

    • По поводу первого — невнимательность. Disallow конечно же.
      По поводу второго — хост я думаю надо выносить в отдельную секцию для яндекса, т.к. кроме него все равно никто не поймет. А вот про порядок расположения карт я так и не нашел инфы в нете. Есть порядок, определяющий очередность расположения директив?

  • Спасибо, Александр.
    Сейчас создаю свой robots.txt, информация пригодилась.

  • Здравствуйте!
    А можно просто использовать
    User-agent: *
    Disallow:
    Без заморочек?
    Чем этак плохо?

css.php