Еще один вариант robots.txt для wordpress

Нашел на одном из блогов такой вариант записи robots.txt

User-agent: *
 	Allow: /

Disallow: /wp-content/
 	Disallow: /trackback/
 	Disallow: /wp-admin/
 	Disallow: /archives/
 	Disallow: /*?
 	Disallow: /*.js$
 	Disallow: /*.inc$
 	Disallow: /*.css$
 	Disallow: */trackback/
 	Disallow: /c/
 	Disallow: /author/
 	Disallow: /tag/

User-agent: Mediapartners-Google
 	Allow: /

User-agent: Adsbot-Google
 	Allow: /

User-agent: Googlebot-Image
 	Allow: /

User-agent: Googlebot-Mobile
 	Allow: /

#User-agent: ia_archiver-web.archive.org
 	#Disallow: /

Sitemap: http://wpswitch.com/robots.txt

Сразу видно, что расчитано на чпу вида %category%.
Еще интересен вариант с отсечением js, inc и css. Хотя вроде цсс итак не индексируется.

0.00 avg. rating (0% score) - 0 votes

11 комментариев

  • Большое спасибо, как раз искала что-то подобное.  А вот о том, что в роботс можно сайтмэп запихнуть я не знала.

  • А разве существetn такая директива, как Allow?

    • Search Bot, ну да, как-то сразу и не обратил внимания ))
      handmade, только в примере туда зачем-то сам роботс засунули. Обычно там указывают карты в хтмл и хмл

    • Хотя вот погуглив, нашел такой док

      In June, 2008 webwide search engine companies Yahoo, Google, and Microsoft agreed to extend the Robots Exclusion Protocol. They added elements to robots.txt: an Allow directive, wildcards in URLs, and a link to a sitemap for ease of crawling, IP authentication to identify search engine indexing robots, the X-Robots-Tag header field for non HTML documents, and some additional META robot tag attributes.

      http://www.searchtools.com/robots/robots-txt.html

  • @Alex Volkov: Яндекса среди них не было)

    • Search Bot, ну так буржуи ведь, чего с них взять.
      Хотя вот проверил в панели такую конструкцию:

      User-agent: *
      Allow: /

      Получил:

      *
      Используемые секции

      Строка

      1-2
      User-agent: *
      Allow: /

      Результаты проверки URL
      URL Результат
      http://alexvolkov.ru разрешен

  • Убедили 🙂

  • Яндексом нормально должен проиндексироваться, запретов ведь нет для яши никаких, файл под Гугл рассчитан.

  • Странный какой-то сайтмап, даже если бы тег Allow был, так мы бы разрешили доступ ко всему во второй строчке для всех юзер-агентов, зачем ниже еще раз для отдельных указывать тоже самое.

  • Не знал, что вебархив еще индексирует

  • К настройке файла robots нужно подходить ответственно. Если кто не знает его значений, лучше самому не соваться. Можно воспользоваться готовым файлом robots для молодых блогов WordPress.

css.php