Еще один вариант robots.txt для wordpress

Нашел на одном из блогов такой вариант записи robots.txt

User-agent: *
 	Allow: /

Disallow: /wp-content/
 	Disallow: /trackback/
 	Disallow: /wp-admin/
 	Disallow: /archives/
 	Disallow: /*?
 	Disallow: /*.js$
 	Disallow: /*.inc$
 	Disallow: /*.css$
 	Disallow: */trackback/
 	Disallow: /c/
 	Disallow: /author/
 	Disallow: /tag/

User-agent: Mediapartners-Google
 	Allow: /

User-agent: Adsbot-Google
 	Allow: /

User-agent: Googlebot-Image
 	Allow: /

User-agent: Googlebot-Mobile
 	Allow: /

#User-agent: ia_archiver-web.archive.org
 	#Disallow: /

Sitemap: http://wpswitch.com/robots.txt

Сразу видно, что расчитано на чпу вида %category%.
Еще интересен вариант с отсечением js, inc и css. Хотя вроде цсс итак не индексируется.

0.00 avg. rating (0% score) - 0 votes

Твитнуть

11 комментариев

Большое спасибо, как раз искала что-то подобное. А вот о том, что в роботс можно сайтмэп запихнуть я не знала.
- Декабрь 14, 2009 8:44 ПП
- By handmade
А разве существetn такая директива, как Allow?
- Декабрь 14, 2009 8:47 ПП
- By Search Bot
- Search Bot, ну да, как-то сразу и не обратил внимания ))
  handmade, только в примере туда зачем-то сам роботс засунули. Обычно там указывают карты в хтмл и хмл
  - Декабрь 14, 2009 9:20 ПП
  - By Alex Volkov
- Хотя вот погуглив, нашел такой док
  
  In June, 2008 webwide search engine companies Yahoo, Google, and Microsoft agreed to extend the Robots Exclusion Protocol. They added elements to robots.txt: an Allow directive, wildcards in URLs, and a link to a sitemap for ease of crawling, IP authentication to identify search engine indexing robots, the X-Robots-Tag header field for non HTML documents, and some additional META robot tag attributes.
  
  http://www.searchtools.com/robots/robots-txt.html
  - Декабрь 14, 2009 9:33 ПП
  - By Alex Volkov
@Alex Volkov: Яндекса среди них не было)
- Декабрь 14, 2009 10:41 ПП
- By Search Bot
- Search Bot, ну так буржуи ведь, чего с них взять.
  Хотя вот проверил в панели такую конструкцию:
  
  User-agent: *
  Allow: /
  
  Получил:
  
  *
  Используемые секции
  
  Строка
  
  1-2
  User-agent: *
  Allow: /
  
  Результаты проверки URL
  URL Результат
  http://alexvolkov.ru разрешен
  - Декабрь 14, 2009 10:52 ПП
  - By Alex Volkov
Убедили 🙂
- Декабрь 15, 2009 10:08 ДП
- By Search Bot
Яндексом нормально должен проиндексироваться, запретов ведь нет для яши никаких, файл под Гугл рассчитан.
- Декабрь 15, 2009 4:07 ПП
- By Rumba
Странный какой-то сайтмап, даже если бы тег Allow был, так мы бы разрешили доступ ко всему во второй строчке для всех юзер-агентов, зачем ниже еще раз для отдельных указывать тоже самое.
- Декабрь 26, 2009 5:44 ПП
- By f1-speed
Не знал, что вебархив еще индексирует
- Январь 03, 2010 4:46 ПП
- By Akella27
К настройке файла robots нужно подходить ответственно. Если кто не знает его значений, лучше самому не соваться. Можно воспользоваться готовым файлом robots для молодых блогов WordPress.
- Март 08, 2012 10:38 ПП
- By Роман