Нашел на одном из блогов такой вариант записи robots.txt

User-agent: *
 	Allow: /

Disallow: /wp-content/
 	Disallow: /trackback/
 	Disallow: /wp-admin/
 	Disallow: /archives/
 	Disallow: /*?
 	Disallow: /*.js$
 	Disallow: /*.inc$
 	Disallow: /*.css$
 	Disallow: */trackback/
 	Disallow: /c/
 	Disallow: /author/
 	Disallow: /tag/

User-agent: Mediapartners-Google
 	Allow: /

User-agent: Adsbot-Google
 	Allow: /

User-agent: Googlebot-Image
 	Allow: /

User-agent: Googlebot-Mobile
 	Allow: /

#User-agent: ia_archiver-web.archive.org
 	#Disallow: /

Sitemap: http://wpswitch.com/robots.txt

Сразу видно, что расчитано на чпу вида %category%.
Еще интересен вариант с отсечением js, inc и css. Хотя вроде цсс итак не индексируется.

Возможно, это будет интересно...

10 responses


Do you want to comment?

Comments RSS and TrackBack Identifier URI ?

Большое спасибо, как раз искала что-то подобное.  А вот о том, что в роботс можно сайтмэп запихнуть я не знала.

Декабрь 14, 2009 8:44 пп

А разве существetn такая директива, как Allow?

Декабрь 14, 2009 8:47 пп

Search Bot, ну да, как-то сразу и не обратил внимания ))
handmade, только в примере туда зачем-то сам роботс засунули. Обычно там указывают карты в хтмл и хмл

Декабрь 14, 2009 9:20 пп

Хотя вот погуглив, нашел такой док

In June, 2008 webwide search engine companies Yahoo, Google, and Microsoft agreed to extend the Robots Exclusion Protocol. They added elements to robots.txt: an Allow directive, wildcards in URLs, and a link to a sitemap for ease of crawling, IP authentication to identify search engine indexing robots, the X-Robots-Tag header field for non HTML documents, and some additional META robot tag attributes.

http://www.searchtools.com/robots/robots-txt.html

Декабрь 14, 2009 9:33 пп

@Alex Volkov: Яндекса среди них не было)

Декабрь 14, 2009 10:41 пп

Search Bot, ну так буржуи ведь, чего с них взять.
Хотя вот проверил в панели такую конструкцию:

User-agent: *
Allow: /

Получил:

*
Используемые секции

Строка

1-2
User-agent: *
Allow: /

Результаты проверки URL
URL Результат
http://alexvolkov.ru разрешен

Декабрь 14, 2009 10:52 пп

Убедили :)

Декабрь 15, 2009 10:08 дп

Яндексом нормально должен проиндексироваться, запретов ведь нет для яши никаких, файл под Гугл рассчитан.

Декабрь 15, 2009 4:07 пп

Странный какой-то сайтмап, даже если бы тег Allow был, так мы бы разрешили доступ ко всему во второй строчке для всех юзер-агентов, зачем ниже еще раз для отдельных указывать тоже самое.

Декабрь 26, 2009 5:44 пп

Не знал, что вебархив еще индексирует

Январь 3, 2010 4:46 пп

Comment now!
















Trackbacks