Еще один вариант robots.txt для wordpress
Дек 14
Web robots.txt, Wordpress 10 Comments
Нашел на одном из блогов такой вариант записи robots.txt
User-agent: * Allow: / Disallow: /wp-content/ Disallow: /trackback/ Disallow: /wp-admin/ Disallow: /archives/ Disallow: /*? Disallow: /*.js$ Disallow: /*.inc$ Disallow: /*.css$ Disallow: */trackback/ Disallow: /c/ Disallow: /author/ Disallow: /tag/ User-agent: Mediapartners-Google Allow: / User-agent: Adsbot-Google Allow: / User-agent: Googlebot-Image Allow: / User-agent: Googlebot-Mobile Allow: / #User-agent: ia_archiver-web.archive.org #Disallow: / Sitemap: http://wpswitch.com/robots.txt
Сразу видно, что расчитано на чпу вида %category%.
Еще интересен вариант с отсечением js, inc и css. Хотя вроде цсс итак не индексируется.
Twitter
Facebook
Flickr
RSS
Дек 14, 2009 @ 20:44:36
Большое спасибо, как раз искала что-то подобное. А вот о том, что в роботс можно сайтмэп запихнуть я не знала.
Дек 14, 2009 @ 20:47:31
А разве существetn такая директива, как Allow?
Дек 14, 2009 @ 21:20:56
Search Bot, ну да, как-то сразу и не обратил внимания ))
handmade, только в примере туда зачем-то сам роботс засунули. Обычно там указывают карты в хтмл и хмл
Дек 14, 2009 @ 21:33:15
Хотя вот погуглив, нашел такой док
http://www.searchtools.com/robots/robots-txt.html
Дек 14, 2009 @ 22:41:22
@Alex Volkov: Яндекса среди них не было)
Дек 14, 2009 @ 22:52:29
Search Bot, ну так буржуи ведь, чего с них взять.
Хотя вот проверил в панели такую конструкцию:
Получил:
Дек 15, 2009 @ 10:08:27
Убедили
Дек 15, 2009 @ 16:07:36
Яндексом нормально должен проиндексироваться, запретов ведь нет для яши никаких, файл под Гугл рассчитан.
Дек 26, 2009 @ 17:44:00
Странный какой-то сайтмап, даже если бы тег Allow был, так мы бы разрешили доступ ко всему во второй строчке для всех юзер-агентов, зачем ниже еще раз для отдельных указывать тоже самое.
Янв 03, 2010 @ 16:46:14
Не знал, что вебархив еще индексирует