Нашел на одном из блогов такой вариант записи robots.txt
User-agent: * Allow: / Disallow: /wp-content/ Disallow: /trackback/ Disallow: /wp-admin/ Disallow: /archives/ Disallow: /*? Disallow: /*.js$ Disallow: /*.inc$ Disallow: /*.css$ Disallow: */trackback/ Disallow: /c/ Disallow: /author/ Disallow: /tag/ User-agent: Mediapartners-Google Allow: / User-agent: Adsbot-Google Allow: / User-agent: Googlebot-Image Allow: / User-agent: Googlebot-Mobile Allow: / #User-agent: ia_archiver-web.archive.org #Disallow: / Sitemap: http://wpswitch.com/robots.txt
Сразу видно, что расчитано на чпу вида %category%.
Еще интересен вариант с отсечением js, inc и css. Хотя вроде цсс итак не индексируется.
11 комментариев
Большое спасибо, как раз искала что-то подобное. А вот о том, что в роботс можно сайтмэп запихнуть я не знала.
А разве существetn такая директива, как Allow?
Search Bot, ну да, как-то сразу и не обратил внимания ))
handmade, только в примере туда зачем-то сам роботс засунули. Обычно там указывают карты в хтмл и хмл
Хотя вот погуглив, нашел такой док
http://www.searchtools.com/robots/robots-txt.html
@Alex Volkov: Яндекса среди них не было)
Search Bot, ну так буржуи ведь, чего с них взять.
Хотя вот проверил в панели такую конструкцию:
Получил:
Убедили 🙂
Яндексом нормально должен проиндексироваться, запретов ведь нет для яши никаких, файл под Гугл рассчитан.
Странный какой-то сайтмап, даже если бы тег Allow был, так мы бы разрешили доступ ко всему во второй строчке для всех юзер-агентов, зачем ниже еще раз для отдельных указывать тоже самое.
Не знал, что вебархив еще индексирует
К настройке файла robots нужно подходить ответственно. Если кто не знает его значений, лучше самому не соваться. Можно воспользоваться готовым файлом robots для молодых блогов WordPress.