Еще один вариант robots.txt для wordpress

10 Comments

Нашел на одном из блогов такой вариант записи robots.txt

User-agent: *
 	Allow: /

Disallow: /wp-content/
 	Disallow: /trackback/
 	Disallow: /wp-admin/
 	Disallow: /archives/
 	Disallow: /*?
 	Disallow: /*.js$
 	Disallow: /*.inc$
 	Disallow: /*.css$
 	Disallow: */trackback/
 	Disallow: /c/
 	Disallow: /author/
 	Disallow: /tag/

User-agent: Mediapartners-Google
 	Allow: /

User-agent: Adsbot-Google
 	Allow: /

User-agent: Googlebot-Image
 	Allow: /

User-agent: Googlebot-Mobile
 	Allow: /

#User-agent: ia_archiver-web.archive.org
 	#Disallow: /

Sitemap: http://wpswitch.com/robots.txt

Сразу видно, что расчитано на чпу вида %category%.
Еще интересен вариант с отсечением js, inc и css. Хотя вроде цсс итак не индексируется.

10 Comments (+add yours?)

  1. handmade
    Дек 14, 2009 @ 20:44:36

    Большое спасибо, как раз искала что-то подобное.  А вот о том, что в роботс можно сайтмэп запихнуть я не знала.

  2. Search Bot
    Дек 14, 2009 @ 20:47:31

    А разве существetn такая директива, как Allow?

  3. Alex Volkov
    Дек 14, 2009 @ 21:20:56

    Search Bot, ну да, как-то сразу и не обратил внимания ))
    handmade, только в примере туда зачем-то сам роботс засунули. Обычно там указывают карты в хтмл и хмл

  4. Alex Volkov
    Дек 14, 2009 @ 21:33:15

    Хотя вот погуглив, нашел такой док

    In June, 2008 webwide search engine companies Yahoo, Google, and Microsoft agreed to extend the Robots Exclusion Protocol. They added elements to robots.txt: an Allow directive, wildcards in URLs, and a link to a sitemap for ease of crawling, IP authentication to identify search engine indexing robots, the X-Robots-Tag header field for non HTML documents, and some additional META robot tag attributes.

    http://www.searchtools.com/robots/robots-txt.html

  5. Search Bot
    Дек 14, 2009 @ 22:41:22

    @Alex Volkov: Яндекса среди них не было)

  6. Alex Volkov
    Дек 14, 2009 @ 22:52:29

    Search Bot, ну так буржуи ведь, чего с них взять.
    Хотя вот проверил в панели такую конструкцию:

    User-agent: *
    Allow: /

    Получил:

    *
    Используемые секции

    Строка

    1-2
    User-agent: *
    Allow: /

    Результаты проверки URL
    URL Результат
    http://alexvolkov.ru разрешен

  7. Search Bot
    Дек 15, 2009 @ 10:08:27

    Убедили :)

  8. Rumba
    Дек 15, 2009 @ 16:07:36

    Яндексом нормально должен проиндексироваться, запретов ведь нет для яши никаких, файл под Гугл рассчитан.

  9. f1-speed
    Дек 26, 2009 @ 17:44:00

    Странный какой-то сайтмап, даже если бы тег Allow был, так мы бы разрешили доступ ко всему во второй строчке для всех юзер-агентов, зачем ниже еще раз для отдельных указывать тоже самое.

  10. Akella27
    Янв 03, 2010 @ 16:46:14

    Не знал, что вебархив еще индексирует

Leave a Reply