Правильный robots.txt для WordPress

Еще одну статью на эту тему читайте здесь.

Файл robots.txt - это служебный файл, который подсказывает поисковому роботу, какие разделы сайта индексировать, а какие нет. Определяет основное зеркало сайта, указывает путь к карте сайта sitemap.xml и вообще, наличие этого файла - признак любого уважающего себя сайта.
Не будем вдаваться в технические подробности, просто создадим в блокноте файл, обзовем его robots.txt и запишем туда следующее:

User-agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /wp-trackback
Disallow: /wp-feed
Disallow: /wp-comments
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Host: www.yourdomain.ru

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /wp-trackback
Disallow: /wp-feed
Disallow: /wp-comments
Disallow: */trackback
Disallow: */feed
Disallow: */comments

Sitemap: http://yourdomain.ru/sitemap.xml

Естественно, вместо yourdomain.ru - адрес Вашего сайта. Сохраняем файл и копируем его в корневую папку блога. Более подробную информацию о robots.txt вы можете узнать на сайте http://robotstxt.org.ru/

Рубрика: Настройка WordPress | 13 марта 2009

Предыдущие записи из рубрики `Настройка WordPress`

63 комментария

Артур, 18.05.2009 в 09:05

Автору статьи большой респект за приведенные знания!)) А я то думал на кой нужен даный робот текст, и почему это у меня гугли не читает сайтмеп. Теперь я пойду все исправлять!))

ОтветитьОтветить
Артур, 18.05.2009 в 09:08

Я вот только одно понять не могу, почему в первой колонке написано User-agent: Yandex, а во второй User-agent: *, это получается что например в место * нужно написать Google.ru или не чего там писать не нужно?

ОтветитьОтветить
Deimos, 18.05.2009 в 09:13

Нет 🙂 Нужно оставить один юзер-агент со звездочкой - это обращения ко всем ПС кроме яндекса, для него нужно писать отдельно (выпендрился!) User-agent: Yandex.
Если хотите например запретить индексацию только MSN или Yahoo то для них конкретно пишите:

User-Agent: Slurp
Disallow: /

User-Agent: msnbot
Disallow: /

ОтветитьОтветить
Александр, 23.05.2009 в 04:29

Большое спасибо автору! Теперь и у меня будет заполненный robots.txt. Сколько не искал доходчивой информации в Сети - все впустую! А Вы написали три строчки - и все расставили по своим местам. Обязательно поставлю ссылку на Вас у себя на блоге.

ОтветитьОтветить
kf, 02.08.2009 в 00:42

Disallow: */trackback
Disallow: */feed
Disallow: */comments - не пойму для чего это, в стандартной сборке wp такие пути отсутствуют, по моему правильнее
Disallow: /?feed=*
Disallow: /?*comment*, а еще следовало бы запретить индексацию категорий, меток и архивов во избежание дубль-контента, но не так как советуют некоторые умельцы:
Disallow: /*?* - закрывая тем самым весь контент вне морды, а например:
Disallow: /?cat=*
Disallow: /?tag=*
Disallow: /?m=*
или я неправ?

ОтветитьОтветить
Deimos, 02.08.2009 в 09:08

kf, на счет контента спорное решение, т.к. странице тегов и категорий прекрасно индексируются (посмотрите даже этот блог), а если яше что то не понравится он сам прекрасно исключает страницы из поиска, в принципе ему не надо помогать. Еще не разу не видел чтобы Яша исключил саму страницу, а не страницу с тегами (например).
А по поводу написания роботс.тхт Ваш вариант работает без активированного ЧПУ, мой вариант работает если ЧПУ активировано!

ОтветитьОтветить
Дамир, 07.09.2009 в 12:19

Кажется сечас надо вместо
Disallow: /wp-admin
ставить
Disallow: /wp-login *UNKNOWN*

ОтветитьОтветить
Deimos, 07.09.2009 в 13:00

Дамир, ну хуже от Disallow: /wp-login точно не станет, так что можно смело ставить 😉

ОтветитьОтветить
modlen, 30.09.2009 в 12:50

Спсибо, Ваш вариант robots.txt я считаю правильным. Забираю! 🙂

ОтветитьОтветить
alex, 09.10.2009 в 15:31

Файла роботс не было, яша давал пару ошибок, добавил приведенный файл, сразу появилось 46 ошибок(предупреждений). Что я не так сделал?

ОтветитьОтветить
Deimos, 10.10.2009 в 11:15

alex, добрый день, что за ошибки выдает Яша? Если - "Документ запрещен в файле robots.txt" - то это даже не ошибка и даже не предупреждение, а просто информация о том что некоторые страницы запрещены в роботе. И это нормально, т.к. в этом роботе мы запрещаем яше индексировать лишнии, случайно попавшие страницы. Если Вам не сложно то напишите сюда ошибки которые написал Яша.
П.С. у этого сайта (wp-info.ru) яша показывает 1530 ошибок, и все нормально 😉

ОтветитьОтветить
mall, 04.12.2009 в 18:12

Советую еще добавить:
User-agent: YandexBlog
Disallow:

ОтветитьОтветить
VRS, 09.12.2009 в 07:49

У меня вот такой перечень:

User-agent: *
Disallow: /cgi-bin
Disallow: /tmp/
Disallow: /wp-admin
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /feed
Disallow: */feed
Disallow: /*?*
Disallow: /*?
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
Disallow: /search/*/feed
Disallow: /search/*/*
Disallow: /tag/
Allow: /wp-content/uploads/

User-agent: Googlebot-Image
Disallow:
Allow: /*

User-agent: Mediapartners-Google*
Disallow:
Allow: /*

User-agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /feed
Disallow: */feed
Disallow: /*?*
Disallow: /*?
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
Disallow: /search/*/feed
Disallow: /search/*/*
Disallow: /tag/
Allow: /wp-content/uploads/
Host: www.site.ru
Sitemap: http://www.site.ru/sitemap.xml

User-agent: YandexBlog
Disallow:
Allow: /*

Но на одном из сайтов прочла, что Яндекс считывает первый список, т.е.YandexBlog и Yandex для него одно и тоже.

И еще у меня вопрос: если WP убран в подпапку www.domen.ru/blogzdes/, будут ли работать все эти правила корректно??

ОтветитьОтветить
Deimos, 09.12.2009 в 15:41

VRS, точно ответить не могу, но вроде YandexBlog и Yandex это разные вещи... посмотрел в яндексхелпе, дак вроде тоже пишут что это разные боты и соответственно для них разные правила.
На счет того правильны ли эти правила если WP убран в подпапку - мне кажется неправильны! Т.к. это относительный путь для сайта, хотя точно утверждать не могу, надо пользоваться проверкой роботс.тхт

ОтветитьОтветить
VRS, сегодня

в том-то и дело, что проверка Яндекса пишет все ок, правда показывает только секции, относящиеся к нему-родимому, а то что прописано для остальных игнорирует.

ОтветитьОтветить
Deimos, сегодня

VRS, дак так и должно быть... не совсем понятно что Вас смущает 😉

ОтветитьОтветить
Alex69, 21.12.2009 в 19:01

Окей, респект за пост!
Но если Яша исключил из индексации страницы блога по причине ошибочной мысли что это дублирующий материал, то с таким файлом он их вернет?

ОтветитьОтветить
Deimos, 23.12.2009 в 16:42

Alex69, может и вернет, хотя я честно говоря сомневаюсь, надо смотреть сайт.... Может проблема не только в дублировании контента... Вы попробуйте - хуже не станет 😉 Как сделаете - пишите в суппорт яндекса.

ОтветитьОтветить
Дамир, 29.12.2009 в 00:41

Привет, классный у тебя сайт, установил твой блог, тьфу-тьфу вроде все работает. Вот вопрос возник, где брать файл sitemap.xml? В твоём блоге его нет.

ОтветитьОтветить
Deimos, 29.12.2009 в 01:36

Дамир, привет, sitemap.xml создается с помощью плагина Google XML Sitemaps - он автоматически генерит xml карту твоего сайта при каждом создании новой страницы.
И кстати он у меня есть 😉

ОтветитьОтветить

Комментировать