Правильный robots.txt для WordPress

Еще одну статью на эту тему читайте здесь.

Файл robots.txt - это служебный файл, который подсказывает поисковому роботу, какие разделы сайта индексировать, а какие нет. Определяет основное зеркало сайта, указывает путь к карте сайта sitemap.xml и вообще, наличие этого файла - признак любого уважающего себя сайта.
Не будем вдаваться в технические подробности, просто создадим в блокноте файл, обзовем его robots.txt и запишем туда следующее:

User-agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /wp-trackback
Disallow: /wp-feed
Disallow: /wp-comments
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Host: www.yourdomain.ru

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /wp-trackback
Disallow: /wp-feed
Disallow: /wp-comments
Disallow: */trackback
Disallow: */feed
Disallow: */comments

Sitemap: http://yourdomain.ru/sitemap.xml

Естественно, вместо yourdomain.ru - адрес Вашего сайта. Сохраняем файл и копируем его в корневую папку блога. Более подробную информацию о robots.txt вы можете узнать на сайте http://robotstxt.org.ru/

Рубрика: Настройка WordPress | 13 марта 2009

Предыдущие записи из рубрики `Настройка WordPress`

63 комментария

Диман, 02.01.2010 в 13:24

Всем привет! Прочитал попробовал, непонравилось... 🙂
Вот у меня вопрос, в свете последних событий и нововведений от яндекса, решил на всех саттах позакрывать все дубли, нормального роботса гугл не нашол. Вот пример дублей:
http://site.ru/?p=59#more-59
http://site.ru/?p=52#respond
http://site.ru/?m=200912
Авторский роботс не закрывает эти страницы, а роботс от mall, вообще закрывает от индексации весь сайт кроме главной вот этим правилом:
Disallow: /*?*
Вот это http://site.ru/?m=200912 закрыл параметром Disallow: /*2009* а остальное никак не получается, подскажите пожалуйста

ОтветитьОтветить
Deimos, 02.01.2010 в 13:47

Диман, привет! Жаль что тебе не понравился мой роботс.тхт, т.к. он хороший 😉
Объясню почему: страницы по типу:
http://site.ru/?p=59#more-59
http://site.ru/?p=52#respond
закрывать не надо, т.к. #more-59 и #respond являются якорями страницы ?p=59 и ?p=52 и попросту не индексируются не гуглом, не яндексом, не остальными ПС..... (по крайней мере я в жизни ни у одного сайта не видел в индексе страницу с якорем, хотя есть сайты где якоря на каждой странице).
На счет страницы ?m=200912 тут правда, мой роботс ее не закроет, но вы можете просто написать:
Disallow: /?m=
Чтобы закрыть все страницы архивов, но лично я у себя на блоге их закрывать не стал.... думаю хуже от них быть не должно, лучше для них сделать вывод всех записей месяца на одной странице..... т.е. когда заходишь например в Декабрь 2009 там выводятся все записи за декабрь на одной странице (без постраничного разбития).

ОтветитьОтветить
Диман, 02.01.2010 в 15:50

Да, пока страниц с якорями не нашел в индексе, тогда проблема решена, беру слова свои назад, отличный роботс! С добавлением параметра Disallow: /?m=. С наступившим!!!

ОтветитьОтветить
Deimos, 03.01.2010 в 12:53

Диман, кстати говоря добавить в robots.txt правило Disallow: /*?* предлагают сами разработчики WordPress - 😉

ОтветитьОтветить
Игорь, 20.01.2010 в 11:31

скажите пожалуйста, как отключить такое:
*/page/*/
*/comment-page-1

ОтветитьОтветить
Deimos, 22.01.2010 в 12:26

Игорь, в смысле отключить, запретить индексировать, или сделать так чтобы такое вообще не появлялось в WordPress'e?

ОтветитьОтветить
Фарид, 23.01.2010 в 15:33

Я всё сделал как вы написали:
создать тхт и прописать вашы надписи-сделал.
закинул в файловый менеджер(ucoz)
так закинул и открываю файл роботс а там стандартно написано всё((
в смысле ни чё не изменилась((
яша не находит, гугл молчит.....

ОтветитьОтветить
Tod, 28.01.2010 в 16:51

Спасибо за ссылку на оф. сайт и роботс.тхт там) весьма интересное чтиво. Пытаюсь составить сейчас себе идеальный файлик для всех сайтов) Можешь подсказать зачем нужно?

Disallow: /*?*
Disallow: /*?

Я так понимаю это обобщенное правило по типу

Disallow: /?feed=
Disallow: /?s=

И зачем исключать фид от индексации? Он типа дубли делает или что?

ОтветитьОтветить
Deimos, 28.01.2010 в 22:57

Tod, привет! Все правильно понимаешь, чтобы исключить все урлы где встречается знак вопроса. На счет фида, поставим вопрос по другому, зачем тебе индексация фида?! Во первых он дублирует контент (с нынешними фильтрами яндекса это не есть гуд, WordPress и так создает куча дублей - в категория, тегах, архивах и т.д.), во вторых зачем его идексировать, все равно фид никогда не попадет в топ пс... Да и лишняя нагрузка на фид не нужна при индексации.... в общем вердикт следующий - исключить из индексации.... Про поиск и говорить не стоит - индексация поиска это почти 100% бан или фильтр.

ОтветитьОтветить
y0ung5eo, 11.02.2010 в 10:55

У меня проблема аналогичная той что указал Игорь - нужно закрыть от индексации ссылки вида */comment-page-1, сейчас бьюсь над решением. Стандартные правила оформления robots.txt в этом случае не работают, подозреваю что из-за ЧПУ

ОтветитьОтветить
Deimos, 11.02.2010 в 13:28

y0ung5eo, а в чем проблема то? Добавляете вот такую строчку:
Disallow: */comment-page-*
в robots.txt и все ок! Только что проверил анализатором робота в яндексе 😉

ОтветитьОтветить
y0ung5eo, 12.02.2010 в 00:09

Спасибо, решил проблему поплотнее разобравшись в правилах составления robots.txt 🙂

ОтветитьОтветить
Сергей, 17.02.2010 в 14:38

Здраствуйте. Вопрос такой, как запретить индексацию страницы обратных ссылок. Нужно прописывать полный путь к странице или можно только окончание? И еще на счет станицы ошибка 404, есть смысл ее запрещать, а то удалял станицу яша после этого возмущался.

ОтветитьОтветить
Алекс, 22.11.2010 в 08:49

А зачем запрещать индексацию этой страницы, думаете ссылки неувидят поисковики?

ОтветитьОтветить
Папа Карлос, 17.02.2011 в 23:37

Полезная информация, а точно фид надо закрывать?
Disallow: */feed

ОтветитьОтветить
Валерий, 19.03.2011 в 23:23

Директивы Disallow: /*?* Disallow: /*? особенно хорошо "работают" на блогах под WordPress 3.0 и выше... Яндекс напрочь перестает индексировать статьи! :))) А причина этого - "короткие" ссылки и их автоматический внутрений 301 редирект на страницы статей. Забавно так получается... :))) Я месяц не мог понять что за нах..., не индексирует Яшка, и все тут. А про этот злополучный редирект совершенно случайно узнал. На сайте его вроде как и нет, где-то в самой "начинке" WordPress он "ныкается". Если бы не злополучные isallow: /*?* Disallow: /*?, то проблема скорее всего не проявилась бы....

ОтветитьОтветить
Soohar, 26.03.2011 в 12:06

Очень полезно просто и доступно. Спасибо!)

ОтветитьОтветить
Сергей, 08.04.2011 в 10:10

лучше чтобы сайт полностью был проиндексирован, какая-нибудь статья да и попадёт в индекс, гледишь лишний посетитель зайдёт

ОтветитьОтветить
Артём Чирков, 06.05.2011 в 17:25

Воспользовался вашим вариантом robots.txt для своего видео блога

Через некоторое время гляну какие страницы останутся в поиске

Спасибо

ОтветитьОтветить
jkeks, 11.05.2011 в 07:28

Надо скрывать от индексации и категории и тэги, ибо Яндексы начинают индексировать эти страницы и показывать, при этом не давая вылезти некоторым страничкам в индекс с самими статьями. Часть статей не в индексе потому что на страничке с категорями эта заметка уже есть, и не дает!
Поэтому надо убирать из индекса и категории и тэги.

Disallow: /archives/category
Disallow: /archives/tag

Это школьникам не надо, а тем кто на ГГЛе - еще как надо.
Спасибо авторам за топик.

ОтветитьОтветить

Комментировать

Новые комментарии