Еще одну статью на эту тему читайте здесь.
Файл robots.txt - это служебный файл, который подсказывает поисковому роботу, какие разделы сайта индексировать, а какие нет. Определяет основное зеркало сайта, указывает путь к карте сайта sitemap.xml и вообще, наличие этого файла - признак любого уважающего себя сайта.
Не будем вдаваться в технические подробности, просто создадим в блокноте файл, обзовем его robots.txt и запишем туда следующее:
User-agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /wp-trackback
Disallow: /wp-feed
Disallow: /wp-comments
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Host: www.yourdomain.ru
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /wp-trackback
Disallow: /wp-feed
Disallow: /wp-comments
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Sitemap: http://yourdomain.ru/sitemap.xml
Естественно, вместо yourdomain.ru - адрес Вашего сайта. Сохраняем файл и копируем его в корневую папку блога. Более подробную информацию о robots.txt вы можете узнать на сайте http://robotstxt.org.ru/
Привет. А можешь глянуть мой роботс.тхт и подсказать, все ли правильно? Яша никаких ошибок не выдает. Но и два месяца не хочет пускать сайт в индекс. и если я поменяю роботс.тхт на тот, что у тебя в псоте указан, измениться ли ситуация?
Здравствуйте!
А все исходящие с блога WordPress ссылки как закрыть в robots.txt??? Либо я что-то пропустил, либо, здесь это не рассматривали...
С уважением,
Sergey
Здесь это не рассматривали — это невозможно.
Привет!
Как запретить поисковику индексировать все статьи определенной категории. Например у меня на сайте должна быть категория в которой я буду собирать только перепосты. Как я понимаю дублирующий контент плох для сайта.
Макс, укажите название этой категории в robots.txt. Например, если категория называется "news", то в robots.txt надо добавить
Disallow: /category/news/
Спасибо!
еще один вопрос. Я слышал, что только яндекс не любит дубликаты,а гугл к этому относится положительно, вроде ему не важно где впервые появилась запись. Правда ли это?
если это так то мне надо Disallow: /category/news/ написать только тут User-agent: Yandex .. так ?
Макс, Спросите у Гугла что он любит, а чего нет. Я не знаю. Но очевидно, что раз яндекс не любит то и гугл не должен любить или может перестать любить завтра...
Совет: если хотите закрывать раздел, закрывайте его для всех поисковиков, не надо выбирать и искать сомнительные варианты.
А так ли он нужен - robots.txt? У меня блог и без него прекрасно и Гуглем и Яндексом индесируется. А запреты всякие на служебные директории, так робот их и без этого индексировать не будет. На них ссылок нет.
Сергей Юрченко, Не принципиально, но нужен.
Например, есть плагин, который выводит все комментарии отдельного автора. Такие страницы будут дублировать контент и не нужны роботу абсолютно, а могут быть интересны только посетителям. Тут лучше закрыть подобные страницы через robots.txt, чтобы не получилось, что эти страницы будут в индексе, а страницы комментариев нет (за дублирование).
Проще говоря, полезно скорректировать робота: что стоит брать в индекс, а что точно не стоит. Хоть роботы нынче и умные, но они все же роботы...
Как вы думаете нужно ли что-то добавлять к этому robots:
User-agent: *
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content
Disallow: /tag/
Disallow: /trackback/
Disallow: /feed/
Disallow: /comments/
Disallow: */trackback/
Disallow: */feed/
Disallow: */comments/
Disallow: /?feed=
Disallow: /?s=
Allow: /wp-content/uploads/
Sitemap: http://blog-health.ru/sitemap.xml
Если да, напишите пожалуйста что.
Здравствуйте вы бред несете какой-то сами себе перечите ваш robots.txt сделан не поэтому образцу к чему тогда его рекомендовать ?
Нужно ли запрещать индексацию тегов в роботс ? и как правильно это сделать ?
Павел,
Allow: наверх поднимите так он не будет работать.
Sitemap: через пустую строку надо указывать.
*/trackback/ и /trackback/ — одинаковые правила!
/?... лучше писать так: *?...
А вообще, немного сумбурный файл получился.
Макс, Не нужно, но можно и, наверное, так даже правильнее.
Чтобы исключить в robots.txt укажите правило Disallow: /tag/
Очень хорошая статья!Как раз ищу правильный текст для роботс.тхт.А то Гугл наткнулся на препятствия в попытках проиндексировать мой сайт.Возможно,это были строки для гугла.Поменяю содержание.
Спасибо, забираю...
Добрый день. У меня несколько вопросов:
Нужно ли делать карту сайта и вставлять ее в роботс?
как определить какой домен главный и какой мне писать в роботсе, с www или без?
этими вы запрещаете индексировать комменты? Если да, то зачем?
Disallow: /wp-comments
Disallow: */comments
спасибо!
Отличный robots он решил все мои проблемы. Почитав комментарии у меня возник вопрос, почему все возятся с яшкой? Он сильно важен для блога? За ранние извините что немного не по теме вопросы.
Спасибо вам