Еще одну статью на эту тему читайте здесь.
Файл robots.txt - это служебный файл, который подсказывает поисковому роботу, какие разделы сайта индексировать, а какие нет. Определяет основное зеркало сайта, указывает путь к карте сайта sitemap.xml и вообще, наличие этого файла - признак любого уважающего себя сайта.
Не будем вдаваться в технические подробности, просто создадим в блокноте файл, обзовем его robots.txt и запишем туда следующее:
User-agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /wp-trackback
Disallow: /wp-feed
Disallow: /wp-comments
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Host: www.yourdomain.ru
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /wp-trackback
Disallow: /wp-feed
Disallow: /wp-comments
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Sitemap: http://yourdomain.ru/sitemap.xml
Естественно, вместо yourdomain.ru - адрес Вашего сайта. Сохраняем файл и копируем его в корневую папку блога. Более подробную информацию о robots.txt вы можете узнать на сайте http://robotstxt.org.ru/
Автору статьи большой респект за приведенные знания!)) А я то думал на кой нужен даный робот текст, и почему это у меня гугли не читает сайтмеп. Теперь я пойду все исправлять!))
Я вот только одно понять не могу, почему в первой колонке написано User-agent: Yandex, а во второй User-agent: *, это получается что например в место * нужно написать Google.ru или не чего там писать не нужно?
Большое спасибо автору! Теперь и у меня будет заполненный robots.txt. Сколько не искал доходчивой информации в Сети - все впустую! А Вы написали три строчки - и все расставили по своим местам. Обязательно поставлю ссылку на Вас у себя на блоге.
Disallow: */trackback
Disallow: */feed
Disallow: */comments - не пойму для чего это, в стандартной сборке wp такие пути отсутствуют, по моему правильнее
Disallow: /?feed=*
Disallow: /?*comment*, а еще следовало бы запретить индексацию категорий, меток и архивов во избежание дубль-контента, но не так как советуют некоторые умельцы:
Disallow: /*?* - закрывая тем самым весь контент вне морды, а например:
Disallow: /?cat=*
Disallow: /?tag=*
Disallow: /?m=*
или я неправ?
Кажется сечас надо вместо
Disallow: /wp-admin
ставить
Disallow: /wp-login *UNKNOWN*
Спсибо, Ваш вариант robots.txt я считаю правильным. Забираю! 🙂
Файла роботс не было, яша давал пару ошибок, добавил приведенный файл, сразу появилось 46 ошибок(предупреждений). Что я не так сделал?
Советую еще добавить:
User-agent: YandexBlog
Disallow:
У меня вот такой перечень:
User-agent: *
Disallow: /cgi-bin
Disallow: /tmp/
Disallow: /wp-admin
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /feed
Disallow: */feed
Disallow: /*?*
Disallow: /*?
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
Disallow: /search/*/feed
Disallow: /search/*/*
Disallow: /tag/
Allow: /wp-content/uploads/
User-agent: Googlebot-Image
Disallow:
Allow: /*
User-agent: Mediapartners-Google*
Disallow:
Allow: /*
User-agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /feed
Disallow: */feed
Disallow: /*?*
Disallow: /*?
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
Disallow: /search/*/feed
Disallow: /search/*/*
Disallow: /tag/
Allow: /wp-content/uploads/
Host: www.site.ru
Sitemap: http://www.site.ru/sitemap.xml
User-agent: YandexBlog
Disallow:
Allow: /*
Но на одном из сайтов прочла, что Яндекс считывает первый список, т.е.YandexBlog и Yandex для него одно и тоже.
И еще у меня вопрос: если WP убран в подпапку www.domen.ru/blogzdes/, будут ли работать все эти правила корректно??
в том-то и дело, что проверка Яндекса пишет все ок, правда показывает только секции, относящиеся к нему-родимому, а то что прописано для остальных игнорирует.
Окей, респект за пост!
Но если Яша исключил из индексации страницы блога по причине ошибочной мысли что это дублирующий материал, то с таким файлом он их вернет?
Привет, классный у тебя сайт, установил твой блог, тьфу-тьфу вроде все работает. Вот вопрос возник, где брать файл sitemap.xml? В твоём блоге его нет.
Нет 🙂 Нужно оставить один юзер-агент со звездочкой - это обращения ко всем ПС кроме яндекса, для него нужно писать отдельно (выпендрился!) User-agent: Yandex.
Если хотите например запретить индексацию только MSN или Yahoo то для них конкретно пишите:
User-Agent: Slurp
Disallow: /
User-Agent: msnbot
Disallow: /