Еще одну статью на эту тему читайте здесь.
Файл robots.txt - это служебный файл, который подсказывает поисковому роботу, какие разделы сайта индексировать, а какие нет. Определяет основное зеркало сайта, указывает путь к карте сайта sitemap.xml и вообще, наличие этого файла - признак любого уважающего себя сайта.
Не будем вдаваться в технические подробности, просто создадим в блокноте файл, обзовем его robots.txt и запишем туда следующее:
User-agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /wp-trackback
Disallow: /wp-feed
Disallow: /wp-comments
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Host: www.yourdomain.ru
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /wp-trackback
Disallow: /wp-feed
Disallow: /wp-comments
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Sitemap: http://yourdomain.ru/sitemap.xml
Естественно, вместо yourdomain.ru - адрес Вашего сайта. Сохраняем файл и копируем его в корневую папку блога. Более подробную информацию о robots.txt вы можете узнать на сайте http://robotstxt.org.ru/
Всем привет! Прочитал попробовал, непонравилось... 🙂
Вот у меня вопрос, в свете последних событий и нововведений от яндекса, решил на всех саттах позакрывать все дубли, нормального роботса гугл не нашол. Вот пример дублей:
http://site.ru/?p=59#more-59
http://site.ru/?p=52#respond
http://site.ru/?m=200912
Авторский роботс не закрывает эти страницы, а роботс от mall, вообще закрывает от индексации весь сайт кроме главной вот этим правилом:
Disallow: /*?*
Вот это http://site.ru/?m=200912 закрыл параметром Disallow: /*2009* а остальное никак не получается, подскажите пожалуйста
Да, пока страниц с якорями не нашел в индексе, тогда проблема решена, беру слова свои назад, отличный роботс! С добавлением параметра Disallow: /?m=. С наступившим!!!
скажите пожалуйста, как отключить такое:
*/page/*/
*/comment-page-1
Я всё сделал как вы написали:
создать тхт и прописать вашы надписи-сделал.
закинул в файловый менеджер(ucoz)
так закинул и открываю файл роботс а там стандартно написано всё((
в смысле ни чё не изменилась((
яша не находит, гугл молчит.....
Спасибо за ссылку на оф. сайт и роботс.тхт там) весьма интересное чтиво. Пытаюсь составить сейчас себе идеальный файлик для всех сайтов) Можешь подсказать зачем нужно?
Disallow: /*?*
Disallow: /*?
Я так понимаю это обобщенное правило по типу
Disallow: /?feed=
Disallow: /?s=
И зачем исключать фид от индексации? Он типа дубли делает или что?
У меня проблема аналогичная той что указал Игорь - нужно закрыть от индексации ссылки вида */comment-page-1, сейчас бьюсь над решением. Стандартные правила оформления robots.txt в этом случае не работают, подозреваю что из-за ЧПУ
Спасибо, решил проблему поплотнее разобравшись в правилах составления robots.txt 🙂
Здраствуйте. Вопрос такой, как запретить индексацию страницы обратных ссылок. Нужно прописывать полный путь к странице или можно только окончание? И еще на счет станицы ошибка 404, есть смысл ее запрещать, а то удалял станицу яша после этого возмущался.
А зачем запрещать индексацию этой страницы, думаете ссылки неувидят поисковики?
Полезная информация, а точно фид надо закрывать?
Disallow: */feed
Директивы Disallow: /*?* Disallow: /*? особенно хорошо "работают" на блогах под WordPress 3.0 и выше... Яндекс напрочь перестает индексировать статьи! :))) А причина этого - "короткие" ссылки и их автоматический внутрений 301 редирект на страницы статей. Забавно так получается... :))) Я месяц не мог понять что за нах..., не индексирует Яшка, и все тут. А про этот злополучный редирект совершенно случайно узнал. На сайте его вроде как и нет, где-то в самой "начинке" WordPress он "ныкается". Если бы не злополучные isallow: /*?* Disallow: /*?, то проблема скорее всего не проявилась бы....
Очень полезно просто и доступно. Спасибо!)
лучше чтобы сайт полностью был проиндексирован, какая-нибудь статья да и попадёт в индекс, гледишь лишний посетитель зайдёт
Воспользовался вашим вариантом robots.txt для своего видео блога
Через некоторое время гляну какие страницы останутся в поиске
Спасибо
Надо скрывать от индексации и категории и тэги, ибо Яндексы начинают индексировать эти страницы и показывать, при этом не давая вылезти некоторым страничкам в индекс с самими статьями. Часть статей не в индексе потому что на страничке с категорями эта заметка уже есть, и не дает!
Поэтому надо убирать из индекса и категории и тэги.
Disallow: /archives/category
Disallow: /archives/tag
Это школьникам не надо, а тем кто на ГГЛе - еще как надо.
Спасибо авторам за топик.
Диман, привет! Жаль что тебе не понравился мой роботс.тхт, т.к. он хороший 😉
Объясню почему: страницы по типу:
http://site.ru/?p=59#more-59
http://site.ru/?p=52#respond
закрывать не надо, т.к. #more-59 и #respond являются якорями страницы ?p=59 и ?p=52 и попросту не индексируются не гуглом, не яндексом, не остальными ПС..... (по крайней мере я в жизни ни у одного сайта не видел в индексе страницу с якорем, хотя есть сайты где якоря на каждой странице).
На счет страницы ?m=200912 тут правда, мой роботс ее не закроет, но вы можете просто написать:
Disallow: /?m=
Чтобы закрыть все страницы архивов, но лично я у себя на блоге их закрывать не стал.... думаю хуже от них быть не должно, лучше для них сделать вывод всех записей месяца на одной странице..... т.е. когда заходишь например в Декабрь 2009 там выводятся все записи за декабрь на одной странице (без постраничного разбития).