Всем привет! Сегодня я бы хотел Вам рассказать про файл robots.txt. Да, про него очень много чего написано в интернете, но, если честно, я сам очень долгое время не мог понять, как же создать правильный robots.txt. В итоге я сделал один и он стоит на всех моих блогах. Проблем с индексацией сайта я не замечаю, robots.txt работает просто великолепно.
Robots.txt для WordPress
А зачем, собственно говоря, нужен robots.txt? Ответ все тот же – продвижение сайта в поисковых системах. То есть составление robots.txt – это одно из частей поисковой оптимизации сайта (кстати, очень скоро будет урок, который будет посвящен всей внутренней оптимизации сайта на WordPress. Поэтому не забудьте подписаться на RSS, чтобы не пропустить интересные материалы.).
Одна из функций данного файла – запрет индексации ненужных страниц сайта. Также в нем задается адрес карты сайта sitemap.xml и прописывается главное зеркало сайта (сайт с www или без www).
Примечание: для поисковых систем один и тот же сайт с www и без www совсем абсолютно разные сайты. Но, поняв, что содержимое этих сайтов одинаковое, поисковики “склеивают” их. Поэтому важно прописать главное зеркало сайта в robots.txt. Чтобы узнать, какое главное (с www или без www), просто наберите адрес своего сайта в браузере, к примеру, с www, если Вас автоматически перебросит на тот же сайт без www, значит главное зеркало Вашего сайта без www. Надеюсь правильно объяснил.
Было:
Стало (после перехода на сайт, www автоматически удалились, и сайт стал без www):
Так вот, этот заветный, по-моему, правильный robots.txt для WordPress Вы можете увидеть ниже.
Правильный Robots.txt для WordPress
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /tag
User-agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /tag
Host: wpnew.ru
Sitemap: http://wpnew.ru/sitemap.xml.gz
Sitemap: http://wpnew.ru/sitemap.xml
Все что дано выше, Вам нужно скопировать в текстовой документ с расширением .txt, то есть, чтобы название файла было robots.txt. Данный текстовой документ Вы можете создать, к примеру, с помощью программы Notepad++. Только, не забудьте, пожалуйста, изменить в последних трех строчках адрес wpnew.ru на адрес своего сайта. Файл robots.txt должен располагаться в корне блога, то есть в той же папке, где находятся папки wp-content, wp-admin и др. .
Те, кому же лень создавать данный текстовой файл, можете просто скачать robots.txt и также там подкорректировать 3 строчки.
Хочу отметить, что в техническими частями, о которых речь пойдет ниже, себя сильно загружать не нужно. Привожу их для “знаний”, так сказать общего кругозора, чтобы знали, что и зачем нужно.
Итак, строка:
User-agent
задает правила для какого-то поисковика: к примеру “*” (звездочкой) отмечено, что правила для всех поисковиков, а то, что ниже
User-agent: Yandex
означает, что данные правила только для Яндекса.
Disallow
Здесь же Вы “засовываете” разделы, которые НЕ нужно индексировать поисковикам. К примеру, на странице http://wpnew.ru/tag/seo у меня идет дубль статей (повторение) с обычными статьями, а дублирование страниц отрицательно сказывается на поисковом продвижении, поэтому, крайне желательно, данные секторы нужно закрыть от индексации, что мы и делаем с помощью этого правила:
Disallow: /tag
Так вот, в том robots.txt, который дан выше, от индексации закрыты почти все ненужные разделы сайта на WordPress, то есть просто оставьте все как есть.
Host
Здесь мы задаем главное зеркало сайта, о котором я рассказывал чуть выше.
Sitemap
В последних двух строчках мы задаем адрес до двух карт сайта, созданные с помощью плагина Google XML Sitemaps.
Возможные проблемы
Если у Вас на блоге не стоит ЧПУ (именно так у меня происходит с тем сайтом, которого я занимаюсь продвижением), то с тем robots.txt, который дан выше, могут быть проблемы. Напомню, что без ЧПУ ссылки на сайте на посты выглядят примерно следующим образом:
А вот из-за этой строчки в robots.txt, у меня перестали индексироваться посты сайта:
Disallow: /*?*
Как видите, эта самая строка в robots.txt запрещает индексирование статей, что естественно нам нисколько не нужно. Чтобы исправить это, просто нужно удалить эти 2 строчки (в правилах для всех поисковиков и для Яндекса) и окончательный правильный robots.txt для WordPress сайта без ЧПУ будет выглядеть следующим образом:
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /tag
User-agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /tag
Host: wpnew.ru
Sitemap: http://wpnew.ru/sitemap.xml.gz
Sitemap: http://wpnew.ru/sitemap.xml
Анализ robots.txt
Чтобы проверить, правильно ли мы составили файл robots.txt я рекомендую Вам воспользоваться сервисом Яндекс Вебмастер (как регистрироваться в данном сервисе я рассказывал тут).
Заходим в раздел Настройки индексирования –> Анализ robots.txt:
Уже там нажимаете на кнопку “Загрузить robots.txt с сайта”, а затем нажимаете на кнопку “Проверить”:
Если Вы увидите примерно следующее сообщение, значит у Вас правильный robots.txt для Яндекса:
Также Вы можете в “Список URL” добавить адрес любой статьи сайта, чтобы проверить не запрещает ли robots.txt индексирование данной страницы:
Как видите, никакого запрета на индексирование страницы со стороны robots.txt мы не видим, значит все в порядке
.
Надеюсь больше вопросов, типа: как составить robots.txt или как сделать правильным данный файл у Вас не возникнет. В этом уроке я постарался показать Вам правильный пример robots.txt:
До скорой встречи!
P.s. Совсем недавно я добавил блог в Яндекс Каталог, что же интересного произошло?


На одном из сайтов проситал, что нужно запретить индексацию Yahoo.
Как Ваше мнение, нужно это сделать или нет?
А зачем собственно говоря это нужно? (как было там написано?), Если честно, я первый раз об этом слышу.
я не совсем разобрался, но, как я понял, Yahoo
практически не дает трафика в рунете, но при этом показывает все ссылки входящие.
Следовательно конкуренты могут видеть какие сайты ссылаются и, следовательно, каким-то образом это использовать
Ой, я по этому поводу не запариваюсь
Конкуренты, если нужно, и без Yahoo справятся
.
у меня непонятная проблема с этим файлом...да и не у одного меня
в индексе гугла пару тысяч страниц (сейчас 5080, а было более 7к, при том, что их должно быть около 300)
прикол в чем: переходим сюда
>
Результатов: примерно 6 140
потом идем на последнюю страницу в поисковике
>
и видим
Результатов: 331
я уже и в гугл писал, чтобы сделали перерасчет страниц... прошло пару недель, а в индексе стало лишь на 1 тысячу страниц меньше
мою проблему никто не знает как решить?
К сожалению, я нет...
Привет Петер
Тут для меня америка не открылась, но вспомнился вопрос касаемо тех самых дублирующихся статей. Хотелось бы поболее инфы получить именно об этом. Почему такое пишу: у меня на сайте немало вхождений с ПС именно с тегов (то есть ПС выдают страницу какого-либо тега «сайт/tag/название тега»). Сегодня попробую закрыть всё, посмотрю как скажется на посещениях.
По-моему, вы уже об этом писали, Петр!
Я просто давал robots.txt. А здесь постарался разъяснить что к чему.
Еще хотел бы добавить, в некоторых темах на wp, появляются ненужные ссылки. У меня была такая — /?printf=1 (печать записи), яндекс нашел к ней ссылки и проиндексировал — в итоге дублированный контент. Я удалил в теме ссылку, ой так о чем же я говорю, у нас же темы одинаковые. У тебя тоже может быть эта ссылка. В общем, я запретил в роботсе еще и /?print
Спасибо. Проверил свой, кстати нашел в выдаче страницы вида сайт/tag, сейчас добавлю Disallow: /tag. Карта блога стоит только для робота, на самом блоге для посетителей не смог поставить — тема выдает ошибку и белый лист.
Петр, если версия этого robot.txt чем-то отличается от версии, указанной в этом уроке, Вы не могли бы указать отличия?
Не отличается. Единственное — рассказал зачем он нужен, этот файл. И рассказал про нюансы, если вдруг не будет на блоге ЧПУ. Потому что если нет ЧПУ и поставить robots.txt c то с вылетят все страницы с индекса, как произошло у меня с продвигаемым сайтом клиента. Благо во время все заметил и быстро исправил данную невнимательность. Страницы в индекс вернулись очень быстро.
хоть не в тему но поздравляю с ТИЦ 40!! Скоро очередная цель будет достигнута!
точно, и PR-ом «0», как впрочем и у google.com
так похожий урок был уже
Отлично написано. Без лишнего бла, бла, бла, всё просто, понятно и с примерами!
Привет, Петр! стала твоей постоянной читательницей.
У меня вот гугл наиндексировал кучу ненужного, я добавила в робот
Disallow: /tag
Disallow: /archive
Disallow: /page
Disallow: */comment-page-*
Disallow: *?replytocom
Подскажи, правильно ли это?
Что за Disallow: *?replytocom ?
Такие страницы в индексе?
Я так поняла, это в комментариях. Гугл написал что страницы запрещены роботом, но он их почему-то все-равно видит, вот в робот и добавила эту строчку.
С файлом robots.txt всё индивидуально, поскольку от вида адреса постов зависит и то, как следует закрывать дублирующие страницы:
Например, может быть так:
Disallow: /tag/
А может и так:
Disallow: /?tag=
Я на новые блоги скопировал роботс с сайта ктонановенького. На старых ничего не меняю. Там все индексируется хорошо.
Спасибо за полезную инструкцию. Все сделала, но при проверке Яндекс выдает всего 3 строки:
User-agent: *
Disallow:
Sitemap: kuspehy.ru/sitemap.xml.gz
Я что-то неправильно сделала? Я куда надо было на Вордпресс загрузить этот файл ?
Файл robots.txt должен располагаться в корне блога, то есть в той же папке, где находятся папки wp-content, wp-admin и др.
У меня прописанно
Disallow: /wp-content/plugins
но все равно в гугле индексируется плагин нот капча, вчем дело может быть?
Только этот плагин индексируется?
Петр, Вы не подскажите: Могут ли, из-за неправильного robots.txt, страницы выпасть из индекса яндекса?
Читайте урок внимательней, там же написано, что из-за неправильного robots.txt на несколько дней (потом я исправил эту проблему) у меня выпали из индекса почти все страницы клиента, чей сайт я продвигаю.
Через robots.txt можно запретить поисковикам индексировать даже ВЕСЬ ваш сайт.
Спасибо Петр хорошая статья.
Спасибо. Все очень понятно. Сделал все, как вы написали. Все вроде в порядке=) Еще раз спасибо.
Благодарю за статью, пригодилась.
Здравствуйте, Петр! У меня вопрос по поводу зеркала сайта. В общем дело в том что у меня сайт доступен по двум доменам, один основной, а второй припаркованный кириллический. Будет ли являться припаркованный домен зеркалом, и нужно ли его добавлять в robots.txt
Здравствуйте Петр! У меня проблема в том что если с главной открыть статью кликнув по названию статьи, то открывается нормально сайт.ру/название-статьи.хтмл , а если кликнуть ссылку «Читать полностью», урл приобретает вид сайт.ру/название-статьи.хтмл#more-123 это получается дубль, никак не могу понять как запретить такие дубли в роботс (пробовал Disallow: *more*, не помгает) или может где-то код надо подправить?
Ребята подскажите почему Яндексу неудается загрузить мой файл robots.txt?Я уже несколько разных шаблонов перепробовал.И в какую папку корня public_html нужно закинуть robots.txt?Заранее спасибо!
Александр, руководствуясь Вашими уроками( спасибо Вам огроменное), я создал сайт по игровым автоматам. Все сделал правильно( на мой взгляд) , но вот в яндексе (уже два месяца сайту) его до сих пор нет. Оптимизацию проверил, робот.тхт Ваш взял , правил вроде никаких не нарушал. Помогите плиззз в чем может быть причина
Статьи уникальные?
Да 92-97% Уже инет облазил на предмет плохой истории домена . Проиндексированные ссылки есть , а в индекс не хочет =(
могу предположить, что сайт под фильтром, судя по косвенным признакам — проверьте в ЯндексВэбМастере состояние индексирования, есть ли карта сайта, а вообще напишите им тех.помощь
Спасибо большое Вы меня спасли
Я месяц лазил в этих дебрях наконец-то нашел вразумительные ответы на свои вопросы .
Все таки тяжеловато быть начинающим, да еще и в одиночку.
Пожалуйста! Спасибо за отзыв!
Спасибо за такую познавательную статью! Я уже установила robots.txt на сайт с помощью вашей статьи))). Подскажите, вот какой у меня вопрос! Почему на моем сайт проиндексирован яндексом всего одна страничка?
Либо сайт слишком молодой, либо АГС...
Снова приветствую Вас, Петр. Скажите в файле robots.txt разве нужно указывать карту сайта с расширением xml.gz (архив карты сайта). Если да, то почему? Заранее за ответ спасибо!!!
Петр такой вопрос, как мне закрыть от индексации главное горизонтальное меню? (как у вас Главная
Уроки О блоге Контакты Услуги Реклама Ученики
Использую Карта) Цели)
Пробывал noindex в редакторе но после страница выдает ошибку и не раб. , посоветуйте если знаете... спасибо
Дополню одну деталь с Вашего позволения. Для робота Яндекса ,при большом трафике на сайте, полезно добавить директиву Crawl-delay: 2 ,где 2 — время в секундах между закачками содержимого страниц поисковым роботом.Время можно задавать на свое усмотрение.Это позволит снизить нагрузку и избежать превышения лимита трафика на сайте.Для Гугла это не имеет значения, так как задается в настройках панели инструментов вебмастера.
А у меня все стоит как описано выше, но робот блокирует страницы (пишет на ваш URL). Не пойму, в чем дело Уже в яндекс вебмастере прописал главное зеркало без www. все равно такая же ерунда. Правда там написано, что изменения вступят в силу через одной — двух индексаций. Посмотрю через пару дней, но что-то надежда слабая.
Петр, спасибо за статью!
А как быть, если у меня сайт был сделан на html, а потом я сделал папку в корне сайта и туда установил вордпресс?
P.S. sitemap будет генерироваться в пределах этой папки?
Здравствуйте, Петр! А как быть, если ЧПУ вида: сайт/2012/01/16/статья
Я новенький в создании сайтов и сделал robots как Вы написали! Вот вопрос, это нормально, что Яндекс пишет исключено роботом 485, с них: Документ запрещен в файле robots.txt — 399 и Документ содержит мета-тег noindex — 85.
А в Гугл: Заблокирован файлом robots.txt — 306.
И с каждым сканированием роботов постоянно увеличиваются ошибки. Это так и должно или я что то не так доделал???
Дайте адрес сайта, где посмотреть файл robots.txt, может Вы сами закрыли доступ робота Google.
Вот мой сайт:
Рекомендую, на данном этапе раскрутки сайта не ставить Crawl-delay: 3, у Вас не такая большая посещаемость в сутки, для того, чтобы они создавали нагрузку на сервер. А роботам, как раз, нужно дать волю, и не ограничивать их время пребывания, то есть никаких тайм аутов. На этом сайте посетителей в сутки около 2500 человек, и то Петр не использует Crawl-delay. Также рекомендую для себя взять robots.txt вот этот: и добавить в него разрешение индексации картинок: Allow: /wp-content/uploads и закрыть папку хостинга: Disallow: /cgi-bin
спасибо, ну я так и не понял это нормально что с каждым сканированием роботов постоянно увеличиваются ошибки. Это так и должно!!!
В принципе Вы можете просмотреть в инструментах вебмастера Гугл, что именно закрыто для индексации, и потом сравнить со своим robots.txt действительно ли они закрыты,и потом уже делать какие либо выводы.
На сколько я знаю, то ошибок не должно быть. Единственное, что при анализе сайта, например через Инструменты для веб-мастеров от Google, может быть ситуация, что заблокировано robots.txt (к примеру rss feed) и не найдено контента (если он был роботом проиндексирован, а потом Вами удален). Еще, если Вы решите оставить свой robots.txt, очень рекомендую прогнать через Яндекс. Вебмастер в закладке , каждый параметр robots.txt и методом тыка вывести тот параметр, который вызывает ошибки. Удачи!!!
и ещё вопрос: у меня стоит ЧПУ, нужно ли в роботс ставить Disallow: /*?*
помогите, пожалуйста, начинающему блогеру
так получилось, что мной был установлен робот txt до того, как установлена карта сайта. теперь при установке плагина для карты сайта выдается следующее:
пишет:
Установка плагина…
Каталог назначения уже существует.
Установка плагина не удалась.
что делать? удалять робот txt, ставить карту сайта, а потом робот txt ? и как вообще это сделать. дайте алгоритм, пожалуйста!
Это не из-за роботc.txt, а потому что уже был установлен плагин карты сайта. Значит у Вас уже установлен плагин, нет необходимости повторно его устанавливать.
Спасибо, Петр! Буду разбираться!
Здравствуйте, у меня вопрос после закачки robots.txt появляется вторая строчка:
User-agent: *
Crawl-delay: 4
Disallow: /cgi-bin
В исходном ее не было, что бы это значило? Спасибо
Ничего страшного... Это задержка для робота.
У меня и этат робат не пашит че делать?!
здравствуйте Петр! Очень рада, что случайно , из поисковика, попала на ваш сайт. Установила робот. Начала проверять на Яндексе, набрала URL cайта без www, мне написали, что это не мой сайт. Набрала с www. , мне написали, что вход роботу разрешен.
А я писала HOST: dietmag.ru ...и т.д. без www
подскажите, пжлста, сделала ли я ошибку, когда прописывала(копировала у вас) код для робота.
Спасибо. Подписалась на новые статьи у вас. Вы очень доступно объясняете. Еще раз, большое спасиб
Может у Вас в .htaccess стоит редирект (перенаправление)?
Петр, спасибо большое за статью и за файл Robots.txt. Если можно, я воспользуюсь Вашим.
Проверила свои статьи через Яндекс вебмастер, все открыто для идексации. Спасибо.
Странно, а почему Вы указываете Sitemap только для Яндекса. По идее путь к карте сайта xml надо указывать в User-agent: *
Помогите я сделал как вы сказали у меня написали разрешен но сайт еще стоит на запрете (Ваш сайт не был проиндексирован из-за запрета в файле robots.txt) почему так?
Sitemap тут указан для всех, может только через пробел его делать — я так сделал. А вот с тегами вопрос — а так уж нужно их закрывать? Ведь на странице тега только начала нескольких статей — в совокупности они не составляют дубль той или иной страницы. Я для эксперимента на одном сайте на запрещал их к индексации, в итоге по некоторым запросам страницы тегов в поиске на первых местах, что привлекает доп. трафик. То же самое с категориями, которые закрываем в плагине. Не знаю может санкции поисковиков и наступят, но пока, тьфу-тьфу, все нормально. Ваше мнение?
Пост полезен на 100%. У меня возникла подобная проблема с индексацией Яши, поэтому для ее решения воспользовался вашим вариантом.