Вам нужен сайт? Тогда создание и продвижение сайтов в Санкт-Петербурге — это то, что вам нужно. Доверьтесь профессионалам.
Привет! Часто мы сталкиваемся с тем, что в результате выдачи нашего сайта бывают «мусорные» страницы. Наиболее правильно удалить страницу из индекса в Яндексе с помощью файла robots.txt, о котором я уже писал. Но, к сожалению, Google игнорирует данный файл и все равно «засовывает» некоторые ненужные страницы в индекс (чаще всего в дополнительный, об этом ниже). Поэтому данный урок посвящен прежде всего Гуглу, но Яндекса тоже мы немного коснемся.
Как узнать, есть ли ненужные страницы («сопли») в индексе?
Ручной режим
Открываем Google и вбиваем туда фразу site:wpnew.ru, где вместо wpnew.ru Вы, конечно, вбиваете свой адрес сайта:
Вообще, чтобы не держать в голове все эти разные операторы разных поисковых систем, я предпочитаю пользоваться RDS bar. Заходим на наш сайт, нажимаем на кнопку «Анализ сайта»:
И там вы увидите, сколько страниц в индексе Яндекса и в Google:
В идеале эти цифры должны быть очень похожими, практически одинаковыми. То есть тут должны примерно те цифры, которые равняются количеству постов на Вашем блоге. Если это интернет-магазин, то посложнее, так как часто бывает необходимость засовывать страницы с фильтрами или др. параметрами в индекс. И Яндекс, и Google «кушают» их по-разному.
В скобках на скриншоте выше вы видите значение «99%» — это показатель того, какой процент находится в ОСНОВНОМ индексе Google. Есть также страницы в дополнительном индексе, в моем случае это 1%. Такие страницы не участвуют в поиске.
В идеале процент основного индекса должен быть равным 100% или стремиться к этому числу. Если у вас этот процент маленький и очень много страниц в дополнительном индексе, не стоит паниковать, рвать и метать, как любят делать это некоторые. Спокойно сделайте действия описанные ниже.
В RDS Bar нажимаем непосредственно на саму цифру:
И открывается Google со страницами, которые в индексе:
Здесь переходим на последние страницы, тыкая на последние предлагаемые страницы:
Если страниц в индексе довольно много, так можно потерять кучу времени, листая страницы в индексе. Поэтому смотрим на URL, который меняется при переходе на другие страницы, там можно увидеть значение start:
И можно заметить следующую последовательность: если мы находимся на 14-ой странице, там отображается цифра 130, если на 15, то цифра 140 и т.д. То есть данное значение будет принимать цифру по этой формуле:
Значение start=№ страницы*10-10
Если нам нужно попасть на 100 страницу, нам нужно в адресную строку после start ввести 990.
Не боимся, вбиваем цифру ту же самую 990, к примеру:
И вы попадете на последние страницы в индексе Google (если это не конец, введите большее число), и там увидите фразу:
По умолчанию вы видите только страницы в индексе, которые располагаются в основном индексе (то есть те страницы, которые несут информативную ценность по мнению Google). Чтобы увидеть, все страницы вместе с дополнительным индексом, кликните по фразе «repeat the search with the omitted results included».
Теперь вас снова должно отбросить на первую страницу. Повторяем шаг выше, чтобы попасть на последние страницы в индексе:
Если посмотреть чуть выше, вы увидите, что страниц было 54, сейчас стало 59. То есть 5 страниц выдачи — это дополнительный индекс Google и данные страницы не несут никакой информационной пользы по мнению Google (чаще всего это дубли страниц, служебные или еще что-то).
Таких страниц может быть просто куча. В одно время у меня было в мусоре более 15 000 страниц. 🙂
Автоматический режим
Совсем недавно (после написания этой статьи) я написал новый урок про то, как можно автоматически найти ненужные страницы в индексе с помощью программы ComparseR.
Как удалить ненужные страницы с индекса Google
Подстраницы, архивы, метки и пр.
- Я настоятельно рекомендую поставить себе плагин WordPress SEO. Про это говорил уже не раз. Это лучший SEO плагин для Вордпресс. В нем переходим во вкладку «SEO» -> «Заголовки и метаданные».
- Переходим во вкладку «Таксономии», там в разделе «Метки» ставим галочку напротив «noindex, follow», чтобы исключить из индекса страницы с метками (это, конечно, если вы не продвигаете сайт с помощью меток, как я писал):
- Потом переходите во вкладку «Архивы», там ставите галочку напротив «Add noindex, follow to the author archives» и «Add noindex, follow to the date-based archives»:
- Дальше переходите во вкладку «Остальное» и ставите галочку «Noindex для подстраниц и архивов»:
- Нажимаем «Сохранить изменения».
Как удалить Replytocom из индекса
Если у вас на сайте древовидные комментарии, в индексе также могут быть страницы с replytocom. Вообще, у меня вместе с ними было 17 000 страниц в индексе, удалив их из индекса на данный момент в Google пока осталось около 2000 страниц. Удалялись долго, почти год. То есть ненужные страницы выпадали по-тихоньку из индекса.
Подобные страницы очень легко удалить с помощью того же самого плагина WordPress SEO by Yoast.
- Переходим во вкладку SEO -> Расширенный:
- Переходим во вкладку «Постоянные ссылки», там ставим галочку напротив «Удалить переменные ?replytocom»:
- Сохраняем изменения и наслаждаемся, как Google начнет сам исключать из индекса подобные страницы.
Страницы с feed
На некоторых сайтах вообще не нужен RSS. Там есть смысл в его отключении. С помощью RSS может попасть всякий шлак в индекс, подобие этого:
Открываем файл functions.php и туда вставляем вот этот код (вставляем перед закрывающим ?>):
// Отключаем RSS ленту function fb_disable_feed() { wp_redirect(get_option('siteurl'));exit; } add_action('do_feed', 'fb_disable_feed', 1); add_action('do_feed_rdf', 'fb_disable_feed', 1); add_action('do_feed_rss', 'fb_disable_feed', 1); add_action('do_feed_rss2', 'fb_disable_feed', 1); add_action('do_feed_atom', 'fb_disable_feed', 1); remove_action( 'wp_head', 'feed_links_extra', 3 ); remove_action( 'wp_head', 'feed_links', 2 ); remove_action( 'wp_head', 'rsd_link' );
Теперь, если мы увидим страницы вида site.ru/stranica.html/blabla/feed и перейдем на нее, нас перебросит на главную страницу сайта. И Google вскоре исключит подобные страницы из индекса.
Также можно сделать, чтобы перебрасывало не на главную страницу, а на какую-нибудь выбранную (страницу подписки, допустим). Для этого в коде вместо:
wp_redirect(get_option('siteurl'));exit;
вставляем:
wp_redirect('http://site.ru/podpiska');exit;
где http://site.ru/podpiska — любая страница, которую вы пропишите.
Как удалить сайт из индекса
Бывает необходимость в том, что сайт молодой и нужно поставить запрет на индексацию до того времени, пока не удалятся «стандартные посты», которые не уникальны, не поменяется шаблон на новый и не добавится десяток страниц по теме. Все это, обычно делается для того, чтобы поисковые системы «скушали» сайт и понимали какая тематика его, направление, структура и пр. с самого начала.
Чтобы исключить весь сайт из индекса, добавьте в header.php до закрывающегося head вот этот код:
<meta name='robots' content='none'/>
Это подойдет, если нужно скрыть определенную html страницу тоже. Например, у вас сверстан какой-либо лэндинг на отдельной html странице, отдельно от Вашего шаблона и вам не нужно, чтобы он попал в индекс.
Как ускорить удаление страниц из индекса поисковых систем
Сделанные выше манипуляции исключат появление ненужных страниц в будущем. Старые тоже будут сами «отваливаться» с индекса, но не так быстро, как хотелось бы, если кто-то хочет ускорить процесс и ненужных страниц в дополнительном индексе не так много, то можно поработать немного ручками.
- Заходим в панель инструментов Google. Там переходим на наш сайт, вкладка «Индекс Google» -> «Статус индексирования»:
- Здесь можно увидеть, как ненужные страницы выпадают из индекса. То есть общее количество страниц в индексе регулярно уменьшается. Чтобы ускорить процесс удаления страниц из индекса, просто переходим во вкладку «Удалить URL-адреса»:
- Там нажимаем на кнопку «Создать новый запрос на удаление»:
Обратите внимание, в robots.txt обязательно должно быть прописано правило, которое запрещает индексировать данное содержимое. То есть то, если вы хотите что-то удалить, URL должен стоять под запретом в robots.txt, иначе страница не удалится из индекса. - Например, у меня в индексе была страница wpnew.ru/category/lichnoe/page/5, ее вставляю в поле и нажимаю «Продолжить»:
- В следующем окне, можно выбрать между: удаление только 1 страницы или целого каталога:
- Если требуется удалить только страницу, выбираем «Удалить страницу из результатов поиска и из кеша» и нажимаем «Отправить запрос». Вы увидите подобное уведомление:
- Повторюсь, должно быть прописано правило в robots.txt, который запрещает индексировать данную страницу. В моем случае это вот это правило:
- Также вы можете удалить сразу каталог ненужных страниц из индекса. Для этого вставляем не конкретный URL, а к примеру что-то подобное со «звездочкой»:
- Тем самым, удалится целая рубрика и то, что в ней содержится. Обычно страницы пропадают из индекса в течении 1-х суток. Сроки могут достигать и до 1-ой недели.
Яндекс
В Яндексе принцип такой же. Заходим в «Удалить URL» и там вбиваем URL ненужной страницы, которая попала в индекс Яндекса:
Чтобы страница удалилась из индекса, необходимо, чтобы страница была удалена физически (то есть отдавала 404 ошибку, к примеру), либо также была запрещена к индексации с помощью robots.txt или другими способами. Яндекс также удалит страницу из индекса, правда у нее это происходит обычно дольше, чем с Google.
С помощью программы ComparseR
Все эти «ускорения» по удалению страниц с индекса можно сделать с помощью великолепной программы ComparseR и не нужно будет сидеть и забивать по одному URL в панели вебмастеров. Программа может позволить удалить ненужные страницы за 1-2 минуты. Очень удобно.
Вывод
В этом уроке я продемонстрировал то, как удалить «мусорные» страницы из индекса, их еще называют «сопли». Их удаляться рекомендуется, но не стоит делать целую драму из этого. А то я помню, как многие истерили по поводу replytocom, мол это какая-то ну ОЧЕНЬ серьезная проблема, грубейшая ошибка в SEO. Я бы это так не назвал, это слишком сильное преувеличение. Просто стремитесь к чистоте поиска, чтобы у Вас на сайте было все пушисто и гладко.
Спасибо за внимание, до скорой встречи! Будут вопросы — с радостью отвечу в комментариях. Пока!
P.s. Нужно продвинуть сайт? Компания Pro Studio — продвижение сайта от профессионалов.
Гугл и без запроса быстро удаляет урлы-)
Ну все равно, иногда хочется моментально избавиться от чего-то раздражительного 🙂
А эти сопли обязательно удалять? У меня в основном индексе гугл, столько же страниц что и в яндекс, а то что гугл хранит всякую никому ненужную фигню, это наверное его дело…
Нет. Не критично, необязательно удалять, некоторые даже не догадываются о их существовании. Но я бы все равно, просто сделал настройки WP SEO by Yoast один раз и куча мусора автоматически будет удаляться.
А я вот только собираюсь завести блог. Что мне нужно делать, что бы эти сопли вообще не появлялись?
Лучше не откладывать создание блога. Все остальное — вторично. 🙂 А так, просто сразу сделать все те рекомендации, которые даю в этом уроке.
Не об этом в начале нужно думать. А вот о чем.
1. Напишите на листе бумаги все темы которые вам интересны.
2. Выберете 3-5 тем в которых вы разбираетесь.
3. Выберете тему о которой вы хотите рассказывать читателям вашего потенциального блога.
4. Создайте блог и начинайте писать статьи.
5. А вот после написанных 10-20 статей можно и заниматься данным вопросом.
IvYur, вроде все так просто по вашему списку, а потом же пишешь пишешь а похитителей нет и о тебе вообще никто не знает!
Для начала нужно решить готов человек по 2-3 часа в день тратить время на блог или нет
А если придут посетители? Что они должны увидеть? Голый блог без статей?
Я реплитукомы удалял в настройках плагина Вордпресс Сео бай Йоаст (WordPress SEO by Yoast). Все остальные потихоньку тоже отходят, хотя с Гуглом надо поработать. Гугл пока не хочет любить блог.
Так я здесь тоже писал, что с помощью WP SEO by Yoast удаляю. 🙂
Да, шухеру год назад навели немало с этими дублями)) «Которые просто УБИВАЮТ ваш блог…!!!» Помню такие реплики)
Хороший заголовок гарант хорошего трафика 🙂