Марафон v2.0

Урок 379 Как удалить ненужные страницы из индекса Яндекса и Google. Удаляем «сопли» в поиске

Удалить из индекса

Вам нужен сайт? Тогда создание и продвижение сайтов в Санкт-Петербурге - это то, что вам нужно. Доверьтесь профессионалам.

Привет! Часто мы сталкиваемся с тем, что в результате выдачи нашего сайта бывают "мусорные" страницы. Наиболее правильно удалить страницу из индекса в Яндексе с помощью файла robots.txt, о котором я уже писал. Но, к сожалению, Google игнорирует данный файл и все равно "засовывает" некоторые ненужные страницы в индекс (чаще всего в дополнительный, об этом ниже). Поэтому данный урок посвящен прежде всего Гуглу, но Яндекса тоже мы немного коснемся.

к оглавлению ↑

Как узнать, есть ли ненужные страницы ("сопли") в индексе?

к оглавлению ↑

Ручной режим

Открываем Google и вбиваем туда фразу site:wpnew.ru, где вместо wpnew.ru Вы, конечно, вбиваете свой адрес сайта:

Команда в Google

Вообще, чтобы не держать в голове все эти разные операторы разных поисковых систем, я предпочитаю пользоваться RDS bar. Заходим на наш сайт, нажимаем на кнопку "Анализ сайта":

Анализ сайта в RDS Bar

И там вы увидите, сколько страниц в индексе Яндекса и в Google:

Сравнение индекса в поисковиках

В идеале эти цифры должны быть очень похожими, практически одинаковыми. То есть тут должны примерно те цифры, которые равняются количеству постов на Вашем блоге. Если это интернет-магазин, то посложнее, так как часто бывает необходимость засовывать страницы с фильтрами или др. параметрами в индекс. И Яндекс, и Google "кушают" их по-разному.

В скобках на скриншоте выше вы видите значение "99%" - это показатель того, какой процент находится в ОСНОВНОМ индексе Google. Есть также страницы в дополнительном индексе, в моем случае это 1%. Такие страницы не участвуют в поиске.

В идеале процент основного индекса должен быть равным 100% или стремиться к этому числу. Если у вас этот процент маленький и очень много страниц в дополнительном индексе, не стоит паниковать, рвать и метать, как любят делать это некоторые. Спокойно сделайте действия описанные ниже.

В RDS Bar нажимаем непосредственно на саму цифру:

Индекс в Google

И открывается Google со страницами, которые в индексе:

Страницы в индексе Google

Здесь переходим на последние страницы, тыкая на последние предлагаемые страницы:

Страницы в дополнительном индексе

Если страниц в индексе довольно много, так можно потерять кучу времени, листая страницы в индексе. Поэтому смотрим на URL, который меняется при переходе на другие страницы, там можно увидеть значение start:

Значение параметра Start

И можно заметить следующую последовательность: если мы находимся на 14-ой странице, там отображается цифра 130, если на 15, то цифра 140 и т.д. То есть данное значение будет принимать цифру по этой формуле:

Значение start=№ страницы*10-10

Если нам нужно попасть на 100 страницу, нам нужно в адресную строку после start ввести 990.

Не боимся, вбиваем цифру ту же самую 990, к примеру:

Дополнительный индекс в Google

И вы попадете на последние страницы в индексе Google (если это не конец, введите большее число), и там увидите фразу:

Основной индекс Гугла

По умолчанию вы видите только страницы в индексе, которые располагаются в основном индексе (то есть те страницы, которые несут информативную ценность по мнению Google). Чтобы увидеть, все страницы вместе с дополнительным индексом, кликните по фразе "repeat the search with the omitted results included".

Теперь вас снова должно отбросить на первую страницу. Повторяем шаг выше, чтобы попасть на последние страницы в индексе:

Дополнительный индекс

Если посмотреть чуть выше, вы увидите, что страниц было 54, сейчас стало 59. То есть 5 страниц выдачи - это дополнительный индекс Google и данные страницы не несут никакой информационной пользы по мнению Google (чаще всего это дубли страниц, служебные или еще что-то).

Таких страниц может быть просто куча. В одно время у меня было в мусоре более 15 000 страниц. 🙂

к оглавлению ↑

Автоматический режим

Совсем недавно (после написания этой статьи) я написал новый урок про то, как можно автоматически найти ненужные страницы в индексе с помощью программы ComparseR.

к оглавлению ↑

Как удалить ненужные страницы с индекса Google

к оглавлению ↑

Подстраницы, архивы, метки и пр.

  1. Я настоятельно рекомендую поставить себе плагин WordPress SEO. Про это говорил уже не раз. Это лучший SEO плагин для Вордпресс. В нем переходим во вкладку "SEO" -> "Заголовки и метаданные".
    WordPress SEO
  2. Переходим во вкладку "Таксономии", там в разделе "Метки" ставим галочку напротив "noindex, follow", чтобы исключить из индекса страницы с метками (это, конечно, если вы не продвигаете сайт с помощью меток, как я писал):
    Метки
  3. Потом переходите во вкладку "Архивы", там ставите галочку напротив "Add noindex, follow to the author archives" и "Add noindex, follow to the date-based archives":
    Удалить из индекса
  4. Дальше переходите во вкладку "Остальное" и ставите галочку "Noindex для подстраниц и архивов":
    Noindex для подстраниц
  5. Нажимаем "Сохранить изменения".
к оглавлению ↑

Как удалить Replytocom из индекса

Если у вас на сайте древовидные комментарии, в индексе также могут быть страницы с replytocom. Вообще, у меня вместе с ними было 17 000 страниц в индексе, удалив их из индекса на данный момент в Google пока осталось около 2000 страниц. Удалялись долго, почти год. То есть ненужные страницы выпадали по-тихоньку из индекса.

Подобные страницы очень легко удалить с помощью того же самого плагина WordPress SEO by Yoast.

  1. Переходим во вкладку SEO -> Расширенный:
    WordPress SEO by Yoast
  2. Переходим во вкладку "Постоянные ссылки", там ставим галочку напротив "Удалить переменные ?replytocom":
    Replytocom
  3. Сохраняем изменения и наслаждаемся, как Google начнет сам исключать из индекса подобные страницы.
к оглавлению ↑

Страницы с feed

На некоторых сайтах вообще не нужен RSS. Там есть смысл в его отключении. С помощью RSS может попасть всякий шлак в индекс, подобие этого:

Страницы с feed

Открываем файл functions.php и туда вставляем вот этот код (вставляем перед закрывающим ?>):

// Отключаем RSS ленту
function fb_disable_feed() {
wp_redirect(get_option('siteurl'));exit;
}

add_action('do_feed', 'fb_disable_feed', 1);
add_action('do_feed_rdf', 'fb_disable_feed', 1);
add_action('do_feed_rss', 'fb_disable_feed', 1);
add_action('do_feed_rss2', 'fb_disable_feed', 1);
add_action('do_feed_atom', 'fb_disable_feed', 1);

remove_action( 'wp_head', 'feed_links_extra', 3 );
remove_action( 'wp_head', 'feed_links', 2 );
remove_action( 'wp_head', 'rsd_link' );

Теперь, если мы увидим страницы вида site.ru/stranica.html/blabla/feed и перейдем на нее, нас перебросит на главную страницу сайта. И Google вскоре исключит подобные страницы из индекса.

Также можно сделать, чтобы перебрасывало не на главную страницу, а на какую-нибудь выбранную (страницу подписки, допустим). Для этого в коде вместо:

wp_redirect(get_option('siteurl'));exit;

вставляем:

wp_redirect('http://site.ru/podpiska');exit;

где http://site.ru/podpiska - любая страница, которую вы пропишите.

к оглавлению ↑

Как удалить сайт из индекса

Бывает необходимость в том, что сайт молодой и нужно поставить запрет на индексацию до того времени, пока не удалятся "стандартные посты", которые не уникальны, не поменяется шаблон на новый и не добавится десяток страниц по теме. Все это, обычно делается для того, чтобы поисковые системы "скушали" сайт и понимали какая тематика его, направление, структура и пр. с самого начала.

Чтобы исключить весь сайт из индекса, добавьте в header.php до закрывающегося head вот этот код:

<meta name="robots" content="none"/>

Это подойдет, если нужно скрыть определенную html страницу тоже. Например, у вас сверстан какой-либо лэндинг на отдельной html странице, отдельно от Вашего шаблона и вам не нужно, чтобы он попал в индекс.

к оглавлению ↑

Как ускорить удаление страниц из индекса поисковых систем

Сделанные выше манипуляции исключат появление ненужных страниц в будущем. Старые тоже будут сами "отваливаться" с индекса, но не так быстро, как хотелось бы, если кто-то хочет ускорить процесс и ненужных страниц в дополнительном индексе не так много, то можно поработать немного ручками.

к оглавлению ↑

Google

  1. Заходим в панель инструментов Google. Там переходим на наш сайт, вкладка "Индекс Google" -> "Статус индексирования":
    Статус индексирования
  2. Здесь можно увидеть, как ненужные страницы выпадают из индекса. То есть общее количество страниц в индексе регулярно уменьшается. Чтобы ускорить процесс удаления страниц из индекса, просто переходим во вкладку "Удалить URL-адреса":
    Удаление URL страницы
  3. Там нажимаем на кнопку "Создать новый запрос на удаление":
    Запрос на удалениеОбратите внимание, в robots.txt обязательно должно быть прописано правило, которое запрещает индексировать данное содержимое. То есть то, если вы хотите что-то удалить, URL должен стоять под запретом в robots.txt, иначе страница не удалится из индекса.
  4. Например, у меня в индексе была страница wpnew.ru/category/lichnoe/page/5, ее вставляю в поле и нажимаю "Продолжить":
    Удаление страниц
  5. В следующем окне, можно выбрать между: удаление только 1 страницы или целого каталога:
    Удалить страницу из поиска google
  6. Если требуется удалить только страницу, выбираем "Удалить страницу из результатов поиска и из кеша" и нажимаем "Отправить запрос". Вы увидите подобное уведомление:
    Как удалить страницу Google
  7. Повторюсь, должно быть прописано правило в robots.txt, который запрещает индексировать данную страницу. В моем случае это вот это правило:
    Удалить кэшированную копию страницы Google
  8. Также вы можете удалить сразу каталог ненужных страниц из индекса. Для этого вставляем не конкретный URL, а к примеру что-то подобное со "звездочкой":
    Удалить сайт из индекса
  9. Тем самым, удалится целая рубрика и то, что в ней содержится. Обычно страницы пропадают из индекса в течении 1-х суток. Сроки могут достигать и до 1-ой недели.
к оглавлению ↑

Яндекс

В Яндексе принцип такой же. Заходим в "Удалить URL" и там вбиваем URL ненужной страницы, которая попала в индекс Яндекса:

Как удалить страницу из индекса Яндекса

Чтобы страница удалилась из индекса, необходимо, чтобы страница была удалена физически (то есть отдавала 404 ошибку, к примеру), либо также была запрещена к индексации с помощью robots.txt или другими способами. Яндекс также удалит страницу из индекса, правда у нее это происходит обычно дольше, чем с Google.

к оглавлению ↑

С помощью программы ComparseR

Все эти "ускорения" по удалению страниц с индекса можно сделать с помощью великолепной программы ComparseR и не нужно будет сидеть и забивать по одному URL в панели вебмастеров. Программа может позволить удалить ненужные страницы за 1-2 минуты. Очень удобно.

к оглавлению ↑

Вывод

В этом уроке я продемонстрировал то, как удалить "мусорные" страницы из индекса, их еще называют "сопли". Их удаляться рекомендуется, но не стоит делать целую драму из этого. А то я помню, как многие истерили по поводу replytocom, мол это какая-то ну ОЧЕНЬ серьезная проблема, грубейшая ошибка в SEO. Я бы это так не назвал, это слишком сильное преувеличение. Просто стремитесь к чистоте поиска, чтобы у Вас на сайте было все пушисто и гладко.

Спасибо за внимание, до скорой встречи! Будут вопросы - с радостью отвечу в комментариях. Пока!

P.s. Нужно продвинуть сайт? Компания Pro Studio - продвижение сайта от профессионалов.

Новый марафон 2.0 от WPnew
С уважением, Пётр Александров.
Подпишитесь на бесплатные уроки

Понравился урок? Вы не хотите пропускать новые бесплатные уроки по созданию, раскрутке и монетизации блога? Тогда подпишитесь на RSS или на электронный ящик в форме выше и получайте новые уроки мгновенно! Также можете следить за мной в Twitter.

Добавить комментарий

Такой e-mail уже зарегистрирован. Воспользуйтесь формой входа или введите другой.

Вы ввели некорректные логин или пароль

Извините, для комментирования необходимо войти.

18 комментариев

по хронологии
по рейтингу сначала новые по хронологии
Никита Волков http://snow-motion.ru

Да, шухеру год назад навели немало с этими дублями)) "Которые просто УБИВАЮТ ваш блог...!!!" Помню такие реплики)

Автор
Пётр Александров http://wpnew.ru

Хороший заголовок гарант хорошего трафика 🙂

Андрей Хвостов http://ingenerhvostov.ru

Я реплитукомы удалял в настройках плагина Вордпресс Сео бай Йоаст (Wordpress SEO by Yoast). Все остальные потихоньку тоже отходят, хотя с Гуглом надо поработать. Гугл пока не хочет любить блог.

Автор
Пётр Александров http://wpnew.ru

Так я здесь тоже писал, что с помощью WP SEO by Yoast удаляю. 🙂

Макс http://eurobyte.ru/?referer=12678

А я вот только собираюсь завести блог. Что мне нужно делать, что бы эти сопли вообще не появлялись?

IvYur http://kuponam.ru

Не об этом в начале нужно думать. А вот о чем.
1. Напишите на листе бумаги все темы которые вам интересны.
2. Выберете 3-5 тем в которых вы разбираетесь.
3. Выберете тему о которой вы хотите рассказывать читателям вашего потенциального блога.
4. Создайте блог и начинайте писать статьи.
5. А вот после написанных 10-20 статей можно и заниматься данным вопросом.

Aleksandr http://trandinvest.ru/

IvYur, вроде все так просто по вашему списку, а потом же пишешь пишешь а похитителей нет и о тебе вообще никто не знает!
Для начала нужно решить готов человек по 2-3 часа в день тратить время на блог или нет

IvYur http://kuponam.ru

А если придут посетители? Что они должны увидеть? Голый блог без статей?

Автор
Пётр Александров http://wpnew.ru

Лучше не откладывать создание блога. Все остальное - вторично. 🙂 А так, просто сразу сделать все те рекомендации, которые даю в этом уроке.

Alex http://fisherlive.ru/

А эти сопли обязательно удалять? У меня в основном индексе гугл, столько же страниц что и в яндекс, а то что гугл хранит всякую никому ненужную фигню, это наверное его дело...

Автор
Пётр Александров http://wpnew.ru

Нет. Не критично, необязательно удалять, некоторые даже не догадываются о их существовании. Но я бы все равно, просто сделал настройки WP SEO by Yoast один раз и куча мусора автоматически будет удаляться.

seoonly.ru http://seoonly.ru/

Гугл и без запроса быстро удаляет урлы-)

Автор
Пётр Александров http://wpnew.ru

Ну все равно, иногда хочется моментально избавиться от чего-то раздражительного 🙂

Антон http://weareweb.ru/ob-avtore

Очень удобно парсить индекс с помощью ComParser, смотреть чего закрыто от индексации, но в индексе, после чего через эту же прогу можно пакетно удалить их из индекса.

Автор
Пётр Александров http://wpnew.ru

Спасибо, Антон, обязательно попробую.

Роман http://toursector.org.ua

Бар показывает у меня в Гугл 1700 страниц (99%) Но я знаю точно, что их не больше тысячи. Если это не сопли то что за страницы ?

Роман http://toursector.org.ua

Дошел до 30-й страницы и на этом закончилось. Если на странице 10 ссылок, то по ходу проиндексированных вообще 300. Я чего то совсем заблудился )
Может кто объяснит

а можно ли удалить нужные ссылки сайта в поиске точнее удалить всё что связано с сайтом а потом обратно включить всё в поиск? как себя будут вести поисковики? при удалении рабочей ссылки она потом появится в поиске? просто полностью меняется структура сайта много добавиться много уберется что то останется

Наверх Рейтинг@Mail.ru