Купить рекламу на WPnew.ru
Автопилот для контекста

Урок 379 Как удалить ненужные страницы из индекса Яндекса и Google. Удаляем “сопли” в поиске

Удалить из индекса

Вам нужен сайт? Тогда создание и продвижение сайтов в Санкт-Петербурге - это то, что вам нужно. Доверьтесь профессионалам.

Привет! Часто мы сталкиваемся с тем, что в результате выдачи нашего сайта бывают "мусорные" страницы. Наиболее правильно удалить страницу из индекса в Яндексе с помощью файла robots.txt, о котором я уже писал. Но, к сожалению, Google игнорирует данный файл и все равно "засовывает" некоторые ненужные страницы в индекс (чаще всего в дополнительный, об этом ниже). Поэтому данный урок посвящен прежде всего Гуглу, но Яндекса тоже мы немного коснемся.

к оглавлению ↑

Как узнать, есть ли ненужные страницы ("сопли") в индексе?

к оглавлению ↑

Ручной режим

Открываем Google и вбиваем туда фразу site:wpnew.ru, где вместо wpnew.ru Вы, конечно, вбиваете свой адрес сайта:

Команда в Google

Вообще, чтобы не держать в голове все эти разные операторы разных поисковых систем, я предпочитаю пользоваться RDS bar. Заходим на наш сайт, нажимаем на кнопку "Анализ сайта":

Анализ сайта в RDS Bar

И там вы увидите, сколько страниц в индексе Яндекса и в Google:

Сравнение индекса в поисковиках

В идеале эти цифры должны быть очень похожими, практически одинаковыми. То есть тут должны примерно те цифры, которые равняются количеству постов на Вашем блоге. Если это интернет-магазин, то посложнее, так как часто бывает необходимость засовывать страницы с фильтрами или др. параметрами в индекс. И Яндекс, и Google "кушают" их по-разному.

В скобках на скриншоте выше вы видите значение "99%" - это показатель того, какой процент находится в ОСНОВНОМ индексе Google. Есть также страницы в дополнительном индексе, в моем случае это 1%. Такие страницы не участвуют в поиске.

В идеале процент основного индекса должен быть равным 100% или стремиться к этому числу. Если у вас этот процент маленький и очень много страниц в дополнительном индексе, не стоит паниковать, рвать и метать, как любят делать это некоторые. Спокойно сделайте действия описанные ниже.

В RDS Bar нажимаем непосредственно на саму цифру:

Индекс в Google

И открывается Google со страницами, которые в индексе:

Страницы в индексе Google

Здесь переходим на последние страницы, тыкая на последние предлагаемые страницы:

Страницы в дополнительном индексе

Если страниц в индексе довольно много, так можно потерять кучу времени, листая страницы в индексе. Поэтому смотрим на URL, который меняется при переходе на другие страницы, там можно увидеть значение start:

Значение параметра Start

И можно заметить следующую последовательность: если мы находимся на 14-ой странице, там отображается цифра 130, если на 15, то цифра 140 и т.д. То есть данное значение будет принимать цифру по этой формуле:

Значение start=№ страницы*10-10

Если нам нужно попасть на 100 страницу, нам нужно в адресную строку после start ввести 990.

Не боимся, вбиваем цифру ту же самую 990, к примеру:

Дополнительный индекс в Google

И вы попадете на последние страницы в индексе Google (если это не конец, введите большее число), и там увидите фразу:

Основной индекс Гугла

По умолчанию вы видите только страницы в индексе, которые располагаются в основном индексе (то есть те страницы, которые несут информативную ценность по мнению Google). Чтобы увидеть, все страницы вместе с дополнительным индексом, кликните по фразе "repeat the search with the omitted results included".

Теперь вас снова должно отбросить на первую страницу. Повторяем шаг выше, чтобы попасть на последние страницы в индексе:

Дополнительный индекс

Если посмотреть чуть выше, вы увидите, что страниц было 54, сейчас стало 59. То есть 5 страниц выдачи - это дополнительный индекс Google и данные страницы не несут никакой информационной пользы по мнению Google (чаще всего это дубли страниц, служебные или еще что-то).

Таких страниц может быть просто куча. В одно время у меня было в мусоре более 15 000 страниц. 🙂

к оглавлению ↑

Автоматический режим

Совсем недавно (после написания этой статьи) я написал новый урок про то, как можно автоматически найти ненужные страницы в индексе с помощью программы ComparseR.

к оглавлению ↑

Как удалить ненужные страницы с индекса Google

к оглавлению ↑

Подстраницы, архивы, метки и пр.

  1. Я настоятельно рекомендую поставить себе плагин WordPress SEO. Про это говорил уже не раз. Это лучший SEO плагин для Вордпресс. В нем переходим во вкладку "SEO" -> "Заголовки и метаданные".
    WordPress SEO
  2. Переходим во вкладку "Таксономии", там в разделе "Метки" ставим галочку напротив "noindex, follow", чтобы исключить из индекса страницы с метками (это, конечно, если вы не продвигаете сайт с помощью меток, как я писал):
    Метки
  3. Потом переходите во вкладку "Архивы", там ставите галочку напротив "Add noindex, follow to the author archives" и "Add noindex, follow to the date-based archives":
    Удалить из индекса
  4. Дальше переходите во вкладку "Остальное" и ставите галочку "Noindex для подстраниц и архивов":
    Noindex для подстраниц
  5. Нажимаем "Сохранить изменения".
к оглавлению ↑

Как удалить Replytocom из индекса

Если у вас на сайте древовидные комментарии, в индексе также могут быть страницы с replytocom. Вообще, у меня вместе с ними было 17 000 страниц в индексе, удалив их из индекса на данный момент в Google пока осталось около 2000 страниц. Удалялись долго, почти год. То есть ненужные страницы выпадали по-тихоньку из индекса.

Подобные страницы очень легко удалить с помощью того же самого плагина WordPress SEO by Yoast.

  1. Переходим во вкладку SEO -> Расширенный:
    WordPress SEO by Yoast
  2. Переходим во вкладку "Постоянные ссылки", там ставим галочку напротив "Удалить переменные ?replytocom":
    Replytocom
  3. Сохраняем изменения и наслаждаемся, как Google начнет сам исключать из индекса подобные страницы.
к оглавлению ↑

Страницы с feed

На некоторых сайтах вообще не нужен RSS. Там есть смысл в его отключении. С помощью RSS может попасть всякий шлак в индекс, подобие этого:

Страницы с feed

Открываем файл functions.php и туда вставляем вот этот код (вставляем перед закрывающим ?>):

// Отключаем RSS ленту
function fb_disable_feed() {
wp_redirect(get_option('siteurl'));exit;
}

add_action('do_feed', 'fb_disable_feed', 1);
add_action('do_feed_rdf', 'fb_disable_feed', 1);
add_action('do_feed_rss', 'fb_disable_feed', 1);
add_action('do_feed_rss2', 'fb_disable_feed', 1);
add_action('do_feed_atom', 'fb_disable_feed', 1);

remove_action( 'wp_head', 'feed_links_extra', 3 );
remove_action( 'wp_head', 'feed_links', 2 );
remove_action( 'wp_head', 'rsd_link' );

Теперь, если мы увидим страницы вида site.ru/stranica.html/blabla/feed и перейдем на нее, нас перебросит на главную страницу сайта. И Google вскоре исключит подобные страницы из индекса.

Также можно сделать, чтобы перебрасывало не на главную страницу, а на какую-нибудь выбранную (страницу подписки, допустим). Для этого в коде вместо:

wp_redirect(get_option('siteurl'));exit;

вставляем:

wp_redirect('http://site.ru/podpiska');exit;

где http://site.ru/podpiska - любая страница, которую вы пропишите.

к оглавлению ↑

Как удалить сайт из индекса

Бывает необходимость в том, что сайт молодой и нужно поставить запрет на индексацию до того времени, пока не удалятся "стандартные посты", которые не уникальны, не поменяется шаблон на новый и не добавится десяток страниц по теме. Все это, обычно делается для того, чтобы поисковые системы "скушали" сайт и понимали какая тематика его, направление, структура и пр. с самого начала.

Чтобы исключить весь сайт из индекса, добавьте в header.php до закрывающегося head вот этот код:

<meta name="robots" content="none"/>

Это подойдет, если нужно скрыть определенную html страницу тоже. Например, у вас сверстан какой-либо лэндинг на отдельной html странице, отдельно от Вашего шаблона и вам не нужно, чтобы он попал в индекс.

к оглавлению ↑

Как ускорить удаление страниц из индекса поисковых систем

Сделанные выше манипуляции исключат появление ненужных страниц в будущем. Старые тоже будут сами "отваливаться" с индекса, но не так быстро, как хотелось бы, если кто-то хочет ускорить процесс и ненужных страниц в дополнительном индексе не так много, то можно поработать немного ручками.

к оглавлению ↑

Google

  1. Заходим в панель инструментов Google. Там переходим на наш сайт, вкладка "Индекс Google" -> "Статус индексирования":
    Статус индексирования
  2. Здесь можно увидеть, как ненужные страницы выпадают из индекса. То есть общее количество страниц в индексе регулярно уменьшается. Чтобы ускорить процесс удаления страниц из индекса, просто переходим во вкладку "Удалить URL-адреса":
    Удаление URL страницы
  3. Там нажимаем на кнопку "Создать новый запрос на удаление":
    Запрос на удалениеОбратите внимание, в robots.txt обязательно должно быть прописано правило, которое запрещает индексировать данное содержимое. То есть то, если вы хотите что-то удалить, URL должен стоять под запретом в robots.txt, иначе страница не удалится из индекса.
  4. Например, у меня в индексе была страница wpnew.ru/category/lichnoe/page/5, ее вставляю в поле и нажимаю "Продолжить":
    Удаление страниц
  5. В следующем окне, можно выбрать между: удаление только 1 страницы или целого каталога:
    Удалить страницу из поиска google
  6. Если требуется удалить только страницу, выбираем "Удалить страницу из результатов поиска и из кеша" и нажимаем "Отправить запрос". Вы увидите подобное уведомление:
    Как удалить страницу Google
  7. Повторюсь, должно быть прописано правило в robots.txt, который запрещает индексировать данную страницу. В моем случае это вот это правило:
    Удалить кэшированную копию страницы Google
  8. Также вы можете удалить сразу каталог ненужных страниц из индекса. Для этого вставляем не конкретный URL, а к примеру что-то подобное со "звездочкой":
    Удалить сайт из индекса
  9. Тем самым, удалится целая рубрика и то, что в ней содержится. Обычно страницы пропадают из индекса в течении 1-х суток. Сроки могут достигать и до 1-ой недели.
к оглавлению ↑

Яндекс

В Яндексе принцип такой же. Заходим в "Удалить URL" и там вбиваем URL ненужной страницы, которая попала в индекс Яндекса:

Как удалить страницу из индекса Яндекса

Чтобы страница удалилась из индекса, необходимо, чтобы страница была удалена физически (то есть отдавала 404 ошибку, к примеру), либо также была запрещена к индексации с помощью robots.txt или другими способами. Яндекс также удалит страницу из индекса, правда у нее это происходит обычно дольше, чем с Google.

к оглавлению ↑

С помощью программы ComparseR

Все эти "ускорения" по удалению страниц с индекса можно сделать с помощью великолепной программы ComparseR и не нужно будет сидеть и забивать по одному URL в панели вебмастеров. Программа может позволить удалить ненужные страницы за 1-2 минуты. Очень удобно.

к оглавлению ↑

Вывод

В этом уроке я продемонстрировал то, как удалить "мусорные" страницы из индекса, их еще называют "сопли". Их удаляться рекомендуется, но не стоит делать целую драму из этого. А то я помню, как многие истерили по поводу replytocom, мол это какая-то ну ОЧЕНЬ серьезная проблема, грубейшая ошибка в SEO. Я бы это так не назвал, это слишком сильное преувеличение. Просто стремитесь к чистоте поиска, чтобы у Вас на сайте было все пушисто и гладко.

Спасибо за внимание, до скорой встречи! Будут вопросы - с радостью отвечу в комментариях. Пока!

P.s. Нужно продвинуть сайт? Компания Pro Studio - продвижение сайта от профессионалов.

С уважением, Пётр Александров.
Подпишитесь на бесплатные уроки

Понравился урок? Вы не хотите пропускать новые бесплатные уроки по созданию, раскрутке и монетизации блога? Тогда подпишитесь на RSS или на электронный ящик в форме выше и получайте новые уроки мгновенно! Также можете следить за мной в Twitter.

Добавить комментарий

Такой e-mail уже зарегистрирован. Воспользуйтесь формой входа или введите другой.

Вы ввели некорректные логин или пароль

Извините, для комментирования необходимо войти.

Нажав кнопку "Отправить", я согласен с соглашением на обработку моих персональных данных.

18 комментариев

по хронологии
по рейтингу сначала новые по хронологии
Никита Волков http://snow-motion.ru

Да, шухеру год назад навели немало с этими дублями)) "Которые просто УБИВАЮТ ваш блог...!!!" Помню такие реплики)

Автор
Пётр Александров https://wpnew.ru

Хороший заголовок гарант хорошего трафика 🙂

Андрей Хвостов http://ingenerhvostov.ru

Я реплитукомы удалял в настройках плагина Вордпресс Сео бай Йоаст (Wordpress SEO by Yoast). Все остальные потихоньку тоже отходят, хотя с Гуглом надо поработать. Гугл пока не хочет любить блог.

Автор
Пётр Александров https://wpnew.ru

Так я здесь тоже писал, что с помощью WP SEO by Yoast удаляю. 🙂

Макс http://eurobyte.ru/?referer=12678

А я вот только собираюсь завести блог. Что мне нужно делать, что бы эти сопли вообще не появлялись?

IvYur http://kuponam.ru

Не об этом в начале нужно думать. А вот о чем.
1. Напишите на листе бумаги все темы которые вам интересны.
2. Выберете 3-5 тем в которых вы разбираетесь.
3. Выберете тему о которой вы хотите рассказывать читателям вашего потенциального блога.
4. Создайте блог и начинайте писать статьи.
5. А вот после написанных 10-20 статей можно и заниматься данным вопросом.

Aleksandr http://trandinvest.ru/

IvYur, вроде все так просто по вашему списку, а потом же пишешь пишешь а похитителей нет и о тебе вообще никто не знает!
Для начала нужно решить готов человек по 2-3 часа в день тратить время на блог или нет

IvYur http://kuponam.ru

А если придут посетители? Что они должны увидеть? Голый блог без статей?

Автор
Пётр Александров https://wpnew.ru

Лучше не откладывать создание блога. Все остальное - вторично. 🙂 А так, просто сразу сделать все те рекомендации, которые даю в этом уроке.

Alex http://fisherlive.ru/

А эти сопли обязательно удалять? У меня в основном индексе гугл, столько же страниц что и в яндекс, а то что гугл хранит всякую никому ненужную фигню, это наверное его дело...

Автор
Пётр Александров https://wpnew.ru

Нет. Не критично, необязательно удалять, некоторые даже не догадываются о их существовании. Но я бы все равно, просто сделал настройки WP SEO by Yoast один раз и куча мусора автоматически будет удаляться.

seoonly.ru http://seoonly.ru/

Гугл и без запроса быстро удаляет урлы-)

Автор
Пётр Александров https://wpnew.ru

Ну все равно, иногда хочется моментально избавиться от чего-то раздражительного 🙂

Антон http://weareweb.ru/ob-avtore

Очень удобно парсить индекс с помощью ComParser, смотреть чего закрыто от индексации, но в индексе, после чего через эту же прогу можно пакетно удалить их из индекса.

Автор
Пётр Александров https://wpnew.ru

Спасибо, Антон, обязательно попробую.

Роман http://toursector.org.ua

Бар показывает у меня в Гугл 1700 страниц (99%) Но я знаю точно, что их не больше тысячи. Если это не сопли то что за страницы ?

Роман http://toursector.org.ua

Дошел до 30-й страницы и на этом закончилось. Если на странице 10 ссылок, то по ходу проиндексированных вообще 300. Я чего то совсем заблудился )
Может кто объяснит

а можно ли удалить нужные ссылки сайта в поиске точнее удалить всё что связано с сайтом а потом обратно включить всё в поиск? как себя будут вести поисковики? при удалении рабочей ссылки она потом появится в поиске? просто полностью меняется структура сайта много добавиться много уберется что то останется

Наверх