Рубрики

Урок 379 Как удалить ненужные страницы из индекса Яндекса и Google. Удаляем «сопли» в поиске

Петр Александров
Автор статьи Пётр Александров
19
Время прочтения: 13 мин.

Вам нужен сайт? Тогда создание и продвижение сайтов в Санкт-Петербурге — это то, что вам нужно. Доверьтесь профессионалам.

Привет! Часто мы сталкиваемся с тем, что в результате выдачи нашего сайта бывают «мусорные» страницы. Наиболее правильно удалить страницу из индекса в Яндексе с помощью файла robots.txt, о котором я уже писал. Но, к сожалению, Google игнорирует данный файл и все равно «засовывает» некоторые ненужные страницы в индекс (чаще всего в дополнительный, об этом ниже). Поэтому данный урок посвящен прежде всего Гуглу, но Яндекса тоже мы немного коснемся.

Как узнать, есть ли ненужные страницы («сопли») в индексе?

Ручной режим

Открываем Google и вбиваем туда фразу site:wpnew.ru, где вместо wpnew.ru Вы, конечно, вбиваете свой адрес сайта:

Вообще, чтобы не держать в голове все эти разные операторы разных поисковых систем, я предпочитаю пользоваться RDS bar. Заходим на наш сайт, нажимаем на кнопку «Анализ сайта»:

И там вы увидите, сколько страниц в индексе Яндекса и в Google:

В идеале эти цифры должны быть очень похожими, практически одинаковыми. То есть тут должны примерно те цифры, которые равняются количеству постов на Вашем блоге. Если это интернет-магазин, то посложнее, так как часто бывает необходимость засовывать страницы с фильтрами или др. параметрами в индекс. И Яндекс, и Google «кушают» их по-разному.

В скобках на скриншоте выше вы видите значение «99%» — это показатель того, какой процент находится в ОСНОВНОМ индексе Google. Есть также страницы в дополнительном индексе, в моем случае это 1%. Такие страницы не участвуют в поиске.

В идеале процент основного индекса должен быть равным 100% или стремиться к этому числу. Если у вас этот процент маленький и очень много страниц в дополнительном индексе, не стоит паниковать, рвать и метать, как любят делать это некоторые. Спокойно сделайте действия описанные ниже.

В RDS Bar нажимаем непосредственно на саму цифру:

И открывается Google со страницами, которые в индексе:

Здесь переходим на последние страницы, тыкая на последние предлагаемые страницы:

Если страниц в индексе довольно много, так можно потерять кучу времени, листая страницы в индексе. Поэтому смотрим на URL, который меняется при переходе на другие страницы, там можно увидеть значение start:

И можно заметить следующую последовательность: если мы находимся на 14-ой странице, там отображается цифра 130, если на 15, то цифра 140 и т.д. То есть данное значение будет принимать цифру по этой формуле:

Значение start=№ страницы*10-10

Если нам нужно попасть на 100 страницу, нам нужно в адресную строку после start ввести 990.

Не боимся, вбиваем цифру ту же самую 990, к примеру:

И вы попадете на последние страницы в индексе Google (если это не конец, введите большее число), и там увидите фразу:

По умолчанию вы видите только страницы в индексе, которые располагаются в основном индексе (то есть те страницы, которые несут информативную ценность по мнению Google). Чтобы увидеть, все страницы вместе с дополнительным индексом, кликните по фразе «repeat the search with the omitted results included».

Теперь вас снова должно отбросить на первую страницу. Повторяем шаг выше, чтобы попасть на последние страницы в индексе:

Если посмотреть чуть выше, вы увидите, что страниц было 54, сейчас стало 59. То есть 5 страниц выдачи — это дополнительный индекс Google и данные страницы не несут никакой информационной пользы по мнению Google (чаще всего это дубли страниц, служебные или еще что-то).

Таких страниц может быть просто куча. В одно время у меня было в мусоре более 15 000 страниц. 🙂

Автоматический режим

Совсем недавно (после написания этой статьи) я написал новый урок про то, как можно автоматически найти ненужные страницы в индексе с помощью программы ComparseR.

Как удалить ненужные страницы с индекса Google

Подстраницы, архивы, метки и пр.

  1. Я настоятельно рекомендую поставить себе плагин WordPress SEO. Про это говорил уже не раз. Это лучший SEO плагин для Вордпресс. В нем переходим во вкладку «SEO» -> «Заголовки и метаданные».
  2. Переходим во вкладку «Таксономии», там в разделе «Метки» ставим галочку напротив «noindex, follow», чтобы исключить из индекса страницы с метками (это, конечно, если вы не продвигаете сайт с помощью меток, как я писал):
  3. Потом переходите во вкладку «Архивы», там ставите галочку напротив «Add noindex, follow to the author archives» и «Add noindex, follow to the date-based archives»:
  4. Дальше переходите во вкладку «Остальное» и ставите галочку «Noindex для подстраниц и архивов»:
  5. Нажимаем «Сохранить изменения».

Как удалить Replytocom из индекса

Если у вас на сайте древовидные комментарии, в индексе также могут быть страницы с replytocom. Вообще, у меня вместе с ними было 17 000 страниц в индексе, удалив их из индекса на данный момент в Google пока осталось около 2000 страниц. Удалялись долго, почти год. То есть ненужные страницы выпадали по-тихоньку из индекса.

Подобные страницы очень легко удалить с помощью того же самого плагина WordPress SEO by Yoast.

  1. Переходим во вкладку SEO -> Расширенный:
  2. Переходим во вкладку «Постоянные ссылки», там ставим галочку напротив «Удалить переменные ?replytocom»:
  3. Сохраняем изменения и наслаждаемся, как Google начнет сам исключать из индекса подобные страницы.

Страницы с feed

На некоторых сайтах вообще не нужен RSS. Там есть смысл в его отключении. С помощью RSS может попасть всякий шлак в индекс, подобие этого:

Открываем файл functions.php и туда вставляем вот этот код (вставляем перед закрывающим ?>):

// Отключаем RSS ленту
function fb_disable_feed() {
wp_redirect(get_option('siteurl'));exit;
}

add_action('do_feed', 'fb_disable_feed', 1);
add_action('do_feed_rdf', 'fb_disable_feed', 1);
add_action('do_feed_rss', 'fb_disable_feed', 1);
add_action('do_feed_rss2', 'fb_disable_feed', 1);
add_action('do_feed_atom', 'fb_disable_feed', 1);

remove_action( 'wp_head', 'feed_links_extra', 3 );
remove_action( 'wp_head', 'feed_links', 2 );
remove_action( 'wp_head', 'rsd_link' );

Теперь, если мы увидим страницы вида site.ru/stranica.html/blabla/feed и перейдем на нее, нас перебросит на главную страницу сайта. И Google вскоре исключит подобные страницы из индекса.

Также можно сделать, чтобы перебрасывало не на главную страницу, а на какую-нибудь выбранную (страницу подписки, допустим). Для этого в коде вместо:

wp_redirect(get_option('siteurl'));exit;

вставляем:

wp_redirect('http://site.ru/podpiska');exit;

где http://site.ru/podpiska — любая страница, которую вы пропишите.

Как удалить сайт из индекса

Бывает необходимость в том, что сайт молодой и нужно поставить запрет на индексацию до того времени, пока не удалятся «стандартные посты», которые не уникальны, не поменяется шаблон на новый и не добавится десяток страниц по теме. Все это, обычно делается для того, чтобы поисковые системы «скушали» сайт и понимали какая тематика его, направление, структура и пр. с самого начала.

Чтобы исключить весь сайт из индекса, добавьте в header.php до закрывающегося head вот этот код:

<meta name='robots' content='none'/>

Это подойдет, если нужно скрыть определенную html страницу тоже. Например, у вас сверстан какой-либо лэндинг на отдельной html странице, отдельно от Вашего шаблона и вам не нужно, чтобы он попал в индекс.

Как ускорить удаление страниц из индекса поисковых систем

Сделанные выше манипуляции исключат появление ненужных страниц в будущем. Старые тоже будут сами «отваливаться» с индекса, но не так быстро, как хотелось бы, если кто-то хочет ускорить процесс и ненужных страниц в дополнительном индексе не так много, то можно поработать немного ручками.

Google

  1. Заходим в панель инструментов Google. Там переходим на наш сайт, вкладка «Индекс Google» -> «Статус индексирования»:
  2. Здесь можно увидеть, как ненужные страницы выпадают из индекса. То есть общее количество страниц в индексе регулярно уменьшается. Чтобы ускорить процесс удаления страниц из индекса, просто переходим во вкладку «Удалить URL-адреса»:
  3. Там нажимаем на кнопку «Создать новый запрос на удаление»:
    Обратите внимание, в robots.txt обязательно должно быть прописано правило, которое запрещает индексировать данное содержимое. То есть то, если вы хотите что-то удалить, URL должен стоять под запретом в robots.txt, иначе страница не удалится из индекса.
  4. Например, у меня в индексе была страница wpnew.ru/category/lichnoe/page/5, ее вставляю в поле и нажимаю «Продолжить»:
  5. В следующем окне, можно выбрать между: удаление только 1 страницы или целого каталога:
  6. Если требуется удалить только страницу, выбираем «Удалить страницу из результатов поиска и из кеша» и нажимаем «Отправить запрос». Вы увидите подобное уведомление:
  7. Повторюсь, должно быть прописано правило в robots.txt, который запрещает индексировать данную страницу. В моем случае это вот это правило:
  8. Также вы можете удалить сразу каталог ненужных страниц из индекса. Для этого вставляем не конкретный URL, а к примеру что-то подобное со «звездочкой»:
  9. Тем самым, удалится целая рубрика и то, что в ней содержится. Обычно страницы пропадают из индекса в течении 1-х суток. Сроки могут достигать и до 1-ой недели.

Яндекс

В Яндексе принцип такой же. Заходим в «Удалить URL» и там вбиваем URL ненужной страницы, которая попала в индекс Яндекса:

Чтобы страница удалилась из индекса, необходимо, чтобы страница была удалена физически (то есть отдавала 404 ошибку, к примеру), либо также была запрещена к индексации с помощью robots.txt или другими способами. Яндекс также удалит страницу из индекса, правда у нее это происходит обычно дольше, чем с Google.

С помощью программы ComparseR

Все эти «ускорения» по удалению страниц с индекса можно сделать с помощью великолепной программы ComparseR и не нужно будет сидеть и забивать по одному URL в панели вебмастеров. Программа может позволить удалить ненужные страницы за 1-2 минуты. Очень удобно.

Вывод

В этом уроке я продемонстрировал то, как удалить «мусорные» страницы из индекса, их еще называют «сопли». Их удаляться рекомендуется, но не стоит делать целую драму из этого. А то я помню, как многие истерили по поводу replytocom, мол это какая-то ну ОЧЕНЬ серьезная проблема, грубейшая ошибка в SEO. Я бы это так не назвал, это слишком сильное преувеличение. Просто стремитесь к чистоте поиска, чтобы у Вас на сайте было все пушисто и гладко.

Спасибо за внимание, до скорой встречи! Будут вопросы — с радостью отвечу в комментариях. Пока!

P.s. Нужно продвинуть сайт? Компания Pro Studio — продвижение сайта от профессионалов.

19 комментариев на «Урок 379 Как удалить ненужные страницы из индекса Яндекса и Google. Удаляем «сопли» в поиске»
  1. seoonly.ru
    https://seoonly.ru/

    Гугл и без запроса быстро удаляет урлы-)

    • Пётр Александров Автор статьи
      https://wpnew.ru

      Ну все равно, иногда хочется моментально избавиться от чего-то раздражительного 🙂

  2. Alex
    http://fisherlive.ru/

    А эти сопли обязательно удалять? У меня в основном индексе гугл, столько же страниц что и в яндекс, а то что гугл хранит всякую никому ненужную фигню, это наверное его дело…

    • Пётр Александров Автор статьи
      https://wpnew.ru

      Нет. Не критично, необязательно удалять, некоторые даже не догадываются о их существовании. Но я бы все равно, просто сделал настройки WP SEO by Yoast один раз и куча мусора автоматически будет удаляться.

  3. Макс
    https://eurobyte.ru/?referer=12678

    А я вот только собираюсь завести блог. Что мне нужно делать, что бы эти сопли вообще не появлялись?

    • Пётр Александров Автор статьи
      https://wpnew.ru

      Лучше не откладывать создание блога. Все остальное — вторично. 🙂 А так, просто сразу сделать все те рекомендации, которые даю в этом уроке.

    • IvYur

      Не об этом в начале нужно думать. А вот о чем.
      1. Напишите на листе бумаги все темы которые вам интересны.
      2. Выберете 3-5 тем в которых вы разбираетесь.
      3. Выберете тему о которой вы хотите рассказывать читателям вашего потенциального блога.
      4. Создайте блог и начинайте писать статьи.
      5. А вот после написанных 10-20 статей можно и заниматься данным вопросом.

      • Aleksandr
        https://trandinvest.ru/

        IvYur, вроде все так просто по вашему списку, а потом же пишешь пишешь а похитителей нет и о тебе вообще никто не знает!
        Для начала нужно решить готов человек по 2-3 часа в день тратить время на блог или нет

        • IvYur

          А если придут посетители? Что они должны увидеть? Голый блог без статей?

  4. Андрей Хвостов
    http://ingenerhvostov.ru

    Я реплитукомы удалял в настройках плагина Вордпресс Сео бай Йоаст (WordPress SEO by Yoast). Все остальные потихоньку тоже отходят, хотя с Гуглом надо поработать. Гугл пока не хочет любить блог.

    • Пётр Александров Автор статьи
      https://wpnew.ru

      Так я здесь тоже писал, что с помощью WP SEO by Yoast удаляю. 🙂

  5. Никита Волков
    https://snow-motion.ru

    Да, шухеру год назад навели немало с этими дублями)) «Которые просто УБИВАЮТ ваш блог…!!!» Помню такие реплики)

    • Пётр Александров Автор статьи
      https://wpnew.ru

      Хороший заголовок гарант хорошего трафика 🙂

Добавить комментарий
Ваш адрес email не будет опубликован. Обязательные поля помечены
Нажав на кнопку «Отправить комментарий» вы принимаете соглашение на обработку персональных данных.
Подпишитесь на бесплатные уроки по e‑mail и получите книгу в подарок
Нажав на кнопку «Подписаться» вы принимаете соглашение на обработку персональных данных.
Книга по SEO