Рубрики

Урок 382 ComparseR для работы с индексом сайта или Как удалить все «сопли» за 1 минуту

Петр Александров
Автор статьи Пётр Александров
31
Время прочтения: 8 мин.

Приветствую, ребята! Совсем недавно я рассказывал вам про то, как удалить ненужные страницы с индекса Яндекса и Google. Для поиска «соплей» (мусорных страниц) я показывал, что использую ручной режим. Но в комментариях к тому урок один замечательный человек Антон поделился с тем, как можно облегчить поиск подобных страниц с помощью программы ComparseR:

Я сразу же попробовал ее на деле и остался под впечатлением! Действительно очень крутая штука! ComparseR позволяет изучит индекс сайта.

Программа ComparseR для разбора индексации сайта

Функции и особенности ComparseR

Основное предназначение программы ComparseR — это узнать, какие страницы существуют на сайте, какие из них в индексе, какие нет. Либо наоборот, какие ненужные страницы с Вашего сайта попали в индекс.

Особенности ComparseR:

  • Умеет сканировать страницы в индексе Google и Яндекс для дальнейшей работы с ними.
  • Возможность автоматического удаления (пакетно) ненужных страниц с индекса Яндекса и Google (не нужно залезать в панели вебмастеров).
  • Краулер для подробной информации по страницам сайта (коды ответа сервера, title, description, количество заголовков и пр. информация, подробности ниже).
  • Сравнение реально существующих страниц сайта с поисковой выдачей. С легкостью можно найти страницы, которые, к примеру, отдают 404 ошибку, но находятся в индексе. Там же в программе удалить все это пакетно. Масса возможностей.
  • Возможность работы с сервисами антикапчи, прокси, XML яндекса
  • Сбор статистики, удобное отображение проблем с сайтов (выделение красным).
  • Возможность выгрузки структуры сайта.
  • Создание sitemap.xml, особенно актуально, если движок не WordPress.
  • Поиск исходящих ссылок с сайта.
  • Сканирование изображений на сайте, значение их title, alt и пр.
  • И многое-многое другое.

Программа ComparseR интуитивно понятная, выглядит вот так:

Как удалить ненужные страницы из индекса

Google

Допустим, мне понадобилось удалить страницы из индекса Google. Они случайно попали туда в индекс и я хочу избавить от них.

  1. Первым делом в настройках указываем логин и пароль от аккаунта Google, указываем тот аккаунт, на который привязан наш сайт, либо тот у которого имеется полный доступ (внимание, ограниченный доступ не подходит):
  2. Заходим во вкладку Google:
  3. Нажимаем кнопку «Запустить». Вбиваем адрес сайта, ставим галочку «Показывать скрытые результаты»:
  4. Ждем немного. Теперь  первым делом можно удалить те страницы из индекса, которые вы запретили индексировать в robots.txt (согласитесь, если Вы запретили индексировать в нем, то страница вам не нужна в индексе). Для этого сортируем по столбцу Robots.txt, чтобы шли страницы со значением Disallow, там же увидим ненужные страницы в индексе (у меня это страницы с тегами, страницы листинга с содержанием page и пр.):
  5. Выделяем все эти URL, нажимаем CTRL+C:
  6. Нажимаем на кнопку «Добавить/Удалить URL»:
  7. Там выбираем «Удалить»:
  8. В появившемся окне нажимаем CTRL+V и нажимаем «Старт»:
  9. Вот и все! Эти страницы скоро выпадут из индекса. Можете зайти в Google Search Console и увидеть там список URL, которые поставлены на удаление:
  10. Согласитесь, это очень круто!!! Экономит уйму времени, не нужно лазить вручную и искать мусор в индексе, а потом по-одному вбивать их на удаление. Крутая программа.

Также можно отсортировать по колонке «Ответ сервера» и удалить страницы, которые отдают 404 ошибку и попали в индекс, если таковые имеются. Ну или вы видите, что ненужные страницы попали в индекс, запрещаете его индексирование сначала с помощью robots.txt, к примеру, потом ставите на удаление уже в этой программе.

Яндекс

С Яндексом абсолютно все точно также, вы сможете также легко посмотреть, какие страницы у Вас попали в индекс, при необходимости дописать правило в Robots.txt и воспользоваться «Удалить URL» в ComparseR уже во вкладке «Яндекс». Аналогично также можно добавить страницы в «аддурилку», если это вам нужно.

Краулер

В программе еще есть так называемый «Краулер». Кто работал с программами типа Netpeak Spider, Xenu и пр. поймут что это. Идет сканирование страниц Вашего сайта и вы получаете информацию по ним (кликните, чтобы увеличить):

Тут доступна следующая информация:

  1. Порядковый номер.
  2. Ответ сервера.
  3. URL страницы.
  4. Длина URL
  5. Title страницы.
  6. Глубина.
  7. Meta robots.
  8. Rel canonical.
  9. Тип контента.
  10. Источник.
  11. Robots.txt (allow/disallow).
  12. Скорость загрузки.
  13. Размер страницы (в Kb).
  14. Description.
  15. Длина description.
  16. Количество заголовков h1.
  17. Сам заголовок.
  18. Длина h1.
  19. Количество заголовков, непосредственно сам заголовок и длина h2, h3, h4, h5, h6.

Как видите много нужной информации можно выдернуть.

Также при краулинге, можно поставить галочки напротив «Собирать данные о внешних ссылках» и «Собирать данных об изображениях» и станут доступными вкладка «Изображения». Там можно увидеть тайтлы, alt тексты картинок и др. информацию по ним.

А во вкладке «Внешние ссылки» можно увидеть с какого URL вашего сайта и куда идут ссылки:

Статистика и структура

У программы есть замечательный блок «Статистика и структура» в правой части:

Наведя мышкой на нее, можно увидеть вот такой блок:

Очень удобно! Например, кликнув в разделе «Файл robots.txt» disallow: 1 (см. на стрелку выше), можно сразу увидеть, какие страницы попали в индекс Яндекса, несмотря на то, что они запрещены к индексированию в robots.txt:

И эту страницу снова можно с легкостью удалить через кнопку «Добавить/Удалить URL».

Очень много информации и фильтров во вкладке «Статистика»: можно посмотреть какие страницы попали в индексе, какие нет, где присутствуют дубли в метатегах и другое. Удобно.

Структура сайта

Там же во вкладке «Статистика и структура» можно посмотреть структуру сайта:

Таким образом можно спарсить структуру какого-нибудь сайта, который понравился очень и отличается хорошо продуманной структурой. Какие-то хорошие идеи перенять себе. Либо посмотреть на структуру своего сайта, чтобы узнать, как видят его поисковики. При необходимости можно сохранить все в файл.

Также с легкостью вы можете создать карту сайта sitemap.xml. Для WordPress сайтов — это очень просто реализовать с помощью плагинов, к примеру WordPress SEO. Если же движок самописный или какой-то сложный, можно просто снова воспользоваться программой ComparseR:

Вывод

Не знаю как вам, но мне программа мне очень понравилось. Постоянно приходилось вручную ковыряться в индексе и смотреть: какие же ненужные страницы попали в индекс Яндекса или Google. Теперь очень наглядная картина перед моими глазами, причем довольно удобная и понятная. И не нужно «залипать» в Яндексе для проведения аудитов. Очень крутая вещь. Аналогично легко проверить какие страницы НЕ попали в индекс.

Да, программа платная, но у нее есть демо-режим для полного ознакомления, работать можно со 150 страницами сайта. И больше никаких ограничений. Если у вас еще сайт не очень большой, то этого вполне достаточно.

А как вы анализируете поисковой индекс? Вручную или с помощью каких-то специальных программ/сервисов?

31 комментарий на «Урок 382 ComparseR для работы с индексом сайта или Как удалить все «сопли» за 1 минуту»
  1. Андрей Хвостов
    http://ingenerhvostov.ru

    C программой уже можно решиться поубирать «сопли». Ручной же способ для молодых блогов.

    • Пётр Александров Автор статьи
      https://wpnew.ru

      Да даже с молодыми очень просто тут все. Причем можно и бесплатно сделать, не нужно «тыкаться».

  2. Даниил Привольнов
    https://tripandme.ru/

    Привет! При скачивании демки Хром выдал предупреждение, что файлы могут нанести вред компу, это не страшно? )

    • Пётр Александров Автор статьи
      https://wpnew.ru

      Не страшно, это обычное стандартное предупреждение.

  3. Денис

    «Сопли» (supplemental) — страницы в дополнительном индексе гугла. И это вовсе не мусорные (технические) страницы. Учите матчасть.

    • Пётр Александров Автор статьи
      https://wpnew.ru

      Я все равно не люблю лишнее, даже в дополнительном индексе.

      И вообще, удалось найти ненужные страницы и в основном индексе Google, ну и в Яндексе тоже.

    • Виталий
      https://kombix.com.ua

      Да, но иногда страниц в индексе оооочень много, а у поисковиков есть некотрый лимит на кол-во страниц сайта в выдаче. Поэтому крупные проекты делают на поддоменах.

  4. Макс
    http://direct-context.ru/?utm_medium=affiliate&utm_source=dload

    Коммент не по теме. Сейчас у тебя на блоге Петя вижу фото с комментом от Антона. И понимаю, что я его уже видел сегодня но к тебе точно не заходил. Оказывается просто получил сегодня рассылку от ЧекТраст, и зашел на их сайт. У них там есть «Что говорят о сервисе специалисты» и 3 отзыва. Один из них и есть Антон Шабан с такой же фоткой)) А я сижу голову ломаю )

    • Пётр Александров Автор статьи
      https://wpnew.ru

      Офигеть так совпадение! Да, довольно необычно, да и память у тебя хорошая. 🙂

    • Антон
      https://weareweb.ru/ob-avtore

      Было дело, мой отзыв) Чектраст тоже хорошая программа.

  5. Артём Высоков
    https://vysokoff.ru/

    Полезный материал, сразу же в закладки добавил, на выходных буду изучать! Спасибо, Пётр.

    • Пётр Александров Автор статьи
      https://wpnew.ru

      Спасибо. Самое интересное, что в демо-режиме можно очень много чего сделать, то есть абсолютно бесплатно.

      • Артём Высоков
        https://vysokoff.ru/

        Тоже Яндекс проиндексировал закрытый от индексации poisk, но при попытке удалить, вот что прога выдала:

        vysokoff.ru/poisk/ — Нет оснований для удаления

        Но а в целом, программа очень крутая!

        • АлаичЪ
          https://alaev.info

          Значит нет оснований, это ответ Яндекса, а не программы.

        • Светлана

          А Яндекс там не приписал, что для удаления должно быть или в robots.txt стоять запрет, или перенаправление в .htaccess Можно добавить, а когда из поиска удалится, удалить и из этих документов. Я так делала

Добавить комментарий
Ваш адрес email не будет опубликован. Обязательные поля помечены
Нажав на кнопку «Отправить комментарий» вы принимаете соглашение на обработку персональных данных.
Подпишитесь на бесплатные уроки по e‑mail и получите книгу в подарок
Нажав на кнопку «Подписаться» вы принимаете соглашение на обработку персональных данных.
Книга по SEO