Урок 382 ComparseR для работы с индексом сайта или Как удалить все “сопли” за 1 минуту

ComparseR

Приветствую, ребята! Совсем недавно я рассказывал вам про то, как удалить ненужные страницы с индекса Яндекса и Google. Для поиска "соплей" (мусорных страниц) я показывал, что использую ручной режим. Но в комментариях к тому урок один замечательный человек Антон поделился с тем, как можно облегчить поиск подобных страниц с помощью программы ComparseR:

Комментарий по поводу ComparseR

Я сразу же попробовал ее на деле и остался под впечатлением! Действительно очень крутая штука! ComparseR позволяет изучит индекс сайта.

к оглавлению ↑

Программа ComparseR для разбора индексации сайта

к оглавлению ↑

Функции и особенности ComparseR

Основное предназначение программы ComparseR - это узнать, какие страницы существуют на сайте, какие из них в индексе, какие нет. Либо наоборот, какие ненужные страницы с Вашего сайта попали в индекс.

Особенности ComparseR:

  • Умеет сканировать страницы в индексе Google и Яндекс для дальнейшей работы с ними.
  • Возможность автоматического удаления (пакетно) ненужных страниц с индекса Яндекса и Google (не нужно залезать в панели вебмастеров).
  • Краулер для подробной информации по страницам сайта (коды ответа сервера, title, description, количество заголовков и пр. информация, подробности ниже).
  • Сравнение реально существующих страниц сайта с поисковой выдачей. С легкостью можно найти страницы, которые, к примеру, отдают 404 ошибку, но находятся в индексе. Там же в программе удалить все это пакетно. Масса возможностей.
  • Возможность работы с сервисами антикапчи, прокси, XML яндекса
  • Сбор статистики, удобное отображение проблем с сайтов (выделение красным).
  • Возможность выгрузки структуры сайта.
  • Создание sitemap.xml, особенно актуально, если движок не WordPress.
  • Поиск исходящих ссылок с сайта.
  • Сканирование изображений на сайте, значение их title, alt и пр.
  • И многое-многое другое.

Программа ComparseR интуитивно понятная, выглядит вот так:

ComparseR

к оглавлению ↑

Как удалить ненужные страницы из индекса

Google

Допустим, мне понадобилось удалить страницы из индекса Google. Они случайно попали туда в индекс и я хочу избавить от них.

  1. Первым делом в настройках указываем логин и пароль от аккаунта Google, указываем тот аккаунт, на который привязан наш сайт, либо тот у которого имеется полный доступ (внимание, ограниченный доступ не подходит):
    Настройки ComparseR
  2. Заходим во вкладку Google:
    Вкладка Google в ComparseR
  3. Нажимаем кнопку "Запустить". Вбиваем адрес сайта, ставим галочку "Показывать скрытые результаты":
    Старт ComparseR
  4. Ждем немного. Теперь  первым делом можно удалить те страницы из индекса, которые вы запретили индексировать в robots.txt (согласитесь, если Вы запретили индексировать в нем, то страница вам не нужна в индексе). Для этого сортируем по столбцу Robots.txt, чтобы шли страницы со значением Disallow, там же увидим ненужные страницы в индексе (у меня это страницы с тегами, страницы листинга с содержанием page и пр.):
    Robots.txt в ComparseR
  5. Выделяем все эти URL, нажимаем CTRL+C:
    Удаление страниц с индекса
  6. Нажимаем на кнопку "Добавить/Удалить URL":
    Удалить URL
  7. Там выбираем "Удалить":
    Удаление URL ComarseR
  8. В появившемся окне нажимаем CTRL+V и нажимаем "Старт":
    URL для удаления
  9. Вот и все! Эти страницы скоро выпадут из индекса. Можете зайти в Google Search Console и увидеть там список URL, которые поставлены на удаление:
    Удаление страниц с индекса
  10. Согласитесь, это очень круто!!! Экономит уйму времени, не нужно лазить вручную и искать мусор в индексе, а потом по-одному вбивать их на удаление. Крутая программа.

Также можно отсортировать по колонке "Ответ сервера" и удалить страницы, которые отдают 404 ошибку и попали в индекс, если таковые имеются. Ну или вы видите, что ненужные страницы попали в индекс, запрещаете его индексирование сначала с помощью robots.txt, к примеру, потом ставите на удаление уже в этой программе.

Яндекс

С Яндексом абсолютно все точно также, вы сможете также легко посмотреть, какие страницы у Вас попали в индекс, при необходимости дописать правило в Robots.txt и воспользоваться "Удалить URL" в ComparseR уже во вкладке "Яндекс". Аналогично также можно добавить страницы в "аддурилку", если это вам нужно.

к оглавлению ↑

Краулер

В программе еще есть так называемый "Краулер". Кто работал с программами типа Netpeak Spider, Xenu и пр. поймут что это. Идет сканирование страниц Вашего сайта и вы получаете информацию по ним (кликните, чтобы увеличить):

Краулер ComparseR

Тут доступна следующая информация:

  1. Порядковый номер.
  2. Ответ сервера.
  3. URL страницы.
  4. Длина URL
  5. Title страницы.
  6. Глубина.
  7. Meta robots.
  8. Rel canonical.
  9. Тип контента.
  10. Источник.
  11. Robots.txt (allow/disallow).
  12. Скорость загрузки.
  13. Размер страницы (в Kb).
  14. Description.
  15. Длина description.
  16. Количество заголовков h1.
  17. Сам заголовок.
  18. Длина h1.
  19. Количество заголовков, непосредственно сам заголовок и длина h2, h3, h4, h5, h6.

Как видите много нужной информации можно выдернуть.

Также при краулинге, можно поставить галочки напротив "Собирать данные о внешних ссылках" и "Собирать данных об изображениях" и станут доступными вкладка "Изображения". Там можно увидеть тайтлы, alt тексты картинок и др. информацию по ним.

Изображения ComparseR

А во вкладке "Внешние ссылки" можно увидеть с какого URL вашего сайта и куда идут ссылки:

Внешние ссылки ComparseR

к оглавлению ↑

Статистика и структура

У программы есть замечательный блок "Статистика и структура" в правой части:

Статистика и структура ComparseR

Наведя мышкой на нее, можно увидеть вот такой блок:

Ошибки на сайте

Очень удобно! Например, кликнув в разделе "Файл robots.txt" disallow: 1 (см. на стрелку выше), можно сразу увидеть, какие страницы попали в индекс Яндекса, несмотря на то, что они запрещены к индексированию в robots.txt:

Страница в индексе

И эту страницу снова можно с легкостью удалить через кнопку "Добавить/Удалить URL".

Очень много информации и фильтров во вкладке "Статистика": можно посмотреть какие страницы попали в индексе, какие нет, где присутствуют дубли в метатегах и другое. Удобно.

к оглавлению ↑

Структура сайта

Там же во вкладке "Статистика и структура" можно посмотреть структуру сайта:

Структура сайта

Таким образом можно спарсить структуру какого-нибудь сайта, который понравился очень и отличается хорошо продуманной структурой. Какие-то хорошие идеи перенять себе. Либо посмотреть на структуру своего сайта, чтобы узнать, как видят его поисковики. При необходимости можно сохранить все в файл.

Также с легкостью вы можете создать карту сайта sitemap.xml. Для WordPress сайтов - это очень просто реализовать с помощью плагинов, к примеру WordPress SEO. Если же движок самописный или какой-то сложный, можно просто снова воспользоваться программой ComparseR:

ComparseR sitemap

к оглавлению ↑

Вывод

Не знаю как вам, но мне программа мне очень понравилось. Постоянно приходилось вручную ковыряться в индексе и смотреть: какие же ненужные страницы попали в индекс Яндекса или Google. Теперь очень наглядная картина перед моими глазами, причем довольно удобная и понятная. И не нужно "залипать" в Яндексе для проведения аудитов. Очень крутая вещь. Аналогично легко проверить какие страницы НЕ попали в индекс.

Да, программа платная, но у нее есть демо-режим для полного ознакомления, работать можно со 150 страницами сайта. И больше никаких ограничений. Если у вас еще сайт не очень большой, то этого вполне достаточно.

А как вы анализируете поисковой индекс? Вручную или с помощью каких-то специальных программ/сервисов?

С уважением, Пётр Александров.
Подпишитесь на бесплатные уроки

Понравился урок? Вы не хотите пропускать новые бесплатные уроки по созданию, раскрутке и монетизации блога? Тогда подпишитесь на RSS или на электронный ящик в форме выше и получайте новые уроки мгновенно! Также можете следить за мной в Twitter.

Ваш комментарий

  1. Артём Высоков
    http://vysokoff.ru/

    Полезный материал, сразу же в закладки добавил, на выходных буду изучать! Спасибо, Пётр.

    • Пётр Александров
      http://wpnew.ru

      Спасибо. Самое интересное, что в демо-режиме можно очень много чего сделать, то есть абсолютно бесплатно.

      • Артём Высоков
        http://vysokoff.ru/

        Тоже Яндекс проиндексировал закрытый от индексации poisk, но при попытке удалить, вот что прога выдала:

        vysokoff.ru/poisk/ – Нет оснований для удаления

        Но а в целом, программа очень крутая!

        • АлаичЪ
          http://alaev.info

          Значит нет оснований, это ответ Яндекса, а не программы.

  2. Макс
    http://direct-context.ru/?utm_medium=affiliate&utm_source=dload

    Коммент не по теме. Сейчас у тебя на блоге Петя вижу фото с комментом от Антона. И понимаю, что я его уже видел сегодня но к тебе точно не заходил. Оказывается просто получил сегодня рассылку от ЧекТраст, и зашел на их сайт. У них там есть “Что говорят о сервисе специалисты” и 3 отзыва. Один из них и есть Антон Шабан с такой же фоткой)) А я сижу голову ломаю )

    • Пётр Александров
      http://wpnew.ru

      Офигеть так совпадение! Да, довольно необычно, да и память у тебя хорошая. 🙂

    • Антон
      http://weareweb.ru/ob-avtore

      Было дело, мой отзыв) Чектраст тоже хорошая программа.

  3. Денис

    “Сопли” (supplemental) – страницы в дополнительном индексе гугла. И это вовсе не мусорные (технические) страницы. Учите матчасть.

    • Пётр Александров
      http://wpnew.ru

      Я все равно не люблю лишнее, даже в дополнительном индексе.

      И вообще, удалось найти ненужные страницы и в основном индексе Google, ну и в Яндексе тоже.

    • Виталий
      http://kombix.com.ua

      Да, но иногда страниц в индексе оооочень много, а у поисковиков есть некотрый лимит на кол-во страниц сайта в выдаче. Поэтому крупные проекты делают на поддоменах.

  4. Даниил Привольнов
    http://tripandme.ru/

    Привет! При скачивании демки Хром выдал предупреждение, что файлы могут нанести вред компу, это не страшно? )

    • Пётр Александров
      http://wpnew.ru

      Не страшно, это обычное стандартное предупреждение.

  5. Андрей Хвостов
    http://ingenerhvostov.ru

    C программой уже можно решиться поубирать “сопли”. Ручной же способ для молодых блогов.

    • Пётр Александров
      http://wpnew.ru

      Да даже с молодыми очень просто тут все. Причем можно и бесплатно сделать, не нужно “тыкаться”.

  6. cnf

    а как на счет того что гугл не показывает большинство выдачи по сайту, я пытался спарсить всю выдачу по своему сайту с соплями и без, вышло вообще бесполезно для сайтов у которых больше 10к страниц. Тоесть для более менее нормальных сайтов эта прога (как минимум заявленная функция в заголовке) бесполезна

    • АлаичЪ
      http://alaev.info

      Даже с такими ограничениями сразу найдутся ошибки, если они есть в индексации.

  7. Сергей

    Спасибо за статью! И за программу, конечно.
    Вопрос: как проверить страницы в индексе из определенной директории сайта, например, site.ru/page/?

    • АлаичЪ
      http://alaev.info

      Программой какую-то определенную по желанию категорию не собрать. Она может быть собрана в рамках общего прасинга, но выборочно – нет.

  8. Антон
    http://weareweb.ru/ob-avtore

    Всегда пожалуйста, коллега! =)

  9. Алесандр
    http://asseenontv.by

    Добрый день!

    Демо-версия просканировала 50 страниц в яндексе, в гугле ни одной. При этом в индексе порядка 500 страниц и там и там. Кроулер, в свою очередь, свое дело сделал корректно.
    Что я делаю не так?

    • Пётр Александров
      http://wpnew.ru

      Может в настройках лимиты стоят? Попробуйте “пошаманить” настройками при парсинге.

  10. Владимир

    Эх, друзья, если бы это можно было сделать за одну минуту))) цены б ей не было .. а так и цена есть, и за минуту не сделаешь)))
    У меня платная версия, проект большой около 100к страниц.
    Много непонятного в программе) нужен форум техподдержки!
    Так например при запуске google (аналогично тому, что написано у вас в статье) – вчера работало так = “запуск парсинга, капча распознана не верно – парсинг завершен.” – и вот так во всех режимах (антигейт имеется)
    сегодня работает так = в любом режиме запускается и результаты все вида “http://www.google.by/url?url=http://…” , а у меня в роботс “?” закрыт .. и все результаты подпадают под disallow
    брр , несомненно программа крутая, но сырая..айяяй..

    • АлаичЪ
      http://alaev.info

      Напиши мне на почту, пожалуйста, будем разбираться!

  11. alright
    http://intmoney.com.ua

    Если сайт маленький – можно все спокойно ручками убрать., а вот в случае большогш сайта ComparseR пригодится! Как всегда полезная статья!

    • Виталий
      http://kombix.com.ua

      Большие – это какие по вашему мнению?

  12. Иван

    Добрый день, а промокодов на данный софт случайно нет? Спасибо.

    • Пётр Александров
      http://wpnew.ru

      К сожалению, у меня нет. Может Алаич откликнется. Не знаю.

  13. Руслан
    http://abdullinru.ru

    Крутая программка, обязательно протестирую

  14. Владимир

    отличный инструмент, но не без косяков!)
    сравнивая Компарсер с xenu, netpeak, seo frog
    плюсы:
    парсинг Яндекс
    инфа по разметке h2-h3-h4
    экспорт разных списков (все что собирает краулер)
    обработчик sitemap
    минусы:
    никакущая техподдержка) уверен на все отвечает сам Алаев. техподдержку – денег тратить не буду. пару раз отвечал на конструктивную критику обиделся и забил))
    некоторые вопросы ушли в никуда (тоже подтвердил коллега)
    не работающие инструменты: парсинг Google
    крайне низкая скорость работы краулера на больших сайтах (фрог проходит за 30 мин, ксену 1 час, компарсер умирает после 4-5 часов, так и не получив результаты).
    часто “глушит” интернет на компе (пока работает, все остальное отключается)

    резюме: для маленьких и средних сайтах = отличная вещь (хотя для малых сайтов можно обойтись без проги).
    для больших – мертвяк ((
    задатки классного функционала, но не допиленного до состояния коммерческого продукта
    т.е. все “песни” на конференциях “как я срубил бабла разрабатывая ПО” вызывают разочарование, ибо идея супер, реализация 5/10

Наверх