Марафон v2.0

Урок 382 ComparseR для работы с индексом сайта или Как удалить все «сопли» за 1 минуту

ComparseR

Приветствую, ребята! Совсем недавно я рассказывал вам про то, как удалить ненужные страницы с индекса Яндекса и Google. Для поиска "соплей" (мусорных страниц) я показывал, что использую ручной режим. Но в комментариях к тому урок один замечательный человек Антон поделился с тем, как можно облегчить поиск подобных страниц с помощью программы ComparseR:

Комментарий по поводу ComparseR

Я сразу же попробовал ее на деле и остался под впечатлением! Действительно очень крутая штука! ComparseR позволяет изучит индекс сайта.

к оглавлению ↑

Программа ComparseR для разбора индексации сайта

к оглавлению ↑

Функции и особенности ComparseR

Основное предназначение программы ComparseR - это узнать, какие страницы существуют на сайте, какие из них в индексе, какие нет. Либо наоборот, какие ненужные страницы с Вашего сайта попали в индекс.

Особенности ComparseR:

  • Умеет сканировать страницы в индексе Google и Яндекс для дальнейшей работы с ними.
  • Возможность автоматического удаления (пакетно) ненужных страниц с индекса Яндекса и Google (не нужно залезать в панели вебмастеров).
  • Краулер для подробной информации по страницам сайта (коды ответа сервера, title, description, количество заголовков и пр. информация, подробности ниже).
  • Сравнение реально существующих страниц сайта с поисковой выдачей. С легкостью можно найти страницы, которые, к примеру, отдают 404 ошибку, но находятся в индексе. Там же в программе удалить все это пакетно. Масса возможностей.
  • Возможность работы с сервисами антикапчи, прокси, XML яндекса
  • Сбор статистики, удобное отображение проблем с сайтов (выделение красным).
  • Возможность выгрузки структуры сайта.
  • Создание sitemap.xml, особенно актуально, если движок не WordPress.
  • Поиск исходящих ссылок с сайта.
  • Сканирование изображений на сайте, значение их title, alt и пр.
  • И многое-многое другое.

Программа ComparseR интуитивно понятная, выглядит вот так:

ComparseR

к оглавлению ↑

Как удалить ненужные страницы из индекса

Google

Допустим, мне понадобилось удалить страницы из индекса Google. Они случайно попали туда в индекс и я хочу избавить от них.

  1. Первым делом в настройках указываем логин и пароль от аккаунта Google, указываем тот аккаунт, на который привязан наш сайт, либо тот у которого имеется полный доступ (внимание, ограниченный доступ не подходит):
    Настройки ComparseR
  2. Заходим во вкладку Google:
    Вкладка Google в ComparseR
  3. Нажимаем кнопку "Запустить". Вбиваем адрес сайта, ставим галочку "Показывать скрытые результаты":
    Старт ComparseR
  4. Ждем немного. Теперь  первым делом можно удалить те страницы из индекса, которые вы запретили индексировать в robots.txt (согласитесь, если Вы запретили индексировать в нем, то страница вам не нужна в индексе). Для этого сортируем по столбцу Robots.txt, чтобы шли страницы со значением Disallow, там же увидим ненужные страницы в индексе (у меня это страницы с тегами, страницы листинга с содержанием page и пр.):
    Robots.txt в ComparseR
  5. Выделяем все эти URL, нажимаем CTRL+C:
    Удаление страниц с индекса
  6. Нажимаем на кнопку "Добавить/Удалить URL":
    Удалить URL
  7. Там выбираем "Удалить":
    Удаление URL ComarseR
  8. В появившемся окне нажимаем CTRL+V и нажимаем "Старт":
    URL для удаления
  9. Вот и все! Эти страницы скоро выпадут из индекса. Можете зайти в Google Search Console и увидеть там список URL, которые поставлены на удаление:
    Удаление страниц с индекса
  10. Согласитесь, это очень круто!!! Экономит уйму времени, не нужно лазить вручную и искать мусор в индексе, а потом по-одному вбивать их на удаление. Крутая программа.

Также можно отсортировать по колонке "Ответ сервера" и удалить страницы, которые отдают 404 ошибку и попали в индекс, если таковые имеются. Ну или вы видите, что ненужные страницы попали в индекс, запрещаете его индексирование сначала с помощью robots.txt, к примеру, потом ставите на удаление уже в этой программе.

Яндекс

С Яндексом абсолютно все точно также, вы сможете также легко посмотреть, какие страницы у Вас попали в индекс, при необходимости дописать правило в Robots.txt и воспользоваться "Удалить URL" в ComparseR уже во вкладке "Яндекс". Аналогично также можно добавить страницы в "аддурилку", если это вам нужно.

к оглавлению ↑

Краулер

В программе еще есть так называемый "Краулер". Кто работал с программами типа Netpeak Spider, Xenu и пр. поймут что это. Идет сканирование страниц Вашего сайта и вы получаете информацию по ним (кликните, чтобы увеличить):

Краулер ComparseR

Тут доступна следующая информация:

  1. Порядковый номер.
  2. Ответ сервера.
  3. URL страницы.
  4. Длина URL
  5. Title страницы.
  6. Глубина.
  7. Meta robots.
  8. Rel canonical.
  9. Тип контента.
  10. Источник.
  11. Robots.txt (allow/disallow).
  12. Скорость загрузки.
  13. Размер страницы (в Kb).
  14. Description.
  15. Длина description.
  16. Количество заголовков h1.
  17. Сам заголовок.
  18. Длина h1.
  19. Количество заголовков, непосредственно сам заголовок и длина h2, h3, h4, h5, h6.

Как видите много нужной информации можно выдернуть.

Также при краулинге, можно поставить галочки напротив "Собирать данные о внешних ссылках" и "Собирать данных об изображениях" и станут доступными вкладка "Изображения". Там можно увидеть тайтлы, alt тексты картинок и др. информацию по ним.

Изображения ComparseR

А во вкладке "Внешние ссылки" можно увидеть с какого URL вашего сайта и куда идут ссылки:

Внешние ссылки ComparseR

к оглавлению ↑

Статистика и структура

У программы есть замечательный блок "Статистика и структура" в правой части:

Статистика и структура ComparseR

Наведя мышкой на нее, можно увидеть вот такой блок:

Ошибки на сайте

Очень удобно! Например, кликнув в разделе "Файл robots.txt" disallow: 1 (см. на стрелку выше), можно сразу увидеть, какие страницы попали в индекс Яндекса, несмотря на то, что они запрещены к индексированию в robots.txt:

Страница в индексе

И эту страницу снова можно с легкостью удалить через кнопку "Добавить/Удалить URL".

Очень много информации и фильтров во вкладке "Статистика": можно посмотреть какие страницы попали в индексе, какие нет, где присутствуют дубли в метатегах и другое. Удобно.

к оглавлению ↑

Структура сайта

Там же во вкладке "Статистика и структура" можно посмотреть структуру сайта:

Структура сайта

Таким образом можно спарсить структуру какого-нибудь сайта, который понравился очень и отличается хорошо продуманной структурой. Какие-то хорошие идеи перенять себе. Либо посмотреть на структуру своего сайта, чтобы узнать, как видят его поисковики. При необходимости можно сохранить все в файл.

Также с легкостью вы можете создать карту сайта sitemap.xml. Для WordPress сайтов - это очень просто реализовать с помощью плагинов, к примеру WordPress SEO. Если же движок самописный или какой-то сложный, можно просто снова воспользоваться программой ComparseR:

ComparseR sitemap

к оглавлению ↑

Вывод

Не знаю как вам, но мне программа мне очень понравилось. Постоянно приходилось вручную ковыряться в индексе и смотреть: какие же ненужные страницы попали в индекс Яндекса или Google. Теперь очень наглядная картина перед моими глазами, причем довольно удобная и понятная. И не нужно "залипать" в Яндексе для проведения аудитов. Очень крутая вещь. Аналогично легко проверить какие страницы НЕ попали в индекс.

Да, программа платная, но у нее есть демо-режим для полного ознакомления, работать можно со 150 страницами сайта. И больше никаких ограничений. Если у вас еще сайт не очень большой, то этого вполне достаточно.

А как вы анализируете поисковой индекс? Вручную или с помощью каких-то специальных программ/сервисов?

Новый марафон 2.0 от WPnew
С уважением, Пётр Александров.
Подпишитесь на бесплатные уроки

Понравился урок? Вы не хотите пропускать новые бесплатные уроки по созданию, раскрутке и монетизации блога? Тогда подпишитесь на RSS или на электронный ящик в форме выше и получайте новые уроки мгновенно! Также можете следить за мной в Twitter.

Добавить комментарий

Такой e-mail уже зарегистрирован. Воспользуйтесь формой входа или введите другой.

Вы ввели некорректные логин или пароль

Извините, для комментирования необходимо войти.

28 комментариев

по хронологии
по рейтингу сначала новые по хронологии
Артём Высоков http://vysokoff.ru/

Полезный материал, сразу же в закладки добавил, на выходных буду изучать! Спасибо, Пётр.

Автор
Пётр Александров http://wpnew.ru

Спасибо. Самое интересное, что в демо-режиме можно очень много чего сделать, то есть абсолютно бесплатно.

Артём Высоков http://vysokoff.ru/

Тоже Яндекс проиндексировал закрытый от индексации poisk, но при попытке удалить, вот что прога выдала:

vysokoff.ru/poisk/ - Нет оснований для удаления

Но а в целом, программа очень крутая!

АлаичЪ http://alaev.info

Значит нет оснований, это ответ Яндекса, а не программы.

Макс http://direct-context.ru/?utm_medium=affiliate&utm_source=dload

Коммент не по теме. Сейчас у тебя на блоге Петя вижу фото с комментом от Антона. И понимаю, что я его уже видел сегодня но к тебе точно не заходил. Оказывается просто получил сегодня рассылку от ЧекТраст, и зашел на их сайт. У них там есть "Что говорят о сервисе специалисты" и 3 отзыва. Один из них и есть Антон Шабан с такой же фоткой)) А я сижу голову ломаю )

Антон http://weareweb.ru/ob-avtore

Было дело, мой отзыв) Чектраст тоже хорошая программа.

Автор
Пётр Александров http://wpnew.ru

Офигеть так совпадение! Да, довольно необычно, да и память у тебя хорошая. 🙂

"Сопли" (supplemental) - страницы в дополнительном индексе гугла. И это вовсе не мусорные (технические) страницы. Учите матчасть.

Виталий http://kombix.com.ua

Да, но иногда страниц в индексе оооочень много, а у поисковиков есть некотрый лимит на кол-во страниц сайта в выдаче. Поэтому крупные проекты делают на поддоменах.

Автор
Пётр Александров http://wpnew.ru

Я все равно не люблю лишнее, даже в дополнительном индексе.

И вообще, удалось найти ненужные страницы и в основном индексе Google, ну и в Яндексе тоже.

Даниил Привольнов http://tripandme.ru/

Привет! При скачивании демки Хром выдал предупреждение, что файлы могут нанести вред компу, это не страшно? )

Автор
Пётр Александров http://wpnew.ru

Не страшно, это обычное стандартное предупреждение.

Андрей Хвостов http://ingenerhvostov.ru

C программой уже можно решиться поубирать "сопли". Ручной же способ для молодых блогов.

Автор
Пётр Александров http://wpnew.ru

Да даже с молодыми очень просто тут все. Причем можно и бесплатно сделать, не нужно "тыкаться".

а как на счет того что гугл не показывает большинство выдачи по сайту, я пытался спарсить всю выдачу по своему сайту с соплями и без, вышло вообще бесполезно для сайтов у которых больше 10к страниц. Тоесть для более менее нормальных сайтов эта прога (как минимум заявленная функция в заголовке) бесполезна

АлаичЪ http://alaev.info

Даже с такими ограничениями сразу найдутся ошибки, если они есть в индексации.

Сергей

Спасибо за статью! И за программу, конечно.
Вопрос: как проверить страницы в индексе из определенной директории сайта, например, site.ru/page/?

АлаичЪ http://alaev.info

Программой какую-то определенную по желанию категорию не собрать. Она может быть собрана в рамках общего прасинга, но выборочно - нет.

Антон http://weareweb.ru/ob-avtore

Всегда пожалуйста, коллега! =)

Алесандр http://asseenontv.by

Добрый день!

Демо-версия просканировала 50 страниц в яндексе, в гугле ни одной. При этом в индексе порядка 500 страниц и там и там. Кроулер, в свою очередь, свое дело сделал корректно.
Что я делаю не так?

Автор
Пётр Александров http://wpnew.ru

Может в настройках лимиты стоят? Попробуйте "пошаманить" настройками при парсинге.

Владимир

Эх, друзья, если бы это можно было сделать за одну минуту))) цены б ей не было .. а так и цена есть, и за минуту не сделаешь)))
У меня платная версия, проект большой около 100к страниц.
Много непонятного в программе) нужен форум техподдержки!
Так например при запуске google (аналогично тому, что написано у вас в статье) - вчера работало так = "запуск парсинга, капча распознана не верно - парсинг завершен." - и вот так во всех режимах (антигейт имеется)
сегодня работает так = в любом режиме запускается и результаты все вида "http://www.google.by/url?url=http://..." , а у меня в роботс "?" закрыт .. и все результаты подпадают под disallow
брр , несомненно программа крутая, но сырая..айяяй..

АлаичЪ http://alaev.info

Напиши мне на почту, пожалуйста, будем разбираться!

alright http://intmoney.com.ua

Если сайт маленький - можно все спокойно ручками убрать., а вот в случае большогш сайта ComparseR пригодится! Как всегда полезная статья!

Виталий http://kombix.com.ua

Большие - это какие по вашему мнению?

Добрый день, а промокодов на данный софт случайно нет? Спасибо.

Автор
Пётр Александров http://wpnew.ru

К сожалению, у меня нет. Может Алаич откликнется. Не знаю.

Руслан http://abdullinru.ru

Крутая программка, обязательно протестирую

Наверх Рейтинг@Mail.ru