Рубрики

Урок 382 ComparseR для работы с индексом сайта или Как удалить все “сопли” за 1 минуту

Петр Александров
Автор статьи Пётр Александров
31
Время прочтения: 8 мин.

Приветствую, ребята! Совсем недавно я рассказывал вам про то, как удалить ненужные страницы с индекса Яндекса и Google. Для поиска “соплей” (мусорных страниц) я показывал, что использую ручной режим. Но в комментариях к тому урок один замечательный человек Антон поделился с тем, как можно облегчить поиск подобных страниц с помощью программы ComparseR:

Я сразу же попробовал ее на деле и остался под впечатлением! Действительно очень крутая штука! ComparseR позволяет изучит индекс сайта.

Программа ComparseR для разбора индексации сайта

Функции и особенности ComparseR

Основное предназначение программы ComparseR – это узнать, какие страницы существуют на сайте, какие из них в индексе, какие нет. Либо наоборот, какие ненужные страницы с Вашего сайта попали в индекс.

Особенности ComparseR:

  • Умеет сканировать страницы в индексе Google и Яндекс для дальнейшей работы с ними.
  • Возможность автоматического удаления (пакетно) ненужных страниц с индекса Яндекса и Google (не нужно залезать в панели вебмастеров).
  • Краулер для подробной информации по страницам сайта (коды ответа сервера, title, description, количество заголовков и пр. информация, подробности ниже).
  • Сравнение реально существующих страниц сайта с поисковой выдачей. С легкостью можно найти страницы, которые, к примеру, отдают 404 ошибку, но находятся в индексе. Там же в программе удалить все это пакетно. Масса возможностей.
  • Возможность работы с сервисами антикапчи, прокси, XML яндекса
  • Сбор статистики, удобное отображение проблем с сайтов (выделение красным).
  • Возможность выгрузки структуры сайта.
  • Создание sitemap.xml, особенно актуально, если движок не WordPress.
  • Поиск исходящих ссылок с сайта.
  • Сканирование изображений на сайте, значение их title, alt и пр.
  • И многое-многое другое.

Программа ComparseR интуитивно понятная, выглядит вот так:

Как удалить ненужные страницы из индекса

Google

Допустим, мне понадобилось удалить страницы из индекса Google. Они случайно попали туда в индекс и я хочу избавить от них.

  1. Первым делом в настройках указываем логин и пароль от аккаунта Google, указываем тот аккаунт, на который привязан наш сайт, либо тот у которого имеется полный доступ (внимание, ограниченный доступ не подходит):
  2. Заходим во вкладку Google:
  3. Нажимаем кнопку “Запустить”. Вбиваем адрес сайта, ставим галочку “Показывать скрытые результаты”:
  4. Ждем немного. Теперь  первым делом можно удалить те страницы из индекса, которые вы запретили индексировать в robots.txt (согласитесь, если Вы запретили индексировать в нем, то страница вам не нужна в индексе). Для этого сортируем по столбцу Robots.txt, чтобы шли страницы со значением Disallow, там же увидим ненужные страницы в индексе (у меня это страницы с тегами, страницы листинга с содержанием page и пр.):
  5. Выделяем все эти URL, нажимаем CTRL+C:
  6. Нажимаем на кнопку “Добавить/Удалить URL”:
  7. Там выбираем “Удалить”:
  8. В появившемся окне нажимаем CTRL+V и нажимаем “Старт”:
  9. Вот и все! Эти страницы скоро выпадут из индекса. Можете зайти в Google Search Console и увидеть там список URL, которые поставлены на удаление:
  10. Согласитесь, это очень круто!!! Экономит уйму времени, не нужно лазить вручную и искать мусор в индексе, а потом по-одному вбивать их на удаление. Крутая программа.

Также можно отсортировать по колонке “Ответ сервера” и удалить страницы, которые отдают 404 ошибку и попали в индекс, если таковые имеются. Ну или вы видите, что ненужные страницы попали в индекс, запрещаете его индексирование сначала с помощью robots.txt, к примеру, потом ставите на удаление уже в этой программе.

Яндекс

С Яндексом абсолютно все точно также, вы сможете также легко посмотреть, какие страницы у Вас попали в индекс, при необходимости дописать правило в Robots.txt и воспользоваться “Удалить URL” в ComparseR уже во вкладке “Яндекс”. Аналогично также можно добавить страницы в “аддурилку”, если это вам нужно.

Краулер

В программе еще есть так называемый “Краулер”. Кто работал с программами типа Netpeak Spider, Xenu и пр. поймут что это. Идет сканирование страниц Вашего сайта и вы получаете информацию по ним (кликните, чтобы увеличить):

Тут доступна следующая информация:

  1. Порядковый номер.
  2. Ответ сервера.
  3. URL страницы.
  4. Длина URL
  5. Title страницы.
  6. Глубина.
  7. Meta robots.
  8. Rel canonical.
  9. Тип контента.
  10. Источник.
  11. Robots.txt (allow/disallow).
  12. Скорость загрузки.
  13. Размер страницы (в Kb).
  14. Description.
  15. Длина description.
  16. Количество заголовков h1.
  17. Сам заголовок.
  18. Длина h1.
  19. Количество заголовков, непосредственно сам заголовок и длина h2, h3, h4, h5, h6.

Как видите много нужной информации можно выдернуть.

Также при краулинге, можно поставить галочки напротив “Собирать данные о внешних ссылках” и “Собирать данных об изображениях” и станут доступными вкладка “Изображения”. Там можно увидеть тайтлы, alt тексты картинок и др. информацию по ним.

А во вкладке “Внешние ссылки” можно увидеть с какого URL вашего сайта и куда идут ссылки:

Статистика и структура

У программы есть замечательный блок “Статистика и структура” в правой части:

Наведя мышкой на нее, можно увидеть вот такой блок:

Очень удобно! Например, кликнув в разделе “Файл robots.txt” disallow: 1 (см. на стрелку выше), можно сразу увидеть, какие страницы попали в индекс Яндекса, несмотря на то, что они запрещены к индексированию в robots.txt:

И эту страницу снова можно с легкостью удалить через кнопку “Добавить/Удалить URL”.

Очень много информации и фильтров во вкладке “Статистика”: можно посмотреть какие страницы попали в индексе, какие нет, где присутствуют дубли в метатегах и другое. Удобно.

Структура сайта

Там же во вкладке “Статистика и структура” можно посмотреть структуру сайта:

Таким образом можно спарсить структуру какого-нибудь сайта, который понравился очень и отличается хорошо продуманной структурой. Какие-то хорошие идеи перенять себе. Либо посмотреть на структуру своего сайта, чтобы узнать, как видят его поисковики. При необходимости можно сохранить все в файл.

Также с легкостью вы можете создать карту сайта sitemap.xml. Для WordPress сайтов – это очень просто реализовать с помощью плагинов, к примеру WordPress SEO. Если же движок самописный или какой-то сложный, можно просто снова воспользоваться программой ComparseR:

Вывод

Не знаю как вам, но мне программа мне очень понравилось. Постоянно приходилось вручную ковыряться в индексе и смотреть: какие же ненужные страницы попали в индекс Яндекса или Google. Теперь очень наглядная картина перед моими глазами, причем довольно удобная и понятная. И не нужно “залипать” в Яндексе для проведения аудитов. Очень крутая вещь. Аналогично легко проверить какие страницы НЕ попали в индекс.

Да, программа платная, но у нее есть демо-режим для полного ознакомления, работать можно со 150 страницами сайта. И больше никаких ограничений. Если у вас еще сайт не очень большой, то этого вполне достаточно.

А как вы анализируете поисковой индекс? Вручную или с помощью каких-то специальных программ/сервисов?

Подпишитесь на бесплатные уроки по e‑mail и получите книгу в подарок
Нажав на кнопку «Подписаться» вы принимаете соглашение на обработку персональных данных.
Книга по SEO
Добавить комментарий
Ваш адрес email не будет опубликован. Обязательные поля помечены
Нажав на кнопку «Отправить комментарий» вы принимаете соглашение на обработку персональных данных.

31 комментарий на «Урок 382 ComparseR для работы с индексом сайта или Как удалить все “сопли” за 1 минуту»
  1. Артём Высоков
    https://vysokoff.ru/

    Полезный материал, сразу же в закладки добавил, на выходных буду изучать! Спасибо, Пётр.

    • Пётр Александров Автор статьи
      https://reclampa.ru

      Спасибо. Самое интересное, что в демо-режиме можно очень много чего сделать, то есть абсолютно бесплатно.

      • Артём Высоков
        https://vysokoff.ru/

        Тоже Яндекс проиндексировал закрытый от индексации poisk, но при попытке удалить, вот что прога выдала:

        vysokoff.ru/poisk/ – Нет оснований для удаления

        Но а в целом, программа очень крутая!

        • АлаичЪ
          https://alaev.info

          Значит нет оснований, это ответ Яндекса, а не программы.

        • Светлана

          А Яндекс там не приписал, что для удаления должно быть или в robots.txt стоять запрет, или перенаправление в .htaccess Можно добавить, а когда из поиска удалится, удалить и из этих документов. Я так делала

  2. Макс
    http://direct-context.ru/?utm_medium=affiliate&utm_source=dload

    Коммент не по теме. Сейчас у тебя на блоге Петя вижу фото с комментом от Антона. И понимаю, что я его уже видел сегодня но к тебе точно не заходил. Оказывается просто получил сегодня рассылку от ЧекТраст, и зашел на их сайт. У них там есть “Что говорят о сервисе специалисты” и 3 отзыва. Один из них и есть Антон Шабан с такой же фоткой)) А я сижу голову ломаю )

    • Пётр Александров Автор статьи
      https://reclampa.ru

      Офигеть так совпадение! Да, довольно необычно, да и память у тебя хорошая. 🙂

    • Антон
      https://weareweb.ru/ob-avtore

      Было дело, мой отзыв) Чектраст тоже хорошая программа.

  3. Денис

    “Сопли” (supplemental) – страницы в дополнительном индексе гугла. И это вовсе не мусорные (технические) страницы. Учите матчасть.

    • Пётр Александров Автор статьи
      https://reclampa.ru

      Я все равно не люблю лишнее, даже в дополнительном индексе.

      И вообще, удалось найти ненужные страницы и в основном индексе Google, ну и в Яндексе тоже.

    • Виталий
      https://kombix.com.ua

      Да, но иногда страниц в индексе оооочень много, а у поисковиков есть некотрый лимит на кол-во страниц сайта в выдаче. Поэтому крупные проекты делают на поддоменах.

  4. Даниил Привольнов
    https://tripandme.ru/

    Привет! При скачивании демки Хром выдал предупреждение, что файлы могут нанести вред компу, это не страшно? )

    • Пётр Александров Автор статьи
      https://reclampa.ru

      Не страшно, это обычное стандартное предупреждение.

  5. Андрей Хвостов
    http://ingenerhvostov.ru

    C программой уже можно решиться поубирать “сопли”. Ручной же способ для молодых блогов.

    • Пётр Александров Автор статьи
      https://reclampa.ru

      Да даже с молодыми очень просто тут все. Причем можно и бесплатно сделать, не нужно “тыкаться”.

  6. cnf

    а как на счет того что гугл не показывает большинство выдачи по сайту, я пытался спарсить всю выдачу по своему сайту с соплями и без, вышло вообще бесполезно для сайтов у которых больше 10к страниц. Тоесть для более менее нормальных сайтов эта прога (как минимум заявленная функция в заголовке) бесполезна

    • АлаичЪ
      https://alaev.info

      Даже с такими ограничениями сразу найдутся ошибки, если они есть в индексации.

  7. Сергей

    Спасибо за статью! И за программу, конечно.
    Вопрос: как проверить страницы в индексе из определенной директории сайта, например, site.ru/page/?

    • АлаичЪ
      https://alaev.info

      Программой какую-то определенную по желанию категорию не собрать. Она может быть собрана в рамках общего прасинга, но выборочно – нет.

  8. Антон
    https://weareweb.ru/ob-avtore

    Всегда пожалуйста, коллега! =)

  9. Алесандр
    http://asseenontv.by

    Добрый день!

    Демо-версия просканировала 50 страниц в яндексе, в гугле ни одной. При этом в индексе порядка 500 страниц и там и там. Кроулер, в свою очередь, свое дело сделал корректно.
    Что я делаю не так?

    • Пётр Александров Автор статьи
      https://reclampa.ru

      Может в настройках лимиты стоят? Попробуйте “пошаманить” настройками при парсинге.

  10. Владимир

    Эх, друзья, если бы это можно было сделать за одну минуту))) цены б ей не было .. а так и цена есть, и за минуту не сделаешь)))
    У меня платная версия, проект большой около 100к страниц.
    Много непонятного в программе) нужен форум техподдержки!
    Так например при запуске google (аналогично тому, что написано у вас в статье) – вчера работало так = “запуск парсинга, капча распознана не верно – парсинг завершен.” – и вот так во всех режимах (антигейт имеется)
    сегодня работает так = в любом режиме запускается и результаты все вида “http://www.google.by/url?url=http://…” , а у меня в роботс “?” закрыт .. и все результаты подпадают под disallow
    брр , несомненно программа крутая, но сырая..айяяй..

    • АлаичЪ
      https://alaev.info

      Напиши мне на почту, пожалуйста, будем разбираться!

  11. alright
    http://intmoney.com.ua

    Если сайт маленький – можно все спокойно ручками убрать., а вот в случае большогш сайта ComparseR пригодится! Как всегда полезная статья!

    • Виталий
      https://kombix.com.ua

      Большие – это какие по вашему мнению?

  12. Иван

    Добрый день, а промокодов на данный софт случайно нет? Спасибо.

    • Пётр Александров Автор статьи
      https://reclampa.ru

      К сожалению, у меня нет. Может Алаич откликнется. Не знаю.

  13. Руслан
    https://abdullinru.ru

    Крутая программка, обязательно протестирую

  14. Владимир

    отличный инструмент, но не без косяков!)
    сравнивая Компарсер с xenu, netpeak, seo frog
    плюсы:
    парсинг Яндекс
    инфа по разметке h2-h3-h4
    экспорт разных списков (все что собирает краулер)
    обработчик sitemap
    минусы:
    никакущая техподдержка) уверен на все отвечает сам Алаев. техподдержку – денег тратить не буду. пару раз отвечал на конструктивную критику обиделся и забил))
    некоторые вопросы ушли в никуда (тоже подтвердил коллега)
    не работающие инструменты: парсинг Google
    крайне низкая скорость работы краулера на больших сайтах (фрог проходит за 30 мин, ксену 1 час, компарсер умирает после 4-5 часов, так и не получив результаты).
    часто “глушит” интернет на компе (пока работает, все остальное отключается)

    резюме: для маленьких и средних сайтах = отличная вещь (хотя для малых сайтов можно обойтись без проги).
    для больших – мертвяк ((
    задатки классного функционала, но не допиленного до состояния коммерческого продукта
    т.е. все “песни” на конференциях “как я срубил бабла разрабатывая ПО” вызывают разочарование, ибо идея супер, реализация 5/10

  15. Pavel
    https://grechkopv.ru

    Крутая программа, у нее самый удобный интерфейс, лягушки и другие курят в сторонке.

Добавьте свой комментарий
Добавить комментарий