Рубрики

Урок 379 Как удалить ненужные страницы из индекса Яндекса и Google. Удаляем “сопли” в поиске

Петр Александров
Автор статьи Пётр Александров
19
Время прочтения: 13 мин.

Вам нужен сайт? Тогда создание и продвижение сайтов в Санкт-Петербурге – это то, что вам нужно. Доверьтесь профессионалам.

Привет! Часто мы сталкиваемся с тем, что в результате выдачи нашего сайта бывают “мусорные” страницы. Наиболее правильно удалить страницу из индекса в Яндексе с помощью файла robots.txt, о котором я уже писал. Но, к сожалению, Google игнорирует данный файл и все равно “засовывает” некоторые ненужные страницы в индекс (чаще всего в дополнительный, об этом ниже). Поэтому данный урок посвящен прежде всего Гуглу, но Яндекса тоже мы немного коснемся.

Как узнать, есть ли ненужные страницы (“сопли”) в индексе?

Ручной режим

Открываем Google и вбиваем туда фразу site:reclampa.ru, где вместо reclampa.ru Вы, конечно, вбиваете свой адрес сайта:

Вообще, чтобы не держать в голове все эти разные операторы разных поисковых систем, я предпочитаю пользоваться RDS bar. Заходим на наш сайт, нажимаем на кнопку “Анализ сайта”:

И там вы увидите, сколько страниц в индексе Яндекса и в Google:

В идеале эти цифры должны быть очень похожими, практически одинаковыми. То есть тут должны примерно те цифры, которые равняются количеству постов на Вашем блоге. Если это интернет-магазин, то посложнее, так как часто бывает необходимость засовывать страницы с фильтрами или др. параметрами в индекс. И Яндекс, и Google “кушают” их по-разному.

В скобках на скриншоте выше вы видите значение “99%” – это показатель того, какой процент находится в ОСНОВНОМ индексе Google. Есть также страницы в дополнительном индексе, в моем случае это 1%. Такие страницы не участвуют в поиске.

В идеале процент основного индекса должен быть равным 100% или стремиться к этому числу. Если у вас этот процент маленький и очень много страниц в дополнительном индексе, не стоит паниковать, рвать и метать, как любят делать это некоторые. Спокойно сделайте действия описанные ниже.

В RDS Bar нажимаем непосредственно на саму цифру:

И открывается Google со страницами, которые в индексе:

Здесь переходим на последние страницы, тыкая на последние предлагаемые страницы:

Если страниц в индексе довольно много, так можно потерять кучу времени, листая страницы в индексе. Поэтому смотрим на URL, который меняется при переходе на другие страницы, там можно увидеть значение start:

И можно заметить следующую последовательность: если мы находимся на 14-ой странице, там отображается цифра 130, если на 15, то цифра 140 и т.д. То есть данное значение будет принимать цифру по этой формуле:

Значение start=№ страницы*10-10

Если нам нужно попасть на 100 страницу, нам нужно в адресную строку после start ввести 990.

Не боимся, вбиваем цифру ту же самую 990, к примеру:

И вы попадете на последние страницы в индексе Google (если это не конец, введите большее число), и там увидите фразу:

По умолчанию вы видите только страницы в индексе, которые располагаются в основном индексе (то есть те страницы, которые несут информативную ценность по мнению Google). Чтобы увидеть, все страницы вместе с дополнительным индексом, кликните по фразе “repeat the search with the omitted results included”.

Теперь вас снова должно отбросить на первую страницу. Повторяем шаг выше, чтобы попасть на последние страницы в индексе:

Если посмотреть чуть выше, вы увидите, что страниц было 54, сейчас стало 59. То есть 5 страниц выдачи – это дополнительный индекс Google и данные страницы не несут никакой информационной пользы по мнению Google (чаще всего это дубли страниц, служебные или еще что-то).

Таких страниц может быть просто куча. В одно время у меня было в мусоре более 15 000 страниц. 🙂

Автоматический режим

Совсем недавно (после написания этой статьи) я написал новый урок про то, как можно автоматически найти ненужные страницы в индексе с помощью программы ComparseR.

Как удалить ненужные страницы с индекса Google

Подстраницы, архивы, метки и пр.

  1. Я настоятельно рекомендую поставить себе плагин WordPress SEO. Про это говорил уже не раз. Это лучший SEO плагин для Вордпресс. В нем переходим во вкладку “SEO” -> “Заголовки и метаданные”.
  2. Переходим во вкладку “Таксономии”, там в разделе “Метки” ставим галочку напротив “noindex, follow”, чтобы исключить из индекса страницы с метками (это, конечно, если вы не продвигаете сайт с помощью меток, как я писал):
  3. Потом переходите во вкладку “Архивы”, там ставите галочку напротив “Add noindex, follow to the author archives” и “Add noindex, follow to the date-based archives”:
  4. Дальше переходите во вкладку “Остальное” и ставите галочку “Noindex для подстраниц и архивов”:
  5. Нажимаем “Сохранить изменения”.

Как удалить Replytocom из индекса

Если у вас на сайте древовидные комментарии, в индексе также могут быть страницы с replytocom. Вообще, у меня вместе с ними было 17 000 страниц в индексе, удалив их из индекса на данный момент в Google пока осталось около 2000 страниц. Удалялись долго, почти год. То есть ненужные страницы выпадали по-тихоньку из индекса.

Подобные страницы очень легко удалить с помощью того же самого плагина WordPress SEO by Yoast.

  1. Переходим во вкладку SEO -> Расширенный:
  2. Переходим во вкладку “Постоянные ссылки”, там ставим галочку напротив “Удалить переменные ?replytocom”:
  3. Сохраняем изменения и наслаждаемся, как Google начнет сам исключать из индекса подобные страницы.

Страницы с feed

На некоторых сайтах вообще не нужен RSS. Там есть смысл в его отключении. С помощью RSS может попасть всякий шлак в индекс, подобие этого:

Открываем файл functions.php и туда вставляем вот этот код (вставляем перед закрывающим ?>):

// Отключаем RSS ленту
function fb_disable_feed() {
wp_redirect(get_option('siteurl'));exit;
}

add_action('do_feed', 'fb_disable_feed', 1);
add_action('do_feed_rdf', 'fb_disable_feed', 1);
add_action('do_feed_rss', 'fb_disable_feed', 1);
add_action('do_feed_rss2', 'fb_disable_feed', 1);
add_action('do_feed_atom', 'fb_disable_feed', 1);

remove_action( 'wp_head', 'feed_links_extra', 3 );
remove_action( 'wp_head', 'feed_links', 2 );
remove_action( 'wp_head', 'rsd_link' );

Теперь, если мы увидим страницы вида site.ru/stranica.html/blabla/feed и перейдем на нее, нас перебросит на главную страницу сайта. И Google вскоре исключит подобные страницы из индекса.

Также можно сделать, чтобы перебрасывало не на главную страницу, а на какую-нибудь выбранную (страницу подписки, допустим). Для этого в коде вместо:

wp_redirect(get_option('siteurl'));exit;

вставляем:

wp_redirect('http://site.ru/podpiska');exit;

где http://site.ru/podpiska – любая страница, которую вы пропишите.

Как удалить сайт из индекса

Бывает необходимость в том, что сайт молодой и нужно поставить запрет на индексацию до того времени, пока не удалятся “стандартные посты”, которые не уникальны, не поменяется шаблон на новый и не добавится десяток страниц по теме. Все это, обычно делается для того, чтобы поисковые системы “скушали” сайт и понимали какая тематика его, направление, структура и пр. с самого начала.

Чтобы исключить весь сайт из индекса, добавьте в header.php до закрывающегося head вот этот код:

<meta name='robots' content='none'/>

Это подойдет, если нужно скрыть определенную html страницу тоже. Например, у вас сверстан какой-либо лэндинг на отдельной html странице, отдельно от Вашего шаблона и вам не нужно, чтобы он попал в индекс.

Как ускорить удаление страниц из индекса поисковых систем

Сделанные выше манипуляции исключат появление ненужных страниц в будущем. Старые тоже будут сами “отваливаться” с индекса, но не так быстро, как хотелось бы, если кто-то хочет ускорить процесс и ненужных страниц в дополнительном индексе не так много, то можно поработать немного ручками.

Google

  1. Заходим в панель инструментов Google. Там переходим на наш сайт, вкладка “Индекс Google” -> “Статус индексирования”:
  2. Здесь можно увидеть, как ненужные страницы выпадают из индекса. То есть общее количество страниц в индексе регулярно уменьшается. Чтобы ускорить процесс удаления страниц из индекса, просто переходим во вкладку “Удалить URL-адреса”:
  3. Там нажимаем на кнопку “Создать новый запрос на удаление”:
    Обратите внимание, в robots.txt обязательно должно быть прописано правило, которое запрещает индексировать данное содержимое. То есть то, если вы хотите что-то удалить, URL должен стоять под запретом в robots.txt, иначе страница не удалится из индекса.
  4. Например, у меня в индексе была страница reclampa.ru/category/lichnoe/page/5, ее вставляю в поле и нажимаю “Продолжить”:
  5. В следующем окне, можно выбрать между: удаление только 1 страницы или целого каталога:
  6. Если требуется удалить только страницу, выбираем “Удалить страницу из результатов поиска и из кеша” и нажимаем “Отправить запрос”. Вы увидите подобное уведомление:
  7. Повторюсь, должно быть прописано правило в robots.txt, который запрещает индексировать данную страницу. В моем случае это вот это правило:
  8. Также вы можете удалить сразу каталог ненужных страниц из индекса. Для этого вставляем не конкретный URL, а к примеру что-то подобное со “звездочкой”:
  9. Тем самым, удалится целая рубрика и то, что в ней содержится. Обычно страницы пропадают из индекса в течении 1-х суток. Сроки могут достигать и до 1-ой недели.

Яндекс

В Яндексе принцип такой же. Заходим в “Удалить URL” и там вбиваем URL ненужной страницы, которая попала в индекс Яндекса:

Чтобы страница удалилась из индекса, необходимо, чтобы страница была удалена физически (то есть отдавала 404 ошибку, к примеру), либо также была запрещена к индексации с помощью robots.txt или другими способами. Яндекс также удалит страницу из индекса, правда у нее это происходит обычно дольше, чем с Google.

С помощью программы ComparseR

Все эти “ускорения” по удалению страниц с индекса можно сделать с помощью великолепной программы ComparseR и не нужно будет сидеть и забивать по одному URL в панели вебмастеров. Программа может позволить удалить ненужные страницы за 1-2 минуты. Очень удобно.

Вывод

В этом уроке я продемонстрировал то, как удалить “мусорные” страницы из индекса, их еще называют “сопли”. Их удаляться рекомендуется, но не стоит делать целую драму из этого. А то я помню, как многие истерили по поводу replytocom, мол это какая-то ну ОЧЕНЬ серьезная проблема, грубейшая ошибка в SEO. Я бы это так не назвал, это слишком сильное преувеличение. Просто стремитесь к чистоте поиска, чтобы у Вас на сайте было все пушисто и гладко.

Спасибо за внимание, до скорой встречи! Будут вопросы – с радостью отвечу в комментариях. Пока!

P.s. Нужно продвинуть сайт? Компания Pro Studio – продвижение сайта от профессионалов.

Подпишитесь на бесплатные уроки по e‑mail и получите книгу в подарок
Нажав на кнопку «Подписаться» вы принимаете соглашение на обработку персональных данных.
Книга по SEO
Добавить комментарий
Ваш адрес email не будет опубликован. Обязательные поля помечены
Нажав на кнопку «Отправить комментарий» вы принимаете соглашение на обработку персональных данных.

19 комментариев на «Урок 379 Как удалить ненужные страницы из индекса Яндекса и Google. Удаляем “сопли” в поиске»
  1. Никита Волков
    https://snow-motion.ru

    Да, шухеру год назад навели немало с этими дублями)) “Которые просто УБИВАЮТ ваш блог…!!!” Помню такие реплики)

    • Пётр Александров Автор статьи
      https://reclampa.ru

      Хороший заголовок гарант хорошего трафика 🙂

  2. Андрей Хвостов
    http://ingenerhvostov.ru

    Я реплитукомы удалял в настройках плагина Вордпресс Сео бай Йоаст (WordPress SEO by Yoast). Все остальные потихоньку тоже отходят, хотя с Гуглом надо поработать. Гугл пока не хочет любить блог.

    • Пётр Александров Автор статьи
      https://reclampa.ru

      Так я здесь тоже писал, что с помощью WP SEO by Yoast удаляю. 🙂

  3. Макс
    https://eurobyte.ru/?referer=12678

    А я вот только собираюсь завести блог. Что мне нужно делать, что бы эти сопли вообще не появлялись?

    • Пётр Александров Автор статьи
      https://reclampa.ru

      Лучше не откладывать создание блога. Все остальное – вторично. 🙂 А так, просто сразу сделать все те рекомендации, которые даю в этом уроке.

    • IvYur

      Не об этом в начале нужно думать. А вот о чем.
      1. Напишите на листе бумаги все темы которые вам интересны.
      2. Выберете 3-5 тем в которых вы разбираетесь.
      3. Выберете тему о которой вы хотите рассказывать читателям вашего потенциального блога.
      4. Создайте блог и начинайте писать статьи.
      5. А вот после написанных 10-20 статей можно и заниматься данным вопросом.

      • Aleksandr
        https://trandinvest.ru/

        IvYur, вроде все так просто по вашему списку, а потом же пишешь пишешь а похитителей нет и о тебе вообще никто не знает!
        Для начала нужно решить готов человек по 2-3 часа в день тратить время на блог или нет

        • IvYur

          А если придут посетители? Что они должны увидеть? Голый блог без статей?

  4. Alex
    http://fisherlive.ru/

    А эти сопли обязательно удалять? У меня в основном индексе гугл, столько же страниц что и в яндекс, а то что гугл хранит всякую никому ненужную фигню, это наверное его дело…

    • Пётр Александров Автор статьи
      https://reclampa.ru

      Нет. Не критично, необязательно удалять, некоторые даже не догадываются о их существовании. Но я бы все равно, просто сделал настройки WP SEO by Yoast один раз и куча мусора автоматически будет удаляться.

  5. seoonly.ru
    https://seoonly.ru/

    Гугл и без запроса быстро удаляет урлы-)

    • Пётр Александров Автор статьи
      https://reclampa.ru

      Ну все равно, иногда хочется моментально избавиться от чего-то раздражительного 🙂

  6. Антон
    https://weareweb.ru/ob-avtore

    Очень удобно парсить индекс с помощью ComParser, смотреть чего закрыто от индексации, но в индексе, после чего через эту же прогу можно пакетно удалить их из индекса.

    • Пётр Александров Автор статьи
      https://reclampa.ru

      Спасибо, Антон, обязательно попробую.

  7. Роман
    https://toursector.org.ua

    Бар показывает у меня в Гугл 1700 страниц (99%) Но я знаю точно, что их не больше тысячи. Если это не сопли то что за страницы ?

  8. Роман
    https://toursector.org.ua

    Дошел до 30-й страницы и на этом закончилось. Если на странице 10 ссылок, то по ходу проиндексированных вообще 300. Я чего то совсем заблудился )
    Может кто объяснит

  9. alex

    а можно ли удалить нужные ссылки сайта в поиске точнее удалить всё что связано с сайтом а потом обратно включить всё в поиск? как себя будут вести поисковики? при удалении рабочей ссылки она потом появится в поиске? просто полностью меняется структура сайта много добавиться много уберется что то останется

  10. Анастасия

    Здравствуйте.
    Следую Вашей инструкции, но когда захожу Удалить Url – нет строки создать новый запрос на удаление. Как тогда удалить?

Добавьте свой комментарий
Добавить комментарий