Как найти и исправить проблемы с покрытием индекса

Опубликовано: 2020-10-29

У вас проблемы с индексацией Google? Эта проблема может привести к падению трафика и коэффициентов конверсии.

Необходимо проверить проиндексированные и неиндексированные страницы вашего сайта, чтобы быстро решить любую проблему . Здесь мы шаг за шагом объясняем, как это сделать с помощью Google Search Console — Отчет об индексировании .

С помощью следующего метода нам удалось исправить проблемы с покрытием индекса на сотнях веб-сайтов с миллионами или миллиардами исключенных страниц. Используйте его, чтобы ни одна из ваших релевантных страниц не потеряла видимость в результатах поиска и увеличила ваш SEO-трафик!

Оглавление

Шаг 1. Проверьте отчет о покрытии индекса

Отчет об охвате Search Console сообщает, какие страницы были просканированы и проиндексированы Google, а также почему URL-адреса находятся в таком конкретном состоянии. Вы можете использовать его для обнаружения любых ошибок, обнаруженных в процессе сканирования и индексирования .

Отчет о покрытии

Чтобы проверить отчет о покрытии индексом, перейдите в консоль поиска Google и нажмите «Покрытие» (чуть ниже индекса). Открыв его, вы увидите сводку с четырьмя различными статусами, классифицирующими ваши URL-адреса:

  • Ошибка: эти страницы не могут быть проиндексированы и не будут отображаться в результатах поиска из-за некоторых ошибок.
  • Действительно с предупреждениями: эти страницы могут отображаться или не отображаться в результатах поиска Google.
  • Действителен: эти страницы проиндексированы и могут отображаться в результатах поиска. Вам не нужно ничего делать.
  • Исключено: эти страницы не были проиндексированы и не будут отображаться в результатах поиска. Google считает, что вы не хотите их индексировать или считаете, что контент не стоит индексировать.

Вам необходимо проверить все страницы, найденные в разделе « Ошибки », и исправить их как можно скорее, потому что вы можете потерять возможность привлечь трафик на свой сайт.

Если у вас есть время, посмотрите на страницы, включенные в состояние Valid с предупреждением , так как могут быть некоторые жизненно важные страницы, которые ни при каких обстоятельствах не должны отсутствовать в результатах поиска.

Наконец, убедитесь, что исключенные страницы — это те, которые вы не хотите индексировать.

Шаг 2: Как решить проблемы, обнаруженные в каждом статусе покрытия индекса

Открыв отчет о покрытии индекса, выберите нужный статус ( Ошибки, Действителен с предупреждениями или Исключено) и просмотрите подробные сведения, представленные внизу страницы. Вы найдете список типов ошибок в зависимости от их серьезности и количества затронутых страниц, поэтому мы рекомендуем начинать исследовать проблемы с верхней части таблицы.

Давайте посмотрим на каждую из ошибок в разных статусах и как их можно исправить.

Статус ошибки

Страницы ошибок в отчете о покрытии GSC

Ошибки сервера (5xx):

Это URL-адреса, возвращающие код состояния 5xx в Google.

Действия, которые необходимо предпринять:

  • Проверьте, какой код состояния 500 возвращается . Здесь у вас есть полный список с определением для каждого кода состояния ошибки сервера.
  • Перезагрузите URL-адрес, чтобы проверить, сохраняется ли ошибка. Ошибки 5xx носят временный характер и не требуют никаких действий.
  • Убедитесь, что ваш сервер не перегружен и не неправильно настроен. В этом случае обратитесь за помощью к разработчикам или свяжитесь с вашим хостинг-провайдером.
  • Выполните анализ файла журнала , чтобы проверить журналы ошибок для вашего сервера. Эта практика предоставляет вам дополнительную информацию о проблеме.
  • Просмотрите изменения, которые вы недавно внесли на свой веб-сайт, чтобы увидеть, не могут ли какие-либо из них быть основной причиной. ex) плагины, новый код бэкенда и т. д.

Ошибки перенаправления:

GoogleBot обнаружил ошибку в процессе перенаправления, которая не позволяет просканировать страницу. Любая из следующих причин часто вызывает эту проблему.

  • Слишком длинная цепочка перенаправлений
  • Цикл перенаправления
  • URL-адрес перенаправления, длина которого превышает максимальную длину URL-адреса.
  • В цепочке перенаправления был неправильный или пустой URL-адрес.

Действия, которые необходимо предпринять:

  • Устранение цепочек редиректов и петель. Пусть каждый URL-адрес выполняет только одно перенаправление. Другими словами, перенаправление с первого URL на последний.

Отправленный URL заблокирован Robots.txt:

Это URL-адреса, которые вы отправили в Google при загрузке XML-карты сайта в Google Search Console, но которые были заблокированы файлом Robots.txt.

Действия, которые необходимо предпринять:

Проверьте, хотите ли вы, чтобы поисковые системы индексировали рассматриваемую страницу или нет.

  • Если вы не хотите, чтобы он был проиндексирован, загрузите карту сайта в формате XML, удалив URL-адрес.
  • Наоборот, если вы хотите, чтобы он был проиндексирован, измените правила в файле robots.txt. Вот руководство по редактированию robots.txt.

Представленный URL с пометкой «noindex»:

Эти страницы были отправлены в Google через XML-карту сайта, но они имеют директиву noindex либо в метатеге robots, либо в заголовках HTTP.

Действия, которые необходимо предпринять:

  • Если вы хотите, чтобы URL-адрес был проиндексирован, вы должны удалить директиву noindex.
  • Если есть URL-адреса, которые вы не хотите индексировать в Google, удалите их из XML-карты сайта.

Представленный URL-адрес выглядит как Soft 404:

URL-адрес, который вы отправили через XML Sitemap для целей индексации, возвращает программную ошибку 404 . Эта ошибка возникает, когда сервер возвращает код состояния 200 на запрос, но Google считает, что он должен отображать 404. Другими словами, страница выглядит для Google как ошибка 404. В некоторых случаях это может быть связано с тем, что на странице нет контента, она кажется неправильной или имеет низкое качество для Google.

Действия, которые необходимо предпринять:

  • Проверьте, должны ли эти URL-адреса возвращать (настоящий) код состояния 404. В этом случае удалите их из карты сайта XML.
  • Если вы обнаружите, что они не должны возвращать ошибку, убедитесь, что вы предоставили соответствующий контент на этих страницах. Избегайте недостаточного или дублированного контента. Убедитесь, что если есть перенаправления, они верны.

Отправленный URL возвращает несанкционированный запрос (401):

URL-адрес, отправленный в Google через файл Sitemap в формате XML, возвращает ошибку 401 . Этот код состояния говорит вам, что вы не авторизованы для доступа к URL-адресу. Вам может понадобиться имя пользователя и пароль, или, возможно, существуют ограничения доступа на основе IP-адреса.

Действия, которые необходимо предпринять:

  • Проверьте, должны ли URL-адреса возвращать ошибку 401. В этом случае удалите их из карты сайта XML.
  • Если вы не хотите, чтобы они отображали код 401, удалите HTTP-аутентификацию, если она есть.

Отправленный URL-адрес не найден (404):

Вы отправили URL-адрес для индексации в Google Search Console, но Google не может его просканировать из-за проблемы, отличной от упомянутой выше.

Действия, которые необходимо предпринять:

  • Посмотрите, хотите ли вы, чтобы страница была проиндексирована или нет. Если ответ «да», исправьте его, чтобы он возвращал код состояния 200. Вы также можете назначить перенаправление 301 для URL-адреса, чтобы он отображал соответствующую страницу. Помните, что если вы выберете перенаправление, вам нужно добавить назначенный URL-адрес в карту сайта XML и удалить тот, который дает ошибку 404.
  • Если вы не хотите, чтобы страница индексировалась, удалите ее из XML-карты сайта.

В отправленном URL есть проблема со сканированием:

Вы отправили URL для индексации в GSC, но Google не может его просканировать из-за проблемы, отличной от упомянутой выше.

Действия, которые необходимо предпринять:

  • Используйте инструмент проверки URL-адресов, чтобы получить дополнительную информацию о причинах проблемы.
  • Иногда эти ошибки носят временный характер, поэтому не требуют никаких действий.

Действителен со статусом предупреждения

Действительно с предупреждениями

Эти страницы проиндексированы, хотя и заблокированы robots.txt. Google всегда старается следовать указаниям, указанным в файле robots.txt. Однако иногда он ведет себя иначе. Это может произойти, например, когда кто-то ссылается на данный URL-адрес.

Вы найдете URL-адреса в этой категории, потому что Google сомневается, хотите ли вы заблокировать эти страницы в результатах поиска .

Действия, которые необходимо предпринять:

  • Google не рекомендует использовать файл robots.txt во избежание индексации страниц. Вместо этого, если вы не хотите, чтобы эти страницы индексировались, используйте noindex в мета-файлах robots или в заголовке ответа HTTP.
  • Еще одна хорошая практика для предотвращения доступа Google к странице — реализация HTTP-аутентификации.
  • Если вы не хотите блокировать страницу, внесите необходимые исправления в файл robots.txt.
  • Определить, какое правило блокирует страницу, можно с помощью тестера robots.txt .

Нацир Туррадо,
ФандангоSEO-консультант
Технический SEO-фрилансер @ Natzir Turrado

При крупном переходе на SalesForce мы попросили разработчиков сделать фильтры, которые мы не хотели индексировать, недоступными (запутанными). Когда веб-сайт Salesforce заработал, все прошло успешно. Но когда несколько месяцев спустя была выпущена новая версия, обфускация была случайно нарушена. Это вызвало тревогу, поскольку всего за семь дней было получено ~17,5 млн запросов Googlebot-Mobile и ~12,5 млн запросов Googlebot/2.1, а также 2% кэш-памяти. Ниже вы можете увидеть в Search Console, как увеличилось количество проиндексированных, но заблокированных роботами страниц.


Вот почему я рекомендую постоянно отслеживать журналы и просматривать отчет о покрытии GSC (хотя вы обнаружите любую проблему раньше, проверив журналы). И помните, что robots.txt не препятствует индексации страниц. Если вы хотите, чтобы Google не сканировал URL-адрес, лучше всего сделать URL-адрес недоступным!

Исключенный статус

Исключенные страницы в отчете о покрытии GSC

Эти страницы не индексируются в результатах поиска, и Google считает, что это правильно. Например, это может быть потому, что они являются дубликатами проиндексированных страниц или потому, что вы даете на своем веб-сайте рекомендации поисковым системам для их индексации.

Отчет о покрытии показывает 15 ситуаций, в которых ваша страница может быть исключена .

Исключено тегом noindex:

Вы говорите поисковым системам не индексировать страницу, давая директиву «noindex».

Действия, которые необходимо предпринять:

  • Убедитесь, что вы действительно не хотите индексировать страницу. Если вы хотите, чтобы страница была проиндексирована, удалите тег «noindex».
  • Вы можете подтвердить наличие этой директивы, открыв страницу и выполнив поиск «noindex» в теле и заголовке ответа.

Заблокировано инструментом удаления страниц:

Вы отправили запрос на удаление URL этих страниц в GSC.

Действия, которые необходимо предпринять:

  • Google обрабатывает этот запрос только в течение 90 дней, поэтому, если вы не хотите индексировать страницу, используйте директивы noindex, внедрите HTTP-аутентификацию или удалите страницу.

Заблокировано robots.txt:

Вы блокируете доступ Googlebot к этим страницам с помощью файла robots.txt. Однако ее все равно можно было бы проиндексировать, если бы Google мог найти информацию об этой странице, не загружая ее. Возможно, Google проиндексировал страницу до того, как вы добавили запрет в robots.txt.

Действия, которые необходимо предпринять:

  • Если вы не хотите, чтобы страница индексировалась, используйте директиву noindex и удалите блок robots.txt.

Заблокировано из-за несанкционированного запроса (401):

Вы блокируете доступ к Google с помощью запроса авторизации (ответ 401).

Действия, которые необходимо предпринять:

  • Если вы хотите разрешить роботу GoogleBot посещать страницу, удалите требования авторизации.

Аномалия сканирования:

Страница не была проиндексирована из-за кода ответа об ошибке 4xx или 5xx.

Действия, которые необходимо предпринять:

  • Используйте инструмент проверки URL, чтобы получить дополнительную информацию о проблемах .

Просканировано – в настоящее время не проиндексировано

Эта страница была просканирована роботом GoogleBot, но не проиндексирована. Он может или не может быть проиндексирован в будущем. Нет необходимости отправлять этот URL для сканирования .

Действия, которые необходимо предпринять:

  • Если вы хотите, чтобы страница индексировалась в результатах поиска, убедитесь, что вы предоставляете ценную информацию.

Обнаружено — в настоящее время не проиндексировано:

Google нашел эту страницу, но пока не смог ее просканировать . Такая ситуация обычно возникает из-за того, что когда GoogleBot пытался просканировать страницу, сайт был перегружен. Сканирование запланировано на другое время.

Никаких действий не требуется.

Альтернативная страница с правильным каноническим тегом:

Эта страница указывает на каноническую страницу, поэтому Google понимает, что вы не хотите ее индексировать.

Действия, которые необходимо предпринять:

  • Если вы хотите проиндексировать эту страницу, вам нужно изменить атрибуты rel=canonical , чтобы дать Google желаемые рекомендации.

Дублировать без выбранного пользователем канонического:

На странице есть дубликаты, но ни один из них не помечен как канонический. Google считает, что это не канонический.

Действия, которые необходимо предпринять:

  • Используйте канонические теги, чтобы дать понять Google, какие страницы являются каноническими (должны быть проиндексированы), а какие являются дубликатами. Вы можете использовать Инструмент проверки URL, чтобы увидеть, какие страницы были выбраны Google в качестве канонических.

Дубликат, Google выбрал другой канонический, чем пользователь:

Вы пометили эту страницу как каноническую, но вместо этого Google проиндексировал другую страницу, которая, по мнению авторов, работает лучше, чем каноническая.

Действия, которые необходимо предпринять:

  • Вы можете следить за выбором Google. В этом случае пометьте проиндексированную страницу как каноническую, а эту — как дубликат канонического URL.
  • Если нет, узнайте, почему Google предпочитает другую страницу той, которую вы выбрали, и внесите необходимые изменения . Используйте инструмент проверки URL, чтобы обнаружить «каноническую страницу», выбранную Google.

Ферран Гэвин,
SEO-менеджер @ Softonic

Один из самых любопытных «сбоев», с которыми мы столкнулись в отчете о покрытии индексов, заключался в том, что Google неправильно обрабатывал наши канонические символы (и мы делали это неправильно в течение многих лет!). Google указывал в консоли поиска, что указанный канонический файл недействителен, когда страница была отформатирована идеально. В конце концов, это оказалась ошибка самой Google, которую подтвердил Гэри Айлис.

Не найдено (404):

Страница возвращает код ошибки 404, когда Google отправляет запрос . GoogleBot нашел страницу не через карту сайта, а, вероятно, через другой веб-сайт, ссылающийся на URL-адрес. Также возможно, что этот URL-адрес существовал в прошлом и был удален.

Действия, которые необходимо предпринять:

  • Если ответ 404 является преднамеренным, вы можете оставить его как есть. Это не повредит вашей эффективности SEO. Однако, если страница переместилась, внедрите переадресацию 301.

Страница удалена из-за судебного иска:

Эта страница была исключена из индекса в связи с судебной жалобой .

Действия, которые необходимо предпринять:

  • Выясните, какие правовые нормы вы, возможно, нарушили, и примите необходимые меры, чтобы исправить это.

Страница с редиректом:

Этот URL-адрес является перенаправлением и поэтому не был проиндексирован.

Действия, которые необходимо предпринять:

  • Если URL-адрес не должен был перенаправлять, удалите реализацию перенаправления.

Софт 404:

Страница возвращает то, что Google считает мягким ответом 404. Страница не проиндексирована, потому что, несмотря на код статуса 200, Google считает, что она должна возвращать 404 .

Действия, которые необходимо предпринять:

  • Проверьте, следует ли вам назначать 404 странице, как предлагает Google.
  • Добавьте ценный контент на страницу, чтобы Google знал, что это не Soft 404.

Повторяющийся отправленный URL не выбран в качестве канонического:

Вы отправили URL в GSC для целей индексации. Тем не менее, он не был проиндексирован, потому что на странице есть дубликаты без канонических тегов, а Google считает, что есть лучший кандидат на канонический.

Действия, которые необходимо предпринять:

  • Решите, хотите ли вы следовать выбору Google для канонической страницы. В этом случае назначьте атрибуты rel=canonical , чтобы они указывали на страницу, выбранную Google.
  • Вы можете использовать Инструмент проверки URL, чтобы увидеть, какая страница была выбрана Google в качестве канонической.
  • Если вы хотите, чтобы этот URL-адрес был каноническим, проанализируйте, почему Google предпочитает другую страницу. Предложите более ценный контент на странице по вашему выбору .

Шаг 3. Наиболее распространенные проблемы в отчете о покрытии индексами

Теперь вы знаете, какие типы ошибок можно найти в отчете о покрытии индексов, и какие действия следует предпринять при обнаружении каждой из них. Ниже приводится краткий обзор наиболее часто возникающих проблем.

Больше исключенных, чем действительных страниц

Иногда у вас может быть больше исключенных страниц, чем действительных. Это обстоятельство обычно дается на больших сайтах, которые претерпели значительное изменение URL . Вероятно, это старый сайт с долгой историей, либо веб-код был изменен.

Если у вас есть существенная разница между количеством страниц двух статусов (Исключен и Действителен), у вас серьезная проблема. Начните просматривать исключенные страницы, как мы объяснили выше.

Эстев Кастельс

Эстев Кастельс,
SEO-менеджер группы @ Adevinta

Самая большая проблема, которую я когда-либо видел в отчете о покрытии, — это один из веб-сайтов, которым я управляю, на котором в итоге было 5 миллиардов исключенных страниц. Да, вы правильно прочитали, 5 миллиардов страниц. Многогранная навигация сошла с ума, и для каждого просмотра страницы мы создавали 20 новых URL-адресов для сканирования роботом Googlebot.

Это оказалось самой дорогой ошибкой с точки зрения сканирования. Нам пришлось полностью запретить через robots.txt многогранные URL-адреса навигации, поскольку робот Googlebot отключал наш сервер с более чем 25 миллионами посещений в день.

Всплески ошибок

Когда количество ошибок увеличивается в геометрической прогрессии, вам нужно проверить ошибку и исправить ее как можно скорее. Google обнаружил проблему, которая серьезно снижает производительность вашего веб-сайта . Если вы не устраните проблему сегодня, у вас будут серьезные проблемы завтра.

Ошибки сервера

Убедитесь, что эти ошибки не 503 (служба недоступна) . Этот код состояния означает, что сервер не может обработать запрос из-за временной перегрузки или технического обслуживания. Сначала ошибка должна исчезнуть сама по себе, но если она продолжает появляться, необходимо посмотреть на проблему и решить ее.

Если у вас есть другие типы ошибок 5xx, мы рекомендуем ознакомиться с нашим руководством, чтобы узнать, какие действия необходимо предпринять в каждом случае.

404 ошибки

Похоже, что Google обнаружил некоторую область вашего веб-сайта, которая генерирует 404 — не найденные страницы. Если объем значительно возрастет, просмотрите наше руководство, чтобы найти и исправить неработающие ссылки.

Отсутствующие страницы или сайты

Если вы не видите страницу или сайт в отчете, это может быть по нескольким причинам.

  1. Google еще не обнаружил его. Когда страница или сайт являются новыми, может пройти некоторое время, прежде чем Google найдет их. Отправьте запрос на сканирование страницы или карту сайта, чтобы ускорить процесс индексации. Кроме того, убедитесь, что страница не является сиротой и связана с веб-сайтом.
  2. Google не может получить доступ к вашей странице из-за запроса на вход . Удалите требования авторизации, чтобы робот GoogleBot мог сканировать страницу.
  3. Страница имеет тег noindex или была исключена из индекса по какой-либо причине . Удалите тег noindex и убедитесь, что вы предоставляете ценный контент на странице.

Ошибки и исключения «Отправлено, но/Отправлено и»

Эта проблема возникает при несоответствии. Если вы отправляете страницу через карту сайта, вы должны убедиться, что она действительна для индексации и связана с сайтом.

Ваш сайт должен состоять в основном из ценных страниц, на которые стоит ссылаться.

Резюме

Вот краткое изложение статьи «Как найти и исправить ошибки покрытия индекса».

  • Первое, что нужно сделать при использовании отчета о покрытии индексом, — это исправить страницы, которые отображаются в статусе Ошибка . Это должно быть 0, чтобы избежать штрафов Google.
  • Во-вторых, проверьте исключенные страницы и убедитесь, что это страницы, которые вы не хотите индексировать. Если это не так, следуйте нашим рекомендациям по устранению проблем.
  • Если у вас есть время, настоятельно рекомендуем проверять допустимые страницы с предупреждением . Убедитесь, что рекомендации, указанные в файле robots.txt, верны и в них нет несоответствий.

Мы надеемся, что вы найдете это полезным! Дайте нам знать, если у вас есть какие-либо вопросы относительно отчета о покрытии индекса. Мы также хотели бы услышать любые советы от вас в комментариях ниже.