Como encontrar e corrigir problemas de cobertura de índice
Como encontrar e corrigir problemas de cobertura de índice
Publicados: 2020-10-29
Você está enfrentando problemas de indexação do Google?Esse problema pode levar a uma queda nas taxas de tráfego e conversão.
É necessário verificar as páginas indexadas e não indexadas do seu site para resolver qualquer problema rapidamente .Aqui explicamos passo a passo como fazer isso com o Google Search Console – Relatório de cobertura de índice .
Com o método a seguir, conseguimos corrigir problemas de cobertura de índice em centenas de sites com milhões ou bilhões de páginas excluídas.Use-o para que nenhuma de suas páginas relevantes perca visibilidade nos resultados de pesquisa e aumente seu tráfego de SEO!
Índice
Etapa 1: verifique o relatório de cobertura do índice
O Relatório de cobertura do Search Console informa quais páginas foram rastreadas e indexadas pelo Google e por que os URLs estão nesse estado específico.Você pode usá-lo paradetectar quaisquer erros encontrados durante o processo de rastreamento e indexação .
Para verificar o relatório de cobertura do índice, acesse o Google Search Console e clique em Cobertura (logo abaixo do Índice).Depois de abri-lo, você verá um resumo com quatro status diferentes categorizando seus URLs:
Erro: essas páginas não podem ser indexadas e não aparecerão nos resultados de pesquisa devido a alguns erros.
Válido com avisos: essas páginas podem ou não ser exibidas nos resultados de pesquisa do Google.
Válido: Essas páginas foram indexadas e podem ser exibidas nos resultados da pesquisa.Você não precisa fazer nada.
Excluídas: essas páginas não foram indexadas e não aparecerão nos resultados da pesquisa.O Google acredita que você não deseja indexá-los ou considera que o conteúdo não vale a pena ser indexado.
Você precisa verificar todas as páginas encontradas na seção Erro e corrigi-las o mais rápido possível, pois pode estar perdendo a oportunidade de direcionar tráfego para seu site.
Se você tiver tempo, veja as páginas incluídas no estadoVálido com aviso , pois pode haver algumas páginas vitais que em nenhuma circunstância devem deixar de aparecer nos resultados da pesquisa.
Por fim, certifique-se de que as páginas excluídas são aquelas que você não deseja que sejam indexadas.
Etapa 2: como resolver os problemas encontrados em cada um dos status de cobertura do índice
Depois de abrir o Relatório de Cobertura do Índice, selecione o status desejado (Erros, Válido com avisos ou Excluído) e veja os detalhes fornecidos na parte inferior da página.Você encontrará uma lista detipos de erro por sua gravidade e o número de páginas afetadas,por isso recomendamos começar a investigar os problemas na parte superior da tabela.
Vamos ver cada um dos erros em diferentes status e como você pode corrigi-los.
Status de erro
Erros do servidor (5xx):
São URLs que retornam um código de status 5xx para o Google.
Ações a tomar:
Verifique que tipo de código de status 500 está retornando .Aqui você tem uma lista completa com a definição para cada código de status de erro do servidor.
Recarregue a URL para ver se o erro persiste.Os erros 5xx são temporários e não requerem nenhuma ação.
Verifique se o seu servidor não está sobrecarregado ou configurado incorretamente.Nesse caso, peça ajuda aos seus desenvolvedores ou entre em contato com seu provedor de hospedagem.
Execute uma análise de arquivo de log para verificar os logs de erro do seu servidor.Essa prática fornece informações extras sobre o problema.
Revise as alterações feitas recentemente em seu site para ver se alguma delas pode ser a causa raiz.ex) plugins, novo código de back-end, etc.
Erros de redirecionamento:
O GoogleBot encontrou um erro durante o processo de redirecionamento que não permite rastrear a página.Qualquer um dos motivos a seguir geralmente causa esse problema.
Uma cadeia de redirecionamento muito longa
Um loop de redirecionamento
Um URL de redirecionamento que excedeu o comprimento máximo do URL
Havia um URL errado ou vazio na cadeia de redirecionamento
Ações a tomar:
Elimine as cadeias e loops de redirecionamento.Faça com que cada URL execute apenas um redirecionamento.Em outras palavras, um redirecionamento da primeira URL para a última.
URL enviado bloqueado por Robots.txt:
Esses são os URLs que você enviou ao Google fazendo upload de um Sitemap XML para o Google Search Console, mas foram bloqueados pelo arquivo Robots.txt.
Ações a tomar:
Verifique se você deseja que os mecanismos de pesquisa indexem a página em questão ou não.
Se você não quiser que ele seja indexado, faça upload de um sitemap XML removendo o URL.
Pelo contrário, se você quiser indexá-lo, altere as diretrizes no Robots.txt. Aqui está um guia sobre como editar robots.txt.
URL enviado marcado como "noindex":
Essas páginas foram enviadas ao Google por meio de um mapa do site XML, mas têm uma diretiva 'noindex' na meta tag de robôs ou nos cabeçalhos HTTP.
Ações a tomar:
Se você deseja que o URL seja indexado, remova a diretiva noindex
Se houver URLs que você não deseja que o Google indexe, elimine-os do Sitemap XML
O URL enviado parece ser um Soft 404:
A URL que você enviou por meio de um Sitemap XML para fins de indexação está retornando um soft 404 .Esse erro ocorre quando o servidor retorna um código de status 200 para uma solicitação, mas o Google acredita que ele deve exibir um 404. Em outras palavras, a página parece um erro 404 para o Google.Em alguns casos, pode ser porque a página não tem conteúdo, parece errada ou de baixa qualidade para o Google.
Ações a tomar:
Investigue se esses URLs devem retornar um código de status 404 (real).Nesse caso, remova-os do mapa do site XML.
Se você achar que eles não devem retornar um erro, certifique-se de fornecer o conteúdo apropriado nessas páginas.Evite conteúdo fino ou duplicado.Verifique se há redirecionamentos, eles estão corretos.
O URL enviado retorna uma solicitação não autorizada (401):
O URL enviado ao Google por meio de um Sitemap XML retorna um erro 401 .Este código de status informa que você não está autorizado a acessar o URL.Você pode precisar de um nome de usuário e senha, ou talvez haja restrições de acesso com base no endereço IP.
Ações a tomar:
Verifique se os URLs devem retornar um 401. Nesse caso, elimine-os do mapa do site XML.
Se você não quiser que eles exibam um código 401, remova a autenticação HTTP, se houver.
URL enviado não encontrado (404):
Você enviou o URL para fins de indexação ao Google Search Console, mas o Google não pode rastreá-lo devido a um problema diferente dos mencionados acima.
Ações a tomar:
Veja se deseja que a página seja indexada ou não.Se a resposta for sim, corrija-a, para que retorne um código de status 200.Você também pode atribuir um redirecionamento 301 ao URL, para que ele exiba uma página apropriada.Lembre-se de que, se você optar por um redirecionamento, precisará adicionar o URL atribuído ao mapa do site XML e remover o que fornece um 404.
Se você não quiser que a página seja indexada, remova-a do mapa do site XML.
O URL enviado tem um problema de rastreamento:
Você enviou o URL para fins de indexação ao GSC, mas ele não pode ser rastreado pelo Google devido a um problema diferente dos mencionados acima.
Ações a tomar:
Use a Ferramenta de inspeção de URL para obter mais informações sobre o que está causando o problema.
Às vezes, esses erros são temporários, portanto, não exigem nenhuma ação.
Válido com status de aviso
Essas páginas são indexadas, embora sejam bloqueadas pelo robots.txt.O Google sempre tenta seguir as diretrizes fornecidas no arquivo robots.txt.No entanto, às vezes ele se comporta de maneira diferente.Isso pode acontecer, por exemplo, quando alguém cria um link para o URL fornecido.
Você encontra os URLs nesta categoria porque o Google duvida se você deseja bloquear essas páginas nos resultados de pesquisa .
Ações a tomar:
O Google não recomenda o uso do arquivo robots.txt para evitar a indexação da página.Em vez disso, se você não quiser ver essas páginas indexadas, use o noindex nos meta-robôs ou um cabeçalho de resposta HTTP.
Outra boa prática para evitar que o Google acesse a página é implementar uma autenticação HTTP.
Caso não queira bloquear a página, faça as correções necessárias no arquivo robots.txt.
Você pode identificar qual regra está bloqueando uma página usando otestador robots.txt.
Natzir Turrado, Consultor FandangoSEO Freelancer Técnico de SEO @ Natzir Turrado
Em uma grande migração para o SalesForce, pedimos aos desenvolvedores que tornassem os filtros que não queríamos indexar inacessíveis (ofuscados). Quando o site da Salesforce foi ao ar, tudo foi um sucesso. Mas quando uma nova versão foi lançada meses depois, a ofuscação foi quebrada acidentalmente. Isso disparou todos os alarmes, pois, em apenas sete dias, houve ~17,5 milhões de solicitações do Googlebot-Mobile e ~12,5 milhões do Googlebot/2.1, além de um cache de taxa de acerto de 2%. Abaixo, você pode ver no Search Console como as páginas indexadas, mas bloqueadas por robôs, aumentaram.
É por isso que recomendo monitorar continuamente os logs e revisar o Relatório de Cobertura do GSC (embora você detecte qualquer problema mais cedo verificando os logs). E lembre-se que o robots.txt não impede que as páginas sejam indexadas. Se você deseja que o Google não rastreie um URL, é melhor tornar o URL inacessível!
Status excluído
Essas páginas não são indexadas nos resultados de pesquisa, e o Google acredita que é a coisa certa.Por exemplo, isso pode ser porque são páginas duplicadas de páginas indexadas ou porque você fornece diretrizes em seu site para que os mecanismos de pesquisa as indexem.
O relatório de Cobertura mostra 15 situações em que sua página pode ser excluída .
Excluído pela tag 'noindex':
Você está dizendo aos mecanismos de pesquisa para não indexar a página fornecendo uma diretiva “noindex”.
Ações a tomar:
Verifique se você realmente não deseja indexar a página.Se você deseja que a página seja indexada, remova a tag “noindex”.
Você pode confirmar a presença desta diretiva abrindo a página e procurando por “noindex” no corpo da resposta e no cabeçalho da resposta.
Bloqueado pela ferramenta de remoção de página:
Vocêenviou uma solicitação de remoção de URL para essas páginas no GSC.
Ações a tomar:
O Google atende a essa solicitação apenas por 90 dias, portanto, se você não quiser indexar a página, use diretivas “noindex”, implemente uma autenticação HTTP ou remova a página.
Bloqueado por robots.txt:
Você está bloqueando o acesso do Googlebot a essas páginas com o arquivo robots.txt.No entanto, ainda poderia ser indexado se o Google pudesse encontrar informações sobre esta página sem carregá-la.Talvez o Google tenha indexado a página antes de você adicionar a proibição no robots.txt
Ações a tomar:
Se você não quiser que a página seja indexada, use uma diretiva “noindex” e remova o bloco robots.txt.
Bloqueado devido a solicitação não autorizada (401):
Você está bloqueando o acesso ao Google usando uma autorização de solicitação (resposta 401).
Ações a tomar:
Se você quiser permitir que o GoogleBot visite a página, remova os requisitos de autorização.
Anomalia de rastreamento:
A página não foi indexada devido a um código de resposta de erro 4xx ou 5xx.
Ações a tomar:
Use a ferramenta de inspeção de URL para obter mais informações sobre os problemas.
Rastreado – atualmente não indexado
Esta página foi rastreada pelo GoogleBot, mas não indexada.Pode ou não ser indexado no futuro.Não há necessidade de enviar este URL para rastreamento.
Ações a tomar:
Se você deseja que a página seja indexada nos resultados da pesquisa, certifique-se de fornecer informações valiosas.
Descoberto – Atualmente não indexado:
O Google encontrou esta página, mas ainda não conseguiu rastreá-la .Essa situação geralmente acontece porque quando o GoogleBot tentou rastrear a página, o site estava sobrecarregado.O rastreamento foi agendado para outro momento.
Nenhuma ação é necessária.
Página alternativa com a tag canônica adequada:
Esta página aponta para uma página canônica, então o Google entende que você não deseja indexá-la.
Ações a tomar:
Se você quiser indexar esta página, precisará alterar osatributos rel=canonicalpara fornecer ao Google as diretrizes desejadas.
Duplicar sem canônico selecionado pelo usuário:
A página tem duplicatas, mas nenhuma delas está marcada como canônica.O Google considera que este não é o canônico.
Ações a tomar:
Use tags canônicas para deixar claro para o Google quais páginas são as canônicas (devem ser indexadas) e quais são as duplicatas.Você pode usar a Ferramenta de inspeção de URL para ver quais páginas foram selecionadas como canônicas pelo Google.
Duplicado, o Google escolheu um canônico diferente do usuário:
Você marcou esta página como canônica, mas o Google, em vez disso, indexou outra página que acha que funciona melhor como canônica.
Ações a tomar:
Você pode seguir a escolha do Google.Nesse caso, marque a página indexada como canônica e esta como uma duplicata da URL canônica.
Caso contrário, descubra por que o Google prefere outra página à que você escolheu e faça as alterações necessárias.Use a Ferramenta de inspeção de URL para descobrir a “página canônica” selecionada pelo Google.
Ferran Gavin, Gerente de SEO @ Softonic
Uma das “falhas” mais curiosas que experimentamos com o Index Coverage Report foi descobrir que o Google não estava processando nossos canônicos corretamente (e estávamos fazendo isso errado há anos!). O Google estava indicando no Search Console que o canônico especificado era inválido quando a página estava formatada perfeitamente. No final, acabou sendo um bug do próprio Google, confirmado por Gary Ilyes.
Não encontrado (404):
A página está retornando um código de status de erro 404 quando o Google faz uma solicitação .O GoogleBot não encontrou a página por meio de um mapa do site, mas provavelmente por meio de outro site com link para a URL.Também é possível que este URL tenha existido no passado e tenha sido removido.
Ações a tomar:
Se a resposta 404 for intencional, você pode deixá-la como está.Não prejudicará seu desempenho de SEO.No entanto, se a página foi movida, implemente um redirecionamento 301.
Página removida devido a reclamação legal:
Esta página foi eliminada do índice devido a umareclamação legal.
Ações a tomar:
Investigue quais regras legais você pode ter infringido e tome as medidas necessárias para corrigi-las.
Página com o redirecionamento:
Este URL é um redirecionamento e, portanto, não foi indexado.
Ações a tomar:
Se a URL não deveria redirecionar, remova a implementação de redirecionamento.
Suave 404:
A página retorna o que o Google acredita ser uma resposta 404 suave.A página não está indexada porque, embora dê um código de status 200, o Googles acha que deveria estar retornando um 404 .
Ações a tomar:
Revise se você deve atribuir um 404 à página, como o Google sugere.
Adicione conteúdo valioso à página para informar ao Google que não é um Soft 404.
URL enviado duplicado não selecionado como canônico:
Você enviou o URL ao GSC para fins de indexação.Ainda assim, não foi indexado porque a página possui duplicatas sem tags canônicas, e o Google considera que existe um candidato melhor para canônico.
Ações a tomar:
Decida se você deseja seguir a escolha do Google para a página canônica.Nesse caso, atribua osatributos rel=canonicalpara apontar para a página selecionada pelo Google.
Você pode usar a Ferramenta de inspeção de URL para ver qual página foi escolhida pelo Google como canônica.
Se você deseja esse URL como o canônico, analise por que o Google prefere a outra página.Ofereça mais conteúdo de alto valor na página de sua escolha.
Etapa 3. Relatório de cobertura do índice Problemas mais comuns
Agora você conhece os diferentes tipos de erros que podem ser encontrados no relatório Cobertura do índice e quais ações tomar ao encontrar cada um deles.A seguir, uma breve visão geral dos problemas que surgem com mais frequência.
Mais excluídas do que páginas válidas
Às vezes você pode ter mais páginas excluídas do que válidas.Essa circunstância geralmente é fornecida em sites grandes que sofreram uma alteração significativa de URL .Provavelmente é um site antigo com um longo histórico ou o código da web foi modificado.
Se você tiver uma diferença significativa entre o número de páginas dos dois status (Excluído e Válido), você tem um problema grave.Comece a rever as páginas excluídas, conforme explicamos acima.
Esteve Castells, Gerente de SEO do Grupo @ Adevinta
O maior problema que já vi no Relatório de Cobertura é um dos sites que gerencio, que acabou com 5 bilhões de páginas excluídas.Sim, você leu corretamente, 5 bilhões de páginas.A navegação facetada ficou completamente louca e, para cada exibição de página, estávamos criando 20 novos URLs para o Googlebot rastrear.
Esse acabou sendo o erro mais caro em termos de rastreamento de todos os tempos.Tivemos que proibir completamente por meio do robots.txt os URLs de navegação facetados, pois o Googlebot estava derrubando nosso servidor com mais de 25 milhões de acessos por dia.
Picos de erro
Quando o número de erros aumenta exponencialmente, você precisa verificar o erro e corrigi-lo o mais rápido possível.O Google detectou algum problema que prejudica gravemente o desempenho do seu site .Se você não corrigir o problema hoje, terá problemas significativos amanhã.
Erros do servidor
Certifique-se de que esses erros não sejam 503 (Serviço indisponível) .Esse código de status significa que o servidor não pode lidar com a solicitação devido a uma sobrecarga temporária ou manutenção.A princípio, o erro deve desaparecer por si só, mas se continuar ocorrendo, você deve olhar para o problema e resolvê-lo.
Se você tiver outros tipos de erros 5xx, recomendamos verificar nosso guia para ver as ações que você precisa realizar em cada caso.
erros 404
Parece que o Google detectou alguma área do seu site que está gerando 404 – páginas não encontradas.Se o volume aumentar consideravelmente, consulte nosso guia para encontrar e corrigir links quebrados.
Páginas ou sites ausentes
Se você não conseguir ver uma página ou um site no relatório, pode ser por vários motivos.
O Google ainda não descobriu.Quando uma página ou site é novo, pode levar algum tempo até que o Google o encontre.Envie um sitemap ou solicitação de rastreamento de página para acelerar o processo de indexação.Além disso, certifique-se de que a página não seja órfã e vinculada ao site.
O Google não pode acessar sua página devido a uma solicitação de login .Remova os requisitos de autorização para permitir que o GoogleBot rastreie a página.
A página tem uma tag noindex ou foi removida do índice por algum motivo .Remova a tag noindex e verifique se você está fornecendo conteúdo valioso na página.
Erros e exclusões "Enviado mas/Enviado e"
Esse problema ocorre quando há incongruência.Se você enviar uma página por meio de um mapa do site, verifique se ela é válida para indexação e se está vinculada ao site.
Seu site deve consistir principalmente de páginas valiosas que valem a pena serem interligadas.
Resumo
Aqui está um resumo de três etapas do artigo "Como encontrar e corrigir erros de cobertura de índice".
A primeira coisa que você deseja fazer ao usar o relatório de cobertura do índice é corrigir as páginas que aparecem no status de Erro .Deve ser 0 para evitar penalidades do Google.
Em segundo lugar, verifique as páginas excluídas e veja se são páginas que você não deseja indexar.Se esse não for o caso, siga nossas diretrizes para resolver os problemas.
Se você tiver tempo, recomendamos que verifique as páginas válidas com um aviso .Verifique se as diretrizes fornecidas no robots.txt estão corretas e se não há inconsistências.
Esperamos que você ache útil!Informe-nos se tiver alguma dúvida sobre o relatório de cobertura do índice.Também gostaríamos de ouvir suas dicas nos comentários abaixo.