Cómo encontrar y solucionar problemas de cobertura de índices

Publicado: 2020-10-29

¿Está experimentando problemas de indexación de Google? Este problema puede hacer que el tráfico y las tasas de conversión disminuyan.

Es necesario revisar las páginas indexadas y no indexadas de su sitio para resolver cualquier problema rápidamente . Aquí te explicamos paso a paso cómo hacerlo con Google Search Console – Informe de Cobertura de Índice .

Con el siguiente método, hemos logrado solucionar problemas de cobertura de índices en cientos de sitios web con millones o miles de millones de páginas excluidas. ¡Úselo para que ninguna de sus páginas relevantes pierda visibilidad en los resultados de búsqueda y aumente su tráfico SEO!

Tabla de contenido

Paso 1: Consulta el informe de cobertura del índice

El Informe de cobertura de Search Console le indica qué páginas ha rastreado e indexado Google y por qué las URL se encuentran en ese estado en particular. Puede usarlo para detectar cualquier error encontrado durante el proceso de rastreo e indexación .

Informe de cobertura

Para consultar el informe de cobertura del índice, vaya a Google Search Console y haga clic en Cobertura (justo debajo del Índice). Una vez que lo abra, verá un resumen con cuatro estados diferentes que clasifican sus URL:

  • Error: estas páginas no se pueden indexar y no aparecerán en los resultados de búsqueda debido a algunos errores.
  • Válido con advertencias: estas páginas pueden o no mostrarse en los resultados de búsqueda de Google.
  • Válido: estas páginas se han indexado y se pueden mostrar en los resultados de búsqueda. No necesitas hacer nada.
  • Excluidas: estas páginas no se indexaron y no aparecerán en los resultados de búsqueda. Google cree que no quieres indexarlos o considera que no vale la pena indexar el contenido.

Debe verificar todas las páginas que se encuentran en la sección Error y corregirlas lo antes posible porque podría estar perdiendo la oportunidad de atraer tráfico a su sitio.

Si tienes tiempo, mira las páginas incluidas en el estado Válido con advertencia ya que puede haber algunas páginas vitales que bajo ningún concepto deberían dejar de aparecer en los resultados de búsqueda.

Finalmente, asegúrese de que las páginas excluidas sean las que no desea que se indexen.

Paso 2: Cómo solucionar los problemas encontrados en cada uno de los Estados de Cobertura del Índice

Una vez que abra el Informe de cobertura del índice, seleccione el estado deseado ( Errores, Válido con advertencias o Excluido) y vea los detalles proporcionados en la parte inferior de la página. Encontrará una lista de tipos de errores según su gravedad y la cantidad de páginas afectadas, por lo que le recomendamos que comience a investigar los problemas desde la parte superior de la tabla.

Veamos cada uno de los errores en diferentes estados y cómo puedes solucionarlos.

Estado de error

Páginas de error en el informe de cobertura de GSC

Errores del servidor (5xx):

Estas son URL que devuelven un código de estado 5xx a Google.

Acciones a tomar:

  • Compruebe qué tipo de código de estado 500 está devolviendo . Aquí tienes una lista completa con la definición de cada código de estado de error del servidor.
  • Vuelva a cargar la URL para ver si el error persiste. Los errores 5xx son temporales y no requieren ninguna acción.
  • Verifique que su servidor no esté sobrecargado o mal configurado. En ese caso, solicite ayuda a sus desarrolladores o comuníquese con su proveedor de alojamiento.
  • Realice un análisis del archivo de registro para comprobar los registros de errores de su servidor. Esta práctica le proporciona información adicional sobre el problema.
  • Revise los cambios que ha realizado recientemente en su sitio web para ver si alguno de ellos puede ser la causa raíz. ex) complementos, nuevo código de back-end, etc.

Errores de redirección:

GoogleBot ha encontrado un error durante el proceso de redirección que no permite rastrear la página. Cualquiera de las siguientes razones a menudo causa este problema.

  • Una cadena de redirección que era demasiado larga
  • Un bucle de redirección
  • Una URL de redireccionamiento que superó la longitud máxima de la URL
  • Había una URL incorrecta o vacía en la cadena de redirección

Acciones a tomar:

  • Elimine las cadenas y bucles de redirección. Haga que cada URL realice solo una redirección. En otras palabras, una redirección desde la primera URL a la última.

URL enviada bloqueada por Robots.txt:

Estas son las URL que ha enviado a Google cargando un mapa del sitio XML en Google Search Console pero que han sido bloqueadas por el archivo Robots.txt.

Acciones a tomar:

Compruebe si desea que los motores de búsqueda indexen la página en cuestión o no.

  • Si no desea que se indexe, cargue un mapa del sitio XML eliminando la URL.
  • Por el contrario, si desea que se indexe, cambie las pautas en Robots.txt. Aquí hay una guía sobre cómo editar robots.txt.

URL enviada marcada como "noindex":

Estas páginas se enviaron a Google a través de un mapa del sitio XML, pero tienen una directiva 'noindex' en la etiqueta meta robots o en los encabezados HTTP.

Acciones a tomar:

  • Si desea que se indexe la URL, debe eliminar la directiva noindex
  • Si hay URLs que no quieres que Google indexe, elimínalas del Sitemap XML

La URL enviada parece ser un Soft 404:

La URL que ha enviado a través de un Sitemap XML con fines de indexación devuelve un 404 suave . Este error ocurre cuando el servidor devuelve un código de estado 200 a una solicitud, pero Google cree que debería mostrar un 404. En otras palabras, la página parece un error 404 para Google. En algunos casos, puede deberse a que la página no tiene contenido, parece incorrecta o de baja calidad para Google.

Acciones a tomar:

  • Investigue si estas URL deben devolver un código de estado 404 (real). En ese caso, elimínelos del mapa del sitio XML.
  • Si encuentra que no deberían devolver un error, asegúrese de proporcionar el contenido adecuado en estas páginas. Evite el contenido delgado o duplicado. Verifica que si hay redirecciones, sean correctas.

La URL enviada devuelve una solicitud no autorizada (401):

La URL enviada a Google a través de un Sitemap XML devuelve un error 401 . Este código de estado le indica que no está autorizado para acceder a la URL. Es posible que necesite un nombre de usuario y contraseña, o tal vez, existen restricciones de acceso basadas en la dirección IP.

Acciones a tomar:

  • Compruebe si las URL deben devolver un 401. En ese caso, elimínelas del mapa del sitio XML.
  • Si no desea que muestren un código 401, elimine la autenticación HTTP si la hay.

URL enviada no encontrada (404):

Ha enviado la URL con fines de indexación a Google Search Console, pero Google no puede rastrearla debido a un problema diferente a los mencionados anteriormente.

Acciones a tomar:

  • Vea si desea que la página sea indexada o no. Si la respuesta es afirmativa, arréglelo para que devuelva un código de estado 200. También puede asignar una redirección 301 a la URL, para que muestre una página adecuada. Recuerda que si optas por una redirección, debes agregar la URL asignada al mapa del sitio XML y eliminar la que da un 404.
  • Si no desea que la página se indexe, elimínela del mapa del sitio XML.

La URL enviada tiene un problema de rastreo:

Ha enviado la URL con fines de indexación a GSC, pero Google no puede rastrearla debido a un problema diferente de los mencionados anteriormente.

Acciones a tomar:

  • Utilice la herramienta de inspección de URL para obtener más información sobre la causa del problema.
  • A veces, estos errores son temporales, por lo que no requieren ninguna acción.

Válido con Estado de Advertencia

Válido con Advertencias

Estas páginas están indexadas, aunque están bloqueadas por robots.txt. Google siempre intenta seguir las directivas dadas en el archivo robots.txt. Sin embargo, a veces se comporta de manera diferente. Esto puede suceder, por ejemplo, cuando alguien se vincula a la URL dada.

Encuentra las URL en esta categoría porque Google duda si desea bloquear estas páginas en los resultados de búsqueda .

Acciones a tomar:

  • Google no recomienda usar el archivo robots.txt para evitar la indexación de la página. En cambio, si no desea ver estas páginas indexadas, use el noindex en los meta robots o un encabezado de respuesta HTTP.
  • Otra buena práctica para evitar que Google acceda a la página es implementar una Autenticación HTTP.
  • Si no desea bloquear la página, realice las correcciones necesarias en el archivo robots.txt.
  • Puede identificar qué regla está bloqueando una página usando el probador de robots.txt .

natzir turado,
FandangoAsesor SEO
Técnico SEO Freelance @ Natzir Turrado

En una gran migración a SalesForce, les pedimos a los desarrolladores que hicieran inaccesibles (ocultos) los filtros que no queríamos indexar. Cuando se lanzó el sitio web de Salesforce, todo fue un éxito. Pero cuando se lanzó una nueva versión meses después, la ofuscación se rompió accidentalmente. Esto encendió todas las alarmas ya que, en solo siete días, hubo ~17,5 millones de solicitudes de Googlebot-Mobile y ~12,5 millones de Googlebot/2.1, así como un caché de tasa de aciertos del 2%. A continuación puedes ver en Search Console cómo aumentaron las páginas indexadas pero bloqueadas por robots.


Es por eso que recomiendo monitorear continuamente los registros y revisar el Informe de cobertura de GSC (aunque detectará cualquier problema antes de revisar los registros). Y recuerda que el archivo robots.txt no impide que se indexen las páginas. Si desea que Google no rastree una URL, ¡lo mejor es hacer que la URL sea inaccesible!

Estado excluido

Páginas excluidas en el informe de cobertura de GSC

Estas páginas no están indexadas en los resultados de búsqueda y Google cree que es lo correcto. Por ejemplo, esto puede deberse a que son páginas duplicadas de páginas indexadas o porque das pautas en tu sitio web a los motores de búsqueda para indexarlas.

El informe de Cobertura le muestra 15 situaciones en las que su página puede ser excluida .

Excluido por la etiqueta 'noindex':

Le está diciendo a los motores de búsqueda que no indexen la página al dar una directiva "noindex".

Acciones a tomar:

  • Verifique si realmente no desea indexar la página. Si desea que la página se indexe, elimine la etiqueta "noindex".
  • Puede confirmar la presencia de esta directiva abriendo la página y buscando "noindex" en el cuerpo de la respuesta y el encabezado de la respuesta.

Bloqueado por la herramienta de eliminación de página:

Ha enviado una solicitud de eliminación de URL para estas páginas en GSC.

Acciones a tomar:

  • Google solo atiende esta solicitud durante 90 días, por lo que si no desea indexar la página, use directivas "noindex", implemente una autenticación HTTP o elimine la página.

Bloqueado por robots.txt:

Está bloqueando el acceso de Googlebot a estas páginas con el archivo robots.txt. Sin embargo, aún podría indexarse ​​si Google pudiera encontrar información sobre esta página sin cargarla. Quizás Google indexó la página antes de que agregara la prohibición en robots.txt

Acciones a tomar:

  • Si no desea que se indexe la página, use una directiva "noindex" y elimine el bloque robots.txt.

Bloqueado por solicitud no autorizada (401):

Estás bloqueando el acceso a Google mediante una solicitud de autorización (respuesta 401).

Acciones a tomar:

  • Si desea permitir que GoogleBot visite la página, elimine los requisitos de autorización.

Anomalía de rastreo:

La página no se indexó debido a un código de respuesta de error 4xx o 5xx.

Acciones a tomar:

  • Utilice la herramienta de inspección de URL para obtener más información sobre los problemas .

Rastreado: actualmente no indexado

Esta página fue rastreada por GoogleBot pero no indexada. Puede o no ser indexado en el futuro. No es necesario enviar esta URL para el rastreo .

Acciones a tomar:

  • Si desea que la página se indexe en los resultados de búsqueda, asegúrese de proporcionar información valiosa.

Descubierto – Actualmente no indexado:

Google encontró esta página, pero aún no ha logrado rastrearla . Esta situación suele ocurrir porque cuando GoogleBot intentó rastrear la página, el sitio estaba sobrecargado. El rastreo se ha programado para otro momento.

No se requiere ninguna acción.

Página alternativa con la etiqueta canónica adecuada:

Esta página apunta a una página canónica, por lo que Google entiende que no desea indexarla.

Acciones a tomar:

  • Si desea indexar esta página, deberá cambiar los atributos rel=canonical para darle a Google las pautas deseadas.

Duplicar sin canónico seleccionado por el usuario:

La página tiene duplicados, pero ninguno de ellos está marcado como canónico. Google considera que éste no es el canónico.

Acciones a tomar:

  • Use etiquetas canónicas para dejar claro a Google qué páginas son las canónicas (deben estar indexadas) y cuáles son las duplicadas. Puede utilizar la herramienta de inspección de URL para ver qué páginas han sido seleccionadas como canónicas por Google.

Duplicado, Google eligió un canon diferente al usuario:

Ha marcado esta página como canónica, pero Google, en cambio, ha indexado otra página que cree que funciona mejor como canónica.

Acciones a tomar:

  • Puedes seguir la elección de Google. En ese caso, marque la página indexada como canónica y esta como un duplicado de la URL canónica.
  • Si no es así, averigüe por qué Google prefiere otra página a la que ha elegido y realice los cambios necesarios . Utilice la herramienta de inspección de URL para descubrir la "página canónica" seleccionada por Google.

Ferran Gavin,
Responsable SEO @ Softonic

Uno de los "fallos" más curiosos que hemos experimentado con el Informe de cobertura del índice fue descubrir que Google no estaba procesando nuestras canónicas correctamente (¡y lo habíamos estado haciendo mal durante años!). Google estaba indicando en la consola de búsqueda que el canónico especificado no era válido cuando la página estaba perfectamente formateada. Al final, resultó ser un error del propio Google, confirmado por Gary Ilyes.

No encontrado (404):

La página devuelve un código de estado de error 404 cuando Google realiza una solicitud . GoogleBot no encontró la página a través de un mapa del sitio, sino probablemente a través de otro sitio web vinculado a la URL. También es posible que esta URL existiera en el pasado y se haya eliminado.

Acciones a tomar:

  • Si la respuesta 404 es intencional, puede dejarla como está. No dañará su rendimiento de SEO. Sin embargo, si la página se ha movido, implemente una redirección 301.

Página eliminada debido a una queja legal:

Esta página fue eliminada del índice debido a una denuncia legal .

Acciones a tomar:

  • Investigue qué normas legales ha podido infringir y tome las medidas necesarias para corregirlo.

Página con la redirección:

Esta URL es una redirección y, por lo tanto, no se indexó.

Acciones a tomar:

  • Si no se suponía que la URL redirigiría, elimine la implementación de redirección.

404 suave:

La página devuelve lo que Google cree que es una respuesta suave 404. La página no está indexada porque, aunque da un código de estado 200, Google cree que debería devolver un 404 .

Acciones a tomar:

  • Revisa si debes asignar un 404 a la página, como sugiere Google.
  • Agregue contenido valioso a la página para que Google sepa que no es un Soft 404.

URL enviada duplicada no seleccionada como canónica:

Ha enviado la URL a GSC para fines de indexación. Aún así, no se ha indexado porque la página tiene duplicados sin etiquetas canónicas, y Google considera que hay un mejor candidato para canónica.

Acciones a tomar:

  • Decide si quieres seguir la elección de Google para la página canónica. En ese caso, asigne los atributos rel=canonical para apuntar a la página seleccionada por Google.
  • Puede usar la herramienta de inspección de URL para ver qué página ha sido elegida por Google como canónica.
  • Si quieres esta URL como la canónica, analiza por qué Google prefiere la otra página. Ofrece más contenido de alto valor en la página que elijas .

Paso 3. Informe de cobertura de índice Problemas más comunes

Ahora conoce los diferentes tipos de errores que puede encontrar en el informe de Cobertura del Índice y qué acciones tomar cuando encuentre cada uno de ellos. El siguiente es un breve resumen de los problemas que surgen con mayor frecuencia.

Más páginas excluidas que válidas

A veces puedes tener más páginas excluidas que válidas. Esta circunstancia suele darse en sitios grandes que han experimentado un cambio significativo de URL . Probablemente sea un sitio antiguo con una larga historia, o el código web haya sido modificado.

Si tiene una diferencia significativa entre el número de páginas de los dos estados (Excluido y Válido), tiene un problema grave. Comience a revisar las páginas excluidas, como explicamos anteriormente.

Esteve Castells

Esteve Castells,
Responsable SEO Grupo @ Adevinta

El mayor problema que he visto en el Informe de cobertura es uno de los sitios web que administro, que terminó teniendo 5 000 millones de páginas excluidas. Sí, lo leíste bien, 5 mil millones de páginas. La navegación por facetas se volvió completamente loca, y por cada página vista, creamos 20 nuevas URL para que Googlebot las rastree.

Ese terminó siendo el error más costoso en términos de rastreo. Tuvimos que rechazar por completo a través de robots.txt las URL de navegación por facetas, ya que Googlebot estaba eliminando nuestro servidor con más de 25 millones de visitas al día.

Picos de error

Cuando la cantidad de errores aumenta exponencialmente, debe verificar el error y corregirlo lo antes posible. Google ha detectado algún problema que perjudica gravemente el rendimiento de tu web . Si no corrige el problema hoy, tendrá problemas importantes mañana.

errores del servidor

Asegúrese de que estos errores no sean 503 (Servicio no disponible) . Este código de estado significa que el servidor no puede manejar la solicitud debido a una sobrecarga temporal o mantenimiento. Al principio, el error debería desaparecer por sí solo, pero si sigue ocurriendo, debes mirar el problema y solucionarlo.

Si tiene otros tipos de errores 5xx, le recomendamos consultar nuestra guía para ver las acciones que debe tomar en cada caso.

404 errores

Parece que Google ha detectado alguna área de su sitio web que está generando 404 – páginas no encontradas. Si el volumen crece considerablemente, revisa nuestra guía para encontrar y reparar enlaces rotos.

Faltan páginas o sitios

Si no puede ver una página o un sitio en el informe, puede deberse a varios motivos.

  1. Google aún no lo ha descubierto. Cuando una página o un sitio es nuevo, puede pasar algún tiempo antes de que Google lo encuentre. Envíe un mapa del sitio o una solicitud de rastreo de página para acelerar el proceso de indexación. Además, asegúrese de que la página no sea huérfana y esté enlazada desde el sitio web.
  2. Google no puede acceder a su página debido a una solicitud de inicio de sesión . Elimina los requisitos de autorización para permitir que GoogleBot rastree la página.
  3. La página tiene una etiqueta noindex o se eliminó del índice por alguna razón . Elimine la etiqueta noindex y asegúrese de proporcionar contenido valioso en la página.

Errores y exclusiones de "Enviado pero/Enviado y"

Este problema ocurre cuando hay incongruencia. Si envía una página a través de un mapa del sitio, debe asegurarse de que sea válido para la indexación y que esté vinculado al sitio.

Su sitio debe consistir principalmente en páginas valiosas que vale la pena interconectar.

Resumen

Aquí hay un resumen de tres pasos del artículo "Cómo encontrar y corregir errores de cobertura de índice".

  • Lo primero que desea hacer al utilizar el informe de cobertura de índice es corregir las páginas que aparecen en el estado de error . Debe ser 0 para evitar penalizaciones de Google.
  • En segundo lugar, verifique las páginas excluidas y vea si se trata de páginas que no desea indexar. Si este no es el caso, siga nuestras pautas para resolver los problemas.
  • Si tiene tiempo, le recomendamos encarecidamente que compruebe las páginas válidas con una advertencia . Asegúrese de que las pautas que proporciona en el archivo robots.txt sean correctas y que no haya inconsistencias.

¡Esperamos que lo encuentre útil! Háganos saber si tiene alguna pregunta sobre el informe de cobertura del índice. También nos encantaría escuchar sus consejos en los comentarios a continuación.