Come trovare e risolvere i problemi di copertura dell'indice

Pubblicato: 2020-10-29

Stai riscontrando problemi di indicizzazione di Google? Questo problema può portare a un calo del traffico e dei tassi di conversione.

È necessario controllare le pagine indicizzate e non indicizzate del tuo sito per risolvere rapidamente qualsiasi problema . Qui spieghiamo passo dopo passo come farlo con Google Search Console – Rapporto sulla copertura dell'indice .

Con il metodo seguente, siamo riusciti a risolvere i problemi di copertura dell'indice su centinaia di siti Web con milioni o miliardi di pagine escluse. Usalo in modo che nessuna delle tue pagine rilevanti perda visibilità nei risultati di ricerca e aumenti il ​​tuo traffico SEO!

Sommario

Passaggio 1: controlla il rapporto sulla copertura dell'indice

Il rapporto sulla copertura di Search Console ti dice quali pagine sono state scansionate e indicizzate da Google e perché gli URL si trovano in quel particolare stato. Puoi usarlo per rilevare eventuali errori rilevati durante il processo di scansione e indicizzazione .

Rapporto di copertura

Per controllare il rapporto sulla copertura dell'indice, vai su Google Search Console e fai clic su Copertura (appena sotto Indice). Una volta aperto, vedrai un riepilogo con quattro diversi stati che classificano i tuoi URL:

  • Errore: queste pagine non possono essere indicizzate e non verranno visualizzate nei risultati di ricerca a causa di alcuni errori.
  • Valido con avvisi: queste pagine possono essere mostrate o meno nei risultati di ricerca di Google.
  • Valido: queste pagine sono state indicizzate e possono essere visualizzate nei risultati di ricerca. Non devi fare niente.
  • Escluso: queste pagine non sono state indicizzate e non verranno visualizzate nei risultati di ricerca. Google ritiene che tu non voglia indicizzarli o considera che il contenuto non valga la pena indicizzarlo.

Devi controllare tutte le pagine trovate nella sezione Errori e correggerle al più presto perché potresti perdere l'opportunità di indirizzare il traffico verso il tuo sito.

Se hai tempo, guarda le pagine incluse nello stato Valido con avviso in quanto potrebbero esserci alcune pagine vitali che in nessun caso dovrebbero non apparire nei risultati di ricerca.

Infine, assicurati che le pagine escluse siano quelle che non desideri vengano indicizzate.

Passaggio 2: come risolvere i problemi riscontrati in ciascuno degli stati di copertura dell'indice

Una volta aperto il Rapporto sulla copertura dell'indice, seleziona lo stato desiderato ( Errori, Valido con avvisi o Escluso) e guarda i dettagli forniti in fondo alla pagina. Troverai un elenco di tipi di errore in base alla gravità e al numero di pagine interessate, quindi ti consigliamo di iniziare a esaminare i problemi dall'inizio della tabella.

Vediamo ciascuno degli errori in diversi stati e come risolverli.

Stato di errore

Pagine di errore nel rapporto sulla copertura dell'SGC

Errori del server (5xx):

Questi sono gli URL che restituiscono un codice di stato 5xx a Google.

Azioni da intraprendere:

  • Controlla che tipo di codice di stato 500 sta tornando . Qui hai un elenco completo con la definizione per ogni codice di stato di errore del server.
  • Ricarica l'URL per vedere se l'errore persiste. Gli errori 5xx sono temporanei e non richiedono alcuna azione.
  • Verifica che il tuo server non sia sovraccarico o configurato in modo errato. In tal caso, chiedi aiuto ai tuoi sviluppatori o contatta il tuo provider di hosting.
  • Eseguire un'analisi del file di registro per controllare i registri degli errori per il server. Questa pratica fornisce ulteriori informazioni sul problema.
  • Esamina le modifiche apportate di recente al tuo sito web per vedere se qualcuna di esse potrebbe essere la causa principale. es) plugin, nuovo codice di backend, ecc.

Errori di reindirizzamento:

GoogleBot ha riscontrato un errore durante il processo di reindirizzamento che non consente di eseguire la scansione della pagina. Uno dei seguenti motivi causa spesso questo problema.

  • Una catena di reindirizzamento troppo lunga
  • Un ciclo di reindirizzamento
  • Un URL di reindirizzamento che ha superato la lunghezza massima dell'URL
  • C'era un URL errato o vuoto nella catena di reindirizzamento

Azioni da intraprendere:

  • Elimina le catene e i loop di reindirizzamento. Fai in modo che ogni URL esegua un solo reindirizzamento. In altre parole, un reindirizzamento dal primo URL all'ultimo.

URL inviato bloccato da Robots.txt:

Questi sono gli URL che hai inviato a Google caricando una Sitemap XML su Google Search Console ma sono stati bloccati dal file Robots.txt.

Azioni da intraprendere:

Verifica se desideri che i motori di ricerca indicizzino o meno la pagina in questione.

  • Se non vuoi che venga indicizzato, carica una Sitemap XML rimuovendo l'URL.
  • Al contrario, se vuoi che venga indicizzato, cambia le linee guida nel Robots.txt. Ecco una guida su come modificare robots.txt.

URL inviato contrassegnato come "noindex":

Queste pagine sono state inviate a Google tramite una mappa del sito XML, ma hanno una direttiva "noindex" nel tag meta robots o nelle intestazioni HTTP.

Azioni da intraprendere:

  • Se vuoi che l'URL sia indicizzato, dovresti rimuovere la direttiva noindex
  • Se ci sono URL che non desideri vengano indicizzati da Google, eliminali dalla Sitemap XML

L'URL inviato sembra essere un Soft 404:

L'URL che hai inviato tramite una Sitemap XML per scopi di indicizzazione restituisce un soft 404 . Questo errore si verifica quando il server restituisce un codice di stato 200 a una richiesta, ma Google ritiene che dovrebbe visualizzare un 404. In altre parole, la pagina sembra un errore 404 a Google. In alcuni casi, potrebbe essere perché la pagina non ha contenuto, sembra sbagliata o di bassa qualità per Google.

Azioni da intraprendere:

  • Indagare se questi URL devono restituire un codice di stato 404 (reale). In tal caso, rimuoverli dalla mappa del sito XML.
  • Se ritieni che non debbano restituire un errore, assicurati di fornire contenuti appropriati su queste pagine. Evita contenuti sottili o duplicati. Verifica che se ci sono reindirizzamenti, siano corretti.

L'URL inviato restituisce una richiesta non autorizzata (401):

L'URL inviato a Google tramite una Sitemap XML restituisce un errore 401 . Questo codice di stato indica che non sei autorizzato ad accedere all'URL. Potrebbe essere necessario un nome utente e una password, o forse ci sono restrizioni di accesso basate sull'indirizzo IP.

Azioni da intraprendere:

  • Controlla se gli URL devono restituire un 401. In tal caso, eliminali dalla mappa del sito XML.
  • Se non vuoi che visualizzino un codice 401, rimuovi l'autenticazione HTTP, se presente.

URL inviato non trovato (404):

Hai inviato l'URL a scopo di indicizzazione a Google Search Console, ma Google non può eseguirne la scansione a causa di un problema diverso da quelli sopra menzionati.

Azioni da intraprendere:

  • Verifica se desideri che la pagina venga indicizzata o meno. Se la risposta è sì, correggila, quindi restituisce un codice di stato 200. Puoi anche assegnare un reindirizzamento 301 all'URL, in modo che visualizzi una pagina appropriata. Ricorda che se scegli un reindirizzamento, devi aggiungere l'URL assegnato alla mappa del sito XML e rimuovere quello che fornisce un 404.
  • Se non vuoi che la pagina venga indicizzata, rimuovila dalla Sitemap XML.

L'URL inviato presenta un problema di scansione:

Hai inviato l'URL a fini di indicizzazione a GSC ma non può essere scansionato da Google a causa di un problema diverso da quelli sopra menzionati.

Azioni da intraprendere:

  • Utilizza lo strumento Controllo URL per ottenere maggiori informazioni sulla causa del problema.
  • A volte questi errori sono temporanei, quindi non richiedono alcuna azione.

Valido con stato di avviso

Valido con Avvertenze

Queste pagine sono indicizzate, sebbene siano bloccate da robots.txt. Google cerca sempre di seguire le direttive fornite nel file robots.txt. Tuttavia, a volte si comporta in modo diverso. Ciò può accadere, ad esempio, quando qualcuno si collega all'URL specificato.

Trovi gli URL in questa categoria perché Google dubita che tu voglia bloccare queste pagine nei risultati di ricerca .

Azioni da intraprendere:

  • Google sconsiglia di utilizzare il file robots.txt per evitare l'indicizzazione delle pagine. Invece, se non vuoi vedere queste pagine indicizzate, usa il noindex nei meta robot o un'intestazione di risposta HTTP.
  • Un'altra buona pratica per impedire a Google di accedere alla pagina è implementare un'autenticazione HTTP.
  • Se non vuoi bloccare la pagina, apporta le correzioni necessarie nel file robots.txt.
  • Puoi identificare quale regola sta bloccando una pagina utilizzando il tester robots.txt .

Natzir Turrado,
FandangoSEO Advisor
Professionista SEO tecnico @ Natzir Turrado

In una grande migrazione a SalesForce, abbiamo chiesto agli sviluppatori di rendere inaccessibili (offuscati) i filtri che non volevamo indicizzare. Quando il sito Web di Salesforce è stato pubblicato, tutto è stato un successo. Ma quando una nuova versione è stata rilasciata mesi dopo, l'offuscamento è stato accidentalmente interrotto. Ciò ha fatto scattare tutti gli allarmi poiché, in soli sette giorni, ci sono state circa 17,5 milioni di richieste Googlebot-Mobile e circa 12,5 milioni di Googlebot/2.1, oltre a una cache di hit rate del 2%. Di seguito puoi vedere in Search Console come sono aumentate le pagine indicizzate ma bloccate dai robot.


Questo è il motivo per cui consiglio di monitorare continuamente i registri e di rivedere il rapporto di copertura GSC (sebbene rileverai qualsiasi problema prima controllando i registri). E ricorda che il robots.txt non impedisce l'indicizzazione delle pagine. Se vuoi che Google non esegua la scansione di un URL, è meglio rendere l'URL inaccessibile!

Stato escluso

Pagine escluse nel rapporto sulla copertura dell'SGC

Queste pagine non sono indicizzate nei risultati di ricerca e Google ritiene che sia la cosa giusta. Ad esempio, ciò potrebbe essere dovuto al fatto che sono pagine duplicate di pagine indicizzate o perché fornisci linee guida sul tuo sito Web ai motori di ricerca per indicizzarle.

Il rapporto Copertura mostra 15 situazioni in cui la tua pagina può essere esclusa .

Escluso dal tag 'noindex':

Stai dicendo ai motori di ricerca di non indicizzare la pagina fornendo una direttiva "noindex".

Azioni da intraprendere:

  • Verifica se effettivamente non vuoi indicizzare la pagina. Se vuoi che la pagina venga indicizzata, rimuovi il tag "noindex".
  • Puoi confermare la presenza di questa direttiva aprendo la pagina e cercando "noindex" nel corpo della risposta e nell'intestazione della risposta.

Bloccato dallo strumento di rimozione delle pagine:

Hai inviato una richiesta di rimozione di URL per queste pagine su GSC.

Azioni da intraprendere:

  • Google risponde a questa richiesta solo per 90 giorni, quindi se non desideri indicizzare la pagina, utilizza le direttive "noindex", implementa un'autenticazione HTTP o rimuovi la pagina.

Bloccato da robots.txt:

Stai bloccando l'accesso a Googlebot a queste pagine con il file robots.txt. Tuttavia, potrebbe ancora essere indicizzato se Google potesse trovare informazioni su questa pagina senza caricarla. Forse Google ha indicizzato la pagina prima che tu aggiungessi il disallow in robots.txt

Azioni da intraprendere:

  • Se non vuoi che la pagina venga indicizzata, usa una direttiva "noindex" e rimuovi il blocco robots.txt.

Bloccato per richiesta non autorizzata (401):

Stai bloccando l'accesso a Google utilizzando una richiesta di autorizzazione (risposta 401).

Azioni da intraprendere:

  • Se desideri consentire a GoogleBot di visitare la pagina, rimuovi i requisiti di autorizzazione.

Anomalia di scansione:

La pagina non è stata indicizzata a causa di un codice di risposta di errore 4xx o 5xx.

Azioni da intraprendere:

  • Utilizza lo strumento Controllo URL per ottenere maggiori informazioni sui problemi .

Scansionato: attualmente non indicizzato

Questa pagina è stata scansionata da GoogleBot ma non indicizzata. Può essere indicizzato o meno in futuro. Non è necessario inviare questo URL per la scansione .

Azioni da intraprendere:

  • Se desideri che la pagina venga indicizzata nei risultati di ricerca, assicurati di fornire informazioni preziose.

Scoperto – Attualmente non indicizzato:

Google ha trovato questa pagina, ma non è ancora riuscita a scansionarla . Questa situazione di solito si verifica perché quando GoogleBot ha tentato di eseguire la scansione della pagina, il sito è stato sovraccaricato. La scansione è stata programmata per un'altra volta.

Non è richiesta alcuna azione.

Pagina alternativa con il tag canonico corretto:

Questa pagina punta a una pagina canonica, quindi Google capisce che non vuoi indicizzarla.

Azioni da intraprendere:

  • Se desideri indicizzare questa pagina, dovrai modificare gli attributi rel=canonical per fornire a Google le linee guida desiderate.

Duplica senza canonico selezionato dall'utente:

La pagina ha duplicati, ma nessuno di essi è contrassegnato come canonico. Google ritiene che questo non sia quello canonico.

Azioni da intraprendere:

  • Usa i tag canonici per chiarire a Google quali pagine sono quelle canoniche (devono essere indicizzate) e quali sono i duplicati. Puoi utilizzare lo strumento Controllo URL per vedere quali pagine sono state selezionate come canoniche da Google.

Duplicato, Google ha scelto canonico diverso dall'utente:

Hai contrassegnato questa pagina come canonica, ma Google, invece, ha indicizzato un'altra pagina che pensa funzioni meglio come canonica.

Azioni da intraprendere:

  • Puoi seguire la scelta di Google. In tal caso, contrassegna la pagina indicizzata come canonica e questa come duplicato dell'URL canonico.
  • In caso contrario, scopri perché Google preferisce un'altra pagina a quella che hai scelto e apporta le modifiche necessarie . Utilizza lo Strumento di ispezione degli URL per scoprire la "pagina canonica" selezionata da Google.

Ferran Gavin,
Responsabile SEO @ Softonic

Uno dei "fallimenti" più curiosi che abbiamo riscontrato con il rapporto sulla copertura dell'indice è stato scoprire che Google non stava elaborando correttamente i nostri canonici (e per anni lo sbagliavamo!). Google stava indicando su Search Console che il canonico specificato non era valido quando la pagina era perfettamente formattata. Alla fine, si è rivelato essere un bug dello stesso Google, confermato da Gary Ilyes.

Non trovato (404):

La pagina restituisce un codice di stato di errore 404 quando Google effettua una richiesta . GoogleBot non ha trovato la pagina tramite una mappa del sito, ma probabilmente tramite un altro sito Web collegato all'URL. È anche possibile che questo URL esistesse in passato ed è stato rimosso.

Azioni da intraprendere:

  • Se la risposta 404 è intenzionale, puoi lasciarla così com'è. Non danneggerà le tue prestazioni SEO. Tuttavia, se la pagina è stata spostata, implementa un reindirizzamento 301.

Pagina rimossa a causa di un reclamo legale:

Questa pagina è stata eliminata dall'indice a causa di un reclamo legale .

Azioni da intraprendere:

  • Indagare quali norme legali potresti aver violato e intraprendere le azioni necessarie per correggerlo.

Pagina con il reindirizzamento:

Questo URL è un reindirizzamento e pertanto non è stato indicizzato.

Azioni da intraprendere:

  • Se l'URL non doveva reindirizzare, rimuovere l'implementazione di reindirizzamento.

Morbido 404:

La pagina restituisce ciò che Google ritiene sia una morbida risposta 404. La pagina non è indicizzata perché, sebbene fornisca un codice di stato 200, Google pensa che dovrebbe restituire un 404 .

Azioni da intraprendere:

  • Verifica se dovresti assegnare un 404 alla pagina, come suggerisce Google.
  • Aggiungi contenuti di valore alla pagina per far sapere a Google che non è un Soft 404.

URL inviato duplicato non selezionato come canonico:

Hai inviato l'URL a GSC a fini di indicizzazione. Tuttavia, non è stato indicizzato perché la pagina ha duplicati senza tag canonici e Google ritiene che esista un candidato migliore per canonical.

Azioni da intraprendere:

  • Decidi se vuoi seguire la scelta di Google per la pagina canonica. In tal caso, assegna gli attributi rel=canonical per puntare alla pagina selezionata da Google.
  • Puoi utilizzare lo strumento di controllo degli URL per vedere quale pagina è stata scelta da Google come canonica.
  • Se vuoi che questo URL sia quello canonico, analizza perché Google preferisce l'altra pagina. Offri più contenuti di alto valore sulla pagina di tua scelta .

Passaggio 3. Rapporto sulla copertura dell'indice Problemi più comuni

Ora conosci i diversi tipi di errori che puoi trovare nel rapporto sulla copertura dell'indice e quali azioni intraprendere quando li incontri. Quella che segue è una breve panoramica dei problemi che si presentano più frequentemente.

Più escluse delle pagine valide

A volte puoi avere più pagine escluse di quelle valide. Questa circostanza di solito si verifica su siti di grandi dimensioni che hanno subito una modifica significativa dell'URL . Probabilmente è un vecchio sito con una lunga storia, oppure il codice web è stato modificato.

Se hai una differenza significativa tra il numero di pagine dei due stati (Escluso e Valido), hai un problema grave. Inizia a rivedere le pagine escluse, come spieghiamo sopra.

Esteve Castells

Esteve Castells,
Responsabile SEO di gruppo @ Adevinta

Il problema più grande che abbia mai visto nel Rapporto di copertura è uno dei siti Web che gestisco, che ha finito per avere 5 miliardi di pagine escluse. Sì, avete letto bene, 5 miliardi di pagine. La navigazione a faccette è diventata completamente pazza e per ogni visualizzazione di pagina stavamo creando 20 nuovi URL per la scansione di Googlebot.

Quello finì per essere l'errore più costoso in termini di scansione, mai visto. Abbiamo dovuto disattivare completamente tramite il robots.txt gli URL di navigazione sfaccettati poiché Googlebot stava bloccando il nostro server con oltre 25 milioni di visite al giorno.

Picchi di errore

Quando il numero di errori aumenta in modo esponenziale, è necessario controllare l'errore e risolverlo il prima possibile. Google ha rilevato un problema che danneggia gravemente le prestazioni del tuo sito web . Se non risolvi il problema oggi, avrai problemi significativi domani.

Errori del server

Assicurati che questi errori non siano 503 (servizio non disponibile) . Questo codice di stato indica che il server non può gestire la richiesta a causa di un sovraccarico temporaneo o di una manutenzione. All'inizio, l'errore dovrebbe scomparire da solo, ma se continua a verificarsi, è necessario esaminare il problema e risolverlo.

Se hai altri tipi di errori 5xx, ti consigliamo di consultare la nostra guida per vedere le azioni che devi intraprendere in ciascun caso.

404 errori

Sembra che Google abbia rilevato un'area del tuo sito Web che sta generando 404 pagine non trovate. Se il volume aumenta considerevolmente, consulta la nostra guida per trovare e correggere i collegamenti interrotti.

Pagine o siti mancanti

Se non riesci a vedere una pagina o un sito nel rapporto, può essere per diversi motivi.

  1. Google non l'ha ancora scoperto. Quando una pagina o un sito è nuovo, potrebbe volerci del tempo prima che Google lo trovi. Invia una mappa del sito o una richiesta di scansione della pagina per accelerare il processo di indicizzazione. Inoltre, assicurati che la pagina non sia orfana e collegata dal sito Web.
  2. Google non può accedere alla tua pagina a causa di una richiesta di accesso . Rimuovi i requisiti di autorizzazione per consentire a GoogleBot di eseguire la scansione della pagina.
  3. La pagina ha un tag noindex o è stata eliminata dall'indice per qualche motivo . Rimuovi il tag noindex e assicurati di fornire contenuti di valore sulla pagina.

Errori ed esclusioni “Inviato ma/Inviato e”.

Questo problema si verifica quando c'è incongruenza. Se invii una pagina tramite una mappa del sito, devi assicurarti che sia valida per l'indicizzazione e che sia collegata al sito.

Il tuo sito dovrebbe consistere principalmente di pagine preziose che vale la pena collegare tra loro.

Sommario

Ecco un riepilogo in tre passaggi dell'articolo "Come trovare e correggere gli errori di copertura dell'indice".

  • La prima cosa da fare quando si utilizza il rapporto sulla copertura dell'indice è correggere le pagine visualizzate nello stato di errore . Deve essere 0 per evitare le sanzioni di Google.
  • In secondo luogo, controlla le pagine escluse e verifica se si tratta di pagine che non desideri indicizzare. In caso contrario, segui le nostre linee guida per risolvere i problemi.
  • Se hai tempo, ti consigliamo vivamente di controllare le pagine valide con un avviso . Assicurati che le linee guida che fornisci nel robots.txt siano corrette e che non ci siano incongruenze.

Ci auguriamo che lo trovi utile! Facci sapere se hai domande sul rapporto sulla copertura dell'indice. Ci piacerebbe anche sentire tutti i tuoi suggerimenti nei commenti qui sotto.