Cos'è Googlebot? Tutto quello che devi sapere sull'indicizzazione di Google

Pubblicato: 2022-04-22

Un sito web ottimizzato è fondamentale per posizionarsi su Google e farsi trovare dal tuo pubblico di destinazione. L'ottimizzazione per i motori di ricerca (SEO) aiuta a rendere il tuo sito web più leggibile e accessibile sia ai crawler dei motori di ricerca che alle persone.

Ogni motore di ricerca ha i suoi web crawler unici, ma la maggior parte degli strateghi di ricerca si concentra solo su uno: Googlebot.

Allora, cos'è Googlebot e come puoi ottimizzare il tuo sito web per questo?

Che cos'è Googlebot?

Googlebot è il nome del web crawler di Google. "Legge" le pagine Web e le indicizza in modo che possano essere servite ai ricercatori in risposta ai loro termini di ricerca.

Googlebot ha due lavori critici:

  1. Esplora continuamente le pagine Web alla ricerca di nuovi collegamenti in modo da poter indicizzare quanto più contenuto possibile e
  2. Raccoglie nuove informazioni sulle pagine per mantenere aggiornato l'indice di Google.

Sebbene ci sia un solo nome, in realtà esistono due tipi di Googlebot: uno per dispositivi mobili (Googlebot Smartphone) e uno per desktop (Googlebot Desktop). Il primo controlla il rendering del tuo sito su smartphone e tablet, mentre il secondo si concentra sulla versione desktop del tuo sito web.

L'ottimizzazione di Googlebot consiste nel rendere più facile per Google l'accesso, la scansione e la "lettura" del tuo sito web. Mentre molte tattiche SEO influiscono sulle prestazioni di ricerca, ci sono una manciata di implementazioni indispensabili che migliorano l'"indicizzazione" del tuo sito e possono influenzare direttamente se le tue pagine sono disponibili o meno per gli utenti di Google. Oltre alle tattiche SEO on-page e off-page, la tua strategia SEO dovrebbe includere obiettivi SEO tecnici per aiutarti ad aumentare le tue possibilità di apparire nei risultati dei motori di ricerca.

Perché puntare solo su Googlebot? E i crawler degli altri motori di ricerca? Bene, dal momento che Google ha attualmente il 92% del mercato di ricerca, è probabile che la maggior parte del tuo pubblico di destinazione lo stia utilizzando. Tuttavia, i consigli che seguono dovrebbero facilitare la lettura delle tue pagine da parte di tutti i crawler.

Come funziona l'indicizzazione di Google?

Quando Google indicizza un sito, essenzialmente lo aggiunge al suo database di conoscenza e prende nota di cosa trattano le pagine, quanto sono facili da usare e altro ancora. Ma come fa Googlebot a sapere che un sito web esiste e che dovrebbe essere indicizzato?

Se hai già creato un sito web in precedenza, probabilmente hai notato che non hai ricevuto traffico organico non appena lo hai pubblicato. Questo perché devi rendere Googlebot consapevole del tuo sito Web in modo che possa eseguire la scansione delle tue pagine. Puoi farlo inviando la tua mappa del sito XML a Google Search Console (precedentemente Strumenti per i Webmaster di Google).

Googlebot esegue la scansione del tuo sito Web utilizzando le mappe dei siti e collega i database dalle scansioni precedenti. Quando trova un nuovo collegamento sul tuo sito web, lo aggiunge all'elenco delle pagine da visitare. Sia Googlebot Desktop che Googlebot Smartphone aggiorneranno l'indice se riscontrano collegamenti interrotti o altri problemi.

Questo è l'indice da cui Google estrae quando riceve una query. Quindi utilizza gli indizi contestuali della ricerca per determinare come classificare i risultati pertinenti.

Con quale frequenza Google esegue la scansione del mio sito?

Google esegue la scansione degli URL a velocità diverse. Mentre alcuni URL possono essere scansionati ogni giorno, altri possono essere scansionati solo settimanalmente o mensilmente. A meno che tu non indichi diversamente nel tuo file robots.txt o nei tuoi meta tag robots, Googlebot tenterà di raggiungere ogni pagina del tuo sito web e registrare le informazioni lungo il percorso in modo che possa comprendere meglio i tuoi contenuti e aggiornare il suo indice.

Anche se finora mi sono concentrato principalmente sul crawler di Googlebot, voglio notare che in realtà ci sono più crawler web di Google. Puoi trovare l'elenco completo dei crawler di Google qui.

Se sei curioso di sapere con quale frequenza Google esegue la scansione e l'indicizzazione del tuo sito, vai alla tua Google Search Console (GSC). Troverai il tuo rapporto sulle statistiche di scansione nelle impostazioni.

ricerca del rapporto sulle statistiche di scansione dell'SGC

5 passaggi per ottimizzare il tuo sito per Googlebot

Segui questi cinque semplici passaggi per mantenere il tuo sito accessibile agli spider dei motori di ricerca in modo che le tue pagine possano essere trovate nelle ricerche.

1. Mantieni il tuo codice semplice

Una parte importante dell'aumento della crawlability del tuo sito Web è mantenere le cose semplici. Google non eseguirà la scansione di Flash, Ajax, frame, cookie, ID di sessione o DHTML e impiega più tempo per indicizzare JavaScript perché deve renderizzarlo.

Quando crei il tuo sito web, è essenziale seguire le linee guida generali e sulla qualità di Google per evitare problemi di scansione e facilitare l'indicizzazione delle tue pagine.

2. Controlla il tuo Robots.txt

Un file robots.txt dice a Googlebot a quali URL può accedere sul tuo sito. Utilizza le direttive robot.txt per evitare di sovraccaricare il tuo sito di richieste e risparmiare più budget di scansione per le pagine che desideri indicizzare dai motori di ricerca. Senza robots.txt, Googlebot potrebbe dedicare troppo tempo all'indicizzazione di file multimediali, file di risorse o altre pagine non importanti che non desideri vengano incluse nei risultati di ricerca. Robots.txt è una direttiva a livello di protocollo. Dovresti averne solo uno sul tuo sito web a meno che tu non abbia più sottodomini. Per gestire Googlebot e crawler pagina per pagina, utilizza i meta tag robot.

3. Usa il collegamento interno

I collegamenti interni sono collegamenti ipertestuali che ti portano da una pagina all'altra dello stesso sito web. Potrebbero essere di navigazione (pensa a menu, barre laterali, intestazioni, piè di pagina) o contestuali (posizionati nel corpo di una pagina). Per consentire a Googlebot di trovare più facilmente le tue pagine e capire come si relazionano tra loro, utilizza i collegamenti interni per enfatizzare la gerarchia del tuo sito. Tutte le tue pagine dovrebbero essere collegate insieme in qualche modo. Ad esempio, la tua home page dovrebbe collegarsi alle pagine dei tuoi servizi, ai tuoi casi di studio e al tuo blog. Ognuno di questi dovrebbe quindi collegarsi a pagine pertinenti.

Scopri di più sulle migliori pratiche di collegamento interno qui.

Dai un'occhiata al tuo rapporto sui link in GSC per assicurarti che le tue pagine più importanti, come la tua home page e le pagine dei tuoi servizi, ricevano il maggior numero di link. Questo indica a Google che sono le pagine più importanti del tuo sito.

4. Crea una Sitemap XML

Per semplificare la scansione del tuo sito web da parte di Googlebot, fornisci una mappa del sito XML che organizzi tutte le tue pagine affinché il web crawler comprenda rapidamente la gerarchia del tuo sito. (Non sono sicuro di cosa sia una mappa del sito XML, guarda un esempio di mappa del sito e scopri di più qui.)

Invia la tua mappa del sito XML a Google tramite GSC durante il processo di verifica.

Se non stai utilizzando un sistema di gestione dei contenuti (CMS) che aggiorna dinamicamente la tua mappa del sito, assicurati di aggiornare manualmente la tua mappa del sito XML e inviarla di nuovo quando apporti modifiche alla gerarchia del sito. Basta fare clic su "Sitemap" nella barra laterale di sinistra. Ciò contribuirà a garantire che Google stia indicizzando le pagine appropriate del tuo sito web.

Schermata della mappa del sito dell'SGC

5. Richiedi l'indicizzazione di Google

Quando pubblichi una nuova pagina o apporti aggiornamenti significativi a contenuti esistenti, non devi aspettare che Google li trovi: comunica a Google che hai una pagina nuova o aggiornata da scansionare richiedendo l'indicizzazione.

Schermata dello strumento di ispezione URL di GSC

Accedi al tuo GSC e inserisci l'URL che desideri venga indicizzato a sinistra dell'icona della lente d'ingrandimento nella parte superiore della pagina e premi invio.

Google noterà che sta recuperando dati.

Schermata dei dati di recupero di GSC

E poi ti dirà se la tua pagina è già indicizzata.

Schermata del risultato dello strumento di ispezione URL di GSC

In caso contrario, puoi richiedere l'indicizzazione. Se la tua pagina è indicizzata e hai apportato modifiche significative ad essa, puoi anche richiedere l'indicizzazione.

Screenshot richiesto dall'indice GSC

Se aggiungi pagine al tuo sito frequentemente, come un nuovo post di blog o una pagina di prodotto, rendi questo processo parte delle tue migliori pratiche in modo da poter garantire che tutte le tue pagine siano indicizzate senza indugio.

Quattro modi per analizzare come Googlebot esegue la scansione del tuo sito

Dopo aver ottimizzato il tuo sito per semplificare la lettura da parte di un crawler dei motori di ricerca, ti consigliamo di ricontrollare che sia stato scansionato e indicizzato correttamente.

Statistiche di scansione

Le tue statistiche di scansione mostrano quante richieste di scansione totali Googlebot ha inviato al tuo server e quando e se ha riscontrato problemi.

Rapporto sulle statistiche di scansione dell'SGC

Il tuo rapporto sulle statistiche di scansione in Google Search Console mostra anche cosa ha trovato Googlebot (risposte di scansione), i tipi di file che ha incontrato, se Googlebot stava scoprendo nuove pagine o reindicizzando quelle vecchie e quali tipi di Googlebot sono stati utilizzati per eseguire la scansione del tuo sito.

Se fai clic su un elemento pubblicitario nel rapporto sulle statistiche di scansione, verranno fornite ulteriori informazioni. Ad esempio, se desideri scoprire quali pagine restituiscono un errore 404, fai clic su quella riga nella casella delle risposte di scansione per accedere a un elenco di URL che Googlebot non è riuscito a trovare e quando ha tentato l'ultima volta di eseguire la scansione di tali pagine.

Facendo clic sugli elementi pubblicitari "aggiorna" o "scoperta" in Scopo della scansione, puoi vedere quali URL ha indicizzato di recente Googlebot. Se vedi che le tue pagine più recenti non sono state indicizzate, puoi inviarle facilmente utilizzando la barra di ricerca nella parte superiore del rapporto.

Schermata dello scopo della scansione di GSC

Errori di scansione

Gli errori di scansione si verificano quando i motori di ricerca non sono in grado di accedere a una delle tue pagine. Puoi identificare due tipi di errori di scansione di Googlebot nel tuo rapporto di scansione che possono avere un impatto negativo sulla tua SEO:

  1. Errori del sito: quando si verifica un errore del sito, Googlebot potrebbe non essere in grado di eseguire la scansione del tuo sito. Gli errori del sito possono essere causati da file robot.txt mancanti o inaccessibili, errori di risoluzione DNS o problemi di connettività del server.
  2. Errori URL: con un errore URL, Googlebot non è in grado di eseguire la scansione di una determinata pagina. Puoi avere più errori URL contemporaneamente.

Moz fa un ottimo lavoro nel condividere come correggere gli errori di scansione.

URL bloccati

Se ci sono sezioni del tuo sito a cui non desideri che il crawler di Google acceda, puoi specificare tali directory in robots.txt per fornire informazioni su come i robot dovrebbero indicizzare i tuoi contenuti.

Controlla il tuo GSC per vedere il numero di URL bloccati che Google riconosce per assicurarti che il tuo robots.txt funzioni. Se il numero di URL bloccati è inferiore a quello che dovrebbe essere, dovrai modificare il file robots.txt. Al contrario, se il numero è superiore a quello che dovrebbe essere, potrebbero esserci pagine bloccate inavvertitamente dalla scansione che desideri vengano visualizzate nei risultati di ricerca.

Parametri URL

I parametri URL, noti anche come stringhe di query, consentono di aggiungere ulteriori informazioni alla fine degli URL dinamici. Se hai visitato contenuti impaginati, ad esempio risultati di ricerca di prodotti su un sito di e-commerce, probabilmente hai visto "?page=2" o qualcosa di simile alla fine dell'URL della pagina. Questo è un parametro URL. Questi parametri possono essere utilizzati anche per:

  • Filtri di contenuto
  • Traduzioni
  • Ricerche sul sito
  • Tracciamento

Se desideri utilizzare i parametri nei tuoi URL, valuta se desideri che siano accessibili e indicizzati poiché possono causare problemi significativi come contenuti duplicati, budget di scansione sprecato e problemi di tracciamento.

È possibile seguire questi passaggi per bloccare la scansione del contenuto parametrizzato.

Ulteriori informazioni sugli strumenti Google per la SEO

Google offre una varietà di strumenti per aiutarti a misurare le prestazioni del tuo sito. Approfittane per monitorare e migliorare la tua strategia SEO.

La nostra Guida agli strumenti di Google ti guiderà attraverso ciascuno degli strumenti SEO gratuiti di Google e suddividerà i concetti tecnici in capitoli attuabili e di facile comprensione ricchi di risorse aggiuntive.

Scarica una guida agli strumenti di google per la SEO

Una guida agli strumenti di Google per la SEO

Scarica questa guida per scoprire come utilizzare al meglio i potenti strumenti gratuiti forniti da Google per migliorare i processi e le prestazioni SEO.