Qu'est-ce que Googlebot ? Tout ce que vous devez savoir sur l'indexation Google
Publié: 2022-04-22Un site Web optimisé est crucial pour se classer sur Google et être trouvé par votre public cible. L'optimisation des moteurs de recherche (SEO) contribue à rendre votre site Web plus lisible et accessible aux robots des moteurs de recherche et aux utilisateurs.
Chaque moteur de recherche possède ses propres robots d'exploration Web, mais la plupart des stratèges de recherche se concentrent sur un seul : Googlebot.
Alors, qu'est-ce que Googlebot et comment pouvez-vous optimiser votre site Web pour cela ?
Qu'est-ce que Googlebot ?
Googlebot est le nom du robot d'exploration de Google. Il « lit » les pages Web et les indexe afin qu'elles puissent être servies aux internautes en réponse à leurs termes de recherche.
Googlebot a deux tâches essentielles :
- Il explore en permanence les pages Web à la recherche de nouveaux liens afin de pouvoir indexer autant de contenu que possible, et
- Il rassemble de nouvelles informations sur les pages pour maintenir l'index de Google à jour.
Bien qu'il n'y ait qu'un seul nom, il existe en fait deux types de Googlebots : un pour mobile (Googlebot Smartphone) et un pour ordinateur de bureau (Googlebot Desktop). Le premier vérifie la qualité du rendu de votre site sur les smartphones et les tablettes, tandis que le second se concentre sur la version de bureau de votre site Web.
L'optimisation de Googlebot consiste à faciliter l'accès, l'exploration et la « lecture » de votre site Web par Google. Bien que de nombreuses tactiques de référencement aient un impact sur les performances de recherche, il existe une poignée d'implémentations indispensables qui améliorent «l'indexabilité» de votre site et peuvent directement influencer la disponibilité ou non de vos pages pour les utilisateurs de Google. En plus des tactiques de référencement sur la page et hors page, votre stratégie de référencement doit inclure des objectifs techniques de référencement pour vous aider à augmenter vos chances d'apparaître dans les résultats des moteurs de recherche.
Pourquoi se concentrer uniquement sur Googlebot ? Qu'en est-il des robots des autres moteurs de recherche ? Eh bien, puisque Google détient actuellement 92 % du marché de la recherche, la plupart de votre public cible l'utilise probablement. Cependant, les recommandations qui suivent devraient faciliter la lecture de vos pages par tous les crawlers.
Comment fonctionne l'indexation Google ?
Lorsque Google indexe un site, il l'ajoute essentiellement à sa base de connaissances et note le contenu des pages, leur convivialité, etc. Mais comment Googlebot sait-il même qu'un site Web existe et qu'il doit être indexé ?
Si vous avez déjà créé un site Web, vous avez probablement remarqué que vous n'obteniez aucun trafic organique dès que vous l'aviez publié. En effet, vous devez informer Googlebot de votre site Web afin qu'il puisse explorer vos pages. Vous pouvez le faire en soumettant votre sitemap XML à Google Search Console (anciennement Google Webmaster Tools).
Googlebot explore votre site Web à l'aide de plans de site et de bases de données de liens provenant d'explorations précédentes. Lorsqu'il trouve un nouveau lien sur votre site, il l'ajoute à la liste des pages à visiter. Googlebot Desktop et Googlebot Smartphone mettront à jour l'index s'ils rencontrent des liens rompus ou d'autres problèmes.
Il s'agit de l'index que Google extrait lorsqu'il reçoit une requête. Il utilise ensuite des indices contextuels de la recherche pour déterminer comment classer les résultats pertinents.
À quelle fréquence Google explore-t-il mon site ?
Google explore les URL à des rythmes différents. Alors que certaines URL peuvent être explorées tous les jours, d'autres ne peuvent être explorées qu'une fois par semaine ou par mois. Sauf indication contraire de votre part dans votre fichier robots.txt ou dans vos balises meta robots, Googlebot tentera de parcourir chaque page de votre site Web et d'enregistrer les informations en cours de route afin de mieux comprendre votre contenu et de mettre à jour son index.
Bien que je me sois concentré principalement sur le robot d'exploration Googlebot jusqu'à présent, je tiens à noter qu'il existe en fait plusieurs robots d'exploration Google. Vous pouvez trouver la liste complète des robots d'exploration Google ici.
Si vous êtes curieux de savoir à quelle fréquence Google explore et indexe votre site, accédez à votre Google Search Console (GSC). Vous trouverez votre rapport Crawl Stats dans les paramètres.

5 étapes pour optimiser votre site pour Googlebot
Suivez ces cinq étapes simples pour garder votre site accessible aux robots des moteurs de recherche afin que vos pages puissent être trouvées dans la recherche.
1. Gardez votre code simple
Une grande partie de l'augmentation de la capacité d'exploration de votre site Web consiste à garder les choses simples. Google n'explorera pas Flash, Ajax, les cadres, les cookies, les identifiants de session ou DHTML, et il faut plus de temps pour indexer JavaScript car il doit le restituer.
Lors de la création de votre site Web, il est essentiel de suivre les directives générales et de qualité de Google pour éviter les problèmes de crawling et faciliter l'indexation de vos pages.
2. Vérifiez votre fichier Robots.txt
Un fichier robots.txt indique à Googlebot les URL auxquelles il peut accéder sur votre site. Utilisez les directives robot.txt pour éviter de surcharger votre site de requêtes et économiser davantage de budget de crawl pour les pages que vous souhaitez indexer par les moteurs de recherche. Sans robots.txt, Googlebot risque de passer trop de temps à indexer des médias, des fichiers de ressources ou d'autres pages sans importance que vous ne souhaitez pas inclure dans les résultats de recherche. Robots.txt est une directive à l'échelle du protocole. Vous ne devriez en avoir qu'un seul sur votre site Web, sauf si vous avez plusieurs sous-domaines. Pour gérer Googlebot et les robots d'exploration page par page, utilisez des balises méta robot.
3. Utilisez les liens internes
Les liens internes sont des liens hypertextes qui vous amènent d'une page à une autre sur le même site Web. Ils peuvent être de navigation (pensez aux menus, aux barres latérales, aux en-têtes, aux pieds de page) ou ils peuvent être contextuels (placés dans le corps d'une page). Pour permettre à Googlebot de trouver plus facilement vos pages et de comprendre comment elles sont liées les unes aux autres, utilisez des liens internes pour souligner la hiérarchie de votre site. Toutes vos pages doivent être liées entre elles d'une manière ou d'une autre. Par exemple, votre page d'accueil doit renvoyer vers vos pages de services, vos études de cas et votre blog. Chacun de ceux-ci devrait ensuite être lié aux pages pertinentes.
En savoir plus sur les meilleures pratiques en matière de liens internes ici.
Consultez votre rapport sur les liens dans GSC pour vous assurer que vos pages les plus importantes, comme votre page d'accueil et vos pages de services, reçoivent le plus de liens. Cela indique à Google qu'il s'agit des pages les plus importantes de votre site.

4. Créer un sitemap XML
Pour faciliter l'exploration de votre site Web par Googlebot, fournissez un sitemap XML qui organise toutes vos pages afin que le robot d'exploration comprenne rapidement la hiérarchie de votre site. (Vous ne savez pas ce qu'est un plan de site XML, consultez un exemple de plan de site et apprenez-en plus ici.)
Soumettez votre plan de site XML à Google via GSC pendant le processus de vérification.
Si vous n'utilisez pas un système de gestion de contenu (CMS) qui met à jour dynamiquement votre sitemap pour vous, assurez-vous de mettre à jour manuellement votre sitemap XML et de le soumettre à nouveau lorsque vous apportez des modifications à la hiérarchie de votre site. Cliquez simplement sur "Sitemaps" dans la barre latérale gauche. Cela permettra de s'assurer que Google indexe les pages appropriées sur votre site Web.


5. Demander l'indexation Google
Lorsque vous publiez une nouvelle page ou apportez des mises à jour importantes au contenu existant, vous n'avez pas besoin d'attendre que Google les trouve - dites à Google que vous avez une page nouvelle ou mise à jour à analyser en demandant l'indexation.

Connectez-vous à votre GSC et saisissez l'URL que vous souhaitez indexer à gauche de l'icône de loupe en haut de la page et appuyez sur Entrée.
Google notera qu'il récupère des données.

Et vous dira alors si votre page est déjà indexée.

Si ce n'est pas le cas, vous pouvez demander l'indexation. Si votre page est indexée et que vous y avez apporté des modifications importantes, vous pouvez également demander l'indexation.

Si vous ajoutez fréquemment des pages à votre site, comme un nouveau billet de blog ou une page de produit, intégrez ce processus à vos meilleures pratiques afin de vous assurer que toutes vos pages sont indexées sans délai.
lecture recommandée
- Comment utiliser la console de recherche Google
- Comment ajouter des utilisateurs à Google Search Console
Quatre façons d'analyser comment Googlebot explore votre site
Une fois que vous avez optimisé votre site pour le rendre plus facile à lire pour un moteur de recherche, vous voudrez vérifier qu'il est correctement exploré et indexé.
Statistiques d'exploration
Vos statistiques d'exploration indiquent le nombre total de demandes d'exploration que Googlebot a envoyées à votre serveur, ainsi que le moment et s'il a rencontré des problèmes.

Votre rapport de statistiques d'exploration dans Google Search Console indique également ce que Googlebot a trouvé (réponses d'exploration), les types de fichiers qu'il a rencontrés, si Googlebot découvrait de nouvelles pages ou réindexait les anciennes, et quels types de Googlebot ont été utilisés pour explorer votre site.
En cliquant sur un élément de ligne dans votre rapport de statistiques d'exploration, vous obtiendrez des informations supplémentaires. Par exemple, si vous souhaitez savoir quelles pages renvoient une erreur 404, cliquez sur cette ligne dans la zone de réponses d'exploration pour accéder à une liste d'URL que Googlebot n'a pas pu trouver et quand il a tenté d'explorer ces pages pour la dernière fois.
En cliquant sur les éléments de campagne « Actualiser » ou « Découverte » sous Objectif de l'exploration, vous pouvez voir les URL que Googlebot a récemment indexées. Si vous constatez que vos pages les plus récentes n'ont pas été indexées, vous pouvez facilement les soumettre à l'aide de la barre de recherche en haut du rapport.

Erreurs d'exploration
Les erreurs de crawl se produisent lorsque les moteurs de recherche ne parviennent pas à accéder à l'une de vos pages. Vous pouvez identifier deux types d'erreurs de crawl Googlebot sur votre rapport de crawl qui peuvent avoir un impact négatif sur votre référencement :
- Erreurs de site : lorsque vous rencontrez une erreur de site, Googlebot peut ne pas être en mesure d'explorer votre site. Les erreurs de site peuvent être causées par des fichiers robot.txt manquants ou inaccessibles, des échecs de résolution DNS ou des problèmes de connectivité du serveur.
- Erreurs d'URL : avec une erreur d'URL, Googlebot ne peut pas explorer une page particulière. Vous pouvez avoir plusieurs erreurs d'URL à la fois.
Moz fait un excellent travail en partageant comment corriger les erreurs de crawl.
URL bloquées
S'il y a des sections de votre site auxquelles vous ne voulez pas que le robot d'exploration Google accède, vous pouvez spécifier ces répertoires dans robots.txt pour fournir des informations sur la façon dont les robots doivent indexer votre contenu.
Vérifiez votre GSC pour voir le nombre d'URL bloquées que Google reconnaît pour vous assurer que votre fichier robots.txt fonctionne. Si le nombre d'URL bloquées est inférieur à ce qu'il devrait être, vous devrez modifier votre fichier robots.txt. À l'inverse, si le nombre est plus élevé qu'il ne devrait l'être, il se peut que l'exploration de pages soit bloquée par inadvertance et que vous souhaitiez qu'elles apparaissent dans les résultats de recherche.
Paramètres d'URL
Les paramètres d'URL, également appelés chaînes de requête, vous permettent d'ajouter des informations supplémentaires à la fin des URL dynamiques. Si vous avez consulté du contenu paginé, tel que des résultats de recherche de produits sur un site de commerce électronique, vous avez probablement vu « ?page=2 » ou quelque chose de similaire à la fin de l'URL de la page. C'est un paramètre d'URL. Ces paramètres peuvent également être utilisés pour :
- Filtres de contenu
- Traductions
- Recherches de sites
- Suivi
Si vous souhaitez utiliser des paramètres dans vos URL, déterminez si vous souhaitez qu'ils soient accessibles et indexés, car ils peuvent entraîner des problèmes importants tels que du contenu en double, un budget d'exploration gaspillé et des problèmes de suivi.
Vous pouvez suivre ces étapes pour bloquer l'exploration du contenu paramétré.
En savoir plus sur les outils Google pour le référencement
Google propose une variété d'outils pour vous aider à mesurer les performances de votre site. Profitez-en pour surveiller et améliorer votre stratégie de référencement.
Notre guide des outils Google vous guidera à travers chacun des outils de référencement gratuits de Google et décomposera les concepts techniques en chapitres exploitables et faciles à comprendre regorgeant de ressources supplémentaires.

Un guide des outils Google pour le référencement
Téléchargez ce guide pour apprendre à tirer le meilleur parti des puissants outils gratuits fournis par Google pour améliorer vos processus et performances de référencement.