Modélisation de sujets dans le référencement - La nouvelle façon de se classer plus haut
Publié: 2022-04-24La modélisation de sujets dans le référencement est l'utilisation de modèles statistiques pour découvrir des sujets dans une collection de documents. En examinant la cooccurrence de mots et de phrases sur des milliers de pages, les algorithmes sont capables d'attribuer une pertinence thématique à une page et de classer la page par rapport à une requête de recherche.

Des mots-clés aux sujets
Au début des moteurs de recherche - à la fin des années 1990 - les algorithmes ne faisaient guère plus que faire correspondre les mots-clés des résultats aux mots-clés de la requête. Les moteurs de recherche n'ont pas compris le contexte de la requête ou l'intention derrière le mot-clé.
Mais les moteurs de recherche ont parcouru un long chemin depuis lors. Les algorithmes des moteurs de recherche comprennent désormais non seulement les mots-clés, mais aussi le sujet derrière les mots-clés. Cet accent mis sur les sujets plutôt que sur les mots-clés est appelé référencement sémantique.
La première grande avancée vers la compréhension des sujets est venue avec la mise à jour Google Hummingbird en 2013. C'est à ce moment-là que Google a commencé à analyser des phrases entières, et pas seulement des mots-clés individuels.
Le prochain grand pas en avant a eu lieu en 2015 avec l'algorithme RankBrain de Google, qui a utilisé le traitement du langage naturel (NLP) pour comprendre le contexte et l'intention derrière les requêtes de recherche.
À cette époque, la densité des mots clés en tant que mesure de pertinence disparaissait rapidement dans le rétroviseur. Il était remplacé par la pertinence d'actualité. Votre classement sur Google dépend maintenant de la manière dont votre contenu couvre le sujet.
Depuis lors, Google et d'autres moteurs de recherche n'ont cessé de mieux comprendre les sujets. Ils le font grâce à une technique appelée modélisation de sujet.
Modélisation de sujet vs classification de sujet
La modélisation thématique est une méthode statistique pour découvrir les relations qui existent entre les mots et les phrases.
Avec la modélisation thématique, l'algorithme découvre les catégories d'informations lui-même, sans supervision. Pour ce faire, il analyse un ensemble de documents et regroupe des mots et des phrases en fonction de leur fréquence d'apparition avec d'autres mots et phrases. La modélisation thématique est une technique d'apprentissage « non supervisée » : l'algorithme découvre les catégories lui-même, en fonction des modèles qu'il trouve.
La modélisation des sujets est distincte de la classification des sujets qui est une technique d'apprentissage automatique où les humains doivent "former" l'algorithme en lui donnant certaines règles.
Avec la classification des rubriques, vous devez d'abord définir les catégories d'informations que vous souhaitez utiliser. Vous donnez ensuite à l'algorithme quelques exemples de données brutes qui ont été étiquetées avec ces catégories prédéfinies. L'algorithme utilise ensuite ces catégories prédéfinies pour analyser les données.
La différence entre les deux techniques est la suivante : dans la classification des sujets, les humains indiquent à l'algorithme quelles sont les catégories, tandis que, dans la modélisation des sujets, l'algorithme découvre quelles sont les catégories grâce à une analyse statistique de la façon dont les mots et les phrases se regroupent dans certains modèles.
Ces méthodes d'analyse de texte sont utilisées non seulement par les moteurs de recherche, mais également sur Internet.
Par exemple, une entreprise qui reçoit un grand nombre de commentaires de clients en ligne peut utiliser la modélisation ou la classification de sujets pour trier ses commentaires en catégories, telles que les notifications post-achat, les suivis d'expérience, les commentaires sur la fidélité à la marque, les plaintes des clients et les avis des clients.
Deux types de modélisation de sujet
Jusqu'à présent, j'ai utilisé le terme "modélisation de sujet" comme s'il s'agissait d'une seule chose. Mais c'est en fait un terme générique qui couvre une gamme de techniques différentes.
Examinons maintenant certains des différents types de modélisation de sujet.
Allocation latente de Dirichlet (LDA)
Latent Dirichlet Allocation (LDA) repose sur deux hypothèses : que des sujets similaires utilisent des mots similaires et que les documents parlent de plusieurs sujets pour lesquels une distribution statistique peut être détectée.
LDA mappe les documents sur une liste de sujets en attribuant des sujets à des arrangements de mots tels que des n-grammes. Un n-gramme est une séquence de mots utilisés dans le traitement du langage naturel.
L'indicateur 'n' fait référence au nombre de mots dans le n-gramme. Où N=1, le n-gramme contient un mot, où N=2, le n-gramme contient deux mots, et ainsi de suite.
Par exemple, la phrase « La vache saute par-dessus la lune » contiendrait les n-grammes de 2 mots suivants (appelés bi-grammes) :
- la vache
- la vache saute
- saute par-dessus
- au dessus de
- la lune
Une fois que vous avez des n-grammes, vous pouvez alors faire des calculs qui prédisent la probabilité que certains mots apparaissent dans la même phrase ou dans le même paragraphe, ou à une certaine distance les uns des autres.
Latent Dirichlet Allocation fonctionne sur l'hypothèse que les documents consistent en des arrangements particuliers de mots et que ces arrangements déterminent le sujet du document.
Analyse sémantique latente
Comme LDA, l'analyse sémantique latente est basée sur l'hypothèse distributionnelle : le sens des mots peut être saisi en regardant les contextes dans lesquels les mots apparaissent. Comme l'a dit le linguiste anglais, JR Firth : "Vous connaîtrez un mot par la compagnie qu'il garde" (Firth, JR 1957:11).
Contrairement à LDA, qui attribue des sujets à des arrangements particuliers de mots, l'analyse sémantique latente calcule simplement la fréquence à laquelle les mots apparaissent dans un ensemble de documents. Il suppose que les documents appartenant à des sujets similaires contiendront approximativement la même distribution de fréquences de mots pour certains mots.
La méthode utilisée pour calculer la fréquence des mots est Term Frequency-Inverse Document Frequency ou tf-idf.
La fréquence des termes (TF) fait référence au nombre de fois qu'un mot-clé apparaît dans un seul document.
Inverse Document Frequency (IDF), mesure combien de fois le terme apparaît dans une collection de documents.
La fréquence du terme (TF) est ensuite divisée par la fréquence inverse du document (IDF) pour obtenir la valeur TF-IDF.
LDA et LSA sont des techniques non supervisées.
Groupes de sujets - La clé d'un meilleur classement
Comme vous pouvez le voir, les moteurs de recherche tournent leur attention des mots-clés vers les sujets. Ils utilisent diverses méthodes statistiques pour identifier des modèles dans la façon dont certains mots sont trouvés avec d'autres mots. Ces modèles permettent aux moteurs de recherche d'identifier les sujets.
Et c'est pourquoi les groupes de sujets sont désormais un élément essentiel du classement élevé dans les résultats de recherche.
Google veut fournir des résultats de recherche qui font autorité. Cela signifie fournir un contenu qui couvre bien un sujet, à la fois en profondeur et en ampleur.
Messages piliers et groupes de sujets
La meilleure façon d'y parvenir est d'utiliser le modèle de cluster de rubriques. C'est une collection de pages avec une page centrale appelée pilier. Le post pilier couvre le sujet en profondeur et compte généralement au moins 3000 mots.
Dans le post pilier, vous couvrez tous les sous-sujets associés à votre sujet. Mais vous n'abordez pas nécessairement ces sous-thèmes en détail. Passez quelques paragraphes à présenter chaque sous-thème, puis créez un lien vers un article de blog séparé où vous couvrez ce sous-thème plus en détail.
Par exemple, votre poste de pilier pourrait être sur les « outils de jardin ». Ce serait un article plus long que la moyenne où vous décririez brièvement tous les principaux types d'outils de jardin : tondeuses à gazon, taille-bordures, taille-haies, sécateurs, broyeurs, souffleurs de feuilles, outils de bordure, arroseurs, etc.
Vous créerez ensuite un contenu distinct pour chacun de ces sous-thèmes et créerez un lien vers ces articles à partir du message pilier.
Pourquoi les clusters de sujets aident-ils au référencement ?
Comment un groupe de sujets vous aide-t-il à vous classer plus haut ? Il montre aux moteurs de recherche que votre site Web a une autorité thématique pour un sujet particulier. Lorsque vous créez un cluster de sujets, votre contenu sera rempli de mots-clés associés. Et c'est exactement ce que les algorithmes des moteurs de recherche recherchent maintenant. Un site Web qui contient dix ou quinze pages de contenu étroitement lié rempli de mots-clés qui se trouvent généralement ensemble recevra le feu vert de l'algorithme.
Jusqu'à présent, dans cet article, nous avons examiné pourquoi les sujets remplacent les mots-clés au centre du référencement et comment les moteurs de recherche utilisent divers outils de modélisation de sujets pour comprendre les sujets et leurs sous-sujets.
En tant que créateur de contenu, vous vous demandez peut-être s'il existe des outils de modélisation de sujet qui vous aideront à « cartographier » un sujet particulier afin que vous puissiez créer un contenu qui couvre ce sujet de manière exhaustive.
Eh bien, sans surprise, de tels outils existent déjà. Et dans la section suivante, je vais vous en montrer deux.
Outils de modélisation de sujet
Cette section vous donne un aperçu de deux outils de modélisation de sujet qui vous aideront à rédiger du contenu avec une autorité thématique élevée.
MarketMuse
MarketMuse est un outil de recherche de contenu et de planification de mots clés alimenté par l'IA. Il utilise l'apprentissage automatique et l'intelligence artificielle pour analyser le contenu, suggérer des sujets à couvrir et développer des mémoires pour vous aider à créer un meilleur contenu.
Lorsque vous vous connectez à MarketMuse, vous verrez cinq outils dans le menu de gauche, Recherche, Compétition, Optimisation, Questions et Connexion :

Examinons ces outils un par un.
L'outil de recherche
Dans l'outil de recherche, saisissez votre mot-clé et MarketMuse identifiera les principaux sujets pour ce mot-clé :

Les rubriques apparaissent dans la colonne de gauche. Dans la colonne de droite, vous verrez le volume de recherche estimé pour chaque sujet connexe, ainsi qu'un graphique montrant la tendance de recherche pour ce sujet.
La colonne à l'extrême droite vous indique le nombre de fois suggéré que vous devriez mentionner ce sujet connexe dans votre contenu. MarketMuse utilise un code couleur pour cela :
- Jaune = 1 à 2 mentions
- Vert = 3 à 10 mentions
- Bleu = 10+ mentions
Vous pouvez accéder à chaque sujet connexe en cliquant sur le sujet. Vous verrez une liste de variantes pour ce sujet :

L'inclusion de ces variantes dans votre contenu vous aidera à vous classer pour plusieurs mots-clés. Cela augmentera également l'autorité thématique de votre article, car les moteurs de recherche savent désormais que certains mots apparaissent ensemble dans un contenu qui couvre un sujet en profondeur.
L'outil Concurrence
L'outil Compete crée un modèle de sujet en analysant des milliers de documents. Il analyse ensuite les 20 meilleurs résultats par rapport à ce modèle et présente les résultats sous forme de carte thermique.
La concurrence est utilisée pour évaluer et analyser la concurrence pour un sujet donné et prendre des décisions sur la couverture que vous souhaitez avoir pour ce sujet.
La carte thermique de Compete vous aide à comprendre rapidement comment la concurrence aborde un sujet sur lequel vous souhaitez écrire, quels sujets connexes vous devez inclure et lesquels vous devez couvrir pour que votre contenu se démarque de la foule :

En haut de l'écran Compétition, vous verrez les 20 premiers résultats de recherche pour ce sujet. Sous chaque résultat de recherche se trouve le score de contenu MarketMuse pour cet article. Il s'agit d'un score propriétaire développé par MarketMuse qui montre à quel point la page couvre un sujet.
Les codes de couleur sur la carte thermique vous montrent à quel point chaque élément de contenu couvre le sujet :
- Rouge = 0 mention
- Jaune = 1-2 mentions
- Vert = 3-10 mentions
- Bleu = 10+ mentions
Un moyen rapide d'évaluer dans quelle mesure une page couvre un sujet consiste à parcourir verticalement une colonne :

De même, vous pouvez voir comment le concours couvre un sujet particulier en balayant horizontalement une ligne :

Une autre chose à rechercher dans l'outil Compete est les scores de contenu. Ceux-ci vous permettent de voir en un coup d'œil à quel point le contenu le mieux classé couvre ce sujet :

Si les scores sont faibles, cela indique que vous avez de bonnes chances d'être bien classé pour ce sujet avec un contenu bien documenté.

En bas à gauche de l'écran Compétition, vous verrez tous les sujets qui composent le modèle de sujet.
Lors de l'utilisation de l'outil Concurrence, il y a deux choses à rechercher : les sujets incontournables et les lacunes dans les sujets.
Les sujets incontournables sont ceux qui se trouvent systématiquement parmi les pages les mieux classées dans les résultats de recherche. Pour bien performer, ces sujets doivent être inclus dans votre pièce.
Les sujets manquants sont des sujets qui ne sont pas couverts par le concours. Ils sont une excellente occasion d'optimiser votre contenu en incluant des sujets qui manquent à vos concurrents.
L'outil d'optimisation
L'outil Optimize est un éditeur de texte qui vous fournit des commentaires en temps réel sur la façon dont votre contenu couvre un sujet. Tapez simplement votre mot-clé et l'URL de votre article et MarketMuse s'affichera

Les codes de couleur dans le panneau de droite vous indiquent combien de fois vous avez utilisé ce terme et combien de fois vous devriez l'utiliser.
Au fur et à mesure que vous ajoutez des termes suggérés à votre élément de contenu, les codes de couleur seront mis à jour pour indiquer que vous approchez du nombre optimal de mentions pour ce terme.
L'onglet "Flux" vous donne une évaluation continue de la façon dont votre contenu aborde les sujets, lorsque vous faites défiler la page :

En haut de l'écran Compétition, vous verrez une barre d'état qui vous indique votre score de contenu, le score moyen, votre score cible, votre nombre de mots, le nombre moyen de mots et votre nombre de mots cible :

L'outil Questions
L'outil Questions de MarketMuse est utile lorsque vous êtes dans la phase de recherche de la rédaction de votre article. Il vous montre les questions les plus fréquemment posées liées à votre sujet :

Inclure des questions connexes dans votre contenu est un autre moyen de renforcer l'autorité thématique de votre article.
Sur le côté droit de l'écran, vous verrez une colonne avec un bouton indiquant "Run in". Cela vous donne la possibilité d'exécuter chaque question dans l'un des quatre autres outils :

MarketMuse est un outil puissant pour analyser un sujet et s'assurer que le contenu de votre article couvre autant que possible le sujet. Ce qui rend MarketMuse particulièrement utile, c'est qu'il est basé sur les résultats les mieux classés pour ce mot-clé particulier.
Il vous montre non seulement quels sujets sont couverts par les pages qui se classent en haut des résultats de recherche. Il vous montre également les lacunes des sujets. En comblant les lacunes des sujets, vous pouvez faire en sorte que votre contenu se démarque des autres pages.
Aperçu des articles
Article Insights est un autre outil de modélisation de sujet.
Il vous aide à identifier les mots-clés qui apparaissent dans les 10 premiers résultats de recherche pour un sujet particulier. Il aide à l'analyse des concurrents en comparant votre contenu à celui de vos concurrents afin que vous puissiez voir quels mots clés ils utilisent et que vous n'utilisez pas. Et cela aide à la détection des entités en marquant les mots-clés comme une personne, un produit, une entreprise ou un lieu.
La première chose que vous devez faire dans Article Insights est de créer un projet. Donnez un nom à votre projet puis ajoutez le mot-clé que vous souhaitez cibler :

Le mot clé est ensuite placé dans une file d'attente de traitement. L'analyse peut prendre quelques minutes.
Une fois le mot-clé traité, vous devez cliquer sur le bouton Afficher.
Vous verrez alors un écran composé de deux parties : l'interface d'écriture à gauche et l'analyse à droite :

Dans l'éditeur d'articles, vous avez deux onglets : 'Article' et 'Brief' :

Brief est l'endroit où vous pouvez laisser des notes sur l'article. Il y a un bouton de partage où vous pouvez obtenir un lien pour partager l'article avec vos rédacteurs.
Sur le côté droit se trouve un panneau avec toutes les analyses de votre contenu :
Ceux-ci inclus:
- nombre de mots
- les mots-clés que vous avez utilisés dans votre article
- les mots-clés que vos concurrents ont utilisés (analyse des écarts)
- rubriques que vous avez utilisées et le nombre de rubriques que vos concurrents ont utilisées.
- caractère unique de votre contenu
- score de lisibilité
Vous pouvez commencer à écrire votre article à partir de zéro, ou vous pouvez importer un article en cours à partir d'une URL :

Une fois le contenu chargé dans l'éditeur d'articles, l'outil analyse votre contenu par rapport aux 10 premiers résultats de recherche pour ce mot-clé :

- Les panneaux 1 et 2 vous montrent à quel point votre article est complet et le nombre de mots que vous devriez viser.
- Le panneau 3 vous montre les 15 principaux mots-clés utilisés dans votre contenu.
- Le panneau 4 vous montre les mots-clés que vos concurrents ont utilisés et combien d'entre eux vous avez utilisés.
- Le panneau 5 vous montre les rubriques que vous avez utilisées et les compare aux rubriques utilisées par vos concurrents.
Sous le panneau Titres se trouve un panneau qui affiche un score "Unicité" et un outil qui vous donne un score de lecture Flesch :

L'outil 'unicité' contient un bouton appelé 'Article Re-writer'.
Cliquez dessus et cela ouvrira l'éditeur d'articles, avec des suggestions utiles de synonymes que vous pouvez utiliser pour réécrire les extraits que vous avez ajoutés à partir de l'onglet "recherche". Passez votre curseur sur n'importe quel mot en surbrillance et l'outil vous propose des synonymes alternatifs pour ce mot :

Ceci est très utile et vous aide à réécrire rapidement votre contenu.
En haut du panneau de droite se trouvent sept onglets. Jusqu'à présent, nous avons travaillé dans l'onglet Score.
Si vous cliquez sur l'onglet Concurrents, vous verrez une liste des 10 meilleurs concurrents pour ce mot clé, ainsi qu'un groupe de mots clés pour chaque concurrent. Ces groupes de mots clés vous montrent les principaux mots clés utilisés par chaque concurrent :

Vous pouvez sélectionner et désélectionner des concurrents, ce qui est utile s'il existe des résultats qui, selon vous, ne sont pas pertinents pour votre contenu.
L'onglet suivant est 'Recherche'. Cet onglet extrait des extraits du contenu de premier plan :

Cliquez sur un extrait de recherche et il sera ajouté à l'éditeur d'articles. Vous devez ensuite le réécrire pour l'intégrer à votre propre contenu.
L'onglet suivant est 'Titres'. Cet onglet affiche les rubriques utilisées pour chaque concurrent que vous avez sélectionné. Vous pouvez voir exactement combien de titres ils ont sur leur page et à quel niveau se trouve le titre.

Vient ensuite l'onglet "Questions".
Cet onglet récupère les questions de Google qui sont liées à votre mot-clé principal. Ce sont des sous-sujets que vous pouvez ajouter à votre article pour gagner en autorité :

L'onglet suivant est "Sujets". Cet outil vous montre des mots-clés connexes, regroupés en rubriques. Les paragraphes correspondant à ces sujets sont placés dans ce panneau de sujets pour vous :

Le plan de sujet vous aide à découvrir des mots clés connexes que vous pouvez facilement ajouter à vos paragraphes. L'ajout de ces mots connexes à votre paragraphe augmentera l'autorité thématique de votre contenu et améliorera considérablement la qualité de votre article.
Le dernier onglet est "Doublons". Cet outil détecte les fragments de votre contenu qui sont des doublons. Vous devez réécrire tout ce qui est marqué en rouge par cet outil.
Revenons maintenant au panneau de mots-clés dans l'onglet 'Score' car il a une fonctionnalité utile. Cliquez sur un mot clé dans ce panneau :

Ce mot-clé sera alors mis en surbrillance dans l'onglet Concurrent. Vous pouvez alors voir combien de fois vos concurrents ont utilisé ce mot-clé :

Ce même mot-clé sera également mis en évidence dans l'onglet "Recherche" :

Il s'agit d'une fonctionnalité utile lorsque vous essayez d'optimiser votre contenu pour un mot clé particulier.
Conclusion
Alors que les algorithmes s'éloignent de la focalisation sur les mots-clés et essaient de comprendre les sujets, il devient de plus en plus important que votre contenu couvre un sujet de manière exhaustive.
Cela devient la clé du classement en haut des résultats de recherche.
Dans cet article, nous avons examiné diverses techniques de modélisation de sujets que les moteurs de recherche utilisent désormais pour mieux comprendre la cooccurrence de mots dans un document et dans un ensemble de documents.
Nous avons vu comment la présence, la fréquence et la proximité de mots clés similaires dans un document sont utilisées par les moteurs de recherche pour comprendre les sujets.
Il va de soi que si les moteurs de recherche utilisent ces outils pour comprendre l'autorité thématique, les créateurs de contenu doivent utiliser les mêmes techniques pour s'assurer que leur contenu couvre correctement un sujet.
Et c'est là qu'interviennent des outils comme MarketMuse et Article Insights. Ils utilisent l'IA pour analyser le sujet sur lequel vous écrivez et vous montrer quels sont les sous-sujets dans ce sujet et quels mots clés vous devriez utiliser pour bien vous classer pour ce sujet.
Ressources associées
- Clusters thématiques et SEO - 5 conseils simples pour créer des hubs de contenu
- SEO sémantique - Guide du débutant
- Créez une structure en silo sur votre site Web en 5 étapes faciles
- Qu'est-ce que l'indexation sémantique latente : 7 faits importants
- Que sont les mots-clés LSI et comment les utiliser pour un meilleur classement