Optimisation avancée sur la page - Au-delà de la densité des mots clés : TF-IDF pour le référencement

Publié: 2021-02-26

Nous savons tous que l'optimisation des moteurs de recherche (SEO) n'est pas nouvelle. C'est maintenant un domaine bien établi et aux multiples facettes qui a subi de nombreux changements. La façon changeante dont les moteurs de recherche évaluent et classent les pages a conduit à bon nombre de ces rebondissements dans le référencement (consultez cet article sur le coût du référencement).

La création de liens est une autre chose qui a pris une importance significative. Cela s'est produit une fois que l'importance des backlinks est devenue claire. Un référencement plus technique est apparu lorsque l'architecture informationnelle d'un site donné a été reconnue comme un facteur crucial.

L'importance du contenu est alors devenue évidente. Les moteurs de recherche ont fait savoir que les sites devaient avoir un contenu pertinent et de haute qualité. Au début, cela a conduit les professionnels du référencement à courir pour leurs outils de densité et de planification des mots clés. En peu de temps, il est devenu évident que ce n'était pas la meilleure voie à suivre. Ou du moins, que l'utilisation de ces outils pour des pratiques louches comme le bourrage de mots clés n'allait pas fonctionner. Cela ne tromperait pas les algorithmes des moteurs de recherche.

Google et les autres moteurs de recherche recherchent un contenu réel de haute qualité. Ils récompensent le contenu qui est vraiment pertinent par rapport à son sujet supposé et qui répond à l'intention souhaitée par l'utilisateur. La création d'un tel contenu était le principal conseil de Google pour se remettre de leur célèbre - ou infâme - Medic Update.

Réserver une consultation

Il est donc évident que Google et d'autres moteurs de recherche peuvent évaluer et évaluer avec précision le sujet et la signification du contenu. Pour ce faire, ils utilisent notamment tf-idf. Tf-idf est l'un des plus anciens facteurs de classement utilisés par les moteurs de recherche. À son niveau le plus simple, cela leur permet de comprendre de quoi parlent les pages.

Ce guide ultime de tf-idf pour le référencement vous donnera toutes les informations dont vous pourriez avoir besoin. Il couvrira ce qu'est tf-idf et comment il fonctionne, comment tf-idf est lié au référencement et comment et quand vous pouvez utiliser l'analyse tf-idf.

Qu'est-ce que TF-IDF ?

Tf-idf est une statistique numérique utilisée dans la recherche d'informations. Il représente l'importance d'un mot ou d'une phrase dans un document donné, par rapport à d'autres documents d'une collection ou d'un « corpus ». Une valeur tf-idf augmente proportionnellement au nombre de fois qu'un mot ou une phrase apparaît dans un document.

Cela est ensuite compensé par le nombre de fois que ce mot ou cette phrase apparaît dans tous les documents du corpus. Ceci est important car il tient compte du fait que certains mots apparaissent plus souvent dans l'usage général.

Prenons l'exemple d'un terme de recherche comme « le meilleur référencement ». « Le » est un mot qui apparaît plusieurs fois dans tous les documents d'un corpus. Par conséquent, il est moins important pour une valeur td-idf si 'le' apparaît dans le document recherché que si les autres mots moins courants le font.

Tf-idf est le produit de deux statistiques. Cela signifie que vous multipliez l'un par l'autre. C'est ainsi qu'il représente l'importance d'un mot ou d'une phrase et compense la fréquence générale de ce mot ou de cette phrase. Les deux statistiques sont Term Frequency (tf) et Inverse Document Frequency (idf).

Terme Fréquence

La fréquence des termes est la moitié la plus simple de tf-idf. Il représente la fréquence d'apparition d'un terme dans un document donné. Tout ce qui est nécessaire pour calculer la fréquence des termes est la longueur du mot du document et le nombre de fois que le terme apparaît. Vous divisez ensuite le nombre de fois que le mot apparaît par le nombre total de mots. Cela signifie que la fréquence des termes sera toujours une valeur comprise entre zéro et un.

Au niveau le plus simple possible, la fréquence des termes est calculée de la manière suivante :

TF (Term Frequency) = t (Nombre de fois où le terme apparaît dans un document) / d (nombre total de mots dans le document)

En tenant compte de la longueur du document et du nombre de fois où le terme apparaît, vous obtenez une idée juste de la pertinence du document par rapport au terme donné. Cependant, vous ne pouvez pas le savoir avec certitude, sauf si vous savez à quelle fréquence le terme apparaît dans les documents en général. C'est là qu'intervient Inverse Document Frequency (idf).

Inverser la fréquence des documents

Les mots qui sont utilisés très souvent dans de nombreux documents ne sont pas bons pour déterminer quels documents sont pertinents pour un terme de recherche spécifique. La fréquence inverse des documents est une statistique qui réduit le poids accordé à ces termes communs.

Cela garantit que si vous recherchez "le renard brun rapide", "le" apparaissant plusieurs fois dans un document, n'aura pas autant d'importance que si les autres mots sont présents. La fréquence inverse du document est une mesure de la quantité d'informations fournies par un mot ou un terme.

La formule pour calculer idf semble assez compliquée :

IDF = log (Nd / fi)

Si vous le décomposez en ses parties, ce n'est pas si complexe.

Log est simplement une fonction mathématique qu'il n'est pas trop important de comprendre. Vous pouvez simplement appuyer sur le bouton "journal" d'une calculatrice si vous en avez besoin. 'Nd' est le nombre de documents dans la collection ou le corpus faisant l'objet de la recherche. 'fi' est le nombre de ces documents qui contiennent le terme de recherche.

Vous obtenez alors votre valeur IDF en divisant le nombre de documents par le nombre de documents avec le terme de recherche, puis en appliquant la fonction de journalisation.

Exemple résolu TF-IDF

Nous pouvons maintenant prendre ce que nous avons appris et l'utiliser pour un exemple très simple. Supposons que vous ayez un document de 100 mots et que vous le recherchiez avec le mot « mot-clé ». Si ce mot apparaît trois fois, vous pouvez déterminer la fréquence du terme comme suit :

3(nombre de termes dans le document) / 100 (total de mots) = 0,03

Votre fréquence de terme est de 0,03. Supposons maintenant qu'il y ait un total de dix millions de documents dans le corpus que vous recherchez et que le "mot-clé" apparaisse dans 1 000 d'entre eux. Vous avez maintenant tout ce qu'il vous faut pour établir votre idf :

Log(10 000 000 / 1 000) = 4

Votre fréquence de document inverse est 4. Une valeur tf-idf est simplement la fréquence du terme multipliée par idf, donc :

0,03 (tf) x 4 (idf) = 0,12

Votre valeur tf-idf est de 0,12. Cela en soi ne vous dit pas grand-chose, mais peut être comparé à d'autres valeurs. Plus la valeur tf-idf est élevée, plus un terme est important pour le document donné. Les valeurs tf-idf les plus élevées résultent d'une fréquence de terme élevée et d'un faible nombre de documents contenant le terme dans un corpus. Le tableau suivant devrait aider à le démontrer :

Fréquence du terme (TF)

Taille du corpus (Nd)

Documents avec terme (fi)

Fréquence de document inverse (IDF)

TF-IDF

0,03

10 000 000 1 000 4 0,12

0,04

10 000 000

900 4.05 0,162

0,05

10 000 000

800

4.10

0,205

0,06 10 000 000 700 4.15

0,249

0,07 10 000 000 600 4.22

0,295

TF-IDF, référencement et LSI

Tf-idf est le plus souvent utilisé dans le cadre de l'indexation sémantique latente (LSI). C'est certainement ce qui relie directement tf-idf et SEO. LSI avec tf-idf est une technique de traitement du langage. Il permet de classer les documents en fonction de leur pertinence par rapport à un terme de recherche individuel ou à un domaine thématique plus large.

LSI fonctionne en identifiant des modèles dans les relations entre différentes phrases et concepts dans des collections de texte non structurées. Il est basé sur l'idée que les mots utilisés dans les mêmes contextes ont tendance à avoir des significations apparentées ou similaires.

En établissant les modèles entre les termes et les phrases, LSI permet de discerner le sujet général ou le sujet d'un corps de texte. Lorsque LSI avec tf-idf est appliqué à un corpus de documents, une requête ou un terme de recherche renverra des résultats plus précis.

En effet, les résultats incluront des documents dont la signification est similaire à celle de la recherche. Ce sera le cas même si les documents ne contiennent pas de mots spécifiques du terme de recherche. L'objectif de LSI avec tf-idf est de donner un sens aux sujets et aux objectifs réels d'un corpus de documents.

En bref, tf-idf, lorsqu'il est utilisé dans le cadre de LSI, permet aux machines de comprendre de quoi parlent les pages de texte. C'est donc ainsi que Google et les autres moteurs de recherche peuvent évaluer la pertinence et l'utilité du contenu.

L'importance de tf-idf pour le référencement devient certainement plus claire. C'est l'un des premiers facteurs de classement des moteurs de recherche et peut même être considéré comme un élément clé des moteurs de recherche et des SERP. Plus important encore, tf-idf aide Google à évaluer la pertinence et l'utilité réelles des pages par rapport à n'importe quel terme de recherche ou requête.

Cela soulève la question de savoir comment notre meilleure compréhension de tf-idf peut être utilisée pour le référencement. Que ce soit par une agence de référencement SaaS ou un propriétaire de petite entreprise cherchant à augmenter le trafic organique. AJ Ghergich a eu son mot à dire dans une vidéo SEMrush sur le sujet :

« L'objectif global de tf-idf est de mesurer statistiquement l'importance d'un mot dans une collection de documents. C'est comme un outil de densité de mots clés vraiment utile sur les stéroïdes.

SEMrush

C'est une belle petite analogie, mais cela pourrait être un peu trompeur. L'analyse Tf-idf n'est pas mieux utilisée pour identifier les mots-clés à insérer dans le contenu. Il vaut mieux le considérer comme une sorte d'outil d'inspiration de contenu.

L'utilisation de tf-idf pour comparer votre propre contenu à des pages similaires mieux classées peut vous donner des suggestions sur la façon d'enrichir le contenu. Il pointera vers les mots clés et les expressions pour lesquels le contenu le mieux classé obtient de meilleures valeurs tf-idf que vos pages.

Cela montrera quels domaines et sujets votre contenu ne couvre pas avec autant de détails ou ainsi que des pages similaires. Vous disposez alors d'une feuille de route pour améliorer votre contenu d'une manière qui plaira à coup sûr à Google. C'est-à-dire en améliorant sa pertinence et dans quelle mesure il satisfait l'intention des lecteurs potentiels qui recherchent des mots-clés ou des expressions particuliers.

Utilisation de TF-IDF pour le référencement

L'utilisation de TF-IDF pour le référencement n'est pas une question de densité de mots clés. Cela va bien au-delà.

L'exécution d'une analyse tf-idf révèle des termes et des expressions que votre contenu ne traite pas ainsi que d'autres pages. Votre prochaine étape consiste alors à ne pas commencer à insérer ces phrases dans votre contenu existant pour augmenter la densité des mots clés. Ce que vous voulez faire, c'est optimiser votre contenu afin qu'il soit plus pertinent pour les sujets et les sujets entourant ces phrases.

Vous pourriez, par exemple, avoir une page avec le référencement comme sujet principal. Une analyse tf-idf peut révéler qu'elle a moins de valeur pour le terme "création de liens" que d'autres pages qui se classent très bien pour les recherches SEO. Cela vous indique que votre contenu ne donne pas suffisamment d'informations pertinentes et utiles sur la création de liens. Aussi simplement que cela, vous avez un moyen précis d'améliorer votre contenu.

Avant de pouvoir penser à améliorer votre contenu, vous devez savoir comment effectuer une analyse tf-idf. Traitons cela maintenant.

Comment effectuer une analyse TF-IDF

Il est techniquement possible d'exécuter une analyse tf-idf à la main, en effectuant vos propres calculs. Bien que possible, cela n'est pas conseillé. Comme vous l'avez déjà vu, les calculs peuvent devenir un peu compliqués et prendront toujours du temps.

Ce n'est même pas le plus gros problème. Une analyse tf-idf ne vaut que si le corpus auquel vous comparez le contenu est pertinent et utile. Vous voulez pouvoir comparer les valeurs tf-idf de votre contenu avec d'autres pages qui se classent bien pour vos mots-clés importants. C'est là qu'intervient un outil tf-idf, tel que celui proposé par Ryte.

L'outil de Ryte peut comparer une URL en direct de votre site avec les dix premiers résultats de recherche Google pour un mot clé ou une requête de recherche donnés. Il fournira ensuite une liste de termes et d'expressions connexes importants pour lesquels le contenu hautement classé a une valeur tf-idf élevée.

En plus de cela, l'outil de Ryte évaluera également l'URL que vous avez choisie par rapport à ces expressions et termes. Il montrera si votre contenu a des valeurs tf-idf aussi élevées, supérieures ou inférieures pour chacun d'eux.

Ces informations vous montreront où et comment votre contenu doit être amélioré. Il vous donnera les sujets et les sujets que votre page ne couvre pas assez efficacement. Vous pourrez donc personnaliser la page pour mieux répondre aux besoins et aux intentions de ses lecteurs.

Vous vous demandez probablement maintenant quand vous devriez utiliser l'analyse tf-idf. Il y a beaucoup d'autres choses qui doivent également être faites, après tout, dans le domaine du référencement et à l'extérieur.

Quand utiliser l'analyse TF-IDF

Il n'y a jamais de mauvais moment pour penser à améliorer le contenu de votre site. Il y a aussi un certain nombre d'heures dans la journée. Cela signifie qu'il est préférable d'implémenter l'analyse tf-idf dans les circonstances où il est le plus susceptible de faire une différence. Il existe une poignée d'exemples de telles circonstances;

  • Libérer le potentiel du contenu existant

Tf-idf peut être très utile si vous avez une page qui se classe systématiquement sur la deuxième page des recherches Google. Ayant atteint un si haut niveau dans le classement, la page a clairement du potentiel. Une analyse tf-idf peut vous aider à déterminer les ajustements et les ajouts exacts dont vous avez besoin pour faire ce dernier saut vers la première page.

  • Guider un nouveau plan de contenu

Une analyse tf-idf est superbe comme source d'inspiration pour le contenu. Effectuer une analyse sur des pages bien classées pour certains sujets et sujets vous montrera ce que votre propre contenu doit couvrir. Cela peut être une excellente base pour esquisser un plan pour toute une série de nouveaux contenus.

  • Arrestation des classements en baisse

Si vous avez une page qui était autrefois la plus performante mais qui glisse dans le classement des mots-clés importants, tf-idf peut également vous aider. Il peut vous montrer pour quels mots-clés et sujets les pages dépassant les vôtres obtiennent de meilleures valeurs tf-idf. Vous pouvez ensuite améliorer et mettre à jour votre propre contenu en conséquence.

TF-IDF pour le référencement - Aller au-delà de la densité des mots clés

Il y a tellement de choses à considérer dans le monde moderne du référencement. L'architecture du site, les liens, les densités de mots-clés et tous ces autres éléments traditionnels restent cruciaux. On peut cependant affirmer que le contenu est désormais roi. Ou à tout le moins qu'il doit recevoir autant d'attention que n'importe lequel de ces autres facteurs.

Les sites ne peuvent plus s'en tirer avec le bourrage de mots clés ou le remplissage de pages avec du contenu de spam en double ou masqué. Les sites doivent contenir un contenu de haute qualité qui est véritablement utile aux lecteurs. Tf-idf est un moyen majeur par lequel Google et d'autres moteurs de recherche évaluent le contenu à cet égard.

Il est donc crucial de comprendre le fonctionnement de tf-idf et son lien avec le référencement. Une bonne compréhension et mise en œuvre de tf-idf pour le référencement peut vous aider à enrichir votre contenu et à voir les récompenses de votre trafic organique.

Réserver une consultation