Erweiterte On-Page-Optimierung – Jenseits der Keyword-Dichte: TF-IDF für SEO
Veröffentlicht: 2021-02-26Wir alle wissen, dass Suchmaschinenoptimierung (SEO) nichts Neues ist. Es ist heute ein etabliertes und facettenreiches Feld, das viele Veränderungen erfahren hat. Die sich ändernde Art und Weise, wie Suchmaschinen Seiten bewerten und einordnen, hat zu vielen dieser Drehungen und Wendungen im SEO geführt (siehe diesen Artikel über die Kosten von SEO).
Linkbuilding ist eine weitere Sache, die zu einer bedeutenden Bedeutung gelangt ist. Das geschah, als die Bedeutung von Backlinks klar wurde. Eine eher technische SEO trat in den Vordergrund, als die Informationsarchitektur einer bestimmten Website als entscheidender Faktor erkannt wurde.
Die Bedeutung des Inhalts wurde dann deutlich. Suchmaschinen haben bekannt gemacht, dass Websites qualitativ hochwertigen und relevanten Inhalt haben sollten. Das führte zunächst dazu, dass SEO-Profis für ihre Keyword-Dichte- und Keyword-Planungs-Tools kandidierten. Nach kurzer Zeit stellte sich heraus, dass dies nicht der beste Weg war. Oder zumindest, dass die Verwendung dieser Tools für zwielichtige Praktiken wie Keyword Stuffing nicht funktionieren würde. Es würde Suchmaschinenalgorithmen nicht täuschen.
Google und andere Suchmaschinen suchen nach qualitativ hochwertigen Inhalten. Sie belohnen Inhalte, die für das vermeintliche Thema wirklich relevant sind und die gewünschte Absicht eines Benutzers erfüllen. Das Erstellen solcher Inhalte war der wichtigste Ratschlag von Google, um sich von ihrem berühmten – oder berüchtigten – Medic Update zu erholen.
Buchen Sie eine Beratung
Es liegt also auf der Hand, dass Google und andere Suchmaschinen das Thema und die Bedeutung von Inhalten genau einschätzen und bewerten können. Eine Möglichkeit, dies zu tun, ist die Verwendung von tf-idf. Tf-idf ist einer der ältesten Ranking-Faktoren, die von Suchmaschinen verwendet werden. Auf der einfachsten Ebene ermöglicht es ihnen zu verstehen, worum es auf Seiten geht.
Dieser ultimative Leitfaden für tf-idf für SEO gibt Ihnen alle Informationen, die Sie benötigen könnten. Es wird behandelt, was tf-idf ist und wie es funktioniert, wie sich tf-idf auf SEO bezieht und wie und wann Sie die tf-idf-Analyse nutzen können.
Was ist TF-IDF?
Tf-idf ist eine numerische Statistik, die beim Informationsabruf verwendet wird. Sie stellt dar, wie wichtig ein Wort oder Satz für ein bestimmtes Dokument im Vergleich zu anderen Dokumenten in einer Sammlung oder einem „Korpus“ ist. Ein tf-idf-Wert steigt proportional zu der Häufigkeit, mit der ein Wort oder eine Phrase in einem Dokument vorkommt.
Dies wird dann durch die Häufigkeit ausgeglichen, mit der dieses Wort oder dieser Satz in allen Dokumenten im Korpus vorkommt. Dies ist wichtig, da es der Tatsache Rechnung trägt, dass einige Wörter im allgemeinen Sprachgebrauch häufiger vorkommen.
Nehmen Sie das Beispiel eines Suchbegriffs wie „die beste SEO“. „The“ ist ein Wort, das viele Male in allen Dokumenten eines Korpus auftaucht. Folglich ist es für einen td-idf-Wert weniger wichtig, ob „the“ in dem durchsuchten Dokument vorkommt, als ob die anderen, weniger gebräuchlichen Wörter dies tun.
Tf-idf ist das Produkt zweier Statistiken. Das heißt, man multipliziert sie miteinander. Auf diese Weise stellt es die Wichtigkeit eines Wortes oder einer Phrase dar und gleicht die allgemeine Häufigkeit dieses Wortes oder dieser Phrase aus. Die beiden Statistiken sind Term Frequency (tf) und Inverse Document Frequency (idf).
Laufzeit
Die Termhäufigkeit ist die einfachere Hälfte von tf-idf. Sie gibt an, wie oft ein Begriff in einem bestimmten Dokument vorkommt. Alles, was benötigt wird, um die Begriffshäufigkeit zu ermitteln, ist die Wortlänge des Dokuments und die Häufigkeit, mit der der Begriff vorkommt. Dann teilst du die Häufigkeit, mit der das Wort vorkommt, durch die Gesamtzahl der Wörter. Das bedeutet, dass die Termhäufigkeit immer ein Wert zwischen null und eins sein wird.
Auf der einfachstmöglichen Ebene wird die Begriffshäufigkeit wie folgt berechnet:
TF (Begriffshäufigkeit) = t (Wie oft ein Begriff in einem Dokument vorkommt) / d (Gesamtzahl der Wörter im Dokument)
Indem Sie die Länge des Dokuments und die Häufigkeit des Auftretens des Begriffs berücksichtigen, erhalten Sie eine ungefähre Vorstellung davon, wie relevant das Dokument für den angegebenen Begriff ist. Sie können es jedoch nicht mit Sicherheit wissen, es sei denn, Sie wissen, wie oft der Begriff im Allgemeinen in Dokumenten vorkommt. Hier kommt die Inverse Document Frequency (idf) ins Spiel.
Umgekehrte Dokumentenhäufigkeit
Wörter, die sehr häufig in vielen Dokumenten verwendet werden, sind nicht gut geeignet, um festzustellen, welche Dokumente für einen bestimmten Suchbegriff relevant sind. Inverse Document Frequency ist eine Statistik, die das Gewicht verringert, das diesen allgemeinen Begriffen beigemessen wird.
Es stellt sicher, dass bei der Suche nach „the quick brown fox“ das häufige Auftreten von „the“ in einem Dokument nicht so wichtig ist, wie wenn die anderen Wörter vorhanden sind. Die Inverse Document Frequency ist ein Maß dafür, wie viele Informationen ein Wort oder Begriff bereitstellt.
Die Formel zur Berechnung von idf sieht ziemlich kompliziert aus:
IDF = log (Nd / fi)
Wenn Sie es in seine Teile zerlegen, ist es nicht so komplex.
Log ist einfach eine mathematische Funktion, deren Verständnis nicht so wichtig ist. Sie können bei Bedarf einfach die „Log“-Taste auf einem Taschenrechner drücken. 'Nd' ist die Anzahl der Dokumente in der Sammlung oder dem Korpus, die durchsucht werden. 'fi' ist die Anzahl der Dokumente, die den Suchbegriff enthalten.
Ihren IDF-Wert erhalten Sie dann, indem Sie die Anzahl der Dokumente durch die Anzahl der Dokumente mit dem Suchbegriff dividieren und dann die Log-Funktion anwenden.
TF-IDF gelöstes Beispiel
Wir können jetzt das, was wir gelernt haben, für ein sehr einfaches Beispiel verwenden. Angenommen, Sie haben ein Dokument mit 100 Wörtern und suchen darin nach dem Wort „Schlüsselwort“. Wenn dieses Wort dreimal vorkommt, können Sie die Begriffshäufigkeit wie folgt errechnen:
3 (Anzahl der Begriffe im Dokument) / 100 (Gesamtwörter) = 0,03
Ihre Termhäufigkeit beträgt 0,03. Angenommen, es gibt insgesamt zehn Millionen Dokumente in dem von Ihnen durchsuchten Korpus, und „Schlüsselwort“ erscheint in 1.000 davon. Sie haben jetzt alles, was Sie brauchen, um Ihr IDF zu berechnen:
Protokoll (10.000.000 / 1.000) = 4
Ihre inverse Dokumentenhäufigkeit ist 4. Ein tf-idf-Wert ist einfach die Begriffshäufigkeit multipliziert mit idf, also:
0,03 (tf) x 4 (idf) = 0,12
Ihr tf-idf-Wert ist 0,12. Das allein sagt nicht viel aus, kann aber mit anderen Werten verglichen werden. Je höher der tf-idf-Wert, desto signifikanter ist ein Begriff für das jeweilige Dokument. Die höchsten tf-idf-Werte ergeben sich bei einer hohen Begriffshäufigkeit und einer geringen Anzahl von Dokumenten, die den Begriff in einem Korpus enthalten. Die folgende Tabelle soll dies verdeutlichen:
Laufzeit (TF) | Korpusgröße (Nd) | Dokumente mit Begriff (fi) | Inverse Dokumentenhäufigkeit (IDF) | TF-IDF |
0,03 | 10.000.000 | 1.000 | 4 | 0,12 |
0,04 | 10.000.000 | 900 | 4.05 | 0,162 |
0,05 | 10.000.000 | 800 | 4.10 | 0,205 |
0,06 | 10.000.000 | 700 | 4.15 | 0,249 |
0,07 | 10.000.000 | 600 | 4.22 | 0,295 |
TF-IDF, SEO und LSI
Tf-idf wird am häufigsten als Teil von Latent Semantic Indexing (LSI) verwendet. Dies ist sicherlich das, was tf-idf und SEO direkt verbindet. LSI mit tf-idf ist eine Technik zur Sprachverarbeitung. Es ermöglicht das Ranking von Dokumenten basierend auf der Relevanz für einen einzelnen Suchbegriff oder ein breiteres Themengebiet.
LSI identifiziert Muster in den Beziehungen zwischen verschiedenen Ausdrücken und Konzepten in unstrukturierten Textsammlungen. Es basiert auf der Idee, dass Wörter, die in denselben Kontexten verwendet werden, tendenziell verwandte oder ähnliche Bedeutungen haben.
Durch die Ermittlung der Muster zwischen Begriffen und Phrasen ermöglicht LSI, das allgemeine Thema oder Thema eines Textkörpers zu erkennen. Wenn LSI mit tf-idf auf einen Korpus von Dokumenten angewendet wird, liefert eine Abfrage oder ein Suchbegriff genauere Ergebnisse.

Das liegt daran, dass die Ergebnisse Dokumente enthalten, die konzeptionell eine ähnliche Bedeutung wie die Suche haben. Dies gilt auch dann, wenn die Dokumente keine bestimmten Wörter aus dem Suchbegriff enthalten. Das Ziel von LSI mit tf-idf ist es, die tatsächlichen Themen und Schwerpunkte eines Korpus von Dokumenten zu verstehen.
Kurz gesagt, tf-idf, wenn es als Teil von LSI verwendet wird, lässt Maschinen verstehen, worum es in Textseiten geht. So können Google und andere Suchmaschinen die Relevanz und Nützlichkeit von Inhalten einschätzen.
Die Bedeutung von tf-idf für SEO wird sicherlich immer deutlicher. Es ist einer der frühesten Suchmaschinen-Ranking-Faktoren und kann sogar als wichtiger Baustein von Suchmaschinen und SERPs angesehen werden. Noch wichtiger ist, dass tf-idf Google hilft, die tatsächliche Relevanz und Nützlichkeit von Seiten in Bezug auf einen Suchbegriff oder eine Suchanfrage zu bewerten.
Das wirft die Frage auf, wie unser besseres Verständnis von tf-idf für SEO genutzt werden kann. Ob von einer SaaS-SEO-Agentur oder einem Kleinunternehmer, der den organischen Traffic steigern möchte. AJ Ghergich äußerte sich in einem SEMrush-Video zum Thema:
„Das übergeordnete Ziel von tf-idf ist es, statistisch zu messen, wie wichtig ein Wort in einer Sammlung von Dokumenten ist. Es ist wie ein wirklich nützliches Keyword-Dichte-Tool für Steroide.'
SEMrush
Das ist eine nette kleine Analogie, aber es könnte ein wenig irreführend sein. Die Tf-idf-Analyse wird nicht am besten verwendet, um Schlüsselwörter zu identifizieren, die in Inhalte eingefügt werden sollen. Es ist besser, es als eine Art Inspirationstool für Inhalte zu betrachten.
Die Verwendung von tf-idf zum Vergleich Ihrer eigenen Inhalte mit ähnlichen Seiten, die besser ranken, kann Ihnen Vorschläge geben, wie Sie die Inhalte anreichern können. Es wird auf Schlüsselwörter und Phrasen verweisen, für die der höher eingestufte Inhalt bessere tf-idf-Werte erzielt als Ihre Seiten.
Das wird zeigen, welche Themenbereiche und Themen Ihre Inhalte nicht so detailliert oder ähnlich gut abdecken wie Seiten. Sie haben dann eine Roadmap, wie Sie Ihre Inhalte so verbessern können, dass Google sie sicher mag. Das bedeutet, dass es seine Relevanz erhöht und wie gut es die Absicht potenzieller Leser erfüllt, die nach bestimmten Schlüsselwörtern oder Phrasen suchen.
Verwendung von TF-IDF für SEO
Bei der Verwendung von TF-IDF für SEO geht es nicht um die Keyword-Dichte. Es bewegt sich weit darüber hinaus.
Die Durchführung einer tf-idf-Analyse deckt Begriffe und Phrasen auf, mit denen sich Ihre Inhalte nicht so gut befassen, wie andere Seiten. Ihr nächster Schritt besteht dann nicht darin, diese Phrasen in Ihren bestehenden Inhalt einzufügen, um die Keyword-Dichte zu erhöhen. Was Sie tun möchten, ist, Ihren Inhalt so zu optimieren, dass er für die Themen und Themen rund um diese Sätze relevanter ist.
Sie könnten zum Beispiel eine Seite mit SEO als Hauptthema haben. Eine tf-idf-Analyse kann zeigen, dass sie für den Begriff „Linkbuilding“ weniger Wert hat als andere Seiten, die bei SEO-Suchen einen hohen Rang einnehmen. Das sagt Ihnen, dass Ihr Inhalt nicht genügend relevante, nützliche Informationen zum Linkaufbau liefert. So einfach haben Sie eine bestimmte Möglichkeit, Ihre Inhalte zu verbessern.
Bevor Sie über die Verbesserung Ihrer Inhalte nachdenken können, müssen Sie wissen, wie man eine tf-idf-Analyse durchführt. Beschäftigen wir uns gleich damit.
So führen Sie eine TF-IDF-Analyse durch
Es ist technisch möglich, eine tf-idf-Analyse manuell durchzuführen und eigene Berechnungen durchzuführen. Obwohl möglich, wird es nicht empfohlen. Wie Sie bereits gesehen haben, können Berechnungen etwas kompliziert werden und dauern immer länger.
Das ist nicht einmal das größte Problem. Eine tf-idf-Analyse lohnt sich nur, wenn das Korpus, mit dem Sie Inhalte vergleichen, relevant und nützlich ist. Sie möchten in der Lage sein, die tf-idf-Werte Ihres Inhalts mit anderen Seiten zu vergleichen, die für Ihre wichtigen Keywords gut abschneiden. Hier kommt ein tf-idf-Tool ins Spiel, wie es beispielsweise von Ryte angeboten wird.
Das Tool von Ryte kann eine Live-URL von Ihrer Website mit den zehn besten Google-Suchergebnissen für ein bestimmtes Schlüsselwort oder eine bestimmte Suchanfrage vergleichen. Anschließend wird eine Liste wichtiger verwandter Begriffe und Phrasen bereitgestellt, für die der hochrangige Inhalt einen hohen tf-idf-Wert aufweist.
Darüber hinaus bewertet das Tool von Ryte Ihre gewählte URL auch anhand dieser Phrasen und Begriffe. Es zeigt, ob Ihr Inhalt für jeden von ihnen so hohe, höhere oder niedrigere tf-idf-Werte hat.
Diese Informationen zeigen Ihnen, wo und wie Ihre Inhalte verbessert werden müssen. Es gibt Ihnen die Themen und Themen, die Ihre Seite nicht effizient genug abdeckt. Sie werden daher in der Lage sein, die Seite besser an die Bedürfnisse und Absichten ihrer Leser anzupassen.
Sie fragen sich jetzt wahrscheinlich, wann Sie die tf-idf-Analyse verwenden sollten. Schließlich gibt es noch viele andere Dinge, die innerhalb und außerhalb des SEO-Bereichs erledigt werden müssen.
Wann sollte die TF-IDF-Analyse verwendet werden?
Es ist nie ein ungünstiger Zeitpunkt, über die Verbesserung des Inhalts Ihrer Website nachzudenken. Es gibt auch nur so viele Stunden am Tag. Das bedeutet, dass es am besten ist, die tf-idf-Analyse unter den Umständen zu implementieren, in denen sie am wahrscheinlichsten einen Unterschied macht. Es gibt eine Handvoll Beispiele für genau solche Umstände;
- Erschließung des Potenzials vorhandener Inhalte
Tf-idf kann wirklich nützlich sein, wenn Sie eine Seite haben, die konstant auf der zweiten Seite der Google-Suche rankt. Da sie in den Rankings so weit oben angekommen ist, hat die Seite eindeutig Potenzial. Eine tf-idf-Analyse kann Ihnen helfen, die genauen Anpassungen und Ergänzungen herauszuarbeiten, die Sie benötigen, um den letzten Sprung auf Seite eins zu schaffen.
- Führung eines neuen Inhaltsplans
Eine tf-idf-Analyse eignet sich hervorragend als Inspiration für Inhalte. Eine Analyse auf gut rankenden Seiten zu bestimmten Themen und Themen zeigt Ihnen, was Ihre eigenen Inhalte abdecken müssen. Das kann eine großartige Grundlage sein, um einen Plan für eine ganze Reihe neuer Inhalte zu skizzieren.
- Rückläufige Rankings verhaften
Wenn Sie eine Seite haben, die früher ein Top-Performer war, aber bei wichtigen Schlüsselwörtern im Ranking nach unten rutscht, kann tf-idf auch dort helfen. Es kann Ihnen zeigen, für welche Keywords und Themen die Seiten, die Ihre überholen, bessere tf-idf-Werte erzielen. Sie können dann Ihre eigenen Inhalte entsprechend verbessern und aktualisieren.
TF-IDF für SEO – Über die Keyword-Dichte hinaus
In der modernen SEO-Welt gibt es so viel zu beachten. Site-Architektur, Links, Keyword-Dichten und all diese anderen traditionellen Elemente bleiben entscheidend. Es kann jedoch argumentiert werden, dass der Inhalt jetzt König ist. Oder zumindest, dass ihm genauso viel Aufmerksamkeit geschenkt werden muss wie jedem dieser anderen Faktoren.
Websites können nicht länger mit Keyword-Stuffing oder mit doppeltem oder verstecktem Spam-Content davonkommen. Websites müssen qualitativ hochwertige Inhalte enthalten, die für die Leser wirklich nützlich sind. Tf-idf ist eine wichtige Methode, mit der Google und andere Suchmaschinen Inhalte in dieser Hinsicht bewerten.
Es ist daher entscheidend zu verstehen, wie tf-idf funktioniert und wie es sich auf SEO bezieht. Ein richtiges Verständnis und die Implementierung von tf-idf für SEO kann Ihnen helfen, Ihre Inhalte zu bereichern und die Belohnungen in Ihrem organischen Traffic zu sehen.
Buchen Sie eine Beratung

Nick Brown ist Gründer und CEO von Accelerate Agency, einer SaaS-SEO-Agentur. Nick hat mehrere erfolgreiche Online-Unternehmen gegründet, schreibt für Forbes, veröffentlichte ein Buch und hat sich von einer britischen Agentur zu einem Unternehmen entwickelt, das heute in den USA, APAC und EMEA tätig ist und 160 Mitarbeiter beschäftigt. Er wurde auch einmal von einem Berggorilla angegriffen