高級頁面優化——超越關鍵字密度:用於 SEO 的 TF-IDF
已發表: 2021-02-26我們都知道搜索引擎優化 (SEO) 並不新鮮。 它現在是一個成熟的、多方面的領域,經歷了許多變化。 搜索引擎評估和排名頁面的方式不斷變化導致了 SEO 中的許多曲折(請查看這篇關於 SEO 成本的文章)。
鏈接建設是另一件備受矚目的事情。 一旦反向鏈接的重要性變得清晰,就會發生這種情況。 當任何給定站點的信息架構被認為是一個關鍵因素時,更多的技術搜索引擎優化就脫穎而出。
內容的重要性就變得顯而易見了。 搜索引擎讓人們知道網站應該有高質量、相關的內容。 起初,這導致 SEO 專業人士去運行他們的關鍵詞密度和關鍵詞規劃工具。 很快,很明顯這不是最好的方法。 或者至少,使用這些工具進行諸如關鍵字堆砌之類的陰暗做法是行不通的。 它不會欺騙搜索引擎算法。
谷歌和其他搜索引擎正在尋找真正的高質量內容。 他們獎勵與其假設的主題真正相關並回答用戶期望意圖的內容。 創建這樣的內容是谷歌從他們著名的——或臭名昭著的——醫療更新中恢復過來的主要建議。
預約諮詢
結果很明顯,Google 和其他搜索引擎可以準確地評估和評估內容的主題和含義。 他們這樣做的一種方法是使用 tf-idf。 Tf-idf 是搜索引擎使用的最古老的排名因素之一。 在最簡單的層面上,它使他們能夠了解頁面的內容。
這份用於 SEO 的 tf-idf 終極指南將為您提供您可能需要的所有信息。 它將涵蓋什麼是 tf-idf 及其工作原理、tf-idf 與 SEO 的關係以及如何以及何時可以使用 tf-idf 分析。
什麼是 TF-IDF?
Tf-idf 是一種用於信息檢索的數值統計。 它表示與集合或“語料庫”中的其他文檔相比,單詞或短語對給定文檔的重要性。 tf-idf 值與單詞或短語在文檔中出現的次數成比例地增加。
然後用該詞或短語在語料庫中所有文檔中出現的次數來抵消。 這很重要,因為它調整了一些詞在一般用法中出現得更頻繁的事實。
以搜索詞“最佳 SEO”為例。 “The”是一個會在整個語料庫的所有文檔中出現多次的詞。 因此,如果“the”出現在搜索文檔中,則 td-idf 值的重要性不如其他不太常見的詞出現。
Tf-idf 是兩個統計量的乘積。 意思是你將一個乘以另一個。 這就是它表示單詞或短語的重要性並抵消該單詞或短語的一般頻率的方式。 這兩個統計量是詞頻(tf)和逆文檔頻率(idf)。
詞頻
詞頻是 tf-idf 的更簡單的一半。 它表示術語在給定文檔中出現的頻率。 計算詞頻所需要做的就是文檔的字長和詞出現的次數。 然後用單詞出現的次數除以總單詞數。 這意味著詞頻總是介於零和一之間的值。
在最簡單的層面上,術語頻率按以下方式計算:
TF(詞頻)= t(詞條在文檔中出現的次數)/ d(文檔中的總字數)
通過考慮文檔的長度和術語出現的次數,您可以清楚地了解文檔與給定術語的相關性。 但是,您無法確定,除非您知道該術語在一般文檔中出現的頻率。 這就是反向文檔頻率 (idf) 的用武之地。
逆向文檔頻率
許多文檔中經常使用的詞不利於確定哪些文檔與特定搜索詞相關。 反向文檔頻率是一種統計數據,可以減輕這些常用術語的權重。
它確保如果您正在搜索“the quick brown fox”,那麼在文檔中多次出現的“the”將不會像其他詞一樣重要。 逆文檔頻率是衡量一個詞或術語提供多少信息的量度。
計算 idf 的公式看起來很複雜:
IDF = log (Nd / fi)
如果將它分解成多個部分,它並沒有那麼複雜。
Log 只是一個數學函數,理解起來並不太重要。 如果需要,您只需按計算器上的“日誌”按鈕即可。 'Nd' 是正在搜索的集合或語料庫中的文檔數。 'fi' 是包含搜索詞的那些文檔的數量。
然後,您可以通過將文檔數除以具有搜索詞的文檔數然後應用對數函數來獲得 IDF 值。
TF-IDF 求解示例
現在,我們可以將所學知識用於一個非常簡單的示例。 假設您有一個 100 字的文檔,您在其中搜索“關鍵字”一詞。 如果那個詞出現了三次,你可以計算出詞頻如下:
3(文檔中的術語數)/ 100(總字數)= 0.03
你的詞頻是 0.03。 現在假設你搜索的語料庫中總共有 1000 萬篇文檔,其中 1000 篇出現了“關鍵字”。 您現在擁有計算 idf 所需的一切:
日誌(10,000,000 / 1,000)= 4
您的逆文檔頻率是 4。tf-idf 值只是詞頻乘以 idf,因此:
0.03 (tf) x 4 (idf) = 0.12
你的 tf-idf 值為 0.12。 這本身並不能告訴你太多,但可以與其他價值觀進行比較。 tf-idf 值越高,術語對給定文檔越重要。 最高的 tf-idf 值會在語料庫中的詞頻較高且包含該詞的文檔數量較少時產生。 下表應該有助於證明這一點:
詞頻 (TF) | 語料庫大小(Nd) | 有期限的文件 (fi) | 逆文檔頻率 (IDF) | 特遣隊-IDF |
0.03 | 10,000,000 | 1,000 | 4個 | 0.12 |
0.04 | 10,000,000 | 900 | 4.05 | 0.162 |
0.05 | 10,000,000 | 800 | 4.10 | 0.205 |
0.06 | 10,000,000 | 700 | 4.15 | 0.249 |
0.07 | 10,000,000 | 600 | 4.22 | 0.295 |
TF-IDF、SEO 和 LSI
Tf-idf 最常用作潛在語義索引 (LSI) 的一部分。 這當然是直接連接 tf-idf 和 SEO 的地方。 LSI with tf-idf 是一種處理語言的技術。 它允許根據與單個搜索詞或更廣泛的主題領域的相關性對文檔進行排名。

LSI 的工作原理是識別非結構化文本集合中不同短語和概念之間關係的模式。 它基於這樣的想法,即在相同上下文中使用的單詞往往具有相關或相似的含義。
通過建立術語和短語之間的模式,LSI 可以辨別文本正文的一般主題或主題。 當帶有 tf-idf 的 LSI 應用於文檔語料庫時,查詢或搜索詞將返回更準確的結果。
這是因為結果將包括概念上與搜索含義相似的文檔。 即使文檔不包含搜索詞中的特定詞,情況也會如此。 使用 tf-idf 的 LSI 的目標是理解文檔語料庫的實際主題和焦點。
簡而言之,當作為 LSI 的一部分使用時,tf-idf 可以讓機器理解文本頁面的內容。 因此,它是谷歌和其他搜索引擎評估內容相關性和有用性的方式。
tf-idf 對 SEO 的重要性當然越來越明顯。 它是最早的搜索引擎排名因素之一,甚至可以被視為搜索引擎和 SERP 的關鍵組成部分。 更重要的是,tf-idf 幫助 Google 評估頁面與任何搜索詞或查詢的實際相關性和實用性。
這就引出了我們對 tf-idf 的更好理解如何用於 SEO 的問題。 無論是 SaaS SEO 機構還是希望增加自然流量的小企業主。 AJ Ghergich 在 SEMrush 視頻中就該主題發表了自己的看法:
'tf-idf 的總體目標是統計衡量一個詞在文檔集合中的重要性。 它就像是一個非常有用的關鍵字密度工具。
搜索引擎優化
這是一個簡潔的小類比,但可能有點誤導。 Tf-idf 分析不適合用於識別要插入到內容中的關鍵字。 最好將其視為一種內容靈感工具。
使用 tf-idf 將您自己的內容與排名更好的相似頁面進行比較,可以為您提供有關如何豐富內容的建議。 它將指向排名較高的內容比您的頁面得分更高的 tf-idf 值的關鍵字和短語。
這將顯示您的內容未涵蓋哪些主題領域和主題的詳細信息或類似頁面。 然後,您就有瞭如何以 Google 肯定會喜歡的方式改進您的內容的路線圖。 那是通過增強它的相關性以及它如何滿足正在搜索特定關鍵字或短語的潛在讀者的意圖。
使用 TF-IDF 進行 SEO
使用 TF-IDF 進行 SEO 與關鍵字密度無關。 它遠不止於此。
執行 tf-idf 分析確實會揭示您的內容以及其他頁面未處理的術語和短語。 然後,您的下一步是不要開始在現有內容中插入這些短語來提高關鍵字密度。 您要做的是優化您的內容,使其與圍繞這些短語的主題和主題更加相關。
例如,您可能有一個以 SEO 作為主要主題的頁面。 tf-idf 分析可能表明,與其他在 SEO 搜索中排名較高的頁面相比,它對術語“鏈接構建”的價值較低。 這告訴您您的內容沒有提供足夠的有關鏈接構建的相關有用信息。 就這麼簡單,您有一種改進內容的明確方法。
在考慮改進內容之前,您需要知道如何執行 tf-idf 分析。 讓我們現在就處理這個問題。
如何完成 TF-IDF 分析
從技術上講,可以手動運行 tf-idf 分析,執行您自己的計算。 雖然可能,但不建議這樣做。 正如您已經看到的,計算可能會變得有點複雜並且總是需要時間。
這還不是最大的問題。 僅當您比較內容的語料庫相關且有用時,tf-idf 分析才有價值。 您希望能夠將您的內容的 tf-idf 值與其他對您的重要關鍵字評價良好的頁面進行比較。 這就是 tf-idf 工具(例如 Ryte 提供的工具)的用武之地。
Ryte 的工具可以將您網站的實時 URL 與給定關鍵字或搜索查詢的前十名 Google 搜索結果進行比較。 然後它將提供重要的相關術語和短語列表,排名靠前的內容具有較高的 tf-idf 值。
最重要的是,Ryte 的工具還會根據這些短語和術語對您選擇的 URL 進行評分。 它將顯示您的內容是否具有每個內容的高、高或低 tf-idf 值。
該信息將向您展示您的內容需要改進的地方和方式。 它會為您提供您的頁面沒有足夠有效地涵蓋的主題和主題。 因此,您將能夠定制頁面以更好地滿足其讀者的需求和意圖。
您現在可能想知道什麼時候應該使用 tf-idf 分析。 畢竟,在 SEO 領域內外還有很多其他事情需要做。
何時使用 TF-IDF 分析
任何時候都可以考慮改進您網站的內容。 一天也只有這麼多小時。 這意味著最好在最有可能產生影響的情況下實施 tf-idf 分析。 這種情況有幾個例子;
- 釋放現有內容的潛力
如果您的網頁始終排在 Google 搜索的第二頁,那麼 Tf-idf 會非常有用。 排名如此之高,該頁面顯然具有潛力。 tf-idf 分析可以幫助您計算出最後跳到第一頁所需的確切調整和添加。
- 指導新的內容計劃
tf-idf 分析作為內容的靈感是極好的。 對某些主題和主題排名良好的頁面進行分析將向您展示您自己的內容需要涵蓋的內容。 這可以成為為大量新內容制定計劃的重要基礎。
- 阻止排名下降
如果您有一個曾經表現最佳的頁面,但它在重要關鍵字的排名上下滑,tf-idf 也可以提供幫助。 它可以向您展示哪些關鍵字和主題的頁面超過您的頁面獲得了更好的 tf-idf 值。 然後,您可以相應地改進和更新您自己的內容。
用於 SEO 的 TF-IDF – 超越關鍵字密度
在現代 SEO 世界中有太多需要考慮的因素。 站點架構、鏈接、關鍵字密度和所有其他傳統元素仍然至關重要。 然而,可以說,現在內容為王。 或者至少需要像其他任何因素一樣給予它同樣多的關注。
網站再也無法擺脫關鍵字堆砌或用重複或隱藏的垃圾內容填充頁面的情況。 網站需要包含對讀者真正有用的高質量內容。 Tf-idf 是谷歌和其他搜索引擎在這方面評估內容的主要方式。
因此,了解 tf-idf 的工作原理以及它與 SEO 的關係至關重要。 正確理解和實施用於 SEO 的 tf-idf 可以幫助您豐富您的內容並看到自然流量的回報。
預約諮詢

Nick Brown 是 SaaS SEO 機構 accelerate agency 的創始人兼首席執行官。 尼克推出了幾項成功的在線業務,為福布斯撰稿,出版了一本書,並從一家英國機構加速成長為一家目前在美國、亞太地區和歐洲、中東和非洲開展業務並擁有 160 名員工的公司。 他也曾被一隻山地大猩猩襲擊