高级页面优化——超越关键字密度:用于 SEO 的 TF-IDF

已发表: 2021-02-26

我们都知道搜索引擎优化 (SEO) 并不新鲜。 它现在是一个成熟的、多方面的领域,经历了许多变化。 搜索引擎评估和排名页面的方式不断变化导致了 SEO 中的许多曲折(请查看这篇关于 SEO 成本的文章)。

链接建设是另一件备受瞩目的事情。 一旦反向链接的重要性变得清晰,就会发生这种情况。 当任何给定站点的信息架构被认为是一个关键因素时,更多的技术搜索引擎优化就脱颖而出。

内容的重要性就变得显而易见了。 搜索引擎让人们知道网站应该有高质量、相关的内容。 起初,这导致 SEO 专业人士去运行他们的关键词密度和关键词规划工具。 很快,很明显这不是最好的方法。 或者至少,使用这些工具进行诸如关键字堆砌之类的阴暗做法是行不通的。 它不会欺骗搜索引擎算法。

谷歌和其他搜索引擎正在寻找真正的高质量内容。 他们奖励与其假设的主题真正相关并回答用户期望意图的内容。 创建这样的内容是谷歌从他们著名的——或臭名昭著的——医疗更新中恢复过来的主要建议。

预约咨询

结果很明显,Google 和其他搜索引擎可以准确地评估和评估内容的主题和含义。 他们这样做的一种方法是使用 tf-idf。 Tf-idf 是搜索引擎使用的最古老的排名因素之一。 在最简单的层面上,它使他们能够了解页面的内容。

这份用于 SEO 的 tf-idf 终极指南将为您提供您可能需要的所有信息。 它将涵盖什么是 tf-idf 及其工作原理、tf-idf 与 SEO 的关系以及如何以及何时可以使用 tf-idf 分析。

什么是 TF-IDF?

Tf-idf 是一种用于信息检索的数值统计。 它表示与集合或“语料库”中的其他文档相比,单词或短语对给定文档的重要性。 tf-idf 值与单词或短语在文档中出现的次数成比例地增加。

然后用该词或短语在语料库中所有文档中出现的次数来抵消。 这很重要,因为它调整了一些词在一般用法中出现得更频繁的事实。

以搜索词“最佳 SEO”为例。 “The”是一个会在整个语料库的所有文档中出现多次的词。 因此,如果“the”出现在搜索文档中,则 td-idf 值的重要性不如其他不太常见的词出现。

Tf-idf 是两个统计量的乘积。 意思是你将一个乘以另一个。 这就是它表示单词或短语的重要性并抵消该单词或短语的一般频率的方式。 这两个统计量是词频(tf)和逆文档频率(idf)。

词频

词频是 tf-idf 的更简单的一半。 它表示术语在给定文档中出现的频率。 计算词频所需要做的就是文档的字长和词出现的次数。 然后用单词出现的次数除以总单词数。 这意味着词频总是介于零和一之间的值。

在最简单的层面上,术语频率按以下方式计算:

TF(词频)= t(词条在文档中出现的次数)/ d(文档中的总字数)

通过考虑文档的长度和术语出现的次数,您可以清楚地了解文档与给定术语的相关性。 但是,您无法确定,除非您知道该术语在一般文档中出现的频率。 这就是反向文档频率 (idf) 的用武之地。

逆向文档频率

许多文档中经常使用的词不利于确定哪些文档与特定搜索词相关。 反向文档频率是一种统计数据,可以减轻这些常用术语的权重。

它确保如果您正在搜索“the quick brown fox”,那么在文档中多次出现的“the”将不会像其他词一样重要。 逆文档频率是衡量一个词或术语提供多少信息的量度。

计算 idf 的公式看起来很复杂:

IDF = log (Nd / fi)

如果将它分解成多个部分,它并没有那么复杂。

Log 只是一个数学函数,理解起来并不太重要。 如果需要,您只需按计算器上的“日志”按钮即可。 'Nd' 是正在搜索的集合或语料库中的文档数。 'fi' 是包含搜索词的那些文档的数量。

然后,您可以通过将文档数除以具有搜索词的文档数然后应用对数函数来获得 IDF 值。

TF-IDF 求解示例

现在,我们可以将所学知识用于一个非常简单的示例。 假设您有一个 100 字的文档,您在其中搜索“关键字”一词。 如果那个词出现了三次,你可以计算出词频如下:

3(文档中的术语数)/ 100(总字数)= 0.03

你的词频是 0.03。 现在假设你搜索的语料库中总共有 1000 万篇文档,其中 1000 篇出现了“关键词”。 您现在拥有计算 idf 所需的一切:

日志(10,000,000 / 1,000)= 4

您的逆文档频率是 4。tf-idf 值只是词频乘以 idf,因此:

0.03 (tf) x 4 (idf) = 0.12

你的 tf-idf 值为 0.12。 这本身并不能告诉你太多,但可以与其他价值观进行比较。 tf-idf 值越高,术语对给定文档越重要。 最高的 tf-idf 值会在语料库中的词频较高且包含该词的文档数量较少时产生。 下表应该有助于证明这一点:

词频 (TF)

语料库大小(Nd)

有期限的文件 (fi)

逆文档频率 (IDF)

特遣队-IDF

0.03

10,000,000 1,000 4个0.12

0.04

10,000,000

900 4.05 0.162

0.05

10,000,000

800

4.10

0.205

0.06 10,000,000 700 4.15

0.249

0.07 10,000,000 600 4.22

0.295

TF-IDF、SEO 和 LSI

Tf-idf 最常用作潜在语义索引 (LSI) 的一部分。 这当然是直接连接 tf-idf 和 SEO 的地方。 LSI with tf-idf 是一种处理语言的技术。 它允许根据与单个搜索词或更广泛的主题领域的相关性对文档进行排名。

LSI 的工作原理是识别非结构化文本集合中不同短语和概念之间关系的模式。 它基于这样的想法,即在相同上下文中使用的单词往往具有相关或相似的含义。

通过建立术语和短语之间的模式,LSI 可以辨别文本正文的一般主题或主题。 当带有 tf-idf 的 LSI 应用于文档语料库时,查询或搜索词将返回更准确的结果。

这是因为结果将包括概念上与搜索含义相似的文档。 即使文档不包含搜索词中的特定词,情况也会如此。 使用 tf-idf 的 LSI 的目标是理解文档语料库的实际主题和焦点。

简而言之,当作为 LSI 的一部分使用时,tf-idf 可以让机器理解文本页面的内容。 因此,它是谷歌和其他搜索引擎评估内容相关性和有用性的方式。

tf-idf 对 SEO 的重要性当然越来越明显。 它是最早的搜索引擎排名因素之一,甚至可以被视为搜索引擎和 SERP 的关键组成部分。 更重要的是,tf-idf 帮助 Google 评估页面与任何搜索词或查询的实际相关性和实用性。

这就引出了我们对 tf-idf 的更好理解如何用于 SEO 的问题。 无论是 SaaS SEO 机构还是希望增加有机流量的小企业主。 AJ Ghergich 在 SEMrush 视频中就该主题发表了自己的看法:

'tf-idf 的总体目标是统计衡量一个词在文档集合中的重要性。 它就像是一个非常有用的关键字密度工具。

搜索引擎优化

这是一个简洁的小类比,但可能有点误导。 Tf-idf 分析不适合用于识别要插入到内容中的关键字。 最好将其视为一种内容灵感工具。

使用 tf-idf 将您自己的内容与排名更好的相似页面进行比较,可以为您提供有关如何丰富内容的建议。 它将指向排名较高的内容比您的页面得分更高的 tf-idf 值的关键字和短语。

这将显示您的内容未涵盖哪些主题领域和主题的详细信息或类似页面。 然后,您就有了如何以 Google 肯定会喜欢的方式改进您的内容的路线图。 那是通过增强它的相关性以及它如何满足正在搜索特定关键字或短语的潜在读者的意图。

使用 TF-IDF 进行 SEO

使用 TF-IDF 进行 SEO 与关键字密度无关。 它远不止于此。

执行 tf-idf 分析确实会揭示您的内容以及其他页面未处理的术语和短语。 然后,您的下一步是不要开始在现有内容中插入这些短语来提高关键字密度。 您要做的是优化您的内容,使其与围绕这些短语的主题和主题更加相关。

例如,您可能有一个以 SEO 作为主要主题的页面。 tf-idf 分析可能表明,与其他在 SEO 搜索中排名较高的页面相比,它对术语“链接构建”的价值较低。 这告诉您您的内容没有提供足够的有关链接构建的相关有用信息。 就这么简单,您有一种改进内容的明确方法。

在考虑改进内容之前,您需要知道如何执行 tf-idf 分析。 让我们现在就处理这个问题。

如何完成 TF-IDF 分析

从技术上讲,可以手动运行 tf-idf 分析,执行您自己的计算。 虽然可能,但不建议这样做。 正如您已经看到的,计算可能会变得有点复杂并且总是需要时间。

这还不是最大的问题。 仅当您比较内容的语料库相关且有用时,tf-idf 分析才有价值。 您希望能够将您的内容的 tf-idf 值与其他对您的重要关键字评价良好的页面进行比较。 这就是 tf-idf 工具(例如 Ryte 提供的工具)的用武之地。

Ryte 的工具可以将您网站的实时 URL 与给定关键字或搜索查询的前十名 Google 搜索结果进行比较。 然后它将提供重要的相关术语和短语列表,排名靠前的内容具有较高的 tf-idf 值。

最重要的是,Ryte 的工具还会根据这些短语和术语对您选择的 URL 进行评分。 它将显示您的内容是否具有每个内容的高、高或低 tf-idf 值。

该信息将向您展示您的内容需要改进的地方和方式。 它会为您提供您的页面没有足够有效地涵盖的主题和主题。 因此,您将能够定制页面以更好地满足其读者的需求和意图。

您现在可能想知道什么时候应该使用 tf-idf 分析。 毕竟,在 SEO 领域内外还有很多其他事情需要做。

何时使用 TF-IDF 分析

任何时候都可以考虑改进您网站的内容。 一天也只有这么多小时。 这意味着最好在最有可能产生影响的情况下实施 tf-idf 分析。 这种情况有几个例子;

  • 释放现有内容的潜力

如果您的网页始终排在 Google 搜索的第二页,那么 Tf-idf 会非常有用。 排名如此之高,该页面显然具有潜力。 tf-idf 分析可以帮助您计算出最后跳到第一页所需的确切调整和添加。

  • 指导新的内容计划

tf-idf 分析作为内容的灵感是极好的。 对某些主题和主题排名良好的页面进行分析将向您展示您自己的内容需要涵盖的内容。 这可以成为为大量新内容制定计划的重要基础。

  • 阻止排名下降

如果您有一个曾经表现最佳的页面,但它在重要关键字的排名上下滑,tf-idf 也可以提供帮助。 它可以向您展示哪些关键字和主题的页面超过您的页面获得了更好的 tf-idf 值。 然后,您可以相应地改进和更新您自己的内容。

用于 SEO 的 TF-IDF – 超越关键字密度

在现代 SEO 世界中有太多需要考虑的因素。 站点架构、链接、关键字密度和所有其他传统元素仍然至关重要。 然而,可以说,现在内容为王。 或者至少需要像其他任何因素一样给予它同样多的关注。

网站再也无法摆脱关键字堆砌或用重复或隐藏的垃圾内容填充页面的情况。 网站需要包含对读者真正有用的高质量内容。 Tf-idf 是谷歌和其他搜索引擎在这方面评估内容的主要方式。

因此,了解 tf-idf 的工作原理以及它与 SEO 的关系至关重要。 正确理解和实施用于 SEO 的 tf-idf 可以帮助您丰富您的内容并看到自然流量的回报。

预约咨询