如何查找和修复索引覆盖率问题

已发表: 2020-10-29

您是否遇到 Google 索引问题? 这种麻烦可能会导致流量和转化率下降。

有必要检查您网站的索引页面和未索引页面以快速解决任何问题 在这里,我们将逐步解释如何使用 Google Search Console – 索引覆盖率报告来做到这一点

通过以下方法,我们已经成功解决了数百个网站的索引覆盖问题,这些网站有数百万或数十亿的排除页面。 使用它,这样您的任何相关页面都不会在搜索结果中失去可见性并增加您的 SEO 流量!

目录

第 1 步:检查索引覆盖率报告

Search Console 覆盖率报告会告诉您哪些页面已被 Google 抓取并编入索引,以及这些 URL 为何处于该特定状态。 您可以使用它来检测在抓取和索引过程中发现的任何错误

覆盖报告

要查看索引覆盖率报告,请转到 Google Search Console 并单击覆盖率(就在索引下方)。 打开它后,您会看到一个摘要,其中包含四种不同状态的 URL 分类:

  • 错误:由于某些错误,这些页面无法编入索引并且不会出现在搜索结果中。
  • 警告有效:这些页面可能会或可能不会显示在 Google 搜索结果中。
  • 有效:这些页面已编入索引并可显示在搜索结果中。 你不需要做任何事情。
  • 排除:这些页面未编入索引,不会出现在搜索结果中。 Google 认为您不想将它们编入索引或认为内容不值得编入索引。

您需要检查在错误部分找到的所有页面并尽快更正它们,因为您可能会失去为您的网站带来流量的机会。

如果您有时间,请查看包含在状态Valid with warning中的页面,因为可能有一些重要页面在任何情况下都不应出现在搜索结果中。

最后,确保排除的页面是您不希望被索引的页面。

第二步:如何解决各个索引覆盖状态中发现的问题

打开索引覆盖率报告后,选择所需状态(错误、警告有效或排除)并查看页面底部提供的详细信息。 您会根据严重程度和受影响的页数找到错误类型列表,因此我们建议您从表格顶部开始调查问题。

让我们看看处于不同状态的每个错误以及如何修复它们。

错误状态

GSC 覆盖率报告中的错误页面

服务器错误 (5xx):

这些是向 Google 返回 5xx 状态代码的 URL。

采取的行动:

  • 检查返回的是哪种 500 状态代码 在这里,您有一个完整的列表,其中包含每个服务器错误状态代码的定义。
  • 重新加载 URL 以查看错误是否仍然存在。 5xx 错误是暂时的,不需要任何操作。
  • 验证您的服务器没有过载或配置错误。 在这种情况下,请向您的开发人员寻求帮助,或联系您的托管服务提供商。
  • 执行日志文件分析以检查服务器的错误日志。 这种做法为您提供有关该问题的额外信息。
  • 查看您最近对网站所做的更改,看看其中是否有任何可能是根本原因。 ex) 插件、新的后端代码等。

重定向错误:

GoogleBot 在重定向过程中遇到了不允许抓取页面的错误。 以下任何原因通常会导致此问题。

  • 重定向链太长
  • 重定向循环
  • 超出最大 URL 长度的重定向 URL
  • 重定向链中有错误或空的 URL

采取的行动:

  • 消除重定向链和循环。 让每个 URL 只执行一次重定向。 换句话说,从第一个 URL 到最后一个 URL 的重定向。

提交的 URL 被 Robots.txt 阻止:

这些是您提交给 Google 的 URL,用于将 XML 站点地图上传到 Google Search Console,但已被 Robots.txt 文件阻止。

采取的行动:

检查您是否希望搜索引擎将相关页面编入索引。

  • 如果您不希望将其编入索引,请上传 XML 站点地图以删除 URL。
  • 相反,如果您希望它被索引,请更改 Robots.txt 中的指南。 这是有关如何编辑 robots.txt 的指南。

提交的 URL 标记为“noindex”:

这些页面已通过 XML 站点地图提交给 Google,但它们在元机器人标记或 HTTP 标头中有一个“noindex”指令。

采取的行动:

  • 如果您希望将 URL 编入索引,则应删除 noindex 指令
  • 如果您不希望 Google 将某些 URL 编入索引,请将其从 XML 站点地图中删除

提交的 URL 似乎是一个 Soft 404:

您通过 XML 站点地图提交的用于索引目的的 URL 正在返回一个软 404 当服务器向请求返回 200 状态代码时会发生此错误,但 Google 认为它应该显示 404。换句话说,该页面看起来像 Google 的 404 错误。 在某些情况下,这可能是因为该页面没有内容、看起来错误或对 Google 来说质量低下。

采取的行动:

  • 调查这些 URL 是否应该返回(真实的)404 状态代码。 在这种情况下,请将它们从 XML 站点地图中删除。
  • 如果您发现他们不应该返回错误,请确保您在这些页面上提供适当的内容。 避免精简或重复的内容。 验证是否有重定向,它们是正确的。

提交的 URL 返回未经授权的请求 (401):

通过 XML Sitemap 提交给 Google 的 URL 返回 401 错误 此状态代码告诉您您无权访问该 URL。 您可能需要用户名和密码,或者可能存在基于 IP 地址的访问限制。

采取的行动:

  • 检查 URL 是否应该返回 401。在这种情况下,将它们从 XML 站点地图中删除。
  • 如果您不希望他们显示 401 代码,请删除 HTTP 身份验证(如果有)。

未找到提交的 URL (404):

您已将用于索引目的的 URL 提交给 Google Search Console,但由于与上述不同的问题,Google 无法抓取它

采取的行动:

  • 看看你是否希望页面被索引。 如果答案是肯定的,请修复它,使其返回 200 状态码。 您还可以为 URL 分配 301 重定向,以便它显示适当的页面。 请记住,如果您选择重定向,则需要将分配的 URL 添加到 XML 站点地图并删除给出 404 的 URL。
  • 如果您不希望页面被索引,请将其从 XML 站点地图中删除。

提交的 URL 存在抓取问题:

您已向 GSC 提交了用于索引目的的 URL,但由于与上述问题不同的问题,Google 无法抓取该 URL。

采取的行动:

  • 使用URL 检查工具获取有关导致问题的原因的更多信息。
  • 有时这些错误是暂时的,因此不需要任何操作。

警告状态有效

警告有效

这些页面被编入索引,尽管它们被 robots.txt 阻止。 Google 总是尝试遵循 robots.txt 文件中给出的指令。 但是,有时它的行为会有所不同。 例如,当有人链接到给定的 URL 时,就会发生这种情况。

您可以在此类别中找到这些 URL,因为Google 怀疑您是否要在搜索结果中阻止这些页面

采取的行动:

  • Google 不建议使用 robots.txt 文件来避免页面索引。 相反,如果您不想看到这些页面被编入索引,请使用元机器人中的 noindex 或 HTTP 响应标头。
  • 阻止 Google 访问该页面的另一个好方法是实现 HTTP 身份验证。
  • 如果您不想阻止该页面,请在 robots.txt 文件中进行必要的更正。
  • 您可以使用robots.txt 测试器确定哪个规则正在阻止页面

纳齐尔·图拉多,
FandangoSEO顾问
技术 SEO 自由职业者 @ Natzir Turrado

在大规模迁移到 SalesForce 时,我们要求开发人员将我们不想索引的过滤器设置为不可访问(混淆)。 当 Salesforce 网站上线时,一切都很成功。 但是当几个月后发布一个新版本时,混淆被意外破坏了。 这引发了所有警报,因为仅在 7 天内,就有约 1750 万个 Googlebot-Mobile 请求和约 1250 万个 Googlebot/2.​​1,以及 2% 的命中率缓存。 下面您可以在 Search Console 中看到被机器人编入索引但被阻止的页面是如何增加的。


这就是为什么我建议持续监控日志并查看 GSC 覆盖率报告(尽管您会在检查日志后更快地发现任何问题)。 请记住,robots.txt 不会阻止页面被索引。 如果您不希望 Google 抓取某个 URL,最好使该 URL 不可访问!

排除状态

GSC 覆盖率报告中的排除页面

这些页面没有在搜索结果中编入索引,Google 认为这是正确的。 例如,这可能是因为它们是索引页面的重复页面,或者因为您在您的网站上为搜索引擎提供了指南以对其进行索引。

Coverage 报告显示了 15 种可以排除您的网页的情况

被“noindex”标签排除:

您通过给出“noindex”指令来告诉搜索引擎不要索引页面。

采取的行动:

  • 验证您是否真的不想为该页面编制索引。 如果您希望页面被索引,请删除“noindex”标签。
  • 您可以通过打开页面并在响应正文和响应标头上搜索“noindex”来确认此指令的存在。

被页面删除工具阻止:

您已为GSC上的这些页面提交了 URL 删除请求。

采取的行动:

  • Google 仅会在 90 天内处理此请求,因此如果您不想为页面编制索引,请使用“noindex”指令、实施 HTTP 身份验证或删除该页面。

被 robots.txt 阻止:

您正在使用 robots.txt 文件阻止 Googlebot 访问这些网页。 但是,如果 Google 可以在不加载此页面的情况下找到有关此页面的信息,它仍然可以被编入索引。 也许在您在 robots.txt 中添加禁止之前,Google 已将该页面编入索引

采取的行动:

  • 如果您不希望页面被索引,请使用“noindex”指令并删除 robots.txt 块。

由于未经授权的请求而被阻止 (401):

您正在使用请求授权(401 响应)阻止对 Google 的访问。

采取的行动:

  • 如果您想允许 GoogleBot 访问该页面,请删除授权要求。

爬取异常:

由于 4xx 或 5xx 错误响应代码,该页面未编入索引。

采取的行动:

  • 使用 URL 检查工具获取有关问题的更多信息

已抓取 - 目前未编入索引

此页面已被 GoogleBot 抓取,但未编入索引。 它将来可能会或可能不会被索引。 无需提交此 URL 进行抓取

采取的行动:

  • 如果您希望页面在搜索结果中被索引,请确保您提供有价值的信息。

已发现 - 目前未编入索引:

谷歌找到了这个页面,但它还没有设法抓取它 这种情况通常会发生,因为当 GoogleBot 试图抓取页面时,网站已经超载。 爬网已安排在另一个时间。

无需任何操作。

具有适当规范标签的备用页面:

此页面指向规范页面,因此 Google 知道您不想将其编入索引。

采取的行动:

  • 如果您想索引此页面,您需要更改rel=canonical 属性以向 Google 提供所需的指南。

没有用户选择的规范的重复:

该页面有重复,但没有一个被标记为规范。 谷歌认为这不是规范的。

采取的行动:

  • 使用规范标签让 Google 清楚哪些页面是规范页面(必须编入索引),哪些页面是重复页面。 您可以使用网址检查工具查看哪些网页已被 Google 选为规范网页。

重复,谷歌选择了与用户不同的规范:

您已将此页面标记为规范,但 Google 已将另一个认为功能更好的页面作为规范索引。

采取的行动:

  • 你可以按照谷歌的选择。 在这种情况下,将索引页面标记为规范,并将此页面标记为规范 URL 的副本。
  • 如果不是,请找出为什么 Google 更喜欢另一个页面而不是您选择的页面,并进行必要的更改 使用 URL 检查工具来发现 Google 选择的“规范页面”。

费兰·加文,
搜索引擎优化经理@Softonic

我们在索引覆盖率报告中遇到的最奇怪的“失败”之一是发现 Google 没有正确处理我们的规范(而且我们多年来一直在做错事!)。 当页面格式完美时,Google 在 Search Console 上指示指定的规范无效。 最终,Gary Ilyes 证实了这是谷歌本身的错误。

未找到 (404):

当 Google 发出请求时,该页面返回 404 错误状态代码 GoogleBot 没有通过站点地图找到该页面,但可能是通过链接到该 URL 的另一个网站。 也有可能该 URL 过去存在并已被删除。

采取的行动:

  • 如果 404 响应是故意的,您可以保持原样。 它不会损害您的 SEO 性能。 但是,如果页面已移动,请实施 301 重定向。

因法律投诉而被删除的页面:

由于法律投诉,此页面已从索引中删除

采取的行动:

  • 调查您可能违反了哪些法律规则,并采取必要措施予以纠正。

带有重定向的页面:

此 URL 是重定向,因此未编入索引。

采取的行动:

  • 如果 URL 不应该重定向,请删除重定向实现。

软404:

该页面返回 Google 认为的软 404 响应。 该页面未编入索引,因为尽管它提供了 200 状态代码,但 Google 认为它应该返回 404

采取的行动:

  • 检查您是否应该按照 Google 的建议为页面分配 404。
  • 向页面添加有价值的内容,让 Google 知道它不是软 404。

重复的、提交的 URL 未被选为规范:

您已将 URL 提交给 GSC 用于索引目的。 尽管如此,它还没有被编入索引,因为该页面有没有规范标签的重复页面,而且谷歌认为有更好的规范候选者。

采取的行动:

  • 决定是否要遵循 Google 对规范页面的选择。 在这种情况下,分配rel=canonical 属性以指向 Google 选择的页面。
  • 您可以使用 URL 检查工具查看 Google 选择了哪个页面作为规范。
  • 如果您希望此 URL 作为规范,请分析为什么 Google 更喜欢其他页面。 在您选择的页面上提供更多高价值内容

步骤 3. 索引覆盖率报告最常见问题

现在您知道了可以在“索引覆盖率”报告中找到的不同类型的错误,以及遇到每种错误时应采取的措施。 以下是最常出现的问题的简短概述。

比有效页面更多被排除

有时,您可能拥有比有效页面更多的排除页面。 这种情况通常出现在经历了重大 URL 更改的大型网站上 可能是一个历史悠久的老网站,或者网页代码被修改过。

如果您在两种状态(已排除和有效)的页数之间存在显着差异,则您有一个严重的问题。 正如我们上面解释的那样,开始查看排除的页面。

伊斯特夫·卡斯特

埃斯特夫·卡斯特尔,
集团 SEO 经理 @ Adevinta

我在覆盖率报告中看到的最大问题是我管理的一个网站,它最终有 50 亿个被排除的页面。 是的,你没看错,50 亿页。 分面导航完全疯狂,对于每次网页浏览,我们都创建了 20 个新的 URL 供 Googlebot 抓取。

就爬行而言,这最终成为了有史以来最昂贵的错误。 我们不得不通过 robots.txt 完全禁止分面导航 URL,因为 Googlebot 正在以每天超过 2500 万的点击量关闭我们的服务器。

错误尖峰

当错误数量呈指数增长时,您需要检查错误并尽快修复它。 Google 检测到一些严重损害您网站性能的问题 如果你今天不纠正问题,明天就会有严重的问题。

服务器错误

确保这些错误不是 503(服务不可用) 此状态码表示服务器由于临时过载或维护无法处理请求。 起初,错误应该会自行消失,但如果一直出现,则必须查看问题并解决它。

如果您有其他类型的 5xx 错误,我们建议您查看我们的指南以了解您在每种情况下需要采取的措施。

404 错误

Google 似乎检测到您网站的某些区域正在生成 404 - 未找到页面。 如果数量大幅增长,请查看我们的指南以查找和修复损坏的链接。

缺少页面或网站

如果您在报告中看不到页面或站点,可能有多种原因。

  1. 谷歌还没有发现它。 当一个页面或站点是新的时,Google 可能需要一些时间才能找到它。 提交站点地图或页面抓取请求以加速索引过程。 此外,请确保该页面不是孤立页面并且从网站链接。
  2. 由于登录请求,Google 无法访问您的页面 删除授权要求以允许 GoogleBot 抓取页面。
  3. 该页面有一个 noindex 标记或出于某种原因从索引中删除 删除 noindex 标记并确保您在页面上提供有价值的内容。

“提交但/提交和”错误和排除

当不一致时会出现此问题。 如果您通过站点地图发送页面,则必须确保它对索引有效,并且链接到该站点。

您的网站应该主要由值得相互链接的有价值的页面组成。

概括

这是“如何查找和修复索引覆盖错误”一文的三步摘要。

  • 使用索引覆盖率报告时,您要做的第一件事是修复出现在错误状态的页面 这必须为 0 以避免 Google 处罚。
  • 其次,检查排除的页面,看看这些页面是否是您不想索引的页面。 如果不是这种情况,请按照我们的指南解决问题。
  • 如果您有时间,我们强烈建议您检查带有警告的有效页面 确保您在 robots.txt 中提供的指南是正确的,并且没有不一致之处。

我们希望您觉得有帮助! 如果您对指数覆盖率报告有任何疑问,请告诉我们。 我们也很乐意在下面的评论中听到您的任何提示。