孤立页面：如何查找和修复它们以改善 SEO

已发表: 2022-09-11

什么是孤儿页面？

孤立页面是网站上没有指向它的链接的页面。 这些页面无法访问，因为它们没有内部连接，爬虫或用户在浏览您的网站时可能会利用它们来访问它们。

由于某些网站故意隐藏其登录页面，因此孤立页面经常带有“通知”标签而不是“错误”标签。

搜索引擎不会找到孤立网站，这就是为什么检查您的网站是否有它们至关重要的原因。这是由于 Google 在网站上发现新网页的方式：

爬虫识别您的 XML 站点地图中提到的页面的 URL。
爬虫会在内部或外部寻找链接到另一个网站的 URL。

如果您希望网页被搜索引擎索引并找到，您需要在您的网站上查找孤立页面并执行适当的步骤。

孤立页面是 SEO 问题吗？

Are Orphan Pages an SEO issue — 孤立页面是 SEO 问题吗

当搜索引擎无法通过链接找到页面时，通常会被忽略。即使您的网页包含在您网站的 XML 站点地图中，它仍然可能是 SEO 的问题：

孤立站点可能包含过时的信息，从而降低您的域权限。
在网站迁移过程中，页面经常被孤立。这是一个问题，因为孤立页面可能包含有用的内容，可以帮助您提高排名。
您网站上的更多孤立页面可能会使搜索引擎对您的内容上下文感到困惑，从而降低您的 SERP 排名。

孤立页面与死胡同页面

Orphan Pages vs. Dead End Pages — 孤立页面与死胡同页面

了解死胡同页面和孤立页面之间的区别至关重要。

术语“孤儿”是指未连接到任何其他页面或无法从任何其他页面访问的页面。另一方面，死胡同页面没有链接到任何外部或内部网站供爬虫或人们探索。结果，创建了“死胡同”，因此有了这个术语。

当用户点击死页时，他或她有两种选择：放弃网站或返回。同样，搜索引擎爬虫也无法传达任何链接权益，因为它们无处可去从死胡同页面。

虽然可以通过简单地添加内容链接或添加侧边栏/页脚导航来修复任何死胡同页面，但孤立页面是不同的。让我们看看如何定位和修复孤立页面。

另请阅读：营销对社会的影响

如何在网站上找到孤立页面？

获取您网站 URL 的列表

对于爬虫来说，查找孤立页面是一项耗时且有时不可能完成的任务。因此，使用 SEO 工具将具有挑战性，因为它们依赖于爬虫收集的数据。

检测孤立页面的最佳技术是使用 Google Analytics（分析）报告来编译您网站上所有 URL 的列表。您可以使用您选择的任何其他分析软件轻松完成此操作。

如果曾经查看过该页面，它将出现在分析报告中。某处有 URL 记录，如果您查看报告的综合浏览量部分，您可能很容易找到它。

解决页面重复问题

孤立页面的最普遍原因可能不是您考虑的任何事情。页面重复是一个经常被忽视的问题，应该立即解决。每个重复页面应该只重定向到一个 URL，如果没有，该页面的版本肯定不会连接。结果，它们可能成为孤立页面。

这些页面是重复的这一事实是在这种情况下的根本问题。作为网站审核的一部分，在您的网站上寻找孤立页面时，这应该是您首先检查的地方。有两种类型的页面重复需要注意：

1.非规范页面

https 或 http 协议，以及 URL 中的 www 或非 www，应在您网站的每个页面上一致使用。

因此，您必须通过在浏览器中放入页面的所有变体来检查每个公共页面，例如：

https://www.xyz.com
http://www.xyz.com
https://xyz.com
http://xyz.com

所有这些版本都应将读者引导至具有相同 URL 的同一页面。因此，网页将成为其自身的规范。如果这些变体中的任何一个无法将搜索重定向到相应的网页，您应该知道您可能正在处理一个常见问题。您还应该检查其他网站，无论哪种变体导致问题。

2. 尾部斜线

这是另一个需要关注的微小细节，可能会产生重大影响。如果您没有在您的网站上始终使用尾部斜杠，您的某些页面可能会成为孤立的。让我们看另一个场景：

https://example.com/page1/
https://example.com/page1

这些 URL 可能向访问者提供相同的内容，但它们的 URL 是不同的。

检查您的网页是否有这两个版本，以确定用户是否被发送到同一页面。确保在您的所有网页上统一执行此操作。您可以使用“.htaccess”使此过程自行处理，并确保所有这些变体都指向相同的 URL。

使用 Google Analytics 比较可抓取 URL 和分析 URL 列表

这是在网站上查找孤立页面的最直接方法。您现在所要做的就是转到“站点内容”区域并单击“所有页面”以收集您网站的所有 URL。

以下部分将出现在列表中：

页面（网址）
浏览量
独特的网页浏览量
平均页面停留时间
日期范围

要区分正常页面和孤立页面，请注意日期范围和浏览量部分。

孤立页面注定具有最低的页面浏览量，因为用户无法访问它们。只需单击“Pageviews”即可将访问量最少的网站放在最前面，您的孤儿页面肯定会紧随其后。

另一种选择是选择“日期范围”并指定过滤器的开始日期，早在安装 Google Analytics 时。由于 Google Analytics 一次只能显示 5,000 个 URL，因此请从底部的“显示行”区域中选择最多的行数。这很可能会涵盖您所有的孤立页面。

在 Google Analytics 中加载所有 URL 后，单击导出以获取它们的 CSV 或 excel 文件。您也可以使用 Google Analytics API 来帮助加快速度。

拥有此列表后，您只需添加所需的函数即可将可抓取的 URL 与 Analytics URL 分开。要了解我在说什么，请看下图：

然后应通过将 Analytics URL 列表与可抓取 URL 列表进行比较来识别列表中的孤立 URL。上例中的最后一个链接“https://xyz.com/7”是一个明显的孤立页面。实际上，这个列表会非常大，您必须搜索更多的 URL 才能发现孤立页面。

这种机械过程很容易实现自动化。要检查 Crawlable 列表中的每个 URL 是否也在 Analytics 列表中，请使用以下匹配算法：

“=匹配（E2，$A$2:$A$11,0）”

当公式沿相关列拖动时，美元符号告诉工作表不要更改范围。此外，值“0”告诉 Google 该列表没有排序。

运行此算法后，匹配项将恢复到范围内的第一个位置。因为在可抓取列表字段中未检测到它们，所以不匹配的将返回“#NA”错误。例如，“https://xyz.com/7”将显示为“#NA”，如下所示：

这将自动为您显示列表中的所有孤立页面。您现在要做的就是过滤掉所有#NA 结果。

借助其他工具来发现您的孤立 URL

在您弄清楚如何做之后，有多种工具可帮助您在您的网站上找到孤立页面。

为此目的提供最佳设置和功能的工具如下：

Moz 链接资源管理器
阿雷夫斯
SEMrush
乌鸦工具

除了发现孤立页面之外，所有这些工具都提供了丰富的功能，可以帮助您完成各种其他任务。 Ahrefs、Moz 和 SEMrush Opens in a new tab. 这三个工具可以帮助您更快地找到孤立页面。

另一个好处是，这些工具将发现您网站上未被直接抓取且不一定是孤立的页面。这可以帮助您改进这些网站并从中产生价值。

从服务器，您的开发团队可以快速编译您网站的所有 URL 列表。您所要做的就是查看日志文件以获取以下信息：

访问您网站的人是谁？
当他们访问网站时，他们来自哪里？
他们去了哪些页面？

此信息将极大地帮助您运行整个网站的第二次爬网。您可以通过忽略诸如“noindex”和“nofollow”之类的指令并将新数据与旧的爬网数据进行比较来定位丢失的孤立页面来实现这一点。这样做的原因是爬虫有时可以访问不遵守这些指令的页面，从而导致孤立页面。

完成此操作后，在 GSC 的搜索分析报告中查找 URL 列表。您可能想知道这些 URL 是否已被编入索引。是的，尽管其中一些页面可能仍无法通过您网站的内部链接访问。这些页面将来有成为孤立页面的风险，但您可以防止这种情况发生。

修复孤立页面——在游戏中取得领先

孤立页面对您的网站来说可能是一个重大问题，尤其是在 SEO 方面。 让我们看下一个阶段，即修复孤立页面，因为您知道如何找到它们。

当您找到您网站的所有孤立页面后，接下来的步骤是确定哪些是值得处理的，哪些应该被淘汰。以下是您在做出此决定时应该问自己的问题：

该页面现在位于您网站的分类中的什么位置？
该页面对访问者有用吗？如果是这样，它应该放置在您网站的架构中的哪个位置？
页面是否可以对任何关键字进行排名？是否可以对其进行优化以改善您网站的 SEO？
页面是否有可能被反向链接？或者该页面是否有可能从其他网站链接到？
此页面上的内容是否与其他页面上的内容相似？

这些问题的答案将帮助您决定是否维护或删除孤立页面。您还可以使用这些数据来计算修复您保留的页面需要多少劳动力以及它们将提供多少价值。