什么是谷歌机器人? 你需要知道的关于谷歌索引的一切
已发表: 2022-04-22优化的网站对于在 Google 上排名和被目标受众找到至关重要。 搜索引擎优化 (SEO) 有助于使您的网站对搜索引擎爬虫和人们都更具可读性和可访问性。
每个搜索引擎都有自己独特的网络爬虫,但大多数搜索策略师只关注一个——Googlebot。
那么,什么是 Googlebot,您如何优化您的网站呢?
什么是 Googlebot?
Googlebot 是 Google 网络爬虫的名称。 它“读取”网页并将其编入索引,以便可以将它们提供给搜索者以响应他们的搜索词。
Googlebot 有两个关键工作:
- 它不断探索网页中的新链接,以便可以索引尽可能多的内容,并且
- 它收集有关页面的新信息,以使 Google 的索引保持最新。
虽然只有一个名称,但实际上有两种类型的 Googlebot:一种用于移动设备(Googlebot Smartphone),另一种用于桌面设备(Googlebot Desktop)。 前者检查您的网站在智能手机和平板电脑上的呈现效果,而后者则专注于您网站的桌面版本。
Googlebot 优化旨在让 Google 更轻松地访问、抓取和“阅读”您的网站。 虽然许多 SEO 策略会影响搜索性能,但有一些必备的实现可以提高您网站的“可索引性”,并且可以直接影响您的页面是否可供 Google 用户使用。 除了页内和页外 SEO 策略外,您的 SEO 策略还应包括技术 SEO 目标,以帮助您增加出现在搜索引擎结果中的机会。
为什么只关注 Googlebot? 其他搜索引擎的爬虫呢? 好吧,由于谷歌目前拥有 92% 的搜索市场,你的大多数目标受众可能都在使用它。 但是,以下建议应该使所有爬虫更容易阅读您的页面。
谷歌索引如何工作?
当谷歌索引一个网站时,它本质上是将它添加到它的知识数据库中,并记录页面的内容、它们的用户友好性等等。 但是,Googlebot 是如何知道一个网站存在并且应该将其编入索引的呢?
如果您以前创建过一个网站,您可能会注意到您在发布它后没有获得任何自然流量。 这是因为您需要让 Googlebot 了解您的网站,以便它可以抓取您的网页。 您可以通过将 XML 站点地图提交到 Google Search Console(以前称为 Google 网站管理员工具)来完成此操作。
Googlebot 使用站点地图和过去抓取的链接数据库来抓取您的网站。 当它在您的网站上找到新链接时,会将其添加到要访问的页面列表中。 如果遇到任何断开的链接或其他问题,Googlebot Desktop 和 Googlebot Smartphone 都会更新索引。
这是 Google 在收到查询时从中提取的索引。 然后,它使用来自搜索的上下文线索来确定如何对相关结果进行排名。
Google 多久抓取一次我的网站?
Google 以不同的速率抓取网址。 虽然某些 URL 可能每天都会被抓取,但其他 URL 可能只能每周或每月抓取一次。 除非您在 robots.txt 文件或元机器人标签中另有说明,否则 Googlebot 将尝试访问您网站上的每个页面并沿途记录信息,以便更好地了解您的内容并更新其索引。
虽然到目前为止我主要关注的是 Googlebot 爬虫,但我确实想指出实际上有多个 Google 网络爬虫。 您可以在此处找到 Google 抓取工具的完整列表。
如果您对 Google 多久抓取一次您的网站并将其编入索引感到好奇,请访问您的 Google Search Console (GSC)。 您将在设置下找到您的抓取统计报告。

为 Googlebot 优化网站的 5 个步骤
按照这五个简单的步骤,让搜索引擎蜘蛛可以访问您的网站,以便在搜索中找到您的页面。
1. 保持代码简单
提高网站可抓取性的很大一部分是保持简单。 Google 不会抓取 Flash、Ajax、帧、cookie、会话 ID 或 DHTML,并且索引 JavaScript 需要更长的时间,因为它必须呈现它。
在构建您的网站时,必须遵循 Google 的一般和质量指南,以避免出现抓取问题并更轻松地为您的网页编制索引。
2. 检查你的 Robots.txt
robots.txt 文件告诉 Googlebot 它可以访问您网站上的哪些网址。 使用 robots.txt 指令可避免您的网站因请求而过载,并为您希望被搜索引擎编入索引的页面节省更多抓取预算。 如果没有 robots.txt,Googlebot 可能会花费太多时间来索引您不希望包含在搜索结果中的媒体、资源文件或其他不重要的页面。 Robots.txt 是一个协议范围的指令。 除非您有多个子域,否则您的网站上应该只有一个。 要逐页管理 Googlebot 和抓取工具,请使用元机器人标签。
3.使用内部链接
内部链接是将您从同一网站的一个页面带到另一个页面的超链接。 它们可能是导航的(想想菜单、侧边栏、页眉、页脚),也可能是上下文的(放置在页面的正文中)。 为了让 Googlebot 更容易找到您的网页并了解它们之间的关系,请使用内部链接来强调您的网站层次结构。 您的所有页面都应该以某种方式链接在一起。 例如,您的主页应该链接到您的服务页面、案例研究和博客。 然后,每一个都应该链接到相关页面。
在此处了解有关内部链接最佳实践的更多信息。
在 GSC 中查看您的链接报告,以确保您最重要的页面(例如您的主页和服务页面)获得最多的链接。 这向 Google 表明它们是您网站上最重要的页面。

4. 创建 XML 站点地图
为了方便 Googlebot 抓取您的网站,请提供一个 XML 站点地图来组织您的所有页面,以便网络抓取工具快速了解您网站的层次结构。 (不确定 XML 站点地图是什么,请参阅站点地图示例并在此处了解更多信息。)
在验证过程中,通过 GSC 将您的 XML 站点地图提交给 Google。
如果您没有使用为您动态更新站点地图的内容管理系统 (CMS),请务必手动更新您的 XML 站点地图,并在更改站点层次结构时重新提交。 只需单击左侧边栏上的“站点地图”。 这将有助于确保 Google 将您网站上的相应页面编入索引。

5.请求谷歌索引
当您发布新页面或对现有内容进行重大更新时,您不必等到 Google 找到它们——通过请求索引告诉 Google 您有一个新的或更新的页面供他们扫描。


登录到您的 GSC 并在页面顶部的放大镜图标左侧输入要编入索引的 URL,然后按 Enter。
谷歌会注意到它正在检索数据。

然后会告诉你你的页面是否已经被索引。

如果不是,您可以请求索引。 如果您的页面已编入索引并且您对其进行了重大更改,您也可以请求编入索引。

如果您经常将页面添加到您的站点,例如新的博客文章或产品页面,请将此过程作为您的最佳实践的一部分,这样您就可以确保您的所有页面都被立即编入索引。
推荐阅读
- 如何使用谷歌搜索控制台
- 如何将用户添加到 Google Search Console
分析 Googlebot 如何抓取您的网站的四种方法
一旦您优化了您的网站以使搜索引擎爬虫更容易阅读,您将需要仔细检查它是否已正确爬网和编入索引。
抓取统计
您的抓取统计信息显示 Googlebot 向您的服务器发送了多少抓取请求,以及它何时以及是否遇到任何问题。

您在 Google Search Console 中的抓取统计报告还会显示 Googlebot 发现的内容(抓取响应)、遇到的文件类型、Googlebot 是在发现新页面还是重新索引旧页面,以及已使用哪些 Googlebot 类型来抓取您的网站。
单击抓取统计报告中的行项目将提供更多信息。 例如,如果您想查明哪些网页返回了 404 错误,请单击抓取响应框中的该行,以转到 Googlebot 无法找到的网址列表以及上次尝试抓取这些网页的时间。
通过点击抓取目的下的“刷新”或“发现”行项目,您可以查看 Googlebot 最近已将哪些 URL 编入索引。 如果您发现最近的网页尚未编入索引,您可以使用报告顶部的搜索栏轻松提交它们。

抓取错误
当搜索引擎无法访问您的某个页面时,就会出现抓取错误。 您可以在抓取报告中识别两种类型的 Googlebot 抓取错误,这些错误会对您的 SEO 产生负面影响:
- 网站错误:当您遇到网站错误时,Googlebot 可能无法抓取您的网站。 站点错误可能是由丢失或无法访问 robots.txt 文件、DNS 解析失败或服务器连接问题引起的。
- URL 错误:由于 URL 错误,Googlebot 无法抓取特定页面。 您可能会同时出现多个 URL 错误。
Moz 在分享如何修复抓取错误方面做得很好。
被阻止的 URL
如果您不希望 Google 抓取工具访问您网站的某些部分,您可以在 robots.txt 中指定这些目录,以提供有关机器人应如何索引您的内容的信息。
检查您的 GSC 以查看 Google 识别的被阻止网址的数量,以确保您的 robots.txt 正常工作。 如果被阻止的 URL 数量低于应有的数量,则需要编辑 robots.txt 文件。 相反,如果该数字高于应有的数字,则可能会无意中阻止抓取您希望出现在搜索结果中的页面。
网址参数
URL 参数,也称为查询字符串,允许您在动态 URL 的末尾添加附加信息。 如果您访问过分页内容,例如电子商务网站上的产品搜索结果,您可能会在页面 URL 的末尾看到“?page=2”或类似内容。 这是一个 URL 参数。 这些参数也可用于:
- 内容过滤器
- 翻译
- 网站搜索
- 追踪
如果您想在 URL 中使用参数,请考虑是否希望它们被访问和索引,因为它们可能会导致严重的问题,例如重复内容、浪费的抓取预算和跟踪问题。
您可以按照以下步骤阻止参数化内容的爬网。
了解有关 SEO 的 Google 工具的更多信息
Google 提供了多种工具来帮助您衡量网站的性能。 利用这些来监控和改进您的 SEO 策略。
我们的 Google 工具指南将引导您了解 Google 提供的每个免费 SEO 工具,并将技术概念分解为可操作且易于理解的章节,其中充满了额外的资源。

用于 SEO 的 Google 工具指南
下载本指南,了解如何充分利用 Google 提供的免费、强大的工具来改进您的 SEO 流程和性能。