什么是日志文件分析以及为什么它对 SEO 很重要?
已发表: 2022-03-16SEO 日志文件分析有助于了解爬虫在网站上的行为并识别潜在的技术 SEO 优化机会。
不分析爬虫行为的 SEO 就像瞎了眼。 您可能已经在 Google 搜索控制台上提交了网站并将其编入索引,但如果不研究日志文件,您将无法了解您的网站是否被搜索引擎机器人正确抓取或读取。
这就是为什么我收集了您需要知道的一切来分析 SEO 日志文件并从中识别问题和 SEO 机会。
什么是日志文件分析?

SEO 日志文件分析是识别搜索引擎机器人与网站交互模式的过程。 日志文件分析是技术 SEO 的一部分。
日志文件审核对于 SEO 识别和解决与爬网、索引、状态代码相关的问题非常重要。
什么是日志文件?

日志文件跟踪谁访问了网站以及他们查看了哪些内容。 它们包含有关谁请求访问网站的信息(也称为“客户”)。
感知到的信息可能与 Google 或 Bing 等搜索引擎机器人或网站访问者有关。 通常,日志文件记录由站点的 Web 服务器收集和维护,并且通常会保留一定的时间。
日志文件包含什么?

在了解日志文件对 SEO 的重要性之前,了解此文件中的内容至关重要。 日志文件 e 包含以下数据点:-
- 网站访问者请求的页面 URL
- 页面的 HTTP 状态码
- 请求的服务器 IP 地址
- 命中日期和时间
- 发出请求的用户代理(搜索引擎机器人)的数据
- 请求方法(GET/POST)
如果您先查看日志文件,您可能会觉得它们很复杂。 尽管如此,一旦您知道日志文件对 SEO 的目的和重要性,您将有效地使用它们来生成有价值的 SEO 见解。
SEO 日志文件分析的目的
日志文件分析有助于解决一些重要的技术 SEO 问题,这使您可以创建有效的 SEO 策略来优化网站。
以下是一些可以使用日志文件分析的 SEO 问题:
#1。 Googlebot 抓取网站的频率
搜索引擎机器人或爬虫应经常抓取您的重要页面,以便搜索引擎了解您的网站更新或新内容。
您的重要产品或信息页面都应该出现在 Google 的日志中。 您不再销售的产品的产品页面以及缺少任何最重要的类别页面都是可以使用日志文件识别的问题的指标。
搜索引擎机器人如何利用抓取预算?
每次搜索引擎爬虫访问您的网站时,它的“爬网预算”都是有限的。 Google 将抓取预算定义为网站抓取率和抓取需求的总和。
如果网站有许多低价值的 URL 或未在站点地图中正确提交的 URL,则可能会阻碍对网站的抓取和索引。 如果您的抓取预算得到优化,抓取和索引关键页面会更容易。
日志文件分析有助于优化加速 SEO 工作的爬网预算。
#2。 移动优先索引问题和状态
移动优先索引现在对所有网站都很重要,谷歌更喜欢它。 日志文件分析将告诉您智能手机 Googlebot 抓取您网站的频率。
如果智能手机 Googlebot 未正确抓取页面,此分析可帮助网站管理员针对移动版本优化网页。
#3。 网页在请求时返回的 HTTP 状态码
我们的网页返回的最近响应代码可以通过日志文件或使用 Google Search Console 中的获取和呈现请求选项来检索。

日志文件分析器可以找到具有 3xx、4xx 和 5xx 代码的页面。 您可以通过采取适当的措施来解决这些问题,例如,将 URL 重定向到正确的目标或将 302 状态编码更改为 301。
#4。 分析抓取活动,如抓取深度或内部链接
Google 会根据其抓取深度和内部链接来欣赏您的网站结构。 网站抓取不当的原因可能是不良的链接结构和抓取深度。
如果您对网站的层次结构或站点结构或链接结构有任何困难,您可以使用日志文件分析来找到它们。
日志文件分析有助于优化网站架构和链接结构。
#4。 发现孤立页面
孤立页面是网站上没有从任何其他页面链接的网页。 这些页面很难被索引或出现在搜索引擎中,因为它们不容易被机器人发现。
孤立页面很容易被 Screaming Frog 之类的爬虫发现,并且可以通过将这些页面链接到网站上的其他页面来解决此问题。
#5。 审核页面的页面速度和体验
页面体验和核心网络生命力现在正式成为排名因素,现在重要的是网页符合 Google 页面速度指南。
可以使用日志文件分析器发现慢速或大页面,并且可以针对页面速度优化这些页面,这将有助于 SERP 的整体排名。
日志文件分析可帮助您控制网站的抓取方式以及搜索引擎如何处理您的网站
现在,当我们清楚了日志文件及其分析的基础知识后,让我们看看为 SEO 审核日志文件的过程
如何进行日志文件分析
我们已经研究了日志文件的不同方面以及 SEO 的重要性。 现在,是时候学习分析文件的过程和分析日志文件的最佳工具了。
您需要访问网站的服务器日志文件才能访问日志文件。 可以通过以下方式分析文件:
- 手动使用 Excel 或其他数据可视化工具
- 使用日志文件分析工具

手动访问日志文件涉及不同的步骤。
- 从网络服务器收集或导出日志数据,并且应该为搜索引擎机器人或爬虫过滤数据。
- 使用数据分析工具将下载的文件转换为可读格式。
- 使用 excel 或其他可视化工具手动分析数据,以发现 SEO 差距和机会。
- 您还可以使用过滤程序和命令行来简化您的工作
手动处理文件数据并不容易,因为它需要 Excel 知识并且涉及开发团队。 尽管如此,用于日志文件分析的工具使 SEO 的工作变得容易。
让我们看看审计日志文件的顶级工具,并了解这些工具如何帮助我们分析日志文件。
尖叫青蛙日志文件分析器

可以使用上传的日志文件数据和使用 Screaming Frog 日志文件分析器验证的搜索引擎机器人来识别技术 SEO 问题。 您还可以执行以下操作:

- 用于搜索引擎优化的搜索引擎机器人活动和数据。
- 通过搜索引擎机器人发现网站的抓取频率
- 了解所有技术 SEO 问题以及外部和内部断开的链接
- 分析被抓取最少和最多的URL,减少损失,提高效率。
- 发现未被搜索引擎抓取的页面。
- 可以比较和组合任何数据,包括外部链接数据、指令和其他信息。
- 查看有关引用 URL 的数据
Screaming Frog 日志文件分析器工具完全免费用于单个项目,限制为 1000 行日志事件。 如果您想要无限制访问和技术帮助,则需要升级到付费版本。
喷射章鱼

当谈到负担得起的日志分析工具时,JetOctopus 是最好的。 它有 7 天的免费试用期,无需信用卡,并且只需点击两下即可连接。 就像我们列表中的其他工具一样,使用 JetOctopus 日志分析器可以识别抓取频率、抓取预算、最受欢迎的页面等等。
使用此工具,您可以将日志文件数据与 Google Search Console 数据集成,从而在竞争中获得明显优势。 通过此组合,您将能够了解 Googlebot 如何与您的网站互动,以及您可以在哪些方面进行改进。
关于爬取日志分析器

Oncrawl Log Analyzer 每天处理超过 5 亿条日志行,该工具专为大中型网站设计。 它会实时关注您的网络服务器日志,以确保您的页面被正确索引和抓取。
Oncrawl 日志分析器符合 GDPR 且高度安全。 该程序将所有日志文件存储在安全且隔离的 FTP 云中,而不是 IP 地址。
除了 JetOctopus 和 Screaming Frog 日志文件分析器,Oncrawl 还有一些功能,例如:
- 支持多种日志格式,如 IIS、Apache 和 Nginx。
- 工具可以轻松适应您的处理和存储要求,因为它们会发生变化
- 动态分段是一种强大的工具,可通过根据各种标准对 URL 和内部链接进行分组来发现数据中的模式和连接。
- 使用原始日志文件中的数据点创建可操作的 SEO 报告。
- 在技术人员的帮助下,可以自动传输到您的 FTP 空间的日志文件。
- 可以监控所有流行的浏览器,包括 Google、Bing、Yandex 和百度的爬虫。
OnCrawl 日志分析器有两个更重要的工具:
Oncrawl SEO Crawler:使用 Oncrawl SEO Crawler,您可以用最少的资源高速抓取您的网站。 提高用户对排名标准如何影响搜索引擎优化 (SEO) 的理解。
Oncrawl 数据: Oncrawl 数据通过结合来自抓取和分析的数据来分析所有 SEO 因素。 它从爬取和日志文件中获取数据以了解爬取行为,并将爬取预算推荐给优先内容或排名页面。
SEMrush 日志文件分析器

SEMrush 日志文件分析器是基于浏览器的简单日志分析工具的明智选择。 该分析仪无需下载,在线版即可使用。
SEMrush 为您呈现两份报告:
Pages' Hits : Pages' Hits 报告网络爬虫与您网站内容的交互。 它为您提供与机器人交互最多和最少的页面、文件夹和 URL 的数据。
Googlebot 的活动:Googlebot 活动报告每天提供与网站相关的见解,例如:
- 爬取文件的类型
- 整体 HTTP 状态码
- 各种机器人向您的网站发出的请求数
来自 SolarWinds 的 Loggly

SolarWinds 的 Loggly 会检查您的 Web 服务器的访问和错误日志,以及该站点的每周指标。 您可以在任何时间点查看您的日志数据,并且它具有使搜索日志变得简单的功能。
需要像 SolarWinds Loggly 这样强大的日志文件分析工具来有效地挖掘 Web 服务器上的日志文件,以获取有关客户端资源请求成功或失败的信息。
Loggly 可以提供图表显示最不常查看的页面,并计算平均、最小和最大页面加载速度,以帮助您优化网站的搜索引擎优化。
谷歌搜索控制台抓取统计

谷歌搜索控制台通过提供有用的实践概述让用户更轻松。 控制台的操作很简单。 然后,您的抓取统计信息将分为三类:
- 每天下载的千字节数:表示谷歌机器人在访问网站时下载的千字节数。 这基本上表明了两个重要点:如果图表中显示较高的平均值,则意味着该网站被更频繁地抓取,或者也可能表明该机器人需要很长时间来抓取一个网站并且它不是轻量级的。
- 每天抓取的页面数:它会告诉您 Googlebot 每天抓取的页面数。 它还记下爬网活动状态,无论是低、高还是平均。 低抓取率表示该网站未被 Googlebot 正确抓取
- 下载页面所用的时间(以毫秒为单位):这表示 Googlebot 在抓取网站时发出 HTTP 请求所用的时间。 Googlebot 发出请求所花费的时间越少,下载页面的效果就会越好,因为索引编制会更快。
结论
我希望您从本指南中获得了很多关于日志文件分析和用于审核 SEO 日志文件的工具的信息。 审核日志文件对于改进网站的技术 SEO 方面非常有效。
Google Search Console 和 SEMrush Log File Analyzer 是免费和基本分析工具的两个选项。 作为替代方案,检查 Screaming Frog Log File Analyzer、JetOctopus 或 Oncrawl Log Analyzer 以更好地了解搜索引擎机器人如何与您的网站交互; 您可以为 SEO 使用混合的高级和免费日志文件分析工具。
您还可以查看一些高级网站爬虫来改善 SEO。