掌握 SEO 审计 - 使用 Screaming Frog SEO Spider 解锁洞见


推荐:从爬取数据转储开始,并立即标记最大的问题。在您的网站上运行 Screaming Frog,然后导出 CSV 文件,将每个 URL 路径与状态、重定向和规范信号配对。将此作为发布修复的来源,以及与编辑和开发人员共享的内容。确认每个关键页面都存在于爬取结果中。爬取数据本身携带时间戳证据。
使用 regex 过滤器来按类型(重定向、缺失标签或损坏资产)分离问题,并比较选择的修复方法。按 URL 路径 和状态码过滤,以快速发现模式。团队可以标记问题的高优先级以加速解决。
验证 协议 信号和规范 路径 映射:确保 http 重定向到 https,嵌套 路径 与 源 代码对齐,并且 发布 工作流程使用一致的链接。这可以保持爬取干净并减少假阳性。
审计有机资产:标题、元描述、标题标签和图像 alt 文本。使用实时检查列表和提示跟踪更改,为内容所有者提供提示。每周记录修复并衡量有机排名的影响。
自动化有助于扩展审计:调度保存的检查,生成提示驱动的报告,并呈现一个主仪表板,显示开放、已修复和新问题。构建一个工作流程,让用户选择优先级、分配所有者和监控进度,并带有自检查来验证更改。
对于大站点,按路径拆分爬取并错开请求以避免崩溃。如果爬取出现故障,以减少的深度重新启动,然后合并结果。使用 regex 来限制范围并保持转储 紧凑,以便与团队共享。
关注发布管道:链接验证、规范纪律和重定向规则。通过将 Screaming Frog 视为基线工具,并将其与轻量级数据共享协议配对,您可以提高审计的准确性并加速内容团队的决策。
针对性步骤:分析 User-Agent 选择如何塑造爬取结果和数据信号

首先选择两个主要 User-Agent 字符串(Googlebot Desktop 和 Googlebot Smartphone)并运行并行爬取,确保结果在工作室中保存,并为每个 UA 提供明确的标签。
设置相同的范围:深度、子域名覆盖和爬取模式;使用力导向可视化来识别内部路径在 UA 之间的差异,以及哪些页面从每个 UA 接收更多请求。
包含基本信号:状态、响应时间、页面标题、标题、内部链接和 PageSpeed 分数;对齐数据,以便快速比较两个 User-Agent,从而使洞察非常可操作。
检查 UA 之间的状态码和资源请求差异;识别 Smartphone UA 被 robots.txt 阻塞或以不同方式提供的页面,并注意该 UA 下出现的任何内容变体。
将实时观察转化为保存的快照和更新;跟踪随时间的变化,并将其转化为简洁的资源集,供他们和受众使用,带有清晰的语法和数据格式指南,以便利益相关者可以采取行动。
按平台集群结构化结果,比较标题和内容块,并使用选择设置来测试额外的模式或 UA 字符串;这包括 PageSpeed、表单字段和其他信号,以验证跨平台的 consistency。
将发现转化为可操作步骤:优先考虑具有丰富功能的页面,与受众需求对齐,并在报告中发布一个特色部分,包括执行摘要和下一个迭代的实用检查列表。
为爬取选择正确的 User-Agent 并评估其访问影响
使用 Screaming Frog SEO Spider 的默认 User-Agent 进行受控审计。设置轻量级爬取足迹以平衡速度和准确性。与轰炸站点不同,请限制请求、种子基本页面并逐步扩展。这种方法有助于定期检查访问信号,实现清晰策略,并优先考虑网站的高价值部分。
通过测试多个 User-Agent 变体来评估访问影响:默认 Screaming Frog Spider、Googlebot 和移动 User-Agent。这揭示了可访问性和索引表面如何不同,并帮助您衡量桌面和移动部分的大小和延迟。通过收集极其准确的信号,您可以快速比较状态码、标题处理和规范,将结果输入审计并更新最终决策。使用更新的服务器响应来实施优先考虑关键页面的策略,指导您对爬取影响的网站思考。
实施具体的测试计划:使用默认 User-Agent 运行基线爬取,记录速度、准确性和错误率的指标;然后切换到相同范围的移动 User-Agent 并比较。定期更新爬取范围以防止过载并保持可访问性检查新鲜。这个过程为决策提供上下文。如果您已更新站点,请使用结果来细化策略并用清晰的理由记录最终决策。这个过程有助于发现问题,如被阻塞的资产、配置错误的规范和站点地图中的差距,支持持续审计。
| User-Agent | 访问影响 | 最佳用途 | 优点 | 缺点 |
|---|---|---|---|---|
| Screaming Frog SEO Spider (默认) | 遵循 robots.txt;限制控制;适合内部结构 | 常规审计页面、规范和内部链接 | 准确的页面信号;小站点快速 | 如果被速率限制,可能错过外部引用 |
| Googlebot (模拟) | 提供搜索引擎视角;可能被 robots 或限制阻塞 | 评估可索引性和标题处理 | 真实的访问信号 | 政策限制;无法获取被阻塞的内容 |
| 移动 User-Agent | 测试移动渲染和响应时间 | 响应式和 AMP 页面的可访问性 | 快速揭示移动特定问题 | 需要额外配置和单独范围 |
配置爬取设置以实现范围、速度和礼貌
从范围开始:定义目标,设置爬取方案,并限制您想要扫描的文件夹。添加相关 URL 并使用反映不同用户使用的路径的 Include 模式。通过缩小范围,您可以保持爬取专注并确保结果可操作。
设置范围控制以避免漂移:按方案过滤(仅 https),限制到选定的文件夹,并将爬取深度上限设置为 3–5 级以进行首次通过。这有助于您快速理解结构并防止对无关区域的不必要命中。
礼貌和速度:配置最大线程和爬取延迟以避免压垮服务器。安全起点是 4 个最大线程,每秒 1–2 个请求;监控分析以确认服务器保持响应,并且绝不超过主机所能容忍的。如果您在 staging 上操作,您可能可以暂时推高,但要保持控制。
规范和属性:启用 Crawl Canonicals 以捕获规范信号并审查页面上的 rel=canonical 属性。这减少了重复信号并提高了在比较文件夹和方案跨页面的 pivot 质量。
范围、性能和数据质量:将爬取深度限制为 3–5 级,并使用 Include/Exclude 规则针对最有价值的文件夹。使用此设置,您可以运行专注审计而不丢失站点范围模式。大多数团队发现,简洁的范围导致更快、更可靠的结果。
分析和结果:使用分析跟踪响应时间、状态码和发现页面的分布。导出数据进行彻底评估,并注意优化后续运行的爬取设置的机会。分析将向您显示哪些页面需要关注以及哪些策略产生了最可靠的数据。
更改和迭代:在爬取后,按文件夹审查更改和发现的问题。您可以仅重新运行更改的文件夹以加速过程并保持努力可管理。根据需要 pivot 以测试新策略并相对于基线验证改进。
教程和文档:咨询教程以与规范处理、schema 使用和爬取模式的最佳实践对齐。这有助于您构建跨项目可重用的方案,并揭示最有效的方法而无需猜测。从 proven 工作流程中学习的机会很清晰,您可以理解如何将这些教训应用到您的站点结构。
组织和重用:将您的配置保存为爬取方案,以便在未来的审计中重用。在明确命名的文件夹中存储结果并维护一致的工作流程,确保利益相关者接收连贯的数据集。当爬取完成时,您有一个现成的参考,可以共享和迭代。
最重要的是,范围、速度和礼貌之间的正确平衡产生可靠的结果。适用于您站点的最佳方法取决于目标、服务器容忍度和您收集的分析 – 所以随时调整并使用与先前爬取的比较来量化进度。当爬取完成时,您将识别更改并获得持续机会来细化您的 SEO 策略、确认规范和属性对齐,并发掘可以存储在文件夹中以便轻松访问的洞察。您可以导航这些步骤而不中断实时页面,并为同事和审计保持发现的洞察组织。
分析爬取中的 HTTP 状态码、重定向和 URL 结构
导出爬取状态报告,并在继续之前处理非 200 状态、重定向和 URL 异常。应用所需的配置:默认重定向规则、准确的状态码映射和干净的 404 处理设置。这种方法产生更快的修复并告知您的团队,从而使您可以将行动与目标和排名目标对齐,问题来自配置错误并快速解决。
审查重复 URL 及其目标的数量。标记损害用户体验的 4xx 和 5xx 响应,并修剪已弃用的路径。确保规范标签指向您想要排名的默认版本,从而保持服务 URL 一致。当更改落地时,通知利益相关者以让他们了解影响,并跟踪结果以理解爬取指标如何变化。
评估重定向:确认分页系列上 relnext 被选中,并且重定向指向爬取图中的折上页面。对于每个 3xx,验证其发生原因以及它是否保留价值而不是创建循环。关注 301 与 302 的默认行为,并计算多少重定向是链链接的,这可能损害爬取效率。这个过程对长期稳定性非常有帮助。
筛选爬取中的 URL 结构:检查包含并确保 URL 不超过推荐长度,避免歧义字符,并验证使用必需参数来过滤内容而不是复制页面。确保 URL 包含干净、描述性的路径并避免产生重复内容的已弃用查询字符串。使用计数和配置来记录更改,这有助于您理解 URL 结构如何支持服务正确内容并防止排名混淆。
验证页面元素:标题、元标签、H1 使用和规范标签
使用 Screaming Frog 开始对标题、元标签、H1 使用和规范标签的专注审计。仅爬取 HTML,导出问题,列包括 URL、Title、Meta Description、H1、Canonical、Status 和 Type。将用户代理设置为模仿 Google 的协议,以反映页面在搜索结果中的外观。识别创建重复外观的内部链接循环,并标记缺失或冲突的规范标签的页面。以小批量修复问题,然后运行更新以确认更改生效。
标题和元标签:确保每个 URL 具有独特、描述性的标题和相关的元描述。在您的上下文中瞄准最短的安全长度 – 标题大约 50-60 字符,描述 120-155。避免重复;如果您有多个主题页面,作者可以制作不同的标题,同时遵循一致模式(例如,Brand | Topic)。在需要时使用提供的参数来定制标题变体,并在发布前测试不同选项。作者在措辞上有小的选择来改善 CTR 和搜索结果中的外观。示例有助于验证哪些变体在页面和模板中表现最佳。
H1 使用:强制每个页面只有一个 H1 并将主要关键字放置在那里。使用 H2-H6 来结构化内容并保持读者和爬虫的自然流程。如果您运行内容模块,使用单页方法或基于模块的页面,确保视觉层次保持清晰。
规范标签:每个页面应有一个指向首选 URL 的规范链接。遵循 Google 的规范化协议以避免重复索引。规范 URL 应反映站点范围的偏好(例如,https 优于 http,www 优于非 www)并通过指向干净 URL 处理参数。检查自引用规范是否存在,并确保没有页面指向创建循环的不同规范。
验证和工作流程:在应用修复后,重新爬取以验证改进。使用检查循环:比较前后、注意更新并根据需要调整。维护简洁的审计日志,包含更改示例和理由。为作者和开发人员提供推荐,并在可能时直接在 CMS 或站点代码中实施更改。然后在新页面上重复过程,并通过定期更新监控站点。
利用自定义提取和 JavaScript 渲染来发掘隐藏问题

使用 JavaScript 渲染而不是依赖静态 HTML,并使用自定义提取来拉取影响索引和用户体验的动态值。这种方法显示渲染的 DOM 包含更多数据,从而使可视化页面服务于用户和搜索引擎的内容更容易发现基本爬取遗漏的东西。
配置三个专注提取以覆盖基本信号而不超载您的工作流程:
- 渲染的 H1 文本和页面标题
- 渲染 DOM 中的 robots 指令和 noindex 存在
- 备用语言链接和规范 URL
在 Screaming Frog 中高效设置此功能:
- 在 Configuration > Spider > Rendering 下启用 JavaScript Rendering 并选择基于 Chrome 的渲染;这使下游数据可用于提取。
- 使用 CSS Path 或 XPath 添加三个自定义提取规则:
- 渲染的 H1 和标题:从渲染 HTML 中的 h1 和 title 元素提取文本。
- Noindex 和 robots:读取 meta name="robots" 的 content 属性以及来自渲染 DOM 的任何 X-Robots-Tag 信号。
- 备用和规范:从 link[rel="alternate"] 和 link[rel="canonical"] 拉取 href。
- 运行爬取并审查自定义提取选项卡以验证每个规则包含预期值;如果缺少某些内容,调整选择器并重新运行。
- 使用导出按钮导出结果,创建可与队友共享或粘贴到工作室仪表板的导出文件。
解释输出指导明智决策:
- 比较渲染内容与静态 HTML 以识别隐藏信号;如果渲染 DOM 包含初始 HTML 中不存在的数据,您需要调查为什么渲染揭示了它。
- 如果 noindex 仅在渲染视图中出现,请考虑页面是否应该被索引,或者渲染是否揭示了阻塞下游索引的配置错误。
- 检查跨页面的备用链接和规范标签;差距可能导致网站和语言变体之间的冲突信号。
- 将发现映射到下游行动:修复页面标记、调整服务器端渲染,或在响应中更早服务关键内容以改善页面速度影响。
最大化覆盖的实用工作流程和设置:
- 使用多个设备仿真来发现差异;移动渲染可以暴露桌面爬取遗漏的备用内容。
- 监控渲染内容的页面速度影响;JavaScript 重的页面可能爬取更慢,因此平衡深度与爬取速度。
- 保持基线简单:从基本提取开始,并随着您验证准确性逐渐添加更多字段。
- 当结果准备好时,从导出数据创建可视化仪表板,为利益相关者提供 informed 概述。
- 使用简短笔记记录发现并链接到确切页面;这有助于引导团队走向具体修复而不是通用推荐。
对于依赖客户端渲染的网站的好处是 tangible 的:
- 发掘影响索引的隐藏内容,例如初始命中后加载的关键内容。
- 揭示仅在渲染输出中可见的 noindex 阻塞,在生产交付前指导必要更改。
- 为所有设备的用户提供备用路径的完整信号,确保一致的信息。
- 使用导出数据和工作室级仪表板支持更快、明智的决策,用于跨职能审查。
📚 更多关于 SEO 和数字营销
Ready to leverage AI for your business?
Book a free strategy call — no strings attached.


