技术 SEO:新手入门指南
本文翻译自 The Beginner’s Guide to Technical SEO — Ahrefs
技术 SEO 是确保搜索引擎和 AI 能够高效抓取、索引你网站内容的基础工作。本指南将帮助你理解技术 SEO 的核心概念,并学会如何合理分配精力以获得最大回报。
技术 SEO 基础
什么是技术 SEO
技术 SEO(Technical SEO)是 SEO 中最重要的部分——直到它不再是。页面必须能够被抓取和索引,才有可能参与排名。但在此基础之上,许多其他技术优化的影响与内容和链接相比其实很有限。
本指南旨在帮助你理解一些基本概念,以及如何分配时间来最大化效果。
技术 SEO 难吗
这取决于具体情况。基本原理并不难掌握,但技术 SEO 有时确实会变得复杂且难以理解。本指南会尽量用简单的方式来解释。
技术 SEO 对 AI 搜索有用吗
有用。AI 搜索仍然依赖于可抓取、结构良好、值得信赖的网页。技术 SEO 确保你的网站快速、可访问且可索引——这些都能提高你的内容在 AI 驱动的回答和传统搜索中被使用的机会。
理解抓取
本章将介绍如何确保搜索引擎能够高效抓取你的内容。
抓取的工作原理
抓取(Crawling)是搜索引擎从页面获取内容、并通过页面上的链接发现更多页面的过程。你可以通过几种方式控制网站上哪些内容会被抓取。
Robots.txt 文件
robots.txt 文件告诉搜索引擎和 AI 平台,它们可以和不可以访问你网站的哪些区域。
大多数搜索引擎和 AI 爬虫会遵守你的 robots.txt 设置。如果你明确禁止它们访问,它们会服从,不会抓取你的内容或将其纳入训练数据。但如果你阻止搜索引擎和 LLM(Large Language Model,大语言模型)使用你的网站作为训练材料,你同时也限制了自己在它们回答中出现的机会。
值得注意的是,Google 和一些 LLM 可能会索引它们无法抓取的页面——前提是有链接指向这些页面。这可能让人困惑,但如果你想阻止页面被索引,可以参考相关的指南和流程图来完成操作。
LLMs.txt
LLMs.txt 是一种自愿性标准,用于告诉大语言模型如何使用你的内容。但目前没有证据表明 LLMs.txt 能改善 AI 检索效果、提升流量或增强模型准确性,因此可能不值得花太多精力。
抓取速率
robots.txt 中有一个 crawl-delay(抓取延迟)指令,许多爬虫都支持它,让你可以设置抓取频率。但遗憾的是,Google 不遵守这个指令。
对于 Google,你需要在 Google Search Console(谷歌搜索控制台)中修改抓取速率。
访问限制
如果你希望某些页面对部分用户可见、但对搜索引擎不可见,可以使用以下三种方式:
- 某种登录系统
- HTTP 认证(需要密码才能访问)
- IP 白名单(只允许特定 IP 地址访问页面)
这种设置适用于内部网络、会员专属内容、或者预发布/测试/开发网站。它允许一组用户访问页面,但搜索引擎无法访问,也不会索引。
如何查看抓取活动
对于 Google,最简单的方式是使用 Google Search Console 中的"抓取统计"报告,它会提供关于 Google 如何抓取你网站的详细信息。
如果你想查看网站上的所有抓取活动(包括 AI 爬虫),则需要访问服务器日志,可能还需要借助工具来分析数据。这可能比较进阶。但如果你的主机使用 cPanel 这样的控制面板,你应该能访问原始日志和一些聚合工具,如 AWstats 和 Webalizer。
抓取调整
每个网站都有不同的抓取预算(Crawl Budget),它取决于 Google 想要抓取网站的频率以及你的网站允许多少抓取。更受欢迎的页面和经常变化的页面会被更频繁地抓取,而不太受欢迎或链接较少的页面则会被抓取得更少。
如果爬虫在抓取你的网站时检测到服务器压力迹象,它们通常会减慢甚至停止抓取,直到情况改善。
页面被抓取后,会被渲染并发送到索引。索引是可以为搜索查询返回结果的主页面列表。接下来我们来谈谈索引。
理解索引
本章将介绍如何确保你的页面被索引,以及如何检查它们的索引状态。
Robots 指令
Robots meta 标签是一段 HTML 代码片段,告诉搜索引擎如何抓取或索引某个页面。它被放置在网页的 <head> 部分,看起来像这样:
| |
规范化
当重复内容(Duplicate Content)导致同一页面出现多个版本时,Google 会选择其中一个存储在索引中。这个过程叫做规范化(Canonicalization),被选为规范版本的 URL 将是 Google 在搜索结果中展示的那个。Google 使用多种信号来选择规范 URL,包括重复页面之间的关系。
查看 Google 如何索引某个页面的最简单方式是使用 Google Search Console 中的 URL 检查工具(URL Inspection Tool),它会显示 Google 选择的规范 URL。
技术 SEO 快速优化
对 SEO 从业者来说,最难的事情之一就是确定优先级。最佳实践有很多,但有些更改对排名和流量的影响比其他更大。以下是一些建议优先处理的项目。
确保你想让人们找到的页面可以被索引
前两章讲的都是抓取和索引,这绝非偶然。你可以检查"可索引性"报告来找到无法被索引的页面以及原因。
回收丢失的链接
网站的 URL 往往会随着时间推移而变化。在很多情况下,这些旧 URL 拥有来自其他网站的链接。如果它们没有被重定向到当前页面,那么这些链接就丢失了,不再为你的页面贡献权重。
好消息是,现在做重定向也不算晚,你可以快速回收这些丢失的价值。可以把这看作你能做的最快的链接建设。
具体做法是找到返回 404(页面未找到)响应的旧 URL,查看它们曾经是什么页面,然后将旧 URL 重定向到当前对应的页面。
301 重定向(301 Redirect)是永久性重定向。任何指向被重定向 URL 的链接,在 Google 看来都将计入新 URL 的权重。
添加内部链接
内部链接(Internal Links)是从你网站的一个页面指向另一个页面的链接。它们帮助页面被发现,同时也有助于页面获得更好的排名。
这个工具通过查找你网站上已经排名的关键词的提及来工作,然后将它们建议为上下文相关的内部链接机会。
例如,如果在关于重复内容的指南中提到了"分面导航"(Faceted Navigation),而你的网站恰好有一篇关于分面导航的文章,就可以在此处添加一个内部链接。
添加 Schema 标记
Schema 标记(Schema Markup)是帮助搜索引擎更好理解你内容的代码,它驱动了许多能让你的网站在搜索结果中脱颖而出的功能。它也可能帮助 LLM 正确理解你的页面内容。Google 提供了一份文档,展示了各种搜索功能以及你的网站需要哪些 Schema 才能具备资格。
面向 AI 搜索的技术 SEO
AI 已经改变了内容被发现和展示给搜索者的方式,但它仍然依赖于可抓取、结构良好、值得信赖的网页这一基础。AI 同时也在改变我们创建和优化内容的方式。
关注几个 AI 特定的技术因素,可以帮助你在人们搜索信息的各个渠道保持可见。
确保你的网站对 LLM 可访问
和搜索引擎一样,LLM 需要能够抓取你的网站并访问其内容。但它们的工作方式与搜索引擎爬虫有所不同。
例如,大多数 LLM 不会渲染 JavaScript。如果关键内容或导航只在 JavaScript 加载后才出现,某些 AI 爬虫可能看不到它。因此,对于你想在 AI 搜索中可见的任何关键内容,最好避免依赖 JavaScript 来呈现。
同时也值得检查第三方工具是否阻止了 AI 爬虫访问你的网站。例如,Cloudflare 推出了新功能,允许网站所有者控制 AI 平台是否可以抓取内容用于训练数据集。
重定向 AI 幻觉产生的 URL
AI 搜索系统可能会引用你域名下实际不存在的 URL。你可以通过分析工具查看哪些页面从 AI 搜索获得了流量。
如果其中某些页面返回 404 错误,说明 AI 系统可能"幻觉"出了这个 URL。为了避免流量损失,你可以将该 URL 重定向到一个相关的有效页面。
定期监控可以防止用户不满,并保护品牌权威性。
AI 内容检测
虽然使用 AI 为网站创建内容是可以的,但过多的 AI 内容可能会被视为垃圾信号。
你可以使用 AI 检测工具来查看机器如何判断你内容中 AI 的使用程度,也可以批量检查现有页面,找出可能需要重写的内容。
AI 工具注入的代码
如果你使用 AI 来帮助构建网站或添加新功能,它们可能会添加额外的 HTML 代码,暴露 AI 的使用痕迹。
曾有案例中,Yoast SEO 的一个 bug 向页面中插入了隐藏的 AI 相关 class,让搜索引擎很容易发现 AI 的参与。
如果你使用 AI 工具进行页面更改,请检查网站源代码,确保没有意外内容被添加。通过定期的代码审查和发布前测试,可以避免这类隐藏的"指纹"。
其他技术 SEO 项目
本章要讨论的项目都值得关注,但它们可能需要更多的工作量,且收益不如前面的"快速优化"项目那么显著。这并不意味着你不该做,只是帮助你更好地确定优先级。
页面体验信号
这些是较次要的排名因素,但从用户体验的角度来看仍然值得关注。它们涵盖了影响用户体验(UX)的网站方面。
Core Web Vitals
Core Web Vitals(核心网页指标)是 Google 页面体验信号中的速度指标,用于衡量用户体验。这些指标包括:
- LCP(Largest Contentful Paint,最大内容绘制):衡量视觉加载速度
- CLS(Cumulative Layout Shift,累积布局偏移):衡量视觉稳定性
- FID(First Input Delay,首次输入延迟):衡量交互响应速度
HTTPS
HTTPS 保护浏览器与服务器之间的通信,防止被攻击者拦截和篡改。它为当今绝大多数网络流量提供了机密性、完整性和认证保障。你的页面应该通过 HTTPS 而非 HTTP 加载。
任何在地址栏显示"锁"图标的网站都在使用 HTTPS。
移动端友好
简单来说,这是检查网页在移动设备上是否能正常显示和方便使用。
如何判断你的网站是否移动端友好?可以查看 Google Search Console 中的"移动设备易用性"报告,它会告诉你哪些页面存在移动端友好问题。
侵入式弹窗
侵入式弹窗(Intrusive Interstitials)是指遮挡主要内容的弹出窗口,用户可能需要与其交互才能关闭。这类内容会阻碍用户查看页面内容,应尽量避免。
Hreflang — 多语言网站
Hreflang 是一种 HTML 属性,用于指定网页的语言和地理定位。如果你有同一页面的多个语言版本,可以使用 hreflang 标签告诉 Google 等搜索引擎这些变体的存在,帮助它们为用户提供正确的版本。
常见的 hreflang 配置问题包括:无效的语言代码、缺少自引用链接、以及缺乏互惠标签等。
日常维护与网站健康
这些任务不太可能对排名产生重大影响,但从用户体验角度来看通常值得修复。
死链
死链(Broken Links)是网站上指向不存在资源的链接。它们可以是内部链接(指向你域名下的其他页面)或外部链接(指向其他域名的页面)。
重定向链
重定向链(Redirect Chains)是在初始 URL 和目标 URL 之间发生的一系列重定向。应尽量减少重定向链,让重定向直接指向最终目标。
技术 SEO 工具
这些工具可以帮助你改善网站的技术方面。
Google Search Console
Google Search Console(以前叫 Google Webmaster Tools)是 Google 提供的免费服务,帮助你监控和排查网站在搜索结果中的表现。
用它可以发现和修复技术错误、提交站点地图(Sitemap)、查看结构化数据问题等。Bing 和其他搜索引擎也有各自的类似工具。
Ahrefs Webmaster Tools
Ahrefs Webmaster Tools 是一款免费工具,帮助你提升网站的 SEO 表现。它可以:
- 监控网站的 SEO 健康状况
- 检查 100 多种 SEO 问题
- 查看所有反向链接
- 查看你排名的所有关键词
- 了解页面获得的流量
- 发现内部链接机会
Google 移动端友好测试
Google 的移动端友好测试检查访问者在移动设备上使用你页面的便利程度。它还能识别特定的移动端可用性问题,如文字太小、使用不兼容的插件等。
你也可以使用 Rich Results Test(富媒体结果测试)来查看 Google 在桌面端或移动端看到的内容。
Chrome DevTools
Chrome DevTools 是 Chrome 内置的网页调试工具。可以用它来调试页面速度问题、改善网页渲染性能等。
从技术 SEO 的角度来看,它的用途几乎无穷无尽。
Ahrefs SEO 工具栏
Ahrefs SEO Toolbar 是一款免费的浏览器扩展,提供你访问的页面和网站的实用 SEO 数据。
免费功能包括:
- 页面 SEO 报告
- 重定向跟踪器(含 HTTP 头信息)
- 死链检查器
- 链接高亮器
PageSpeed Insights
PageSpeed Insights 分析网页的加载速度。除了性能评分外,它还提供可执行的建议来加快页面加载速度。
总结
- 如果你的内容没有被索引,就不会出现在搜索引擎中。
- 当影响搜索流量的问题出现时,修复它应该是首要任务。但对于大多数网站来说,把时间花在内容和链接上可能更有价值。
- 影响最大的技术 SEO 项目通常与索引或链接相关。
- 技术 SEO 对 AI 搜索同样重要。结构良好、可抓取的页面有助于 AI 系统发现、理解并展示你的内容。