本文翻译自 How Do Search Engines Work? — Ahrefs

搜索引擎概念

搜索引擎是什么

搜索引擎是一个可检索的网页内容数据库,由两个核心部分组成:

  • 搜索索引(Search Index):一个存储网页信息的数字图书馆。简单说就是先把互联网上的内容收集、整理、存起来。
  • 搜索算法(Search Algorithm):负责从搜索索引中匹配并返回结果的计算机程序。用户搜索时,从索引中找出最相关的内容,排好序返回。

搜索引擎的目标

为用户提供最优质、最相关的搜索结果。谁的结果更好,谁就能赢得更多用户和市场份额。

搜索引擎怎么赚钱

搜索结果分为两类:

  1. 自然搜索结果(Organic Results):来自搜索索引,无法花钱购买排名。
  2. 付费搜索结果(Paid Results):来自广告主的投放,按位置付费。

每当用户点击一条付费结果,广告主就要向搜索引擎支付费用,这就是按点击付费广告(PPC, Pay-Per-Click)。这也解释了为什么市场份额对搜索引擎至关重要——用户越多,广告点击越多,收入就越高。

搜索结果类型

搜索引擎如何构建索引

每个搜索引擎都有自己构建索引的流程。下面是 Google 构建索引的简化流程

Google 索引流程

下面逐步拆解这个流程。

URL

一切从一组已知的 URL 开始。Google 有多种方式发现新的 URL,最常见的有三种:

  • 反向链接(Backlinks):Google 已索引了数千亿个网页。当某个已知页面链接到一个新页面时,Google 就能顺着链接发现它。
  • 站点地图(Sitemap):Sitemap 告诉 Google 你认为站点中哪些页面和文件是重要的。
  • 手动提交 URL:站点所有者可以在 Google Search Console 中提交单个 URL,请求 Google 进行抓取。

抓取(Crawling)

抓取是指一种叫做"爬虫(Spider)“的程序访问并下载已知 URL 的过程。Google 的爬虫叫做 Googlebot

处理与渲染(Processing & Rendering)

处理是指 Google 从已抓取的页面中理解并提取关键信息。为此,Google 需要渲染页面——即执行页面代码,以了解用户实际看到的页面内容。

Google 之外没有人知道这个过程的全部细节。但这并不重要,我们只需要知道:这个过程的核心是提取页面中的链接,并将内容存储起来以供索引。

索引(Indexing)

索引是指将处理后的页面信息添加到搜索索引中。

当我们使用搜索引擎时,搜索的就是这个索引。AI 助手(如 ChatGPT、Claude、Gemini)也会利用搜索索引来查找网页。因此,被 Google、Bing 等主流搜索引擎收录至关重要——如果你的页面不在索引中,用户就无法找到你。

你知道吗? Google 占据了 91.43% 的搜索引擎市场份额,是绝大多数人使用的搜索引擎,因此它能为网站带来远超其他搜索引擎的流量。

搜索引擎如何对页面进行排名

发现、抓取和索引内容只是整个流程的第一步。当用户发起搜索时,搜索引擎还需要一种方式来对匹配的结果进行排名——这就是搜索算法的工作。

什么是搜索算法

搜索算法是一套公式,用于从索引中匹配并排列相关结果。Google 的算法会综合考量多种因素。

Google 的关键排名因素

没有人知道 Google 全部的排名因素,因为 Google 从未公开披露过。但我们确实了解其中一些关键因素,下面来看几个重要的。

反向链接是从一个网站的页面指向另一个网站的链接,是 Google 最强的排名因素之一。这可能也是为什么在 Ahrefs 对超过十亿个页面的研究中,引荐域名(Referring Domains)数量与自然搜索流量之间呈现出很强的相关性。

引荐域名与流量的相关性

不过,反向链接不仅仅看数量,质量同样重要。拥有少量高质量反向链接的页面,往往排名优于拥有大量低质量反向链接的页面。

相关性(Relevance)

相关性是指某个搜索结果对用户的有用程度。Google 有多种方式来判断相关性。最基本的层面是,查找包含与搜索查询相同关键词的页面。此外,Google 还会参考用户交互数据,来判断其他人是否认为该结果有用。

新鲜度(Freshness)

新鲜度是一个取决于查询内容的排名因素,对需要时效性结果的搜索影响更大。这就是为什么搜索"Netflix 新剧"时,排在前面的是最近发布的内容,而搜索"怎么解魔方"则不会。

新鲜度对比

页面速度(Page Speed)

页面速度是桌面端和移动端的排名因素之一。但它更像是一个"负面排名因素"而非"正面排名因素”——它会拖慢最慢的页面的排名,而不会给加载极快的页面额外加分。

移动端友好性(Mobile-friendliness)

自 2019 年 Google 切换到移动优先索引(Mobile-first Indexing)以来,移动端友好性就成为了移动端和桌面端的排名因素。

搜索引擎如何个性化搜索结果

Google 会为每个用户量身定制搜索结果,依据的信息包括你的地理位置、语言和搜索历史。下面逐一来看。

地理位置(Location)

Google 会利用你的地理位置,为具有本地搜索意图的查询个性化结果。这就是为什么搜索"意大利餐厅"时,所有结果都来自你附近的本地餐厅——Google 知道你不太可能为了一顿午餐飞到地球另一边。

语言(Language)

Google 知道向西班牙语用户展示英文结果毫无意义。因此,它会优先向不同语言的用户展示内容的本地化版本(如果有的话)。

语言个性化

搜索历史(Search History)

Google 会保存你的搜索行为和访问过的地点,以提供更个性化的搜索体验。你可以选择关闭这个功能,但大多数人可能不会这么做。

要点总结

  • 搜索引擎由两个核心部分组成:索引和算法。
  • 为了构建索引,搜索引擎会抓取已知页面并跟踪链接来发现新页面。
  • 搜索算法的目标是返回最优质、最相关的结果。
  • 搜索结果的质量对搜索引擎赢得市场份额至关重要。
  • 没有人知道 Google 自然排名的所有因素。
  • 已知的关键排名因素包括反向链接、相关性和新鲜度。
  • Google 会根据你的地理位置、语言和搜索历史个性化搜索结果。

参考资料

  1. “Understand JavaScript SEO Basics”. Google.
  2. “Organizing Information — How Google Search Works”. Google.
  3. “Learn about sitemaps”. Google.
  4. “Googlebot”. Google.
  5. “Search Engine Market Share Worldwide”. Statcounter.
  6. “Google Q&A+ #March”. YouTube.
  7. “90.63% of Content Gets No Traffic From Google”. Ahrefs.
  8. “CloudFlare Radar”. CloudFlare.
  9. “Ranking Search Results — How Google Search Works”. Google.
  10. “Using site speed in web search ranking”. Google.
  11. “Using page speed in mobile search ranking”. Google.
  12. “Mobile-first indexing best practices”. Google.
  13. “Find & control your Web & App Activity”. Google.