谷歌搜索引擎的工作原理-行业知识-思亿欧集团外贸快车金华服务中心

谷歌搜索引擎的工作原理

2021-10-06

谷歌搜索引擎的工作原理非常复杂，我们今天所讲的，对于真正的搜索引擎来说是非常浅显的。搜索引擎的工作过程大致是如图所示的四个阶段。

1.爬行：搜索引擎蜘蛛程序通过跟踪链接发现和访问网页。

2.抓取：读取页面的HTML代码，存入数据库。

3.预处理：索引程序对抓取过来的页面数据进行文字的提取、索引、倒排索引等处理，以备排名程序调用。

4.排名：当用户输入查询词的时候，排序程序根据排名的相关规则，计算相关性，实用性，然后按照一定格式生成搜索结果页面。

谷歌搜索引擎的工作原理

蜘蛛程序

搜索引擎用来执行爬行和访问网页的程序，形象的把它称为蜘蛛（spider)或者机器人（bot）.蜘蛛访问页面的过程与普通用户使用浏览器的过程相似。蜘蛛程序发出访问网站页面的请求后，服务器返回HTML代码，蜘蛛程序把代码存入原始的数据库。

跟踪链接

为了抓取尽量多的页面，搜索引擎蜘蛛程序会跟踪网站上的链接，从一个页面爬向另外一个页面，就像蜘蛛在网上爬行那样，通过一条条编制的线，连续不断的从一端爬向另一端，这也是为什么称为蜘蛛程序的原因。

整个互联网，都是有网站跟链接构成的，理论上来讲，蜘蛛沿着一个页面可以爬向所有的页面。（除了一些与其他网站没有链接的孤岛页面，或者人为设置的不让抓取的页面）。

最简单的爬行方式分为：深度优先跟广度优先。

深度优先：指的是蜘蛛沿着一个链接一直爬行下去，比如沿着A-A1-A2-A3-A4 B-B1-B2-B3-B4 从A开始一直爬到A4，如果再没页面了，又回头从B开始爬到B4，以此类推。

广度优先：指的是蜘蛛在一个页面发现好几个链接，不是顺着一个个链接向前爬的，而是爬完这些链接，再沿着第二层开始爬，以此类推。比如在一个页面发现A B C D四个链接，依次爬完A B C D四个链接，再从第二层A1 B1 C1 D1开始继续，如此重复。

理论上来讲，只要给予搜索引擎蜘蛛程序足够多的时间，就能爬完整个互联网页面，但实际工作中，蜘蛛的宽带资源、时间都不是无限的，不可能爬完所有的页面，再大的搜索引擎也只是爬完互联网上的一小部分网页。

广度优先跟深度优先这两种爬行策略是同时进行的，广度优先是保证照顾足够多的网站，深度优先是保证照顾单个网站足够多的内页。（这其实也能解释为什么新网站或者权重地的网站收录低的原因）。

吸引蜘蛛

由此可见，虽然理论上蜘蛛能爬行和抓取所有页面，但实际上不能、也不会这么做。 SEO人员要想让更多自己的页面被收录，就要想方设法吸引蜘蛛来抓取。既然不能抓取所有页面，蜘蛛所要做的就是尽量抓取重要页面。哪些页面会被认为比较重要呢?有几方面影响因素。

（1）质量高、资格老的网站被认为权重比较高，这种网站上的页面被爬行的深度也比较高，所以会有更多内页被收录。

(2)页面更新度。蜘蛛每次抓取都会把页面数据存储起来。如果下一次抓取发现页面与第一次收录的完全一样，说明页面没有更新。多次抓取后，蜘姝会对页面的更新频率有所了解，不常更新的页面，蜘蛛也就没有必要经常抓取了。如果页面内容经常更新，蜘蛛就会更加频繁地访问这种页面，页面上出现的新链接，也自然会被蜘蛛更快地跟踪，抓取新页面。f

(3)导入链接。无论是外部链接还是同一个网站的内部链接，要被蜘蛛抓取，就必须有能够进入页面的导入链接，否则蜘蛛根本不知道页面的存在，高质量的导入链接经常使页面上的导出链接被爬行的深度增加。

(4)与首页点击距离，一般来说，网站上权重最高的是首页，大部分外部链接是指向首页的，蜘蛛访问最频繁的也是首页。与首页点击距离越近，页面权重越高，被蜘蛛爬行的机会也就越大。（网站的层级不要分的太深，外贸快车网站要求是三级结构，是对优化非常友好的）

(5)URL结构，页面权重是在收录并进行迭代计算后才知道的，前面提到过，页面权重越高越有利于被抓取，那么搜索引擎蜘蛛在抓取前怎么知道这个页面的权重呢?蜘蛛会进行预判，除了链接、与首页距离、历史数据等因素，短的、层次浅的URL 比可能被直观地认为在网站上的权重相对较高。

地址库及调度系统

为了避免重复爬行和抓取网址，搜索引擎会建立地址库，记录已经被发现但还有没有抓取的页面，以及已经被抓取的页面。蜘蛛在页面上发现链接后并不是马上就去访问，而是将URL存入地址库，然后统一由调度系统安排抓取。

地址库中的URL有以下几个来源。

人工录入的种子网站。

蜘蛛抓取页面后，从HTML中解析出新的链接URL，与地址库中的数据进行对比，如果是地址库中没有的网址，就存入待访问地址库。

站长主动通过表格提交进来的网址。

站长通过XML网站地图、站长平台提交的网址。

蜘蛛按重要性从待访问地址库中提取URL，访问并抓取页面，然后把这个URL从待访问地址库中删除，存放进已访问地址库中。

无论是通过XML网站地图还是通过表格提交的网址，都只是存入地址库而已，是否抓取和收录取决于其页面的重要性和质量，搜索引擎收录的绝大部分页面是蜘蛛自己跟踪链接得到的。对中小网站来说，提交页面的作用微乎其微，搜索引擎更喜欢自己沿着链接发现新页面（但还是需要手动提交谷歌收录，提醒谷歌蜘蛛程序去及时处理我们的网页）。大型网站提交 XML 网站地图对收录有一定帮助。

文件存储

搜索引擎蜘蛛抓取的数据存入原始页面数据库，其中的页面数据与用户浏览器得到的HTML是完全一样的，每个URL都有一个独特的文件编号。

爬行时的复制内容检测

检测并删除重复内容是在下面介绍的预处理过程中进行的，但现在的蜘蛛在爬行和抓取文件时，也会进行一程度的复制内容检测。若发现权重很低的网站上出现大量转载或抄袭内容，可能不再继续爬行。这也是有的站长在日志文件中发现了蜘蛛，但是页面却从来都没有被收录的原因。

预处理

在一些SEO资料中，“预处理”也被简称为“索引”，因为索引是预处理最主内容。搜索引擎抓取的原始页面，并不能直接用于查询排名处理。搜索引擎数据库的页面数据都在数万亿级别以上，用户输入搜索词后。若靠排名程序实时分析这么多页面的相关性，计算量太大，不可能在一秒内返回排名结果。因此，抓取来的页面必须先经过预处理，为最后的查询排名做好准备。

和爬行抓取一样，预处理也是在后台提前完成的，用户在搜索时察觉不到这个过程的。

1. 提取文字

现在的搜索引擎还是以文字内容为基础的。蜘蛛抓取到的页面HTML代码，除了用户在浏览器上可以看到的可见文字，还包含了大量的HTML格式标签、JavaScript程序等无法用于排名的内容。搜索引擎在预处理时，首先要做的就是从 HTML 代码中去除这些标签、程序，并提取出可以用于排名的页面文字内容。

除了可见的文字内容，搜索引擎也会提取出一些包含文字信息的特殊代码，如meta标签中的文字、图片替代文字、链接锚文字等。

2.中文分词

分词是中文搜索特有的步骤。搜索引擎存储和处理页面内容及用户查询都是以词为基础的。英文等语言在单词与单词之问有空格作为天然分隔，搜索引擎索引程序可以接把句子划分为单词的集合。而中文在词与词之间没有任何分隔符，一个句子中所有字和词都是连在一起的。搜索引擎必须首先分拼哪几个字组成一个词，哪些字本身就一个词。比如“减肥方法”就将被分词为“减肥”和“方法”两个词。

中文分词方法基本上有两种:一种是基于词典匹配，另一种是基于统计。

基于词典匹配的方法是指将待分析的一段汉字串与一个事先造好的词典中的词条进行匹配，在待分析汉字串中扫描到词典中已有的词条则匹配成功，或者说切分出一个单词，按照扫描方向，基于词典的匹配法可以分为正向匹配和逆向匹配。按照匹配长度优先级的不同，又可以分为最大匹配和最小匹配。将扫描方向和长度优先合，又可以产生正向最大匹配、逆向最大匹配等不同方法。

词典匹配方法计算简单，其准确度在很大程度上取决于词典的完整性和更新情况。基于统计的分词方法指的是通过分析大量文字样本，计算出字与字相邻出现的统计概率，几个字相邻出现的次数越多，就越可能被确定为一个单词。基于统计的方法的优势是对新出现的词反应更快速，也有利于消除歧义。

基于词典匹配和基于统计的分词方法各有优劣，实际使用中的分词系统都是混合使用两种方法的，既快速高效，又能识别生词、新词，消除歧义。

中文分词的准确性往往会影响搜索引擎排名的相关性。搜索引擎对页面的分词情况取决于词库的规模、准确性和分词算法的好坏，而不是取决于页面本身如何，所以SEO人员对分词所能做的工作很少。唯一能做的是在页面上用某种形式提示搜索引擎，某几个字应该被当作一个词来处理，尤其是可能产生歧义的时候，比如在页面标题、H1标签及黑体中出现关键词。如果页面是关于“外贸快车”的内容，那么可以把“外贸快车”这两个字特意标为黑体。如果页面是关于“外贸快车和谷歌优化”，可以把“谷歌优化”两个字标为黑体。这样，搜索引擎对页面进行分析时就知道标为黑体的几个相邻字应该是一个词。

3.去停止词

无论是英文还是中文，页面内容中都会有一些出现频率很高，却对内容没有实质影响的词，如“的”“地””得”之类的助词，“啊”“哈”“呀”之类的感叹词，“从而”“以”“却”之类的副词或介词。这些词被称为停止词，因为它们对页面的主要意思没什么影响。英文中的常见停止词有the、an、to、of 等。

搜索引擎在索引页面内容之前会去掉这些停止词，使索引数据主题更为突出，减少无谓的计算量。

4.消险躁声

绝大部分页面上还有一部分对页面主题没有什么贡献的内容，比如版权声明文字、导航内容、广告等。以常见的博客导航为例，几乎每个博客页面上都会出现文章分类、历史存档等导航内容，但是这些页面本身与“分类”“历史”这些词没有任何关系。用户搜索“历史”“分类”这些关键词时，仅因为页面上有这些词出现，就返回博客帖子，这种行为是毫无意义的，因为这些词与页面主题完全不相关。这些内容都属于噪声。对页面主题只能起到分散作用。

搜索引擎需要识别并消除这些噪声，排名时不使用噪声内容。消噪的基本方法是根据 HTML 标签对页面分块，区分出页头、导航、正文、页脚、广告等区域，在网站上大量重复出现的区块往往属于噪声。对页面进行消噪后，剩下的才是页面主体内容。

5.去重

搜索引擎还需要对页面进行去重处理。

同一篇文章经常会重复出现在不同网站或同一网站的不同网址上，搜索引擎并不喜欢这种重复性的内容。用户在搜索时，如果在前两页看到的都是来自不同网站的同一篇文章，那么用户体验就太差了。搜索引擎希望相同的文章只出现一次，所以在进行索引前还需要识别和排除重复内容，这个过程称为“去重”。

去重的基本方法是对页面特征关键词计算指纹。典型的指纹计算方法如MD5算法，《信息摘要算法第5版)。这类指纹算法的持点是，输入有任何微小的变化，都会导致算出的指纹有很大差距。

6、正向索引

正向索引也可以简称为索引。经过文字提取、分词、消噪、去重后，搜索引擎得到的就是独特的，能反应页面主体内容的、以词为单位的字符串。接下来搜索引擎索引程序就可以提取关键词，把页面转换为一个由关键词组成的集合，同时记录每一个关键词在页面上出现的格式(如出现在标题标签、黑体、H标签、锚文字等)、位置等信息、这样，每一个页面都可以记录为一串关键词集合，其中每个关键词的词频、格式、位置权重都记录在案。搜索引擎索引程序将页面和关键词形成的词表结构存储进索引库，简化的索引结构如下所示。

简化的索引调表结构

文件ID 内容

文件1：关键词1，关键词2，关键词7，关键词10。......关键词L

文件 2: 关键词1，关健词2，关键词3......关键词M

文件3：关键词2，关键词7，关键词30......关键词N

文伴6 ：关键词2，关键词7，关键词10......关键词X

文件x:：关键词7，关键词50，关键词90......关健词y

每个文件都对应一个文件ID，文件内容被表示为一串关键词的集合。实际上，在搜索引擎索引库中，关键词也已经转换为关键词ID。这样的数据结构就称为正向索引。

7倒排索引

正向索引还不能直接用于排名。假设用户搜索关键词 2，如果只存在正向索引，那么排名程序就需要扫描所有索引库中的文件，找出包含关键词2的文件，再进行相关计算。这样的计算量无法满足实时返回排名结果的要求，所以搜索引擎会将正向案引数据库重新构造为倒排索引，把文件对应到关键词的映射转换为关键词到文件的映射。倒排索引结构如下所示。

倒排索引结构

关健词文件

关健词1：文件1，文件2，文件15，文件58......文件l

关键词2 ：文件1，文件3，文件6......文件m

关键词3：文件5，文件700，文件805......文件n

关键词7 ：文件1，文件2，文件6......文件x

关键词Y：文件80，文件90，文件100......文件y

在倒排索引中，关键词是主题，每个关键词都对应着一系列的文件，这些文件中都出现了这个关键词。这样当用户搜索某个关键词时，排序程序就可以在倒排索引中定位到这个关键词，马上找出所有包含这个关键词的文件。

8.链接关系计算

链接关系计算也是预处理很重要的一部分。现在所有的主流搜索引擎排名因素中都包含网页之间的链接流动信息。搜索引擎在抓取页面内容后，必须事前计算出页面上有哪些链接指向哪些其他页面，每个页面有哪些导入链接，链接使用了哪些锚文字，这些复杂的链接指向关系形成了网站和页面的链接权重。

Google PR 值就是这种链接关系最主要的体现之一，其他搜索引擎也都进行类似计算，虽然它们并不称为PR 值。

由于页面和链数量巨大，网上的链接关系又时时处在更新状志，因此链接关系及PR值计算要耗费很长时间。

特殊文件处理

除了HTML文件，搜索引擎通常还能抓取和索引以文字为基础的多种文件类型，如 PDF、Word，WPS.XLS、PPT、TXT文件等、我们在搜索结果中也会看到这些文件类型。但目前的搜索引擎对图片、视频、脚本和程序等非文字内容只能进行有限的处理。

虽然搜索引擎在识别图片内容方面有些进步，不过距离直接靠读取图片、视频内容返回结果的目标还很远，对图片、视频内容的排名往往还是依据与之相关的文字内容来进行的。

曾经报热门的Flash 已经被Adobe 停止支持，百度、Googe也都不再读取Flash文件了。

10.质量判断

在预处理阶段，搜索引擎会对页面内容质量、链接质量等做出判断。近两年的百度的绿萝算法、石榴算法，Google的熊猫算法、企鹅算法等都是预先计算，然后上线，而不是查询时实时计算。

这里所说的质量判断包含很多因素，并不局限于针对关键词的提取和计算，或者针对链接进行数值计算。比如对页面内容的判断，很可能包括了用户体验、页面排版、广告布局、语法、页面打开速度等，也可能会涉及模式识别、机器学习、人工智能等方法。

排名

经过搜索引擎蜘蛛抓取页面，索引程序计算得到倒排索引后，搜索引擎就已准备好，可以随时处理用户搜索了。用户在搜索框输入查询词后，排名程序就会调用索引库数据，计算排名并显示给用户。排名过程是与用户直接互动的。

1.搜索词处理

搜索引擎接收到用户输入的搜索词后，需要对搜索词做一些处理，才能进入排名过程。搜索词处理包括如下几方面。

(1)中文分词。与页面索引时一样，搜索词也必须进行中文分词，将查询字符串转换为以词为基础的关键词组合。其分词原理与页面分词相同。

（2）去停止词。和页面索引一样，搜索引擎也需要把搜索词中的停止词去掉，最大限度地提高排名的相关性及排名效率。

（ 3）指令处理。查询词完成分词后，搜索引擎的默认处理方式是在关键词之间使用“与”逻辑。也就是说，用户搜索“谷歌优化”时，程序分词为“谷歌”和“优化”的词，搜表引擎排序时默认用户寻找的是既包含“谷歌”，又包含“优化”的页面。只包含“谷歌”不包含“优化”，或者只包含“优化”不包含“谷歌”的页面。则被认为是不符合搜索条件的。当然，这种说法只是为了极为简要地说明原理，实际上我们还是只包含一部分关键词的搜索结果。另外，用户输入的查询词还可能包含一些高级搜索指令，如加号、减号等，搜索引擎都需要进行识别并做出相应处理。

（4）拼写错误矫正

用户如果输入了明显错误的字或者单词的时候，搜索引擎会提示用户正确的字或拼法，并进行矫正。

（5）整合搜索触发

某些搜索词会触发整合搜索，比如明星的名字，就经常触发图片及视频。

(6)搜索框提示，用户在搜索框输入查询词的过程中，搜索引擎就会根据热门数据给出多组相关的查询词，减少用户的输入时间。

(7)理解搜索真实意图。现在的搜索算法都会尝试深入理解用户的真实搜索意图，尤其是在查询词意义不明或存在歧义时，理解错误，自然会返回错误的页面。对查询词的理解无法通过关键的匹配实现，目前是以人工智能、机器学习方法为主，而且发展快速。

2.文件匹配

搜索词经过处理后，搜索引擎得到的是以词为基础的关键词集合。文件匹配阶段是找出包含所有搜索关键词的所有文件。在索引部分提到的倒排索引使得文件匹配能能快速完成，如下所示。

关键词文件

关键词1：文件1、文件2，文件15，文件58......文件L

关键词2：文件1、文件3，文件6......文件m

关键词3：文件5、文件700，文件805......文件N

关键词7：文件1、文件2，文件6......文件X

关键词Y：文件80、文件90，文件100......文件Y

假设用户按索“关键词2”和“关键词7”。排名程序只要在倒排索引中找到“关键间2”和“关链词7”这两个词，就能找到分别含有这两个词的所有页面。经过简单的求交集计算，就能找出既包含“关键词2”，又包含“关键词7”的所有页面:文件1和文件6。

3.初始子集的选择

找到包含所有关键词的匹配文件后，还不能进行相关性计算。因为找到的文件通常会有几十万、几百万，甚至上亿个，要对这么多文件实时进行相关性计算，需要很长的时间。

实际上，用户只会查看前两页的搜索结果，也就是前20个结果。搜索引擎也并不需要计算这么多页面的相关性，只要计算最重要的一部分页面即可。，经常使用搜索引擎的人都会注意到，搜索结果页面通常最多显示100个，点击搜索结果英面底部的“下一页”链接，最多也只能看到第100页，也就是1000个搜索结果。Google 曾经显示100页搜索结果，现在则不固定，不同查询词可能显示40-50页搜索结果。

总之，一次搜索最多显示1000个搜索结果，所以搜索引擎只需要计算前1000个结果的相关性，就能满足用户的搜索要求。

但问题在于，在还没有计算相关性时，搜索引擎又怎么知道哪1000个文件是最相关的呢?所以选择用于最后相关性计算的初始页面子集时，必须依靠其他特征而不是相关性，其中最主要的就是页面权重。由于所有匹配文件都已经具备了最基本的相关性(这些文件都包含所有查询词)，搜索引擎通常会用非相关性的页面特征选出一个初始子集。初始子集的数目是多少?几万个?或许更多，外人并不知道。不过可以肯定的是，当匹配页面数目巨大时，搜索引擎不会对这么多页面进行实时计算，而必须选出页面权重较高的一个子集作为初始子集，再对子集中的页面进行相关性计算。

4.相关性计算

选出初始子集后，计算子集中的页面与关键词的相关性，计算相关性是排名过程中最重要的一步，也是搜索引擎算法中最令SEO感兴趣的部分。

最经典的关键词文件相关性计算方法是TF-IDF公式:

Wxy=TFxy *log(N/DFx)

Wxy是文件y与关键词x的相关性。

TFxy是关键词x在页面y上出现的次数，即词频《term frequency)。

DFx是文件频率(docuent tnequency)，也就是包含关键词的文件总数

N是常量，所有文件的总数。

N除以DFx后取对数。称为IDF，逆文件频率(inverse docunent fregasney），取对数是为了归一化，使数值范围按比例缩小。

所以，TFIDF所代表的意思就是，相关性等于词频乘以逆文件频率。

关健词出现的次数越多，词频越大，文件与关键词的相关性就越高，但词频作为相关性存在几个问题:一是可以很容易地被人为提高，作弊。二是没有考虑文件的篇幅，所以真正使用时还应该考虑关键词密度。三是没有考虑关键询的常用程度，因此引入逆文件频率。

逆文件频率代表了关键词的常用程度。语言中越常见的词，包含这个的文件总数就越多，文件频率也就越高，逆文件频率越低，关键词与文件的相关性也越低。

所以逆文件频率也代表了这个词的语义重要性及其对相关性的贡献程度，或者说是区别文件的能力，举例来说，“的”在几乎所有的文件中都会出现，文件频率极高，逆文件频率极低，也就是说“的”这个词的语义重要性很低，对文件相关性没什么贡献。反过来，越不常用的词对文件相关性的贡献越大。“搜索引擎”这个词只出现在很少一部分文件中，逆文件频率要高得多，对文件内容来说重要性要高得多。举个极端例子，假如用户输入的查询词是“外贸快车郑博飞”。“外贸快车"这个词还算常用，在很多页面上会出现它，“郑博飞”对“外贸快车郑博飞"这个查询词的辨识程度和意义相关度的贡献就很小。找出那些包含“郑博飞”这个词的页面，对搜索排名相关性几乎没有什么影响，显然无法满足搜索需求。“郑博飞”这个词的常用程度极低，除了指我本人，大概没有其他意思，“外贸快车”对“外贸快车郑博飞"个查询词的意义页献要大得多。那些与"外贸快车”这个词相关度高的页面，才是真正与“外贸快车郑博飞"这个查询词相关的页面。常用词的极致就是停止词，对页面意义完全没有影响。

所以搜索引擎在对搜索词字符串中的关键词进行处理时并不是一视同仁的，会根据其常用程度进行加权。不常用的词加权系数高，常用词加权系数低，排名算法对不常的词会给予更多关注。

我们假设A、B两个页面都出现了“外贸快车”及“郑博飞”两个词。但是“外贸快车”这词在A 页面出现于普通文字中，“郑博飞”这个词在A 页面出现于标题标签中。B 页面相反，“外贸快车”出现在标题标签中，而“郑博飞”出现在普通文字中。那么针对“外贸快车郑博飞"这个查询，B页面的相关性将更高。

TF-IDF 是最经典的相关性算法，其思路和公式很简单，搜索引擎真正使用的算法以此为基础，但肯定要复杂的多。

处理TF-IDF，相关性算法还可能考虑：

（1）关键词位置及形式。就像在索引部分中提到的，页面关键词出现的格式及位置都被记录在索引库中。关键词越是出现在比较重要的位置，如页面标题、黑体、H1标签等、就说明与关健词越相关，这一部分就是页面SEO要解决的问题。

（2）关键词距离。切分后的关键词在页面上完整匹配地出现，说明此页面与查寻词最相关.比如搜索“减肥方法”时，连续完整出现减肥方法”四个字在页面上是最相关的，两个词在页要上没有连续匹配出现，但出现的距离较近，此页面也被搜索引擎认为相关性比较大。

（3）链接分析及页面权重。除了页面本身的因素，页面之间的链接和权重关系也影响其与关键词的相关性，其中最重要的是锚文字。页面有越多以查询词为锚文字的导入链接，就说明页面的相关性越强，链接分析还包括了链接源页面本身的主题、锚文字周围的文字等。

5.排名过滤及调整

选出匹配文件子集、计算相关性后，大体排名就已经确定了。之后搜索引擎可能还有一些过滤算法，对排名进行轻微调整，其中最主要的过滤就是施加惩罚。

嫌疑的页面，虽然按照正常的权重和相关性计算排到前面，但搜索引擎的惩罚算法却可能在最后一步把这些页面调到后面。典型的例子是百度的11位算法，Google的负6、负30、负950等算法。

6.排名显示

所有排名确定后，排名程序调用原始页面的标题标签、说明标签、页面发布或更新时间、结构化数据等信息显示就在搜索结果页面上。如果页面没有说明标签，或说明标签写得不好，搜索引擎也会从页面正文中动态生成页面说明文字。

7.搜索缓存

用户搜索的查询词有很大一部分是重复的。按照二八定律，20%的搜索词占到了总搜索次数的80%。按照长尾理论，最常见的搜索词即便没有占到80%那么多，通常也有一个比较粗大的头部，很少一部分搜索词占到了所有搜索次数的很大部分。尤其是有热门新闻发生时，每天可能有几百万人都在搜索完全相同的词。

如果每次搜索都重新处理排名，可以说是很大的浪费。搜索引擎会把最常见的查询词及结果存入缓存，用户搜索时直接从缓存中调用，而不必经过文件匹配和相关性计算，搜索用户的IP地址、搜索词、搜索时间，以及点击了哪些结果页面，搜索引擎都会记录并形成日志。这些日志文件中的数据对搜索引擎判断搜索结果质量、调整搜索算法、预期搜索趋势、开发人工智能算法等都具有重要意义。

上文简单介绍了谷歌搜索引擎的工作原理，实际上搜索引擎的工作步骤与算法是极为杂的。

上一条: 独立站-企业自有数据资产的应用

下一条: 搜索引擎面对的5大挑战

谷歌搜索引擎的工作原理

产品分类

相关新闻

推荐产品