灰度_找资源，谈合作，上灰度

Google搜索内部API文档泄漏，揭露多项可能影响搜索排名的特征，不过，Google拒绝评论文档内容的真实性

Photo by Karollyne Videira Hubert on Unsplash

近期网络上流传一份Google内部描述搜索引擎运作细节的API文档，在一段时间的沉默后，Google终于发出声明，警告外界不要根据缺乏脉络与不完整的信息，对搜索做出不准确的假设，并强调他们已经分享了大量搜索运作的方式，同时也致力于保护搜索结果不被操纵。

之所以该文档引起搜索引擎优化（SEO）专家的注意与兴趣，是因为其中描述的细节与Google过去公开声明的信息相矛盾，包括不使用网域权重、不使用点击评份以及没有使用沙箱等。

Sparktoro共同创办人Rand Fishkin在5月初的时候收到了一份匿名寄送的信件，内容是一份Google搜索部门内部的API文档，而这份文档经过前Google员工、iPullRank首席执行官同时也是SEO专家的Mike King视图，初步认定可信度极高，再加上Google最新的声明，更间接证实了该份文档确实来自Google。

Google遭泄漏的API文档超过2,500页，涵盖2,596个模块14,014项属性，Mike King指出，这份文档的内容与不少Google过去所公开的搜索规则相矛盾，他认为，Google的发言人从系统运作方面误导SEO工程师，以及潜在的垃圾邮件发送者，使得外界无法得知影响寻引擎的方法。

Mike King提及数项文档与Google公开宣称不符的信息，包括Google曾经多次说过，Google搜索不使用网域权重，但是文档中载明有一个称为siteAuthority的指针，用于评估网站权重，siteAuthority指针存在于Google的Compressed Quality Signals中，并在Q*排名系统中使用，而这项数据与Google官方声明相矛盾。

Google官方过去也否认使用点击数据进行排名，但是Google搜索中的NavBoost系统显示，Google确实使用不良点击、良好点击和最后的长点击（Long Click）行为作为排名算法的一部分指针。不只如此，官方多次否定的沙箱机制，在文档中的PerDocData模块，显示出确实存在一个hostAge属性，Mike King指出，Google在某些情况下会根据网站年龄和缺乏信任的信号，来对网站进行隔离处理。

另外，Google也多次对外宣称不使用Chrome数据作为搜索的一部分，但是Mike King根据泄露的文档表示，Google确实使用了Chrome数据，来自Chrome存取的数据被用于即时增强信号的一部分，用于提升搜索结果的品质和相关性。

不过值得注意的是，Mike King指出，虽然有许多Google搜索用到的特征被揭露出来，但是从文档中，目前还无法看出各特征在下游的评分函数权重，因此也不确定这些特征具体使用方式。不过，由于该文档泄漏了2024年3月Google搜索内容存储的现行架构，以及相关代码提交历史，证明这份数据是新信息。