Photo by Karollyne Videira Hubert on Unsplash
近期网络上流传一份Google内部描述搜索引擎运作细节的API文档,在一段时间的沉默后,Google终于发出声明,警告外界不要根据缺乏脉络与不完整的信息,对搜索做出不准确的假设,并强调他们已经分享了大量搜索运作的方式,同时也致力于保护搜索结果不被操纵。
之所以该文档引起搜索引擎优化(SEO)专家的注意与兴趣,是因为其中描述的细节与Google过去公开声明的信息相矛盾,包括不使用网域权重、不使用点击评份以及没有使用沙箱等。
Sparktoro共同创办人Rand Fishkin在5月初的时候收到了一份匿名寄送的信件,内容是一份Google搜索部门内部的API文档,而这份文档经过前Google员工、iPullRank首席执行官同时也是SEO专家的Mike King视图,初步认定可信度极高,再加上Google最新的声明,更间接证实了该份文档确实来自Google。
Google遭泄漏的API文档超过2,500页,涵盖2,596个模块14,014项属性,Mike King指出,这份文档的内容与不少Google过去所公开的搜索规则相矛盾,他认为,Google的发言人从系统运作方面误导SEO工程师,以及潜在的垃圾邮件发送者,使得外界无法得知影响寻引擎的方法。
Mike King提及数项文档与Google公开宣称不符的信息,包括Google曾经多次说过,Google搜索不使用网域权重,但是文档中载明有一个称为siteAuthority的指针,用于评估网站权重,siteAuthority指针存在于Google的Compressed Quality Signals中,并在Q*排名系统中使用,而这项数据与Google官方声明相矛盾。
Google官方过去也否认使用点击数据进行排名,但是Google搜索中的NavBoost系统显示,Google确实使用不良点击、良好点击和最后的长点击(Long Click)行为作为排名算法的一部分指针。不只如此,官方多次否定的沙箱机制,在文档中的PerDocData模块,显示出确实存在一个hostAge属性,Mike King指出,Google在某些情况下会根据网站年龄和缺乏信任的信号,来对网站进行隔离处理。
另外,Google也多次对外宣称不使用Chrome数据作为搜索的一部分,但是Mike King根据泄露的文档表示,Google确实使用了Chrome数据,来自Chrome存取的数据被用于即时增强信号的一部分,用于提升搜索结果的品质和相关性。
不过值得注意的是,Mike King指出,虽然有许多Google搜索用到的特征被揭露出来,但是从文档中,目前还无法看出各特征在下游的评分函数权重,因此也不确定这些特征具体使用方式。不过,由于该文档泄漏了2024年3月Google搜索内容存储的现行架构,以及相关代码提交历史,证明这份数据是新信息。



2024-05-31
