【外评】泄露API文档揭示谷歌搜索如何把守互联网大门

谷歌搜索通常被称为互联网的大门–是大多数人获取网络信息的第一站。然而,谷歌对其如何组织互联网并不多说,这使得搜索成为一个巨大的黑箱,决定了我们知道什么,不知道什么。本周,搜索引擎优化(SEO)资深人士兰德-菲什金(Rand Fishkin)首次报告了一份 2500 页的泄密信息,让世人得以一窥谷歌搜索长达 26 年之久的神秘面纱。

“菲什金在给 Gizmodo 的一封电子邮件声明中说:”我认为最大的收获是,谷歌公众代表所说的和谷歌搜索引擎所做的是两码事。

这些文件更详细地展示了谷歌搜索是如何控制我们消费的信息的。将正确的网页呈现在你的电脑上并不是一项被动的任务,因为成千上万的编辑决定都是由一群神秘的谷歌人代表你做出的。对于搜索引擎优化这个与谷歌算法息息相关的行业来说,泄露的文件无疑是一场地震。这就像美国国家橄榄球联盟的裁判在赛季进行到一半时改写了橄榄球规则,而你只是在打超级碗时才发现。

几位搜索引擎优化专家告诉 Gizmodo,这次泄露的信息列出了 14,000 个排名特征,这些特征至少为谷歌如何组织网络上的一切描绘了蓝图。其中一些因素包括谷歌对网站在特定主题上的权威性、网站规模或网页点击量的判断。谷歌之前曾否认在搜索中使用了其中一些排名功能,但该公司证实这些文件是真实的,尽管在它看来并不完美。

“谷歌发言人在给 Gizmodo 的一封电子邮件中说:”我们提醒大家不要根据断章取义、过时或不完整的信息对搜索做出不准确的推断。”我们已经分享了有关搜索如何工作以及我们系统权衡的因素类型的大量信息,同时也在努力保护我们结果的完整性,防止被操纵。”

关于谷歌的 “谨慎”,该公司不愿证实这些文件的正确与否。谷歌表示,认为这是有关搜索的全面信息是不正确的,并告诉 Gizmodo,泄露太多信息可能会使坏人得逞。最终,我们不知道这些因素是如何决定的,也不知道谷歌搜索对每个因素的权重是多少。

“我们只是在研究他们正在考虑的不同变量,”最早分析泄密事件的搜索引擎优化专家迈克-金(Mike King)在接受 Gizmodo 采访时说。”这就是[谷歌]查看网站的粒度”。

SEO 从业者 Erfan Azimi 首先注意到了这一泄露事件,他在 GitHub 上公开找到了 API 文档。目前还不清楚这些文档是真的被 “泄露 “了,还是谷歌以某种方式在网络的某个安静角落发布的,也许是偶然的。阿兹米上周将这些文档提交给了菲什金,旨在将其公之于众。

金指出,其中一项排名功能 “homepagePagerankNs “表明,一个网站主页的知名度可以支撑其发布的所有内容。菲什金写道,泄露的信息中提到了一个名为 “NavBoost “的系统–谷歌搜索副总裁潘杜-纳亚克(Pandu Nayak)在司法部的证词中首次提到了这个系统–据称该系统通过测量点击量来提高谷歌搜索的排名。搜索引擎优化行业的许多人认为这些文件证实了该行业长期以来的猜测:一个被谷歌视为热门的网站可能会在查询中获得更高的搜索排名,即使一个不太知名的网站可能拥有更好的信息。

最近几个月,一些小型出版商的谷歌搜索流量消失了。上周,当 The Verge 的尼莱-帕特尔(Nilay Patel)向谷歌首席执行官桑达尔-皮查伊(Sundar Pichai)询问此事时,皮查伊表示,他不清楚 “这是否是一个统一的趋势”。King 提到的一项排名功能似乎将这些小型网站进行了统一分类。

“他们有一个名为’smallPersonalSite’的功能,我们当然不知道这个功能是如何使用的,但这表明[谷歌]正在了解这些网站是否规模较小,”King 说。”King说:”现在这么多小型网站都被碾压了,这恰恰说明[谷歌]并没有采取什么措施来抵消这些大品牌的信号。

值得注意的是,皮查伊后来在接受 The Verge 采访时提到,在其他时候,谷歌向小型网站投放了更多流量。这些排名功能可能表明了谷歌可以拉动的杠杆。随着越来越多的国内媒体机构授权其内容出现在 ChatGPT 上,谷歌搜索似乎也在向大型出版商倾斜。从广义上讲,这可能会产生挤压效应,将大多数人听到的内容压缩到主流媒体机构中。

这些泄露的谷歌文件产生了广泛的连锁反应。Ruby Media Group 首席执行官克里斯汀-鲁比(Kristen Ruby)从事数字公关和搜索引擎优化工作已超过 15 年,她告诉 Gizmodo,周一晚上她收到了一条不祥的短信息:”明天谷歌就要完蛋了”。

Ruby 很快就发现了漏洞,并注意到两个令她印象深刻的排名特征:”isElectionAuthority “和 “isCovidLocalAuthority”。这些功能似乎是谷歌分别对网页提供有关选举和 COVID-19 正确信息的可信度进行排名的方式。2019 年,鲁比撰文大谈谷歌衡量网页可信度的标准(谷歌称之为 E-E-A-T,分别代表经验、专业知识、权威性和信任)如何具有内在的政治性。她指出,谷歌对这些因素的衡量往往会沿着政治路线倾斜。

“在我看来,谷歌没有提供’isElectionAuthority’或’isCovidLocalAuthority’等关键数据项的上下文,这很成问题。谷歌是如何定义这些关键领域的权威的?Ruby 在一份电子邮件声明中说。”我不应该猜测答案是什么。谷歌应该主动告诉我答案是什么。

尽管谷歌是一家企业,有权获得私人信息,但鲁比认为,谷歌有义务回答关于这些影响我们周围世界的排名功能的问题。King 和 Fishkin 在他们的文章中也注意到了 “isCovidLocalAuthority “和 “isElectionAuthority “的泄露,他们都指出了搜索引擎在提升信息质量方面的重要性。

“金说:”我认为他们提供这种信息鉴别能力真的很重要,因为不管你喜不喜欢,谷歌实际上是一种公共服务。”金说:”他们可能会反对我这么说,但我们认为它是你获取网络信息的主要来源。

在这些例子中,谷歌如何对信息进行排名是整个搜索生态系统的一个缩影。在任何一天,都会有数以百万计的问题涉及哪些信息需要放大,哪些信息需要沉默。虽然谷歌和一些科技公司长期以来一直试图把自己描绘成没有主见的算法,但这些排名功能表明事实并非如此。在这份长达 2500 页的泄密文件中,还披露了更多关于排名功能的例子。

在谷歌算法中寻找答案

由于谷歌不愿详细说明这些文件,并告诉 Gizmodo 说泄露太多信息可能会使坏人得逞,因此搜索引擎优化专家只能代表所有使用谷歌搜索的用户来理解这些信息。在上周公布的 14,000 项排名功能中,有几项是谷歌明确声称多年来从未使用过的。

在 2016 年的一段视频中,谷歌搜索代表宣称:”我们没有网站权威评分。”在2015年的一次采访中,另一位谷歌员工说:”直接将点击量用于排名将是一个错误。“从泄露的文件和谷歌的回应来看,现在很难理解这些评论。

“这一回应是人们不喜欢或不信任谷歌的最好例证,”菲什金说。”这是一份没有针对泄密事件的非声明,没有提供任何价值,而且很可能是由受过过去十年最没有灵魂的企业信息训练的人工智能撰写的。”

鲁比指出,在人工智能答案时代,谷歌对网页进行排名的方式比以往任何时候都更加重要。有了谷歌新推出的人工智能概述,你可能只得到一个直接的答案,而不是一系列指向不同观点的链接。不过,我们也看到过一些 10 年前的 Reddit 帖子获得了奇怪的权重,告诉一些用户在披萨里放胶水。谷歌如何选择权威性越来越重要,因为现在排名第一的结果可能是唯一有声音的结果。

“我们正在换挡。我们正在从一种搜索系统转向另一种,”鲁比说。”人工智能正在以深刻的方式影响搜索结果”。

归根结底,很难说谷歌使用这些排名功能的真正目的是什么。显而易见的是,谷歌创建了这些分类器,而且可能还有更多的分类器,用于对互联网上的网站进行排名。这些排名显然需要判断,这进一步证明了谷歌搜索并不是一种客观的体验,而是谷歌内部人员做出的一系列编辑选择。

本文文字及图片出自 Leaked Documents Reveal How Google Search Gatekeeps the Internet

你也许感兴趣的:

共有 1 条讨论

  1. 评论者1 对这篇文章的反应是俺的神呀

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注