【译文】8 位谷歌员工发明了现代人工智能，这里是内幕

人工智能| 2024-03-21

在 2017 年春季撰写的一篇科学论文“Attention Is All You Need,”中，有八个人被列为作者。他们都是谷歌的研究人员，不过其中一人当时已经离职。当最资深的撰稿人诺姆-沙泽尔（Noam Shazeer）看到早期草稿时，他很惊讶自己的名字出现在第一位，这表明他的贡献是最重要的。”他说：”我没想过这个问题。

如何列出名字总是一个微妙的平衡行为–谁会得到令人垂涎的领先位置，谁会被排在后面。尤其是在这种情况下，每个参与者都在真正的集体努力中留下了鲜明的印记。由于研究人员急于完成论文，他们最终决定 “破坏 “给贡献者排名的惯例。他们在每个名字前加了一个星号，并在脚注中写道：”同等贡献者”。”排列顺序随机”。作者们在截止日期前将论文寄给了一个著名的人工智能会议，并掀起了一场革命。

“Attention” 论文发表即将七周年，它已获得了传奇般的地位。作者们从一种蓬勃发展且不断改进的技术–一种名为神经网络的人工智能–入手，将其变成了另一种东西：一种强大到其输出结果感觉像是外星智慧产物的数字系统。这种架构被称为 “变形金刚”（transformers），是所有令人惊叹的人工智能产品（包括 ChatGPT 以及 Dall-E 和 Midjourney 等图形生成器）背后的秘密武器。沙泽尔现在开玩笑说，如果他知道这篇论文会变得如此出名，他 “可能会更担心作者顺序”。所有八位签名者现在都成了小名人。莉莉安-琼斯（Llion Jones）说：”有人向我索要自拍照–因为我在报纸上！”她是第五位签名者（当然是随机的）。

“杰弗里-辛顿（Geoffrey Hinton）说：”如果没有 “变形金刚”（transformers），我想我们现在不会在这里。他指的是我们所处的变革时代，OpenAI 和其他公司正在构建可与人类相媲美，甚至在某些情况下超越人类的系统。

这八位作者后来都离开了谷歌。与其他数百万人一样，他们现在正以某种方式使用由他们在 2017 年创造的系统驱动的系统。我与 ” “变形金刚”（transformers）八人组 “进行了交谈，以拼凑出一个突破性的解剖图，这是人类智慧的结晶，创造出的机器很可能为自己保留了最后的话语权。

“变形金刚”（transformers）的故事始于八个名字中的第四个：雅各布-乌斯科雷特

乌斯科雷特是著名计算语言学家汉斯-乌斯科雷特（Hans Uszkoreit）的儿子。20 世纪 60 年代末，还是高中生的汉斯因抗议苏联入侵捷克斯洛伐克而在家乡东德被关押了 15 个月。获释后，他逃到西德，在柏林学习计算机和语言学。雅各布出生时，他正在加利福尼亚州门洛帕克的一家研究所 SRI 的人工智能实验室工作。一家人最终回到德国，雅各布在那里上了大学。他本不打算专注于语言研究，但在攻读研究生期间，他在谷歌山景城办公室实习，并进入该公司的翻译部门工作。他进入了家族企业。2012 年，他放弃了攻读博士学位的计划，决定加入谷歌的一个团队，该团队正在开发一种系统，可以在搜索页面上回答用户的问题，而不会将用户引向其他网站。当时，苹果公司刚刚发布了虚拟助手 Siri，承诺在闲聊时提供一次性回答，谷歌高层嗅到了巨大的竞争威胁：Siri 可能会吞噬他们的搜索流量。他们开始更加关注乌兹科莱特的新团队。

“这是一场虚假的恐慌，”Uszkoreit 说。Siri 从未真正威胁到谷歌。但他很高兴有机会深入研究计算机可以与我们进行对话的系统。当时，曾经是学术界冷门的递归神经网络突然开始超越其他人工智能工程方法。这种网络由许多层组成，信息在这些层中传递再传递，以确定最佳响应。神经网络在图像识别等领域大获全胜，人工智能的复兴突然开始了。谷歌疯狂地重新安排员工，以采用这些技术。该公司希望自己的系统能做出类似人类的反应，自动完成电子邮件中的句子，或创建相对简单的客户服务聊天机器人。

但这一领域遇到了限制。递归神经网络难以解析较长的文本块。以乔是一名棒球运动员为例，在吃过一顿丰盛的早餐后，他去了公园并获得了两支安打。要理解 “两支安打”，语言模型必须记住有关棒球的部分。用人类的话来说，就是要注意。公认的解决方法是一种叫做 “长短期记忆”（LSTM）的创新，它允许语言模型处理更大、更复杂的文本序列。但是，计算机仍然严格按照顺序逐字处理这些序列，而忽略了可能在段落后面出现的上下文线索。”我们所使用的方法基本上都是’创可贴’，”Uszkoreit 说。”我们无法让正确的方法真正大规模地发挥作用。

2014 年左右，他开始构思一种不同的方法，他称之为自我关注。这种网络可以通过参考段落的任何其他部分来翻译一个单词。这些其他部分可以阐明一个词的意图，并帮助系统产生一个好的翻译。”他说：”实际上，它能考虑到一切，并为你提供一种有效的方法，让你同时查看许多输入，然后以一种相当有选择性的方式取出一些东西。尽管人工智能科学家们小心翼翼地避免将神经网络的隐喻与生物大脑的实际工作方式混为一谈，但乌斯科瑞特似乎确实认为，自我注意力与人类处理语言的方式有些类似。

Uszkoreit 认为，自我注意力模型有可能比递归神经网络更快、更有效。它处理信息的方式也非常适合功能强大的并行处理芯片，这些芯片正在大量生产，以支持机器学习热潮。它采用的不是线性方法（按顺序查看每个单词），而是更加并行的方法（将一堆单词放在一起查看）。Uszkoreit 怀疑，如果方法得当，完全使用自我关注就能获得更好的结果。

并不是所有人都认为这个想法会震惊世界，包括乌斯科雷特的父亲，他的儿子在谷歌工作时，他已经获得了两个谷歌学院研究奖。”雅各布-乌兹科雷特说：”人们瞠目结舌，因为它抛弃了所有现有的神经架构。告别递归神经网络？异端邪说！”从我和父亲在餐桌上的谈话来看，我们的看法不尽相同”。

乌斯科雷特说服了几位同事进行自我注意力实验。他们的工作显示出了希望，并于2016年发表了相关论文。乌兹科雷特想进一步推动他们的研究–团队的实验只使用了很小的文本片段，但他的合作者都不感兴趣。相反，就像赌徒带着微薄的奖金离开赌场一样，他们开始运用自己学到的经验。”这件事成功了，”他说。他说：”那篇论文的作者们兴奋地收获了回报，并将其应用于谷歌的各种不同领域，包括搜索和广告。它在很多方面都取得了惊人的成功，但我并不想就此罢休。

Uszkoreit 认为，自我关注可以承担更大的任务。他在1945号大楼的白板上勾勒出他的愿景，向所有愿意聆听的人和一些不愿意聆听的人阐述他的观点，1945号大楼以其位于谷歌园区北边查尔斯顿路的地址命名。

2016 年的一天，乌斯科雷特在谷歌咖啡厅与一位名叫伊利亚-波洛苏欣（Illia Polosukhin）的科学家共进午餐。波洛苏欣出生于乌克兰，已经在谷歌工作了近三年。他被分配到一个团队，负责为搜索领域提出的直接问题提供答案。工作进展并不顺利。”波洛苏欣说：”要在 Google.com 上回答问题，你需要的是非常便宜且性能卓越的东西。”因为你只有几毫秒的时间 “做出回应。当 Polosukhin 提出他的抱怨时，Uszkoreit 毫不犹豫地提出了补救措施。”他建议说：”为什么不用自我关注呢？

波罗苏欣有时会与一位名叫阿希什-瓦斯瓦尼（Ashish Vaswani）的同事合作。他出生于印度，主要在中东长大，曾在南加州大学的精英机器翻译小组获得博士学位。之后，他搬到了山景城，加入了谷歌–特别是一个名为 “谷歌大脑”（Google Brain）的新组织。他形容大脑是 “一个激进的团体”，相信 “神经网络将促进人类的理解”。但他仍在寻找一个大项目。1945 年，他的团队在 1965 号楼工作，隔壁就是波罗苏欣的语言团队，他听说了自我关注的想法。这会是一个项目吗？他同意参与其中。

三位研究人员共同起草了一份名为 ” “变形金刚”（transformers） “的设计文件：各种任务的迭代自我关注和处理”。乌斯科雷特说，他们从 “第一天起 “就选择了 ” “变形金刚”（transformers） “这个名字。他们的想法是，这种机制可以转换接收到的信息，让系统能够像人类一样理解信息，或者至少给人一种错觉。另外，Uszkoreit 对童年时代玩孩之宝（Hasbro）动作模型的美好回忆记忆犹新。”他说：”我很小的时候就有两个 “变形金刚”（transformers）玩具。文件的最后是一个卡通形象，六个 “变形金刚”（transformers）在山地里互相发射激光。

文件开头的一句话也很豪迈：”我们棒极了。

2017 年初，波罗苏欣离开谷歌，创办了自己的公司。这时，新的合作者也加入进来。一位名叫尼基-帕玛尔（Niki Parmar）的印度工程师移居美国时，曾在印度一家美国软件公司工作。2015 年，她获得了南加州大学的硕士学位，所有的大型科技公司都向她发出了邀请。她选择了谷歌。刚入职时，她加入了 Uszkoreit 公司，从事改进谷歌搜索的模型变体工作。

另一位新成员是 Llion Jones。他在威尔士出生长大，热爱计算机，”因为这不正常”。在伯明翰大学，他选修了一门人工智能课程，并对神经网络产生了好奇心，因为神经网络是作为历史奇观出现的。他于 2009 年 7 月获得硕士学位，由于在经济衰退时期找不到工作，他靠救济金生活了几个月。他在当地一家公司找到了一份工作，然后 “万幸 “地申请了谷歌。他得到了这份工作，并最终进入了谷歌研究院，他的经理是波洛苏克辛。有一天，琼斯从一位名叫马特-凯尔西（Mat Kelcey）的同事那里听说了自我关注的概念，后来他加入了 “变形金刚”（transformers）团队（Team Transformers）。(后来，琼斯遇到了凯尔西，并向他介绍了 “变形金刚”（transformers）项目）。凯尔西并不买账。”我告诉他，’我不确定那会成功，’这基本上是我一生中最大的错误预测，”凯尔西现在说）。

“变形金刚”（transformers）的工作吸引了谷歌大脑的其他研究人员，他们也在努力改进大型语言模型。这第三波研究人员包括波兰出生的理论计算机科学家卢卡斯-凯泽（Łukasz Kaiser）和他的实习生艾丹-戈麦斯（Aidan Gomez）。戈麦斯在加拿大安大略省的一个小村庄长大，每年春天，他的家人都会在那里采摘枫树糖浆。在多伦多大学读大三时，他 “爱上 “了人工智能，并加入了机器学习小组–杰弗里-辛顿的实验室。他开始联系谷歌那些写过有趣论文的人，并提出了扩展他们工作的想法。凯撒上钩了，邀请他去实习。直到几个月后，戈麦斯才知道这些实习机会是为博士生准备的，而不是像他这样的本科生。

凯撒和戈麦斯很快就明白，自我关注看起来是一个很有前途的、更彻底的解决方案，可以解决他们正在解决的问题。”我们就是否要合并这两个项目进行了深思熟虑的讨论，”戈麦斯说。答案是肯定的。

“变形金刚”（transformers）小组开始建立一个自我关注模型，将文本从一种语言翻译成另一种语言。他们使用一种名为 BLEU 的基准来衡量其性能，该基准将机器的输出与人工翻译的工作进行比较。从一开始，他们的新模型就表现出色。”Uszkoreit说：”我们已经从没有概念验证到拥有了至少能与LSTM最佳替代方法相媲美的东西。但与长短期记忆相比，”它并没有更好”。

他们达到了高原状态–直到 2017 年的一天，诺姆-沙泽尔（Noam Shazeer）偶然听说了他们的项目。Shazeer 是一名资深的 Googler，他于 2000 年加入公司，而且是公司内部的传奇人物，他的工作始于公司早期的广告系统。Shazeer 从事深度学习已有五年时间，最近他对大型语言模型产生了浓厚的兴趣。但是，这些模型远远无法实现他认为可能实现的流畅对话。

据 Shazeer 回忆，当时他正走在 1965 号楼的走廊上，路过 Kaiser 的工作区。他发现自己正在聆听一场热烈的谈话。”我记得阿希什在谈论使用自我注意力的想法，尼基对此非常兴奋。我想，哇，这听起来是个好主意。这看起来像是一群有趣、聪明的人在做一件很有前途的事情。”沙泽尔发现现有的递归神经网络 “令人恼火”，于是他想，”让我们去取代它们吧！”让我们去取代它们吧！”

沙泽尔的加入至关重要。”乌兹科莱特说：”这些理论或直觉机制，比如自我注意，总是需要非常仔细地实施，通常是由少数经验丰富的’魔术师’来实施，才能显示出任何生命迹象。沙泽尔立刻开始施展他的巫术。他决定编写自己版本的 “变形金刚”（transformers）团队代码。”他说：”我采用了基本思路，然后自己编了出来。他说，他偶尔会向凯撒提问，但大多数时候，他 “只是在上面做了一会儿，然后回来说，’看，它能工作'”。团队成员后来用 “魔法”、”炼金术 “和 “钟声和口哨 “等词来形容他，他将系统提升到了一个新的高度。

“戈麦斯说：”这拉开了冲刺的序幕。他们干劲十足，而且还想赶上即将到来的截止日期–5 月 19 日，这是今年最大的人工智能盛会–12 月神经信息处理系统大会–上提交论文的日期。随着硅谷的冬天转入春天，实验的步伐也加快了。他们测试了两个 “变形金刚”（transformers）模型：一个是经过 12 小时训练生成的模型，另一个是经过三天半训练生成的更强大的模型，名为 Big。他们让它们进行英德互译。

基本模型的表现优于所有竞争对手，而 Big 获得的 BLEU 分数打破了之前的记录，同时计算效率也更高。”我们比其他任何人都用时更短，”Parmar 说。”这仅仅是个开始，因为这个数字还在不断提高。乌斯科雷特听到这个消息后，拿出了他山地探险车上的一瓶旧香槟。

截止日期前的最后两周是疯狂的。虽然团队中的一些人仍然在 1945 号楼办公，但他们大多在 1965 号楼工作，因为那里的微型厨房有更好的意式咖啡机。戈麦斯说：”大家都睡不着觉。”作为实习生，戈麦斯生活在持续的调试狂热中，同时还为论文制作可视化和图表。在这类项目中，消融是很常见的做法–把东西取出来，看看剩下的东西是否足以完成工作。

“有各种可能的技巧和模块组合–哪个有用，哪个没用。我们把它取出来。让我们用这个替换它，”戈麦斯说。”为什么模型会出现这种反直觉的行为？哦，那是因为我们没记得做好遮罩。还能用吗？好，继续下一个。我们现在所说的 “变形金刚”（transformers）的所有这些组件，都是这种极高频率的反复试验和错误的结果”。琼斯说，在沙泽尔的帮助下，消融产生了 “最简约的东西”。”诺姆是个奇才。

瓦斯瓦尼回忆说，有一天晚上，当团队正在撰写论文时，他躺在办公室的沙发上。当他注视着将沙发与房间其他部分隔开的窗帘时，他被布料上的图案震撼了，在他看来，这些图案就像突触和神经元。戈麦斯当时也在场，瓦斯瓦尼告诉他，他们正在研究的东西将超越机器翻译。”他说：”最终，就像人类的大脑一样，你需要将所有这些模式–语音、音频、视觉–整合到一个单一的架构中。”我有一种强烈的预感，我们正在研究更普遍的东西。

然而，在谷歌的高层，这项工作被视为另一个有趣的人工智能项目。我询问了几位改造者的同事，他们的上司是否曾召集他们了解项目的最新进展。没有。但 “我们明白，这可能是件大事，”乌兹科莱特说。”这让我们对论文末尾的一句话着了魔，在这句话中，我们对未来的工作进行了评论。

这句话预示了接下来可能发生的事情– “变形金刚”（transformers）模型基本上可以应用于人类所有形式的表达。”他们写道：”我们对基于注意力的模型的未来感到兴奋。”我们计划将 “变形金刚”（transformers）扩展到涉及文本以外的输入和输出模式的问题上”，并研究 “图像、音频和视频”。

在截止日期前的几个晚上，Uszkoreit 意识到他们需要一个标题。琼斯指出，团队已经彻底摒弃了公认的最佳实践，其中最著名的是 LSTMs，只采用了一种技术：注意力。琼斯回忆说，披头士乐队曾将一首歌命名为 “All You Need Is Love”。为什么不把论文命名为 “Attention Is All You Need “呢？

披头士？

“我是英国人，”琼斯说。”我花了五秒钟的时间思考。我没想到他们会用这个名字。

他们继续收集实验结果，直到截止日期。”在我们提交论文前五分钟，英法数字就出来了，”帕玛尔说。”1965年，我坐在微型厨房里，输入最后一个数字。在仅剩两分钟的时间里，他们寄出了论文。

谷歌和几乎所有的科技公司一样，很快就为这项工作申请了临时专利。这样做的原因不是为了阻止他人使用这些创意，而是为了建立专利组合，以达到防御目的。(该公司的理念是 “如果技术进步，谷歌将从中获益”）。

当 “变形金刚”（transformers）组从会议同行评审员那里得到反馈时，大家的反应不一。”帕尔马说：”一位是肯定的，一位是非常肯定的，还有一位是’这没问题’。这篇论文被接受参加晚上的海报会议之一。

到了 12 月，这篇论文引起了轰动。在12月6日举行的长达四个小时的会议上，挤满了想了解更多信息的科学家。作者们一直说到声嘶力竭。到晚上10:30会议结束时，仍然人头攒动。”Uszkoreit说：”保安不得不让我们离开。也许最让他满意的时刻是计算机科学家塞普-霍赫赖特（Sepp Hochreiter）上前称赞这项工作–考虑到霍赫赖特是长短期记忆的发明者，而 “变形金刚”（transformers）刚刚将长短期记忆作为人工智能工具包中的首选锤子，这对他来说无疑是一种褒奖。

《 “变形金刚”（transformers）》并没有立即席卷全球，甚至没有席卷谷歌。凯撒回忆说，在论文发表前后，沙泽尔向谷歌高管提议，公司放弃整个搜索索引，用 “变形金刚”（transformers）训练一个巨大的网络–基本上是为了改变谷歌组织信息的方式。当时，连凯泽尔都认为这个想法很荒谬。现在，传统观点认为这是迟早的事。

一家名为 OpenAI 的初创公司更快地抢占了先机。论文发表后不久，OpenAI 的首席研究员伊利亚-苏茨基弗（Ilya Sutskever）就建议其科学家亚历克斯-拉德福德（Alex Radford）研究这个想法。这就是 GPT 的第一批产品。正如 OpenAI 首席执行官萨姆-阿尔特曼（Sam Altman）去年告诉我的那样：”当 transformer 论文发表时，我认为谷歌没有人意识到这意味着什么。”

内部情况则更为复杂。”Uszkoreit 说：”对我们来说， “变形金刚”（transformers）可以做非常神奇的事情，这一点非常明显。”现在，你可能会问一个问题，为什么谷歌早在 2018 年就没有 ChatGPT 呢？实事求是地说，我们本可以在 2019 年甚至 2020 年就拥有 GPT-3 甚至 3.5。最大的问题不是，他们看到了吗？问题是，为什么我们在看到它之后没有采取任何行动？答案很棘手”。

许多科技批评家指出，谷歌从一个以创新为中心的游乐场转变为一个以底线为中心的官僚机构。正如戈麦斯对《金融时报》所说：”他们没有现代化。他们没有采用这种技术。但是，对于一家技术领先行业数十年并获得巨额利润的巨头公司来说，这需要很大的勇气。2018 年，谷歌确实开始将 “变形金刚”（transformers）整合到产品中，首先是其翻译工具。也是在那一年，谷歌推出了一种名为 BERT 的基于 “变形金刚”（transformers）的新语言模型，并在第二年开始应用于搜索。

但与 OpenAI 的飞跃和微软大胆地将基于 “变形金刚”（transformers）的系统整合到其产品线中相比，谷歌的这些底层变革显得有些怯懦。去年，当我问首席执行官桑达尔-皮查伊（Sundar Pichai）为什么他的公司没有率先推出像 ChatGPT 这样的大型语言模型时，他辩解说，在这种情况下，谷歌认为让别人来引领是有利的。”我并不完全清楚这样做的结果。他说：”事实上，在人们看到它是如何工作的之后，我们可以做得更多。

不可否认的事实是，论文的八位作者都已经离开了谷歌。波罗苏欣的公司Near建立了一个区块链，其代币市值约为40亿美元。帕尔马和瓦斯瓦尼在 2021 年结成商业伙伴，创办了 Adept 公司（估值约为 10 亿美元），现在他们的第二家公司名为 Essential AI（融资 800 万美元）。Llion Jones 位于东京的 Sakana AI 公司估值为 2 亿美元。2021 年 10 月离职的 Shazeer 与他人共同创办了 Character AI 公司（估值约为 50 亿美元）。小组中的实习生艾丹-戈麦斯（Aidan Gomez）于 2019 年在多伦多联合创办了 Cohere 公司（估值约为 22 亿美元）。Jakob Uszkoreit 的生物技术公司 Inceptive 估值 3 亿美元。所有这些公司（除了Near）都基于 “变形金刚”（transformers）技术。

凯撒是唯一一个没有创办公司的人。他加入了 OpenAI，并且是一项名为 Q* 的新技术的发明人之一，阿尔特曼去年曾说，这项技术将 “把无知的面纱推后，把发现的前沿推前”。(当我在采访中试图询问凯撒这个问题时，OpenAI 的公关人员差点跳过桌子让他闭嘴）。

谷歌想念这些逃亡者吗？当然，除此之外，还有一些人从公司转投了新的人工智能初创公司。(当我向皮查伊询问转型者离职的情况时，他提醒我说，业界宠儿 OpenAI 也有员工离职：”他说：”人工智能领域非常非常有活力。）但是，谷歌可以自豪地说，它创造了一个支持追求非传统想法的环境。”帕尔马说：”在很多方面，谷歌都走在了前面–他们投资了合适的人才，创造了我们可以探索和推动创新的环境。”花时间采用它并不疯狂。谷歌的利害关系更大”。

没有这种环境：就没有 “变形金刚”（transformers）。作者们不仅都是谷歌员工，还在同一间办公室工作。走廊上的邂逅和午餐时无意间听到的谈话，都是重要的时刻。该小组还具有文化多样性。八位作者中有六位出生在美国以外的国家，另外两位分别是两位持有绿卡的德国人的孩子，他们暂时居住在加利福尼亚州，还有一位是第一代美国人，他们的家人为了躲避迫害而来到美国。

乌斯科雷特在柏林的办公室里说，创新的关键在于合适的条件。他说：”就是要让那些对某件事情超级兴奋的人，在他们人生的正确阶段，”他说。”他说：”如果你有这样的条件，并且在做这件事的过程中享受到乐趣，你正在解决正确的问题，而且你很幸运，那么神奇的事情就会发生。

神奇的事情也发生在乌兹科莱特和他著名的父亲之间。他的儿子汉斯-乌兹科莱特（Hans Uszkoreit）告诉记者，在餐桌上争论了那么久之后，他现在共同创办了一家公司，正在建立大型语言模型。当然是使用 “变形金刚”（transformers）。

本文文字及图片出自 8 Google Employees Invented Modern AI. Here’s the Inside Story