谷歌大脑是如何炼成的

| 2016-12-21

如果说到在机器学习领域领先的公司，想必你不会忽略谷歌。从谷歌翻译到从机器视觉，谷歌一直努力将机器学习应用于可能想象的任何地方。本文会讲三个故事，它们在 Google 翻译向 AI 的成功转型中整合在了一起：一个技术故事，一个制度故事和一个关于思想演变的故事。本文源自纽约时报，作者 Gideon Lewis-Kraus。

这是一个非常少见的故事，尤其是因为它与我们惯常对硅谷的印象相悖。

序：你=你所读的东西

在十一月初的一个周五晚上，东京大学人机交互教授 Jun Rekimoto 正在电脑前准备演讲。当他在浏览网页时，Rekimoto 突然发现社交媒体的时间流上出现了一些有意思的内容。虽然这些内容很轻易就看出是谷歌机翻的，但质量已经有了很大的提升。在访问了 Google Translate 并进行测试之后，Rekimoto 惊讶不已。虽然已经夜深，但 Google Translate 的进展之快依然让 Rekimoto 久久无法入眠。

随即，Rekimoto 在他的博客中记下了这一发现。首先，他在 Google Translate 上输入了菲茨杰拉德的代表作《了不起的盖茨比》里的一个英文节选段落，点击翻译后，与两个日文版本(一个是 1957 年 Takashi Nozaki 的版本，一个是现代 Haruki Murakami 的译版)进行对比。Rekimoto 在和我沟通的一封邮件中提到，Murakami 的译文带有强烈的个人风格，用语非常细腻。而谷歌翻译的版本虽然还带着机翻的痕迹，但更加通俗易懂。

随后，Rekimoto 通过日译英对 Google Translate 进行测试。他把自己口头翻译的《乞力马扎罗的雪》的开头部分简单地输入进电脑中，发现翻译结果几乎可与海明威的原作媲美。当然，海明威是以行文通俗易懂闻名的，雷锋网也请大家来猜猜，哪一段是 Google Translate 所作，哪段是原版文字呢?

NO. 1:

Kilimanjaro is a snow-covered mountain 19,710 feet high, and is said to be the highest mountain in Africa. Its western summit is called the Masai「Ngaje Ngai,」the House of God. Close to the western summit there is the dried and frozen carcass of a leopard. No one has explained what the leopard was seeking at that altitude.

NO. 2:

Kilimanjaro is a mountain of 19,710 feet covered with snow and is said to be the highest mountain in Africa. The summit of the west is called「Ngaje Ngai」in Masai, the house of God. Near the top of the west there is a dry and frozen dead body of leopard. No one has ever explained what leopard wanted at that altitude.

即使对于一个美国土著而言，如果不发现 2 号段落的小小瑕疵，其实很难分辨其中的差别。Rekimoto 表示，其实他对 Google Translate 再熟悉不过了：毕竟在 24 小时前，它只是一个会翻出如下文字的机器：

Kilimanjaro is 19,710 feet of the mountain covered with snow, and it is said that the highest mountain in Africa. Top of the west,「Ngaje Ngai」in the Maasai language, has been referred to as the house of God. The top close to the west, there is a dry, frozen carcass of a leopard. Whether the leopard had what the demand at that altitude, there is no that nobody explained.

在 Rekimoto 把测试结果发在有着一万多关注者的 Twitter 后，在短短几个小时内，上千人也 po 出了他们「调戏」机器翻译的结果。有些几乎完美，而有的则啼笑皆非。

在东京破晓之时，Google Translate 就在这一夜攀上了日本推特的头条热搜，甚至把 cult 动画和人气偶像少女组合都挤了下去。每个人都在困惑：谷歌翻译怎么会突然这样让我们眼前一亮?

四天之后，全球的上百名记者、企业家和广告商蜂拥到谷歌位于伦敦的办公室中，聆听谷歌的特别发布会。宾客们享受着谷歌翻译 Logo 形状的小饼干，手中拿的是印有不同国家语言的纸张(我的是挪威语)，此外还被邀请下载 Google Translate 的软件。桌子上的甜甜圈和冰沙都用小牌子标注出各种国家的风味。过了一会，大家被引到了一个黑暗的小剧场中。

Sundar Pichai，Google CEO

伦敦市长 Sadiq Khan 首先上台致辞。他以「我有一位朋友」开场，提起对方对他说，市长大人总让他想起谷歌。市长说，「为啥，因为我什么都懂?」朋友否认道，「不是的，是因为你就像谷歌一样，总是试图把我的话补完。」会场传出了善意的笑声。随后，谷歌 CEO 桑达尔•皮查伊上台发表演讲。

皮查伊此行的一项议程是莅临庆祝谷歌伦敦国王大道新大楼的建成。此外，基于他在不少场合都宣告谷歌的未来将以「AI 为先」，这句话引来了不少猜想。在他的演讲中，皮查伊提到了这句话的真实含义：在未来，谷歌的产品不再是传统计算编程的结果，而是「机器学习」。

谷歌大脑——这是谷歌一个鲜少被提及的部门，实际上已经成立了五年时间。这个部门一直遵循着一个原理：人工「神经网络」能够像婴儿一样，通过不断试错来理解世界，而这能让机器拥有像人类一样的灵活性。这条圭臬并不是什么新主张——早在上世纪 40 年代，也就是现代计算机早期阶段就出现了。但少有科学家将这一想法落地，毕竟它看起来太遥远也太神秘了。直到 2011 年，当谷歌大脑计划采用这一方法攻克人工智能，采用机器学习来优化谷歌的移动平台。比如，安卓的语音识别现在已经能媲美人类水平;比如，图像识别也已经在一年前首次运用于消费者产品上。

Google Translate 于 2006 年上线，目前已经成为谷歌最受信赖及流行的应用之一。每天，Google Translate 会面对 5 亿个月度活跃用户的 1400 亿个不同语种的单词。它不仅仅是作为一个独立应用而存在，而且作为 Gmail、Chrome 及许多其它谷歌产品的集成功能，我们将它作为一个按钮——一个毫无障碍、非常自然的电子组成方式。皮查伊在台上提及，直至叙利亚难民危机之时，公司才意识地区间的翻译交流是何等重要。在他背后的屏幕显示，在那段敏感时期，阿拉伯语与德语互译的谷歌翻译请求增长了五倍之多。(这也与皮查伊的想法一致，他在印度出生成长，而雷锋网要指出的一点是，印度是一个多语种国家。)谷歌翻译在此后也已经在稳定增加语种的丰富性，并完善功能，但在过去四年来，质量提升的速度已经大不如前。

直至如今。上个周末，雷锋网也提及了 Google Translate 的大更新，系统已经将大部分请求转换到基于人工智能的系统进行处理。这一更新在美国、欧洲和亚洲都已经上线，包括西班牙语、葡萄牙语、法语、德语、中文、日语、韩语及土耳其语在内的语言，都可以实现与英语的互译。而其它上百种语言也在紧锣密鼓地更新中，以每月预期八个的速度计划在年底前更新完毕。而对于谷歌工程师而言最大的惊喜在于，他们只用了九个月时间就提前完成了。A.I. 系统所取得的进展速度之快，大概就相当于在一夜间掌握了以往技术的总和。

皮查伊对于含蓄的古典文学尤为着迷，一个月前，他曾告诉我，在他山景城的办公室里发表演讲时，PPT 上有些文字还是需要 Google Translate 来辅助显示，毕竟并不是所有人都像物理学家 Robert Oppenheimer 一样能读原版的《博伽梵歌》(雷锋网(公众号：雷锋网)注：印度圣典，由梵语写就)。因此在伦敦的发布会上，幻灯片上出现了博尔赫斯的经典名言：「Uno no es lo que es por lo que escribe, sino por lo que ha leído.」(评判一个人不应看他所写，而应看他所读。)

带着微笑，皮查伊大声地读着由旧的 Google Translate 展示的令人有些尴尬的直译版本：「One is not what is for what he writes, but for what he has read.」

而在大屏幕的右边，新版的 A.I. 系统版本则展示了一个更加信达雅的译文：「You are not what you write, but what you have read.」

这句话用来描述新版的 Google Translate，却也恰如其分：在某种意义上，Google Translate 的确是第一台通过「饱读诗书」而通晓知识的机器。

谷歌决定围绕 A.I. 而重组公司，实际上是全球机器学习热潮的第一批拥趸。在过去的四年里，谷歌、Facebook、苹果、亚马逊、微软及中国的百度，这六家公司都围绕人工智能展开了一场声势浩大的「人」备竞赛，而大学自然成为了兵家必争之地。企业纷纷向顶尖的学术院系抛出橄榄枝，许以极大的资源和自由。比如硅谷众人皆知 Facebook 惜才如命，CEO 小扎会亲自通过视频和电话来了解公司即将纳入麾下的优秀研究生，七位数的年薪起跳根本不在话下。而参加人工智能的相关学术会议的人士几乎增加了四倍。科技巨头们在关心的，不仅仅是小打小闹的技术进步，而是如何掌控接下来即将来临的计算平台：普适性极强、无处不在的人工智能。

「人工智能」这个词似乎总是出现得这么理所当然，但实际上它一直是引起混乱和争议的源头。想象你正置身上个世纪 70 年代，在路上拦住了随便什么人，掏出了一个智能手机并向她展示里面的 Google 地图。如果你尝试说服她，你不是什么奇怪巫师，而你拿出的「黑色护身符」也只是一个比阿波罗时光机更为强大的微型电脑，谷歌地图实际上毫无疑问，就是一个能向她展示什么是「人工智能」的东西。的确如此，这个应用能够为你制定更棒的路线，比如从酒店到机场——显然，机器能比你做得更快更好，此外，它还能对交通进行评判，规划最佳路线，并当你「误入歧途」时，重新判断你的位置并推荐新的路线。

实际上，今天没有人会把谷歌地图与「高贵的」人工智能相提并论。当我们在使用智能这个词的时候，是带着情感色彩的。我们所理解的人工智能，是能与其它初级简单的事物所能完成的东西不同的。现在，我们能用自动化完成一项任务，那么所涉及的相关技能就会降级为一种单纯的机制。而今天的谷歌地图，似乎还不能对应上我们所想象的「人工智能」这个词，而只能充其量叫作「机器」(robotic)：只接受一个明确的请求(从某处到另一处)，并尽力满足这个需求。因此，人工智能这个词所能对应的实际工作已经在缩小。

皮查伊将目前的人工智能应用与「通用人工智能」这个终极 boss 区分开来。后者不会涉及具体的指令，而将是一个通用工具，为一般情况下的一般用途而设计。皮查伊认为，公司未来的运转将主要依赖通用人工智能。想象一下，如果你告诉谷歌地图，「我要去机场，但我中途要停下来为我侄子买个礼物，」一个通用版本的人工智能服务——就像三年前的电影《Her》中，斯嘉丽•约翰逊所配音的那个无所不在的助手一样。她能够像你的亲密朋友一样，知道你的一些基本情况：侄子的年龄、喜欢给孩子买什么、哪能找到一个购物商店。但一个真正智能的地图也能做一些亲密朋友所考虑不到的事情，比如你侄子的学校里，孩子们最近最时髦玩些什么。一个智能的机器能够通过错综复杂的数据抽丝剥茧，并寻找出那些甚至我们自己都浑然不知的需求。

人工智能的新浪潮，也就是 AI 助手——就像苹果的 Siri、Facebook 的 M 及亚马逊的 Echo，都是机器学习的产物，作用大同小异。这些公司在消费者身上做着机器学习之梦，但是机器学习并不一定只局限在消费者身上。三星的医学影像子公司今年宣布，其新款的超声设备能够检测乳腺癌，而管理层也在努力增加人员贮备，以扩大计算机的行业应用。DeepMind 在 2014 年被谷歌纳入麾下，虽然当时的预测显示，人工智能在十年后才能战胜人类，但 3 月份，AlphaGo 就以 4：1 战胜了围棋大师李世石。

1950 年，艾伦•图灵提出的测试指出，计算机如果能在五分钟的文本交流中成功欺骗一个人类对话者，那么就算测试成功。是否机器能在两种语言中自由切换，并能很好地理解人类的语言进行对话?谷歌大脑的成员们正在推动和帮助监督 Translate 项目，满怀信心地相信这样的机器能够成为未来的一位通用人工智能助手。

接下来雷锋网要展示的，就是 Google 的研究人员和工程师们(刚开始只有一两个人，后来变成三四个，最后成长到了上百个)沿着这一方向取得巨大进步的故事了。这是一个非常少见的故事，尤其是因为它与我们惯常对硅谷的印象相悖。这个故事里面，没有那种在车库里捣鼓一些东西，认为自己可以改变世界的人。它不是一个关于科技解决所有问题的故事，也不是一个关于技术会导致世界毁灭的故事。它也与颠覆无关，至少不是我们通常认为的那种颠覆。

事实上，里面有三个重叠的故事，它们在 Google 翻译向 AI 的成功转型中整合在了一起：一个技术故事，一个制度故事和一个关于思想演变的故事。

技术故事与一个公司专注于一个产品的团队有关，在这里他们只用了别人四分之一的时间，对一个旧产品进行了改进和测试，并形成了全新的版本。

制度故事与公司内一个小而有影响力的人工智能团队有关，他们对一些古老、未经证实和广泛不适用的计算概念出于直觉的信念，颠覆了几乎每一家公司。

思想的故事与一些长期坚持不懈的认知科学家、心理学家和工程师有关，他们看似不合理的信念，最终激起了我们对技术以及意识本身理解上的范式的转变。

第一个故事是 Google Translate 的故事，它发生在山景城的九个月时间里，解释了机器翻译的转变。第二个故事是谷歌大脑的故事。第三个故事是深度学习的故事，它发生在苏格兰、瑞士、日本、加拿大等地遥远的实验室，时间跨度七十多年，它甚至改变了我们对那个会思考的自我的认知。

这三个故事都与人工智能有关。七十年的故事与我们对人工智能的期待与渴望有关，二十五年的故事与它在近期可以做什么有关，而那个九个月的故事则与它现在能做什么有关。这三个故事都是对概念的验证，而所有的一切都只是开始。

第一部分：超级学习机器

Jeff Dean

1. 谷歌大脑(Google Brain)的诞生

虽然 Jeff Dean 顶着高级研究员的头衔，但其实他才是谷歌大脑部门的真正大脑。Dean 长着像卷福一样的长脸，眼窝深陷、身材健壮且精力充沛，总是在谈话中透出一股热情。

Dean 的父亲是一位医学人类学家兼公共卫生流行病学家，经常辗转于世界各地。因此， Dean 的童年也是在周游世界中度过的，明尼苏达州、夏威夷、波士顿、阿肯色、亚特兰大和日内瓦、乌干达、索马里等地都留有他的身影。

同时，Dean 从小就擅长制作软件，他在高中和大学时编写的软件就被世界卫生组织买走使用。1999年，Dean 正式加入谷歌，当时他才 25 岁。从那时起，他几乎参与了谷歌所有重大项目的核心软件系统开发。作为一位功勋卓著的谷歌人，Dean 在谷歌内部甚至成了一种文化，大家都拿与他有关的梗来说俏皮话。

2011 年年初，Dean 在谷歌的休息室遇见了吴恩达，后者是斯坦福大学的计算机科学家，同时也是谷歌的顾问。吴恩达表示自己正在帮助谷歌推进一个名为 Project Marvin 的项目(以著名的 AI 先驱马文·明斯基命名)，模仿人类大脑结构的数字网格，用于研究“神经网络”。

1990 年在明尼苏达大学读大学时，Dean 也曾接触过此类技术，当时神经网络的概念就已经开始流行了。而最近五年里，专注于神经科学研究的学者数量再次开始快速增长。吴恩达表示，在谷歌 X 实验室中秘密推进的 Project Marvin 项目已经取得了一些进展。

Dean 对这个项目很感兴趣，于是决定分出自己 20% 的时间投入其中(每位谷歌员工都要拿出自己 20% 的时间从事核心职务外的“私活”)。随后，Dean 又拉来了一位得力助手，Greg Corrado 拥有神经科学背景。同年春季末，该团队又迎来了第一位实习生——吴恩达最出色的学生 Quoc Le 。在那之后，Project Marvin 项目在谷歌工程师口中变成了“谷歌大脑”。

“人工智能”一词诞生于 1956 年，当时大多数研究人员认为创造 AI 的最佳方法是写一个非常高大全的程序，将逻辑推理的规则和有关世界的知识囊括其中。举例来说，如果你想将英语翻译成日语，需要将英日双语的语法和词汇全部囊括其中。这种观点通常被称为“符号化 AI ”，因为它对认知的定义是基于符号逻辑的，这种解决方案已经严重过时。

说这种方案过时主要有两个原因：一是它非常耗费人力和时间，二是只有在规则和定义非常清楚的领域才有用：如数学计算和国际象棋。但如果拿这种方案来解决翻译问题，就会捉襟见肘，因为语言无法与词典上的定义一一对应，而且语言的使用中会出现各种变形和例外。不过，在数学和国际象棋上符号化 AI 确实非常强悍，绝对无愧于“通用智能”的名头。

1961 年的纪录片点出了人工智能研究中的一个共识：如果可以让计算机模拟高阶认知任务(比如数学或象棋)，就能沿着这种方法最终开发出类似于意识的东西。

不过，此类系统的能力确实有限。上世纪 80 年代，卡耐基梅隆大学的研究人员指出，让计算机做成人能做的事情很简单，但让计算机做一岁儿童做的事情却几乎不可能，比如拿起一个球或识别一只猫。十几年后，虽然深蓝计算机在国际象棋上战胜世界冠军，但它离理想中的“通用智能”差的还很远。

关于人工智能，研究人员还有另一种看法，这种观点认为电脑的学习是自下而上的，即它们会从底层数据开始学习，而非顶层规则。这一观点上世纪 40 年代就诞生了，当时研究人员发现自动智能的最佳模型就是人类大脑本身。

其实，从科学角度来看，大脑只不过是一堆神经元的集合体，神经元之间会产生电荷(也有可能不会)，因此单个神经元并不重要，重要的是它们之间的连接方式。这种特殊的连接方式让大脑优势尽显，它不但适应能力强，还可以在信息量较少或缺失的情况下工作。同时，这套系统即使承受重大的损害，也不会完全失去控制，而且还可以用非常有效的方式存储大量的知识，可以清楚区分不同的模式，同时又保留足够的混乱以处理歧义。

其实我们已经可以用电子元件的形式模拟这种结构，1943 年研究人员就发现，简单的人工神经元如果排布准确，就可以执行基本的逻辑运算。从理论上来讲，它们甚至可以模拟人类的行为。

在生活中，人类大脑中的神经元会因为不同的体验而调节连接的强弱，人工神经网络也能完成类似任务，通过不断试错来改变人工神经元之间的数字关系。人工神经网络的运行不需要预定的规则，相反，它可以改变自身以反映说吸纳数据中的模式。

这种观点认为人工智能是进化出来而非创造出来的，如果想获得一个灵活且能适应环境的机制，那么绝对不能刚开始就教它学国际象棋。相反，你必须从一些基本的能力，如感官知觉和运动控制开始，长此以往更高的技能便会有机出现。既然我们学语言都不是靠背诵词典和语法书的，为什么计算机要走这一道路呢?

谷歌大脑是世界上首个对这种观点进行商业投资的机构，Dean、Corrado 和吴恩达开始合作不久就取得了进展，他们从最近的理论大纲以及自 20 世纪八九十年代的想法中吸取灵感，并充分利用了谷歌巨大的数据储备和庞大的计算基础设施。他们将大量标记过的数据输入网络，计算机的反馈随之不断改进，越来越接近现实。

一天，Dean 告诉我“动物进化出眼睛是自然界的巨变。”当时我们正在会议室里，Dean 在白板上画出了复杂的时间线，展示了谷歌大脑与神经网络发展历史的关系。“现在，电脑也有了‘眼睛’，我们也可以借助‘眼睛’让计算机识别图片，机器人的能力将得到巨大的提升。未来，它们能够在一个未知的环境中，处理许多不同的问题。”这些正在开发中的能力看起来虽然比较原始，但绝对意义深远。

2. 重量级实习生 Geoffrey Hinton

Geoffrey Hinton

Dean 表示，诞生一年后，谷歌大脑就在开发具有一岁儿童智力机器的实验中取得了巨大进展。谷歌的语音识别部门顺势将自己的老系统中的一部分改成了神经网络，借此该系统取得了 20 年来最好的成绩。同时，谷歌的物体识别系统也跃升了一整个数量级。不过，这并非因为谷歌大脑的团队想出了什么新点子，而是因为谷歌在该领域投入了大量人力物力，填补了原本研发领域的空缺。

随后，Geoffrey Hinton 的到来将谷歌的战果再次扩大。成立第二年，吴恩达离开谷歌(现任百度首席科学家，领导 1300 人的 AI 团队)，Dean 则请来了 Hinton，原本 Hinton 只想离开多伦多大学在谷歌待三个月，因此他成了谷歌的重量级实习生。在实习生培训过程中，辅导人员会说“输入你的LDAP(目录访问协议)”，从没在此类公司任职过的 Hinton 举手问道：“什么是LDAP ?”在场一起接受培训的年轻人，虽然只是刚刚弄清深度学习与人工智能的关系，却都在想“这个老家伙是谁?为什么他连 LDAP 都不懂?”

直到有一天，一位学生在餐厅见到 Hinton 教授并问道“Hinton 教授!我选修了你的课!你在这里做什么?”一切关于他的质疑才烟消云散。

几个月后，Hinton 在两位学生的帮助下，在 ImageNet 大型图像识别竞赛中技惊四座，计算机不仅识别出猴子，而且能区分蛛脸猴和吼猴，以及各种各样不同品种的猫。随后，谷歌马上对 Hinton 和他的学生伸出了橄榄枝，他们也欣然接受。“我本以为谷歌要买我们的知识产权，”Hinton 说道。“结果它们是对我们这几个人感兴趣。”

Hinton 出身于一个传统的英国家族，他们家非常重视教育，因此出了不少著名学者。他的曾祖父 George Boole 在符号逻辑方面的基础工作为计算机专业打下基础，Hinton 的另一位曾祖父是著名的外科医生，Hinton 的父亲则是一个热爱冒险家的昆虫学家，而 Hinton 父亲的表哥则在 Los Alamos 研究所工作。

Hinton 也很争气，他先后在剑桥和爱丁堡两所高等学府进修，随后又到卡耐基梅隆大学教书，现在 Hinton 则转到了多伦多大学。笔者曾在 Hinton 的办公室对他进行采访，当时 Hinton 衣帽整齐，一副英国绅士形象。不过，一开口 Hinton 的个人色彩就挡不住了，他甚至打趣说“电脑恐怕都比美国人更早理解讽刺为何物。”

上世纪 60 年代在剑桥求学时，Hinton 就开始了对神经网络技术的研究，他是该领域当之无愧的先驱。不过，由于该理念过于超前，每次他向别人提到机器学习，人们都觉得他是在胡扯。

由于受到了感知机(Perceptron ，50 年代末研发的人工神经网络)这一概念被过去热炒的影响，当时搞神经网络的研究的人简直就是学术界的异端。当时，《纽约时报》还曾撰写报道称，感知机未来有可能会“走路、说话、阅读、写作甚至再造自己，并意识到自己的存在”。结果这证明这一切只是幻想而已。

1954 年，马文·明斯基在普林斯顿的论文中就将神经网络选做研究主题，但他对Rosenblatt 关于神经范式所做的夸张说法已经厌倦了。后来，明斯基与麻省理工的同事合作出版了一本书，证明了有些问题即使非常简单，感知机也永远无法解决。

不过，当时的条件下明斯基抨击的只是“单层”的神经网络，而 Hinton 则认为若使用多层神经网络，就可以执行复杂的任务。简单来说，神经网络就是一台机器，能够从数据中发现模式并以此进行分类或预测。有一层神经网络，你可以找到简单的模式，但如果层数增多，就可以找出模式中的模式。

如果将这一理论套用到图像识别中去的话，执行图像识别的神经网络主要使用“卷积神经网络”(这是 1998 年的一篇开创性论文中阐述的概念，该论文的主要作者是法国人 Yann LeCun ，他曾是 Hinton 的学生，现在则是 Facebook 人工智能实验室负责人)，网络的第一层负责学习识别图像最基本的视觉效果“边缘”，也就是判断一个像素旁边是否有东西。

随后的各层神经网络都会从前一层寻找模式，“边缘”可以是圆型也可以是矩形，而这些形状可能就是人脸。这种识别方法与人眼类似，都是将信息组合在一起，从视网膜中的光线感应器将信息回传到大脑的视觉皮层。在处理过程中，那些不相关的细节会被即可丢掉，因为如果各种形状结合成一张脸后，你无须在意脸部的位置，只需明确它是一张脸就行。

在 1993 年的一段演示视频中，Yann LeCun 展示了自己卷积神经网络的早期版本，该系统随后派上了大用场，在 20 世纪末处理了美国银行经手的 10%-20% 的支票。现在，卷积神经网络则成了图像识别系统背后的超级大脑。

不过，多层的深度神经网络可不像单层的那么容易搭建。假设你在训练一个小孩子，让他拿起绿色的球放进红色的盒子，这一动作很容易学习，但如果你要求那个孩子拿起绿色球穿过三号门再放进 A 盒子可就不容易了，他很容易在过程中出错。你如何教会孩子完成这一系列动作呢?总不能一直在他耳边喋喋不休的重复吧?

为了解决多层出错的问题，Hinton 和其他几个人找到了一种解决方案(也可以说是改进了一个老方案)。当时还是 70 年代末、80 年代初，这一方案重新点燃了学界对神经网络的兴趣。“人们对此非常兴奋，”Hinton 说道。“但其实我们错估了其他人的兴趣。”很快，Hinton 这样的人又成了学界眼中的怪人和神秘主义者。

不过，在哲学家和心理学家那里，Hinton 的想法依然很有市场，他们将其称之为“连接主义”或“并行分布式处理”。虽然加拿大政府一直对 Hinton 全力支持，但它们也难不出计算能力足够前行的计算机和数据。“我们只能自我安慰，一旦时机成熟，我们就能做出点什么。”Hinton 说道。

3. 详解深度学习

当皮查伊抬出“AI 为先”的概念时，他可不止是在描述公司的商业战略，也同时把这一长久以来都没有起到多大作用的概念扔给了公司。皮查伊大方的资源分配让 Dean 和 Hinton 这样的专家能获得有力支持，他们有足够的数据和计算能力来推进自己的研究。从科学角度来说，人的大脑拥有 1000 亿个神经元，而每个神经元则会与其他 1 万个神经元连在一起，这就意味着神经突触的数量在 100 万亿到 1000 万亿之间。如果以上世纪 40 年代的标准来看，想复制这样的复杂网络根本是不可能的。我们离真正的神经网络还差着十万八千里。不过，谷歌持续的投资至少让我们通过人工神经网络实现了小白鼠大脑部分切片的功能。

要理解规模的重要性，你就得理解更多相关细节，即机器究竟对数据作做了什么?我们对 AI 的恐惧，大都因为觉得它们会像一个神秘的学者一般在图书馆挖掘学习知识，然后，从前只会玩曲别针的机器或许有一天能像对待一只蚂蚁或者莴苣一样轻松碾死人类。

不过，AI 可不是这样工作的，它们每天只是在搜索并寻找共同点。开始其模式非常简单，随后逐渐深化。现在最大的危险则在于我们是否最初就给它灌输了一些包含偏见的信息。

假设你想用老式的符号化 AI 模型打造一个猫咪识别程序，首先就必须花大量时间给机器灌输到底什么是“猫”。随后在对照片进行学习时，程序会遵循一大堆“如果”，并通过这些限制条件来识别猫咪。不过，如果你拿来一张苏格兰折耳猫的图片，它就会在耳朵这一“如果”上卡住，符号化 AI 根本就不认这种耳朵出现变化的猫咪，这样的识别水平连蹒跚学步的小孩都不如。

不过，换到神经网络的话，就根本无需猫的定义这个限制了，二进制会处理一切。得到指令后，神经网络会自动对相互连接的交换机进行调教，将输入的数据变成准确的输出数据。训练时用到的数据越多，得到的输出数据就越准确，一旦整个训练过称完成，神经网络就能稳定的处理数据并做出可靠的预测，这就是所谓的“监督式学习”。

不过，需要注意的是，神经网络有一定的概率性，因此它并非万金油，不能通吃所有任务。所以，如果它将狗狗识别成了猫咪，无需惊慌。但如果将这一情景换到自动驾驶领域，我们可就要惊慌了，因为 0.1% 的错误率可能就会要了你的命。

此外，由于监督式学习是基于标记过的数据的，因此人类依然会扮演重要的角色，如果在输入时做了错误的分类，未来在情境识别时神经网络可能就会出错。

4. 猫咪识别论文

谷歌大脑部门推进神速，一年多的时间，它们就成功让机器掌握了一岁小孩的技能。随后，它们的部门成功从谷歌 X 实验室“毕业”，升级成高一级的研究机构。不过，当时的谷歌大脑团队依然只有不到 10 个工作人员，对于未来，他们也只有一个较为模糊的概念。

不过，就像人一样，在学会了形状并开始认识皮球这一事物后，我们会为之满足一段时间。但最终，人类会开始产生关于皮球的问题，这就是语言出现的原因。

在探索过程中，谷歌先整出了一篇关于猫的论文。这篇论文向我们展示了带有超过10亿个“突触”连接的神经网络，这比当时任何公开的神经网络模型都要大好几百倍，不过与人类的大脑相比，依然小了好几个数量级。这个神经网络能识别原始的、无标签的数据，并识别高难度的人类概念。谷歌大脑的研究者向神经网络展示了几百万帧的静态 YouTube 视频，然后，神经网络的感觉中枢开始运转，分离出了一个稳定的模型。和所有的小孩一样，这一模型能毫不犹豫地识别出猫的脸。

这一神经网络在识别猫脸前可没有让研究人员“开小灶”，它对猫的定义和知识一无所知。神经网络直接与现实世界交互并且抓住了“猫”这一概念。(研究者发现，这一神经网络就好像核磁共振成像一般，猫的脸部的阴影会激活人工神经元)。

其实，大多数的机器学习都受限于标签数据的数量，但该论文却显示，神经网络同样能识别原始的无标签数据，有时甚至是人类自身都还没建立起知识的数据。这一成果并不只是让神经网络识别猫脸这么简单，它对于人工智能的整体发展都有很大意义。

这篇论文的第一作者是 Quoc Le 。这位大学者个头不高，说话轻声细语但语速极快。Quoc Le 从小在越南长大，父母都是普通农民，小时候家里甚至连电都没有。不过，他在童年时就显示出了超强的数学天赋。20 世纪 90 年代 Quoc Le 还在上学时，就曾经尝试开发聊天机器人。他在想，这会有多困难呢?现实告诉他，开发聊天机器人确实不是个轻松活。

毕业后，Quoc Le 离开了越南到澳大利亚的堪培拉大学学习，主要研究计算机视觉一类的 AI 任务。当时，这一领域使用的方法，是要给机器填入大量的关于事物的定义性概念，这让他觉得像是在作弊。Le 当时并不清楚，世界上同样有很多计算机科学家跟他有类似的想法，他们都认为机器是能够从零开始学习的。

2006年，Le 在德国的马克斯普朗克研究所生物控制部门任职。在那里的一个读书小组中，他读到了 Geoffrey Hinton 的两篇论文，他觉得自己的任督二脉瞬间被打通了。

“当时这两篇论文引起了很大的争议”，他说道。“非常非常大”。随后，他看了一眼自己画在白板上曲线，又轻声重复到，“我从来没有见到过那么大的争议。”

他清楚的记得，当时自己在阅读小组中站了起来并表示：”这就是未来。“当时，这并不是一个很受欢迎的决定。他远在澳大利亚的导师还曾写邮件问他：“你为什么做了这个决定?”

“当时我没想好怎么回答，”Le 说道。“我只是非常好奇。它们提出了一个很成功的范式，但老实说，我只是对这一范式感到好奇。2006 年时，这样的观点非常稀有。”随后，Le 转到斯坦福并加入了吴恩达的团队，随后他开始顺着 Hinton 的道路向前迈进。“2010 年年底，我已经非常确信会有大事发生了。”

随后，Le 到伦敦进行实习，而关于猫的那篇论文，就是在这一段时间打下的基础。在一个简单的层面上，Le 想看看计算机是否可以被训练，并实现对给定图像绝对必要信息的识别。他给神经网络输入了一个他从 YouTube 采集的静态片段。随后他告诉神经网络丢弃图像中包含的一些信息。神经网络随后抛弃了一些信息，最初是随机的。接着他告诉计算机：“刚才是开玩笑，现在重新创建初始图像，你只需根据你保留的信息进行显示就行。这种要求就像他要求计算机找到一种方法来“总结”图像，然后从摘要再回溯到最初的图像。如果摘要是基于不相关的数据，如天空的颜色，而不是胡须，计算机就不能执行完整的重建。

计算机的表现就像是原始人，他们对于剑齿虎的印象是在逃跑过程中建立的。Le 的神经网络与前人不同，它需要进行一次一次又一次的尝试。从数学的层面上来说，它每一次都会选择对不同的信息进行优化，然后表现会越来越好。

这样看来，神经网络就是一个黑箱，它确实生成了某种范式，但人类很难从外部对其进行观察和理解。

关于猫的论文虽然让 Le 声名鹊起，但他自己并未感到自己掌握了业界的话语权。不过，他感受到了一种动力，未来的研究要跟他早年开发的聊天机器人联系在一起。在发表那篇著名论文后，他意识到，如果你能让一个神经网络对照片进行总结，你也可以让它对一些句子进行总结。在接下来的两年中，这些想法一直在 Le 和他在谷歌大脑的同事 Thomas Mikolov 大脑中萦绕。

有段时间，谷歌大脑团队由于发展过快甚至占领了高管的办公室。随后，管理处还专门发邮件让他们不要在公司 CEO 办公室门口的沙发上睡觉。

在谈到那位“同路者” Mikolov 时，Le 神情有些变化，但总是不断提起他的名字和两人之间的合作。后来才知道，原来 Mikolov 已经去了谷歌的对手 Facebook。

2012 年时的谷歌大脑团队

在这段时间里，他们试图搭建出新的神经网络架构，不但能应付简单的静态图片分类，还能搞定更为复杂的任务，如语言或音乐。他们用到的理念上世纪 90 年代就诞生了，Le 和他的同事们专门回溯了那些长期被忽视的概念，一边找寻那么被忽略的闪光点。

他们知道，一旦你建立了一个具有基本语言预测能力的设施，你就可以继续做其他各种智能的事情，比如预测一个合适的电子邮件回复，或智能的预测一个谈话的过程。这样你就可以侧重于那种从表面看起来很像思维的能力。

　第二部分：语言机器

5.语言的十字路口

谷歌大脑团队现在大约有 100 个成员，他们经常觉得自己不是在一个有等级区分的部门，而是在一个俱乐部、一个学术社区或是一个小酒吧，这个谷歌公司中最自由的部门经常受到其他部门羡慕的眼光。谷歌大脑被安排在公司园区西北边缘的一个两层的蛋壳结构的炭灰色建筑中，巨大的窗户可以看到远处的山景。他们的小厨房里有一个游戏足球桌，一个摇滚乐队游戏机，一个 Go Kit，但是都很少有人使用这些。(但是我有次看到一个年轻的助理研究员在向他的同事介绍如何把一个菠萝蜜像切火鸡一样切开)

六月份我在谷歌大脑的办公室时，看到一些空桌子，但是其中的大部分都有便利贴写着诸如“Jesse，6/27”的字眼，到现在几乎所有位置都满了。当我第一次访问他们的时候，停车还很方便，最近的位置提供给孕妇和特斯拉汽车，其他空闲的位置还很多。但是十月份的时候，如果我 9:30 以后才来，就不得不在马路对面找车位了。

谷歌大脑部门的增长让 Dean 有点担心公司是否可以满足这样的需求。他想避免发生所谓的“成功灾难”——即公司的理论容量超过了实践中执行任务的能力，人手不够。所以某天他进行了一些简单计算后，给经理做了一个两页 PPT 的展示：“如果未来每个人每天对自己的安卓手机说三分钟的话，那我们得需要多少机器啊!我们可能得将我们的计算空间加倍甚至加三倍。”Dean 用夸张的表情说，“这听起来很恐怖，但是我们不得不这么做。”他犹豫了一下，结果是“需要建立新的架构”。

但是，他们还有另一个选择：设计、批量生产一种新的芯片，安装进分散式数据中心，加快运算速度，这种新的芯片叫做 T.P.U.(tensor processing units)。并且一反常态地主张使用比普通芯片精确度更低的芯片。他们不再计算 12.236 乘以 54.392，而是给出近似的 12 乘以 54 的答案。在数学的角度看，神经网络就是一种结构化的成百上千上亿的矩阵乘法的连续结果，所以过程的速度比精确度更重要。Dean 说道：“通常专用硬件不是个好想法，它经常只能加速一个东西，但是因为神经网络的一般性，你可以使用专有硬件来加速很多东西。”

就在芯片设计阶段即将完成的时候，Le 和其他两个同事终于证明了神经网络可以通过设定来解决语言结构问题，他提出了一个想法，叫做“放弃词向量”(word embeddings)。这个想法耗费了他超过 10 年的时间。当你概括一个图像的时候，你可以预测出图像概述的每一个阶段，比如一条边，一个圆，等等。当你用同样的方法去概括一种语言的时候，实质上你是基于日常用法，建立出一个词与其他的词之间的多维距离地图。而机器不像我们使用语言学规则去分析数据，不是将词语分成名词、动词等，机器会将词语平移、扭曲、变形后放进那个地图中。

其实在二维中，这个地图并没有用。比如说，你想要将“猫”放在“狗”附近，但是你也想把“猫”放在“尾巴”、“高傲”和“喵喵”附近，因为你想把跟“猫”有关的不管距离远近的词语全部囊括在内。只有这些词在不同维度上与一个词相关时，我们才可以同时将他们关联在一起。当然，你无法轻易地做出一个 160,000 个维度的地图，但是你却可以很好地掌握一门拥有一千个维度的语言。换句话说，语言就是一个用包含一千个数字的表格指派每一个词语的过程。想象这种多维地图其实很困难，因为我们真的很难再一个三维空间中看到一个一千维的向量。

接着，特定的维度就可以表示人类显性的分类，比如性别、身材。如果你用 1000 个表示“国王”的数字，减去 1000 个表示“王后”的数字，得到的结果应该和“男人”减去“女人”一样。如果你可以获得英语语言的全部空间和法语语言的全部空间，理论上，你可以训练一个网络如何将一种语言等价地放入另一种语言。你只需要给机器无数的英文句子作为输入，相对应的法语句子作为输出，经过一些时间的学习，机器就会识别出词语的模式，就如同图像分类器在像素水平上分辨图像一样。最终，你就可以给机器一个英文句子，命令他输出匹配最佳的法语句子。

但是，词语和像素的主要区别在于，所有图像里的像素只出现一次，但词语却会随着时间连续出现。网络需要一个方法来“存储”这个时间序列的连续过程，即从第一个词到最后一个词的路径。2014年9月的一周，Le 和两个来自加拿大和德国的学者发表了三篇论文，最终提供了解决这一问题的必要理论工具。他们的研究说明了端口开放项目(如谷歌大脑的 Magenta)如何生产艺术和音乐。也为工具性任务，如机器翻译指明了道路。Hinton 告诉我说，他认为这些后续工作可以至少还需要5年以上的时间。

6.伏击者

Le 的论文说明了神经网络翻译似乎是合理的，但是他只使用了一个小的相关公共数据集(只是对谷歌而言比较小，它其实是世界上最大的公共数据集。但是旧翻译器在十年间收集的生产数据比这个数据集大 100 到 1000 倍)。更重要的是，Le 的模型在超过 7 个词语的长句中表现不佳。

彼时的谷歌大脑科学家 Mike Schuster 接过了接力棒。他知道，如果谷歌没有找到将理论转化为产品的方法，其他人就会抢先找到。这个项目花费了他两年时间。Schuster 说：“你想当然地以为，翻译无非是将数据输入，运行程序，输出结果，但实际上并不是这样。”

Schuster 是一个严谨专注，似乎岁月并没有在他身上留下痕迹。他的头又黑又小，肩膀很窄，常常穿着一条迷彩短裤和一双 Nike 运动鞋。他看起来就像是那种刚刚从打坐中醒来，戴上他小小的椭圆无边框眼镜，随便吃点坚果，然后顺便在上班路上完成了沙漠十项全能的人。他告诉我说，从家到公司骑自行车“只有” 18 英里的路程。Schuster 在前西德的杜伊斯堡长大，学习的专业是电子工程，后来又搬到日本京都从事早期的神经网络工作。90 年代，他在一个跟会议室一样大的神经网络机器上做实验，这个机器造价百万美元，并且需要经过数周的训练才能完成如今只需要在笔记本上训练一小时就能实现的任务。他在1997年发表过一篇论文，15 年来很少有人引用，但今年却被引用了 150 次左右。Schuster 并不是没有幽默感，但是他的对话经常带有一些粗暴感，我觉得这是他身上一种标志性的德国式和日本式克制精神的结合。

Schuster 要解决的问题非常复杂。一方面，Le 的代码是自定义编写的，与谷歌的开源机器学习平台(后来发展成 TensorFlow)不兼容。2015年秋天，Dean 给 Schuster 介绍了另外两个工程师：Yonghui Wu 和 Zhifeng Chen。他们花了两个月时间在新系统中重新复写了Le 的结果。Le 其实也在旁边，但是即是是他自己也不能弄清楚他们所做的工作。正如 Schuster 所说，“有些东西我们也没有完全理解，他们自己也不知道为什么这样做。”

今年二月，谷歌的研究组织(公司的一个非正式组织，大约有1000人)在豪华的旧金山联合广场圣弗兰西斯威斯汀酒店举行了一场“静修会”。会议的上午进行了多轮闪电会谈，快速地更新了研究前沿问题，下午则进行了跨部门的促进讨论，会议希望这种静修可以提供一个机会，让这种无法预测的、贝尔实验室式的交流帮助一个成熟的公司保持高产。

午饭的时候，Corrado 和 Dean 在找Google Translate 的主管 Macduff Hughes，当时 Hughes 正在独自一人吃饭，然后这两个谷歌大脑的成员突然就坐在了他的两边，就像 Corrado 说的，“我们伏击了他”。“其实，” Corrado 对警惕的 Hughes 说，“我们有些事情想告诉你。”他们告诉 Hughes，考虑到有超过10年的数百个工程师的程序代码和一个神经网络，2016年对 Google Translate来说似乎是一个彻底大翻修的好时机。原有的机器翻译系统已经工作了30年，它隔离每一个连续的句子片段，在一个大型统计派生词汇表中查询所有单词，然后使用后处理原则加上合适的后缀，再重新组合使句意明确。这种方法叫做“基于短语的统计机器翻译法”。因为系统是一个一个部分进行翻译，所以它并不知道哪个是最后一个，因此很多时候你会觉得翻译的句子结构混乱。谷歌大脑替代原有翻译机器后，可以直接一次翻译整个句子，把握句子内容，理解句子意思。

这个赌注可能很低：翻译产生的利润甚微，并且可能永远如此。对于大多数英语母语使用者而言，相比于一个期待的渐进式进步，服务产品性能上即使是一个巨大的更新，也很难激起人们的赞赏。但是发明一个能与人类媲美的机器翻译并不只有短期内的必要性，更多的是长远角度的转型式发展。在不久的将来，这对公司战略发展来说至关重要。谷歌估计 50% 的网络显示的是世界上 20% 的人使用的英语语言。如果谷歌想要在中国市场(该市场中搜索引擎绝的大多数市场份额属于其竞争对手百度)，或在印度市场竞争，合适的机器翻译是基础设施中不可或缺的部分。百度也在2015年7月发布了一个关于神经机器翻译可能性的突破性文章。

并且在更远的未来，我们可以推理出，机器翻译可能是在通用计算机设备上使用人类语言的第一步。这也许代表着一个巨大的转折点——科技的发展中可能出现了真正的人工智能。

硅谷中的大多数人都认为机器学习的发展快要接近地平线了，所以 Hughes 看到了这个伏击点的到来，他对此保持怀疑态度。Hughes，一个的温和的强壮的中年男人，他的头发是杂乱的棕色，鬓角也有些灰白，是一个典型的线路工程师，在1970年的波音公司里，绝不会离开他的绘图台。他的牛仔裤口袋里感觉装满了笨拙而奇怪的工具，就好像他正在用卷尺和电热偶绘制电路。他跟年轻人不一样，他明白谷歌里很多人在很多部门都尝试过神经网络翻译的工作，想要把实验结果变为实际产品，但是很多年来，大多数结果都是徒劳无功。

Hughes 听了他们的想法，最后非常谨慎地说，“听起来这件事好像能在三年内完成。”

但是 Dean 的想法不同：“如果我们全神贯注，可以在今年内完成它。”人们喜欢、赞赏 Dean 的一个原因就是他可以长时间地全神贯注在一件事情上，另一个原因就是他在说“如果我们全神贯注于此”的时候真诚得一点也不尴尬。

Hughes 确信这个转变不会很快发生，但是他本人也不在乎真的“全神贯注于此”。所以他转身对他的团队说，“让我们为2016年做准备吧，我不想成为那个说 Jeff Dean 不能保证速度的人。”

一个月以后，他们终于做出了一个 Schuster 的新系统和 Hughes 的旧系统的对比试验。Schuster 想要实验英法互译，但是 Hughes 建议他试试别的。他说，“英语—法语互译的过程已经很完善了，系统的改进不会太明显。”

有一个困难 Schuster 无法克服。评价机器翻译的基准度量叫做 BLEU 分数，方法是比较机器翻译和平均水平的人工翻译的结果。当时，英法互译的最高 BLEU 分数是20。1分的进步被视为非常好，2分的的进步被视为非常杰出。神经网络在英法互译对中比原有系统提升了7分。Hughes 告诉 Schuster 的团队说，他们的系统在过去四年中的进步都没有这次的一半多。为了确定这不是测量上的一些巧合，他们也让一些读者来做对比试验。读者感知分数(0—6分) 也显示出平均进步0.4分——这差不多是原有系统整个生命周期内的进步分数。

三月中旬，Hughes 给他的团队发了一封电子邮件，写道：旧系统的所有项目立即暂停。