1 序幕:一条期盼已久的消息2012年10月的一天,微软研究院(MSR)语音研究首席研究员邓力受邀,从美国西海岸的西雅图,横跨美国大陆,前往位于美国东海岸的巴尔的摩、语音和语言处理研究的殿堂CLSP做演讲。 邓力在雷峰网GAIR 2019大会现场CLSP的全称是约翰霍普金斯大学的语言和语音处理中心(The Johns Hopkins University Center for Language and Speech Processing),由提出了统计语音识别框架的著名学者贾里尼克(Frederick Jelinek)于1992年创立。每年夏天,中心都会邀请世全球20-30名顶级的科学家和学术新星、学生到CLSP一起工作,并举办侧重于语音和语言工程的研讨会(Johns Hopkins Summer Workshop),多年来每届研讨会的研究成果对于大词汇量连续语音识别(LVCSR),自然语言处理(NLP)及对话等领域产生了广泛的影响,这也使得CLSP成为世界上语音和语言处理的中心之一。邓力演讲的题目是New Waves of Innovation in Large-Scale Speech Technology Ignited by Deep Learning。就在等待登台演讲的时候,正在浏览邮件的邓力看到了一条由多伦多大学的Geoffrey Hinton亲自发给他的邮件:Hinton的团队在该周ImageNet 的ILSVRC挑战赛中以压倒性的优势获得第一,将图像识别错误率从26%降低到了16%,错误率降低了将近40%。Hinton 在邮件中特别提醒邓力“ … look at this huge margin!!!”这也是邓力期盼已久的一条消息。尽管当时不少人对深度学习持怀疑态度,但邓力对此深信不疑。在他看来,Hinton在ILSVRC挑战赛取得成功是一件自然而然的事:作为与Hinton在深度学习领域最早的合作者,邓力及其同事俞栋、Frank Seide等将深度学习成功应用于语音识别,并将错误率降低了30%以上。这是你的胜利,也是我的胜利。这是深度学习的胜利,也是神经网络的胜利!
2 深度学习的第一次成功,从语音开始
邓力对神经网络的“误会”消除于2008年。邓力对神经网络并不陌生。他1977年考入中国科学技术大学生物系(778班),本科的专业是神经科学和生物物理学,真正接触人工神经网络是在威斯康星大学麦迪逊分校攻读电气工程方向的博士期间,邓力在语音方面的研究也是始于彼时。在博士期间,邓力尝试创建人类听觉模拟和语音识别神经模型,然而进展并不顺利。不仅神经网络的理论还有待进一步完善,当时的计算机也无法提供足够的计算能力,这也使得邓力在神经网络方向上的研究举步维艰。博士毕业后,邓力加入加拿大滑铁卢大学任教,期间仍在从事神经网络方面的研究。其中他与他的一名学生Khaled Hassanein (现任教于加拿大的McMaster大学)在1993年提出了一种增强神经网络记忆的新模型。这也是Khaled Hassanein 的博士论文题目,这一研究实现了一个可用于语音识别的完整系统,但性能仍无法超越隐马尔科夫模型。邓力邀请了 Geoffrey Hinton作为这篇博士论文的外审审稿人。在读过论文后,Hinton告诉邓力,受各种条件限制,现阶段神经网络恐怕难以取得进一步的突破。这也使得邓力将精力从神经网络的研究转向贝叶斯统计方法和生成模型研究上。但邓力仍然是神经网络圈子的一员。他是神经信息处理领域的顶级学术会议NIPS的常客,2008年12月的NIPS上,邓力与Hinton再度见面。2008年NIPS的主会场设在温哥华,但大会的专项研讨会(Workshop)安排在了距温哥华一小时半车程的滑雪度假村Hilton Whistler Resort and Spa——这也是NIPS的惯例,该会议在2010年以前一直在滑雪胜地的Whistler举行。邓力和他的同事何晓冬在这一年的NIPS上举办了一场语音语言研讨会(NIPS Workshop on Speech and Language: Learning-based Methods and Systems),并请来Hinton做报告。Hinton告诉邓力,自己开始用一种新的方法深度学习处理语音问题,而且取得了不错的结果。这让邓力大为感到意外。在他的印象中,Hinton从未涉足语音方面的研究,而且过去神经网络少有明显高出其他方法的成功案例。两人约定事后再详细进行讨论。在后续的邮件讨论中,Hinton又给邓力发来了一篇新论文的草稿,论文表明,在用三个小时的语音数据进行训练的神经网络达到了和邓力所采用的基于生成式五层动态贝叶斯网络的方法相媲美的水准。由于双方使用的语音数据的测试集不同,邓力对此仍持保留态度,他决定邀请Hinton到微软总部进行访问,以便可以在同样的数据集下比较哪一种方法更优。邓力(左)与Geoffrey Hinton2009年十一月,Hinton如约到来,他和邓力一起克服了种种困难,用MATLAB搭建了一个语音识别神经网络的原型。Hinton负责了大部分关于深度波尔兹曼预训练模型代码的编写,代码的简洁流畅让邓力叹为观止。当模型开始使用微软的语音数据进行训练时,邓力马上感到了不同:虽然比起SOTA还略有差距,但这足以让邓力意识到,深度学习的方法是有用的。经过详细的误差分析和基于以往研究经验的推理,他意识到即便只用简单的算法,只要用大量数据进行训练,即便不用波尔兹曼预训练模型也可能得到出色的结果。围绕这一研究的相关成果,2009年邓力和Hinton以及微软的同事俞栋三人又在NIPS 上共同组织举办了一个深度学习在语音研究的应用的研讨会(2009 Workshop on Deep Learning for Speech Recognition and Related Applications)。处理更多的数据需要搭建新的系统。Hinton告诉邓力,他需要花费至少一万美元去购买Nvidia的GPU来完善这一项目。邓力的老板Alex Acero听闻后劝说邓力不必花大价钱买GPU,去Fry's electronics store买通用显卡搭建系统会便宜一些, 然后在满足了对神经网络的好奇心之后回收这些便宜的显卡。但Hinton认为便宜的硬件不仅发热量更大,而且以模型所需要的计算能力,购买通用显卡搭建系统可能会花费更多。最终,邓力用自己掌控的研究经费买了三块Hinton推荐的GPU着手大数据的语音识别实验,并在2010年再度邀请Hinton前来访问。经过过去一年的宣传,“深度学习”的概念开始为更多人所知。而Hinton这第二次访问的顾问费也比去年翻了一番,涨到了2000美元/天。此前,Hinton的两位研究生Abdelrahman Mohamed 和 George Dahl也来到微软,推进这一研究。George Dahl正是推进邓力小组深度学习项目的关键人物——尽管在后来的采访中,George Dahl笑称他不了解语音,他开始做语音相关研究的唯一原因是因为Hinton的其他学生“都在做视觉方面的研究”,但他在GPU方面的的丰富经验对于这个研究项目起到了巨大的推动作用。这也是深度神经网络在工业界的大型语音识别上的革命性突破:在学习了大量数据后,尽管暂时抛弃了相对复杂的深度波尔兹曼预训练模型,Hinton的多层建模和邓力、俞栋提出的用senone建模结合、共同设计的语音原型性能依然超越了其他方法,包括邓力之前发明的基于五层动态贝叶斯网络的方法,在人工智能的历史上,这是过去其他方法都不曾达到的一个里程碑。
3 犹豫中的前行
尽管微软很早就开始斥巨资投入人工智能研究,并雇佣了一批当时顶尖的人工智能学家,但在神经网络和深度学习崛起并在其他领域开始取得成效的时候,这种历史积累反而成了让微软更进一步的阻碍,在微软高层、尤其是技术高层仍对神经网络与深度学习持怀疑态度。2010年,邓力迎来了一位大老板:曾任卡内基梅隆大学计算机系系主任的Peter Lee来到微软,担任微软雷德蒙研究院(MSR Redmond)院长。随后,他全面负责微软美国境内研究项目的运营,直到2013年7月全面接手微软研究院。Peter Lee上任的第一件事就是对研究院的项目及开支进行审核,当他看到邓力项目组的开支时,他大吃一惊。Peter Lee从80年代在卡内基梅隆大学任教时就认识Hinton。后来在纽约时报记者凯德·梅斯的一次采访中,Peter自己提到,和当时的主流学者一样,他认为Hinton的神经网络“非常荒谬”,邀请Hinton和他的学生、购买GPU的经费、NIPS研讨会的费用在他看来纯属浪费。但在他来到微软之前,这笔费用早已进入了执行阶段了。Peter Lee的态度也影响到了Hinton与微软的合作。此前Hinton曾口头答应邓力,后面还会将他的另一名博士生Alex Krizhevsky(后来成为AlexNet论文第一作者。Alex Krizhevsky 和邓力至今保持良好关系,不仅Krizhevsky十年前险些到微软当他语音组的实习生,近年邓力在离开微软后还险些为 Citadel雇来了Krizhevsky)送来微软让邓力带领他实习,但后来Hinton改变了主意。Abdelrahman Mohamed在结束微软的实习后去往IBM,另一名从事深度学习在语音领域应用研究的学生Navdeep Jaitly则去往Google,微软和Hinton渐行渐远。后来Hinton在2012年NIPS大会上举行竞拍选择他的新东家时,他事后告诉邓力,他在潜意识里已经将微软排除在外,这不是钱的问题(否则他也不会在4400万美元的出价上叫停),而是审核制度的问题。微软的审核制度和风格或许适合销售人员,但“绝不适合研究者。”Hinton 让邓力将这个看法转送给当时任微软CEO的Steve Balmer。数月后,微软对员工的审核制度果然取消了 “stack ranking”。而邓力和Hinton合作的那篇近代语音识别历史上被引用最多、2012年12月发表的文章《Deep neural networks for acoustic modeling in speech recognition: The shared views of four research groups》,在2011年就已写好初稿。但Hinton建议邓力将其学生在Google和 IBM的相关研究也包含在这篇文章中,这样可以让两家公司的研究员们在之后写论文时主动引用这篇文章,增加文章的影响力。事实证明了Hinton是对的。该论文不仅总结了深度神经网络对语音识别的影响,还阐述了如何将包括深度神经网络的方法在内的不同的机器学习方法整合起来为大规模的语音识别带来重大的进展。目前该文章的引用量已超过11000次。另一方面,按凯德·梅斯的书中提到,尽管后来Peter Lee看到了邓力在使用深度学习在语音识别上取得的突破,但他仍认为这是“瞎猫碰到了死耗子”,猜测这一成功无法被复制到其他领域的研究中。后来在2012年7月,Peter Lee飞往犹他州Snowbird参加两年一度的CRA会议(该会议的特色是在会议期间举办的美国计算机系主任论坛,属于计算机系主任们的小圈子),会上Google的Jeff Dean受邀发表了关于深度学习的演讲。Peter从Snowbird返回后专程找了一趟邓力,希望邓力能为他解答为什么Jeff Dean会对深度学习如此“上头”。邓力试图向Peter Lee解释Jeff Dean的DistBelief 论文及其内容,以及Google这个微软的主要竞争对手正在修建面向未来的基础设施。但Peter Lee打断了邓力,告知邓力根据NIPS的规定,在论文发表前不得对其进行谈论。虽然邓力接下来继续和Peter Lee讨论深度学习技术的演变趋势,但Peter Lee仍然坚信语音识别是一回事,但图像识别又是另一回事,而Google就是一个大把撒币的败家子。但Peter Lee最后还是为邓力安排了一个专门会议,希望他能够向研究院资深研究者及公司高管讲述深度学习的进展。会议安排在园区的另一栋大楼的大会议室,共有20余名资深研究者和高管参加了会议。邓力的演示并不顺利,当他开始讲解的时候,计算机视觉领域的资深研究者Paul Viola打断了他。“神经网络从未取得成功。”Viola甚至走到了台前,把邓力笔记本电脑的投影连接线拔掉接到了自己的电脑上。屏幕上出现的是明斯基和佩珀编写、1969年的出版的《感知机》一书的封面,正是这本书对神经网络的批判导致了神经网络“失落的二十年”,这是任何一位神经网络研究者都不愿触及的“伤疤”。邓力试图继续他的演讲,但仍被Paul Viola多次打断。直到参加了这个会议的另一位高管陆奇仗义直言,这是邓力的演讲,才让邓力得以完成自己的演讲。陆奇是邓力在微软的少数支持者之一。他当时的职位是微软执行副总裁和Bing项目的负责人,也是在全球科技公司总部所任职位最高级别的大陆华人。与其他微软高管不同的是,在参加这个会议前,陆奇参加了在硅谷举办的年度黑客活动Foo Camp 2012,在活动中陆奇注意到了AI领域的华人新星吴恩达和他介绍的深度学习成为了活动的焦点,而吴恩达正是与Jeff Dean一同创建了Google Brain项目。在Foo Camp后的几周时间里,陆奇专门抽出时间阅读了一系列关于深度学习的论文,当邓力向技术专家和高管介绍深度学习的时候,陆奇所询问的问题也颇为到位。就在会议之后数周,邓力收到了Hinton的电话,Hinton告知邓力百度愿意给他开出1200万美元的Offer,所以他不愿意再次到微软的邓力语音组继续做顾问。邓力将这一信息转发给陆奇,陆奇转而建议微软研究院加入Hinton的争夺,但微软对此仍在犹豫。
4 全面开花
相比起微软总部的谨慎,当深度学习浪潮来临之时,微软的中国同行们要积极得多。从某种意义上来说,几乎每年都会返回中国参加学术交流的邓力算得上是中国深度学习应用于语音研究的布道者。2010年9月21日,邓力和俞栋受中科大信息科学技术学院李卫平院长邀请到中科大交流,科大讯飞也有不少人参加了这次交流会。俞栋分享了将神经网络应用于语音识别的最新成果,这也使得科大讯飞成为了除微软总部之外,首先详细了解这一研究并着手跟进研究的团队之一。在结束中科大的交流后,邓力和俞栋才继续前往微软亚洲研究院进行交流。在中科大交流之后的几天后,俞栋首次在微软亚洲研究院声学组的一次内部讨论中提及使用深度神经网络和senones建模的相关研究,正是在这次内部讨论中,微软亚洲研究院声学组的高级研究员Frank Seide意识到了这一研究的价值,他随即加入该项目,与俞栋一起,两支团队精诚合作,推进该项目的研究。2012年10月25日,微软大老板之一、负责全球技术的副总裁Richard Rashid在天津举行的“二十一世纪的计算”学术研讨会上当场演示用深度学习做语音识别,将英文识别后,用机器翻译成中文,再用语音合成的方法产生中文语音——也就是说,他在上面讲英文,观众可以直接听到和他音色很像的中文——整场演示非常成功,几乎没有错误。这也引起了产业界的轰动,揭开了语音识别产业应用的新一页。纽约时报2012年11月份头版头条专门发布了一篇文章报道深度学习的进展,这篇文章的作者John Markoff亲自飞到西雅图的微软采访邓力,之前也采访了Hinton。Richard Rashid在2012年“二十一世纪的计算”学术研讨会上的演讲Richard Rashid向纽约时报表示,相比起之前的语音识别系统,新的深度学习技术使得错误率降低了30%以上。经历此事的微软也一改过去对深度学习的偏见,以更积极地态度参与到Hinton争夺战当中。但此时微软和竞争者们注定要付出更高的成本。深度学习已全面开花,势不可挡。2012年10月,在佛罗伦萨举办的ECCV上,Hinton和他的学生Alex Krizhevsky和Ilya Sutskever将ILSVRC的图像识别错误率从26%降低到了16%,错误率降低近40%。得知深度学习在计算机视觉领域的突破,NIPS大会组委会紧急为Hinton安排了一个Keynote演讲,AlexNet的论文也被NIPS 2012接收和发表。今年正是这篇论文发表的第10年,不出意外的话,这篇被引用超过10万次的论文将会在今年12月的NeurIPS上被授予大会的“时间检验奖”。毫无疑问,这篇文章的分量已经远远超过了一个“时间检验奖”。甚至可以说,这篇文章加速了NIPS从神经科学向神经网络与机器学习过渡的学术氛围,使得更多机器学习的研究者关注并参与到NIPS中来。到2018年改名NeurIPS时,NIPS已被人工智能圈子公认为最具影响力的机器学习学术会议。但相比起偏学术性的ILSVRC,进一步引爆产业界热情的是同月结束的另一场竞赛Merck Molecular Activity Challenge。该竞赛由医药巨头默克集团赞助,旨在设计软件以帮助寻找可能产生新药的分子。Hinton团队最后一刻决定参加比赛,不仅在设计软件时没有具体了解分子如何与其目标结合,更是在较小的数据集下超越了其他方法,获得了比赛的冠军。竞赛的主办方Kaggle 的首席执行官兼创始人 Anthony Goldbloom 的评价是:“这是一个非常惊人的结果,因为这是深度学习第一次获胜,而且更重要的是,它在一个预期不会获胜的数据集上获胜(因为神经网络通常只在非常大的网络上表现良好)。”也正是在这个时候,百度为Hinton开出了1200万美元的Offer,希望Hinton为百度效力。Hinton意识到百度及其竞争对手更有可能斥巨资收购一家公司,于是在征询了百度和律师的意见后,他创建了一家名为 DNNresearch的公司,并在NIPS 2012期间安排了一个竞拍会,价高者得。参加竞拍会的有四家公司:Google、百度、微软和Deepmind,邓力间接代表微软参与了对DNNresearch的竞标。多轮出价后,Hinton最终在4400万美元的价格叫停了竞拍,Google成为了赢家。竞标结束后,邓力登上了飞往北京的航班。邓力的邻座是百度的余凯,余凯于2012年4月加入百度,领导新成立的百度多媒体部。余凯也是NIPS华人圈子中的活跃者,早在2008年就在NIPS上发表过深度学习的论文(Deep Learning with Kernel Regularization for Visual Recognition)。2009年邓力与Hinton在NIPS举办研讨会研讨会时,当时就是邓力亲自驾车,带着余凯和其他两位研究者从温哥华前往Whistler的分会场。和邓力一样,余凯也代表百度参与了对Hinton的竞标。在飞机上,两人花了几个小时来讨论深度学习的话题。由于Hinton的竞拍是保密的,双方都不约而同避开了与竞拍相关的话题;但或许也正因为这种刻意的回避,两人都隐约猜到了对方的隐藏身份,他们意识到,新的竞争即将到来。