各位专家、各位嘉宾:
大家好!
非常高兴在此分享,我觉得人工智能工作者需要鼓励,因为做人工智能是在闯无人区,非常艰难。大家不要认为人工智能取得的每一个进步都是那么容易,其实是非常困难的。
首先我想谈一个问题:“怎么评估ChatGPT?”
现在有两种说法:一种说法是,ChatGPT是通用人工智能;还有一种说法,它不是通用人工智能,我的观点是,这两个说法都不对,也都对。
我认为最恰当的说法是,ChatGPT向通用人工智能迈出了一步。按照微软的说法,ChatGPT是通用人工智能的火花,我赞成这种观点。
为什么呢?
ChatGPT具有通用人工智能的两个特征,一个特征是,在对话或者聊天这个领域,它达到了人工智能的目标,或者达到了行为主义所主张的人工智能的目标。行为主义人工智能现在是人工智能主流,它背后的哲学是唯物主义、实用主义,其追求的人工智能目标是使机器的行为跟人类的行为相似。为什么说ChatGPT达到了这个指标,因为我们跟ChatGPT对话的时候,就和人类的对话很相近,因此它达到了头一个通用人工智能的特征。
第二个特征是,ChatGPT是开领域多任务,也就是说,在对话这个领域,问题跟领域无关,这是一个重大的突破。大家知道,人工智能经历过第一代知识驱动、第二代数据驱动,都只能在限定领域里完成单个任务,所以ChatGPT的出现变成一个开局,开始走向通用。
在通用人工智能最重要的两个特征上,达到人类水平,跟领域有关,所以我们可以说它是通用的。但是因为它只是在对话或者说只是在语言处理这个领域里达到这个目标,所以我们还不能把它称作通用人工智能。因为在别的智能领域是不是能通用,现在还说不清楚。
所以我觉得,这样的估计是非常恰当的,我们只有在这样的估计情况下才能讨论下面的问题。
首先一个问题,ChatGPT为什么能够达到现在的质量水平?甚至很多地方使大家感到非常惊奇,这主要由于人工智能经过六七十年的努力,实现了三个关键技术的突破:
第一个技术,基于词嵌入的文本语意表示。第二个技术,是基于注意机制的转换器。第三个技术,基于预测下一个词的自监督学习。
所以我们应该说,ChatGPT是经过人工智能领域里或者其它领域里,大量的科学家和工程师经过六七十年共同努力的结果,因为经过六七十年,这三个问题才得到成果。这三个关键问题的突破,使得机器在处理文本上有了本质的变化。
过去我们在处理文本的时候,我们往往把它称作处理数据,到现在为止大家还是用的这个词,但是这个词在ChatGPT里不成立,因为ChatGPT是在我们找到了文本语义考试条件下再处理文本,所以它处理的不是文本的形式,不是把文本当成数据来处理,而是把文本当成知识来做。
所以ChatGPT的成功并不是归根于三个要素,我觉得应该强调四个要素:知识、数据、算法和算力。
也就是说我们有三个关键技术突破,就使得我们能够从大量的文本(数据)中获取到知识点,因为只有实现这个转变,才有现在的成绩,不然我们还是停留在那个错误认识上。那么这个突破,可能带来不可阻挡的三件事情,头一件事必然带来科技的革命,会带来人工智能本身的能力。
人工智能发展到ChatGPT以前,我们不能说它是一个科学,为什么?它没有理论。
人工智能为什么理论建立不起来?非常重要的原因是在历代人工智能做的知识驱动也好,第二代做的数据驱动也好,我们都是在限定领域里完成单个任务,在单领域单任务里不可能来建立一个通用理论。ChatGPT扫除了这个障碍,至少在自然语言处理上扫除了这个障碍,因为它这个领域无关,一旦跟领域脱钩了,才有可能建立起来通用的理论。
所以现在去研究、去建立人工智能理论是有可能的,在ChatGPT没出现以前这种可能性不存在,所以这对我们来讲是一个激励。
什么是突破口?突破口就在ChatGPT,如果我们把ChatGPT内部的工作原理搞清楚,我们就能找到进入人工智能理论的钥匙。
ChatGPT里很多现象我们说不清楚,一方面它能够生成一个非常出人意料的结果,它同时又会产生所谓幻觉(胡说八道),为什么会出现这个现象,这个根本不清楚。
所以头一个必然会迎来一个科技的革命,首先这个革命会从AI本身开始。
第二个事情,大家讨论的非常多,就是产业的变革,人工智能产业本身的产业变革。
人工智能产业的发展,跟信息科技产业发展是非常不一样的。信息科技的发展,我们可以用四个字来形容:高速持续,可是人工智能技术产业的发展缓慢曲折,什么原因?
一个最重要的原因是,信息科技从一开始理论就建立了起来,计算机的理论是1936年建立,通讯理论1948年建立,所以在理论指导下,它的技术、它的产业发展都非常顺利,信息产业的所有硬件和软件全是通用,市场非常之大,信息产业不跟领域结合,根本就不可能有这个产业。而人工智能都是跟领域紧密结合,只有算法和模型,而且这些算法方面都是领域限定、任务限制的,开发出来的所有人工智能的硬件和软件全是专用,跟信息产业完全不同。
拿计算机来讲,完全不跟应用结合,它生产出来的计算机什么地方都没有用,但是有了ChatGPT之后就告诉大家,人工智能有可能建立一个跟领域无关的模型。
只有算法和模型摆脱了领域的限制,将来生产出来硬件和软件才会是通用,或者一定范围里通用,才会有一个很大的市场,这就是今后信息产业革命的一个方向。
第三个事情,人工智能治理。ChatGPT大家看正面比较多,其实它反面也是很成问题的,因为我们用的方法是叫“预测”,这种模式的学习,必然带来两个大问题:
首先,它的结果不确定,受提示词的影响极大,这就引起了ChatGPT输出有三个不可避免的缺点。
第一个缺点,错误是必然的,所以我们说胡说八道是必然的。第二个缺点,输出非常受输入的影响、受提示词的影响,我可以改变我的输入,问同样的问题,改变它的输入就会得到一个完全不同的问题。第三个,它不知道自己错了,也改不了。我举个非常简单例子,到现在为止,我问ChatGPT“清华大学校歌的歌词”,它自己编了一套,我一年以前就这么问它,到现在还是这样,我就告诉它不对,清华大学校歌应该是“西山苍苍东海茫茫”,我把这歌词抄给它,它马上回“对不起,我说错了”,我退出来再进去,问它“清华大学校歌是什么”,它又自己编了一套,就说明它不知道自己犯错了,而且是我告诉它错误,它也改不过来。
这些情况就说明ChatGPT的输出往往不会符合我们的要求,我们的道德要求、我们的伦理要求、我们政治的要求,所以这就是 ChatGPT出现以后,人工智能的治理是不可避免的,我是认为三个趋势一定是这样的。
那么我们怎么办?
我觉得我们主张要发展第三代人工智能,第三代人工智能实际上是包含了几个内容,一个内容就是要建立可解释、鲁棒的人工智能理论。
二是发展安全、可信、可控、可靠、可扩展的人工智能技术。也就是说只有建立了这个理论之后,我们才有可能得到一个安全的人工智能技术。换句话讲,现在的人工智能技术是不安全的、不可靠和不可信的,特别是利用大数据的机器学习,它的结果一定是这样的。我们必须建立人工智能的理论,这才能开发出安全、可靠、可信及可扩展的人工智能技术,从而推动产业创新应用和产业发展。
我相信,通过我们国家的规划,通过产学研的结合,这个目标一定会达到的,谢谢大家。