
中国信通院技术与标准所副所长、数据中心联盟常务副理事长何宝宏以下为演讲全文:大家上午好!很高兴与大家一起探讨一下我这段时间对人工智能的一些思考。先来看看一张曲线图,从技术的角度来看,这是所有技术的曲线图,换做股市市场,这个曲线能反应人的贪婪和恐惧,在股票市场的反映就是A股的走势图。但是人工智能的曲线图是别人家的曲线,所有的技术都符合Gartner曲线,人工智能的曲线图来了三波,要么就是Gartner技术曲线图错了,要么就是人工智能错了,总得错一个,要不然套不上。60年来我们讨论人工智能,每次说的人工智能技术都不一样,我们用的同样的词,说的是不同的技术,所以会出现三波。实际上是相对独立的,几乎完全独立的,在一个大框架下,我们使用的技术不一样。你可以说人工智能不是技术,或者最多说人工智能是一个技术组,是很多技术共同组合的结果,只能这么讲,否则很难解释这张图。三大原因,新数据、新算法、新硬件。新算法说不上是对老算法的一个新改进。新硬件更说不上老硬件是在寻找新用途。但新数据是肯定可以说得上的,因为今天的大数据技术以及有了很大的突破,所以我的演讲题目叫数据驱动的人工智能,三大因素的根本原因是数据新的突破。来自中国的第四极势力正在全球人工智能产业竞争博弈中扮演越来越重要的角色。人工智能除了谈技术,还要了解其具体使用的场景。在不同场景下人工智能表现不一样,到底什么是场景,可以反过来想这个事情,场景意味着今天的人工智能还不够通用,一定要针对特定的场景做优化,所以说我们还有一段很长的路可以走。新硬件,实际上是老硬件,以前GPU是图形图像处理的,AI一直没有自己专用的硬件,或者AI的专用硬件太小众。2016年我们忽然发现深度学习算法和图像图形处理具有共同的特性,完全可以把做图形图像处理的GPU搬过来再次深度学习。GPU是AI隔壁的老王,好多年在这呆着,终于发现还有新的用途。谷歌等公司这一两年跳出来说,GPU毕竟是用于图形图像处理的,虽然用于深度学习还是不错的,但不是特别好,还有很多资源浪费不够优化,我们应该为深度学习设计专用的芯片。2017年人工智能在我看来最大的突破是硬件,大家开始为人工智能设计专用的硬件,不仅仅是芯片,设计服务器、设计存储等等,也在考虑为人工智能设计专用的架构,服务器也要调优。
2016年在我看来人工智能技术最大的突破是开源,另外一个是AI的新算法,早年的算法是这样的,输入、输出,中间有个计算,这叫机器学习,今天的深度学习,中间加了很多层,形成一个神经网络,这是人工智能的一派做法。右边的深度学习网络,本质上来说,他认为智能来自我们的模仿人类大脑里的神经元和神经网络,因为我们的智能就这么产生的,神经元相互连接产生智慧。从诸多例子来看,说明现在的神经网络虽然管用,但是相对现今网络系统还差得很远。如果人类的大脑有这么一个连接方式,人早被烧死了,所以我们的神经的连接不是这样的,有很多优化,也是深度的。所以从今天大家获奖的情形来看,大部分已经很明显是全连接的。这里面明显没有值得优化的地方,很明显这样的设计不是最优的。
人工智能不仅仅是高大上的,也需要很多数据的民工,今天深度学习是监督学习或者有监督学习,需要对数据学习打标签。ImageNet,图像、视频、音频都需要打上标签。167个国家近5万人2年标记近10亿图片,比较靠谱的大概有1500万张,国内有人创业专门搞这活,找一堆人专门给图像、声音打标签,像电子商务,不仅仅是高大上,也有快递员,人工智能也会催生一些以前想象不到的新的工种。
三个背景,开源,谷歌的目标是像做Android一样做开源,十年前他们做的Android,现在是做生态,做生态都是开源。云计算,硬件很贵,买不起,所以我们要GPU、FPGA as Service。人工智能是个算法,对计算资源消耗太大了,靠摩尔定律还能撑住,因为这个成本不断在下降,还能撑几年。我实在很困惑,过几年如何撑得住,摩尔定律眼看老去了,消耗算力太公布。
后面展望一下人工智能未来的几个问题,认知即计算?今天所有的人工智能有个前提条件,很多问题得出这个结论是有隐藏的前提条件的,人工智能也一样,认为认知即计算,我们思考什么问题,我们理解什么东西是不是个计算,你认为是计算,我们就可以接着玩人工智能;如果不是计算,这事就结束了。当然目前还反驳不了认知不是计算。
认知即计算,今天我们取得成功的只是三个学块中的一个学块,连接学块里的机器学习,机器学习里的深度学习。深度学习算法还是个黑盒子,我们不知道为什么是这样的,根本不知道在训练的过程中会发生什么,也无法解释它训练的结果为什么这样,不可解释。调参数主要看运气,今天我们的深度学习更多像一个玄学,完全是靠你的经验来做参数的调。像训练孩子一样训练你的算法,我们今天训练算法了吗,咱们在座的IT民工们大部分可能还没有孩子,即使有孩子你也没时间去训练你的孩子,因为你把全部的精力都训练算法了。第二个,算力,第三个数据,我们必须有监督的学习,你得事先告诉他打很多标签。数据改变信仰,如果你给它刻意放一些虚假数据或者对抗性数据,结果是不可预料的,所以要洗脑,要训练反方向安全攻击是很容易实现的,数据很容易改变信仰,因为你根本不能解释它为什么改变。数据要确定它的准确性,没有记忆,没有推理。
深度学习可以做些什么,深度学习在一些计算机视觉、自然语言理解方面可以做很多事情,却深度学习不能做什么,根本不知道它的局限性,所以它的智商一定是有上限的,这是传统的,在这个算法改进之前,到了一定程度之后,不断增加数据量,训练结果不变,不停的刷题你也考不上北大清华,就是因为你的算法不行。我们今天改进了算法,再刷题考试成绩就高了,高了可以用在新的领域,可以想象它的天花板不久就到了,但是究竟在哪里,不知道。
我们研究工智能根本目的是不是为了让机器更像人一样思考,200多年的工业革命干的活是什么,把我们每个人都变成了机器,教育就是在把每个人变成机器。人工智能是不是让机器更像人,每天上网的时候,你输入密码之前要输入验证码,验证码为了证明使用这个系统的那个是人不是东西,把这两个结合起来发现好像人工智能还不能突破验证码。以子之矛攻子之盾,显然还没有吹得那么厉害,要不然我们的验证码应该一夜失效。
人类大脑有1000亿神经元、10000亿连接,我们说连接多就聪明,在这个世界上有各种各样奇葩的智能,不仅仅是人类的智能,人工智能不仅仅是在模仿人类的智能,可能还有其他的各种各样的生物的智能,还有机器的智能。人工智能不仅仅指的是人类智能的模仿,不仅仅是模仿人类智能终的计算能力。大量的成果证明,人的意识是非算法的,三体里另外一个维度上我们根本无法理解为什么一堆神经元连在一块就会有意识的存在,好像它是另外一个维度的事情,更像量子计算那套。
基于图灵机的人工智能是无法建立起“自我”的概念,我们今天所有的计算机都是图灵机的一个实现,是一个案例,只是做练习题的。根据哥德尔的理论,图灵的不可计算的理论,后来的卢卡斯,还有一堆人的研究和证明,如果你是基于计算来假设智能,那么只能是不可能建立起“自我”的概念的,这跟我们的数学理论是相背的,除非我们下一的人工智能不符合我们今天的数学理论,那就可以了。如果基于今天的计算技术、基于今天的数学,那就可以证明计算机不会苏醒的,不会有自我意识,那只能是好莱坞的想象。未来超越人类的只能是不会基于图灵机的,即使它苏醒,也一定不是这一代的计算理论、计算技术,一定是下一代的,或者量子的或者什么的,反正肯定不是今天玩的这些东西。比特是去语义的,通信的大佬香农,定义了比特的概念,香农的伟大像牛顿一样,牛顿让物理从一个杂耍式的艺术变成了一门科学,香农让我们的信息由一种游戏变成科学。比特是没有语义的,我们今天做的人工智能在干什么,把语义再加回去,我们几十年前定义比特的时候,比特不能有含义,否则信息的基本单元没法定义了,所以我们定义了比特。我们往左走了几十年以后忽然发现得往右实现目标,为什么搞不定这个事情,就是因为底子是往那边走的。
人生最痛苦的事情,我们下一代控制人类的量子计算的时代还没有到来,AI控制人类是不大可能的,但是消灭在座的岗位是可以肯定的,就是我们人生最大的痛苦,活没了,你还活得好好的。
上面就是我个人的观点和思考,更多的观点和思考大家可以扫我的二维码,各种各样奇葩的毁三观的观点,谢谢大家!