人工智能+ 共创新时代

今天人工智能的浪潮为什么与前两次不同?因为这次的浪潮与产业深深地结合在一起了,如果想把人工智能做好,必须扎扎实实做到产业界,人工智能离不开产业的深度参与,包括产业大数据和行业专家知识以及迭代优化

应该说,最近两三年,人工智能发展到了一个井喷的时代,一方面我们可以看到各种各样人工智能的产品和服务层出不穷,另一方面人工智能这个话题也成为了大家讨论的热点。有一个朋友知道我是做人工智能产品服务,他就问我,你们研发的机器人什么时候能够成功?一般遇到这种问题我就特别为难,一两句话讲不清楚。因为在普通人的眼里,人工智能就像科幻电影里的那样一个终极的机器管家,具有高度的自我智力和自我人格的机器人。但我们都知道,今天的人工智能技术距离这种发展程度还非常遥远。也许普通大众听到我这样的回答以后就会说原来你们只是在玩概念,其实也不尽然。在此我就谈一谈人工智能到底发展到了什么程度、能够解决什么问题,未来的发展趋势和技术路径分别是怎样的。

在讲这个话题之前,我们有必要看一看人工智能的历史,让我们重新思考这些问题。人工智能是从何而来的呢?1956年美国有一批学者,其中有四个图灵奖的获得者和一个诺贝尔奖的获得者,他们召开达特摩斯会议,一起定义了人工智能这个概念。简单说,就是能够像人一样进行感知、认知、决策和执行的智能程序或者系统。我们都知道今天人工智能已经很热了,但是达特摩斯会议以后,数字计算机刚刚进入全新的时代,人们发现它可以进行编程和逻辑运算,也有一些基本的结构,比如顺序结构、选择结构、循环结构,似乎可以解决各种各样的问题,解决难题和定理推导特别容易,那个时候进入了人工智能的热潮或者黄金时期,有些专家非常乐观地讲,再过8到10年,我就可以研发出人工智能,解决一切问题了。

实际上,随着人们持续地研发,发现当时的技术仅仅能够解决一些逻辑推理的问题,再复杂的具有推广性的诉求仍然毫无解决的办法,数字计算机的性能也不是能够立刻跟得上的,人工智能在1970年以后陷入了第一次低潮。随着时间的推移,到了20世纪80年代,个人电脑开始出现,乔布斯和比尔盖茨创业的时候,人工智能出现了第二个黄金时期。因为电脑已经普及了,那个时候一台普通的PC电脑能够抵上20年前的一台大型计算机,大家又看到了希望,包括BP的网络算法能够对更加复杂的非线性问题建模。比较有代表性的是日本提出能够进行决策推理的计算机。今天看来,第五代计算机的目标都是非常具有挑战性的,到今天也依然是非常大的难题。我的一个同事的导师就是从事第五代计算机研究的,当时他们提出这个目标都很兴奋,为此投入了大量的努力,每周工作大概60—70小时。自那以后,人工智能进入了第二次黑暗的低潮,很多从事人工智能的人当时都去做互联网了。我听说当时做语音识别的人有很多,他们转型去做股票模拟,也赚了不少钱。

今天的浪潮最早是由深度神经网络这个概念引起来的,第一次和第二次浪潮都有相应的算法,并不是人工智能建模当中最好的算法,因为数学表示并不是特别完美。但是2006年提出神经网络算法在传统神经网络当中加了很多层,让它变得很厚。这个算法在语音识别和图像识别当中发挥了巨大的威力,一下子就把过去测试级的错误率减少了50%以上,大家才看到了深度神经网络的威力,所以人工智能从那个时候就开始变得一发而不可收。今天的浪潮应该是真正爆发的前夜,因为有两个特点:一个就是技术确实是发展特别迅速,很多技术都已经接近门槛了。现在的人工智能技术与产业结合得非常紧密,一些算法已经开始为海量的人群提供服务,包括听见翻译系统也可以真正实时提供服务了。

第二次人工智能浪潮时,我国有一批院士建言献策,提出成立这样一个高科技项目,于是在“863工程”资助之下我国开启了人工智能的前端。科大讯飞当时作为实验室也是863项目自主孵化出来的。人工智能包括脑神经科学、计算机科学,还有机械控制来解决这些问题。30年前这三个圈子几乎毫不相关,今天的交流却日益密切。

运算智能是固定规则,比如下围棋规则是非常确定的,传统企业直接用蛮力搜索就可以解决,但是围棋的范围非常大,业绩这个问题的层次还是在非常学习的固定规则下面,没有什么泛化的能力,距离通用智能非常遥远。比如一个大师下围棋很厉害,如果你问他怎么走的,他会把原理讲得特别清楚。语音层面已经有非常大的泛化了,不是很局限的问题,需要很强的推广性。感知是我们主动对环境的感知,运动智能是和机器人紧密相关的,如何做精确的轨迹运动控制,要把乒乓球的受力点各个方面用神经网络计算好了以后才能很好地挥动球拍。

真正难解决的其实是认知智能,以色列的历史学家哈里斯写了两本书《人类简史》和《未来简史》,主要核心就是语言,人类有了语言以后可以干很多的事情,比如反馈周围的环境信息和社会信息,组织大量陌生人的合作和社会行为的创新,有了这些进步以后,人类才发生了认知革命。我们要攻克语言理解、知识学习和推理,认知智能是目前人工智能最大的挑战。下围棋业绩可以解决一定的问题,但是真正的通用认知智能仍然是相当难的话题。

现在技术路径大体上首先是深度学习,通过强大的建模方法,结合大数据的反补以及联系效应的反复迭代优化,深度神经网络在专项人工智能方面已经达到了和人类媲美的程度,如何做到通用?一种是全脑模拟,相当于把人的大脑工作搞清楚,加上某种信号以后看它的变化,再通过一些器材模拟大脑产生同样的变化,然后达到一些同样的目的,这是非常宏大的技术,相当于做了一个人工脑。实际上更可行的是这一条路,我们的五个部分表示看、听、思考、决策,最后是把自己的表达执行出来。

目前我们的技术路线还是基于深度神经网络,可以说是国内最早做深度学习的厂商,而且在世界也是一流的。有一个很著名的比赛,是用麦克风录制了很多语音系统,迅飞的错误率最低,只有2.24%,组委会说这个水平已经基本达到人类的听觉水平了。语音方面我们给出一段文字,讯飞把它播放出来,这些也已经达到了人类的语言水平。知识图谱构建是从一段文字当中把它们的关联找出来,这些方面迅飞都位居前列,当然这些和一个人做题目的正确率相比还是差得比较远。

人工智能在很多层面等价于机器人,比如这个翻译系统套上一个人形的外壳,也可以把它叫翻译机器人,所以人工智能的系统很多层面都是机器人。现在无线网络物联网的发展把人、设备和信息紧紧地联系在一起,我们是通过人和物体、信息的互联,提供一种很好的交互方式给人以更好的服务。现在很多行业都有高端的稀缺性资源,医院的老医生老专家总是比病人要少,学校里那些好的教授资源、法律界优秀法官的资源总是稀缺的,所以人工智能如果与行业相结合,学习到顶级专家的知识,让一般的专业人士和普通的社区医生人机结合就可以接近这种水平。

虽然人工智能很多应用领域都等于机器人,但是又不绝对,它们是相互促进的。如果要讲区别和联系,人工智能其实是数字虚拟世界的体现,机器人是真实物理世界的体现。假设我想让灯打开或关闭,要用人工智能的程序实现的话就是有一个设备熄灯,如果用机器人关掉的话可能要做一个无人机,这就是他们的区别,实现方法是不一样的。

我们和未来的机器人交互,不可能拿键盘和鼠标指挥,所以肯定是用一种自然的交互,包括语音图像的方式,所以这种自然交互方式是未来跟机器人交互的主导。这里有强视觉效果和视觉效果,语音的关灯是简单的指令,但是更多的可能需要配合视觉,比如领导让秘书订高铁票,秘书一看有十几个车次,这些信息不可能用语音传递。

机器人可以帮助两个程序融合在一起,进入更广泛的领域。首先可以进行各种感知智能的融合,包括主动的和被动的。感知智能和应用智能必须相结合,只有这样,机器人才能很完整地执行一些动作。比如我说给我一本书,包括语音的和书面的,所以要进行融合才有可能让机器人完成这个事情。

迅飞基于自己的技术做了一些机器人的案例。比如给一些商场和导购做Robot 营销,通过先进的自然交互能够帮助;这种医疗导诊机器人可以代替三到四名护士的咨询量;还有教育方面的智能陪伴机器人。这些只是初步的开端,未来希望可以看到深度结合。我们也要做成开放平台,提供给所有业界的机器人企业服务。平台最早是2010年发布的,比如在滴滴打车的司机端安装了一个语音合成的软件,每天是35亿次的请求量,在业界的影响力非常大,目前这个领域80%的厂商都使用我们的人工智能服务交互系统。

今天人工智能的浪潮为什么与前两次不同?因为这次的浪潮与产业深深地结合在一起了,如果想把人工智能做好,必须扎扎实实做到产业界,人工智能离不开产业的深度参与,包括产业大数据和行业专家知识以及迭代优化。只有这样,人工智能才能真正实现落地、爆发和腾飞,再反哺我们的研究工作。令人欣喜的是,在人工智能这个新的浪潮中,我国和其他国家包括美国是处在同一起跑线上的,所以相信我们一定能够抓住这次机遇。

官方微信