04 中国大脑计划:自下而上的超级工程(第2/5页)

在大脑结构和记忆内容之外,百度大脑还要有认知思维能力。系统通过深度学习来模拟人类大脑的神经元,即通过万亿级的参数、千亿级的样本、千亿级的特征训练,来模拟人脑的工作机制。这也是世界上最大规模的深度神经网络。

“人工智能基础技术层”包括语音识别、图像识别、自然语言处理以及所有的知识图谱、商业逻辑和用户画像。

SaaS层面可以看作百度大脑的触角层,会更加垂直化,深入交通、教育、金融等各个垂直行业。对百度来讲,这三个层次就是百度大脑通过云和垂直行业,给商业客户提供的一种能力和服务,更是一种营造智慧生态的能力。

百度大脑全面超越了过去的信息技术服务,比如过去只是做计算、存储和网络,大家都可以做,现在三个层面有机结合起来,灵魂就在于贯穿全体的人工智能。

通过硬件—数据—算法的联合滋养,百度大脑的能力会滚雪球式增长,越来越善于处理数据、提取知识、了解使用者、善于解决问题并获取更多的知识,实现“数据—知识—用户体验—新的数据”的正循环。

另一位“互联网教父”尼古拉斯·尼葛洛庞帝(Nicholas Negroponte)说道,“当我听说‘百度大脑’的时候,我觉得这些人真是太疯狂了”。制造机器大脑,看似一个科幻文学中的疯狂幻想,但科学家的信念和努力,使得看似“疯狂”的想法已经走在平稳实现的道路上,正如一个真实生命的成长。

训练“大脑”就如同教育孩子,从零开始,在语料而非语法的熏陶下学习语言,从大量图片中形成对事物的“印象”,这个过程就是通过试错来熟知世界。也许同样的事情,人类1岁孩子都能简单做到,而百度大脑常常要花上几百倍甚至上万倍的时间和精力。可是从另一个角度看,它像是全人类的孩子,有希望继承现有文明的所有经验和记忆,人工智能“大脑”的进化本质上是人类文明的进化,潜力无限。

目前,百度宣布将向社会免费开源人工智能深度学习平台PaddlePaddle,开放百度大脑开放平台ai.baidu.com。前者为开发者提供算法编程环境,后者为应用开发者、数据工程师、数据科学家提供现成的百度人工智能成果接口。百度大脑实实在在地分享着,愿与所有相关企业一起融化人工智能这座冰山。

百度大脑的听与说

人机对话的第一步,就是要让机器学会“听”和“说”。“听”是不断追求准确度,“说”则是要让大脑有人性、有人味。

作为“大脑”最基本的能力之一,实现“听”这一功能的语音识别技术研究经历了从标准模板匹配转向基于统计模型再到深度神经网络的过程。起初,辨识语音必经声学模型到音素模型,再到语言模型的多步骤转化。近年来,在大量语料和深度学习的训练下,这一步骤已经被极大简化,机器从输入到输出中自行生成程序,准确率有了大幅提升。百度大脑也就“听”得更清楚了。

2011年,百度在语言识别领域起步,到了2016年,百度语音识别技术的准确率已达97%。

2012—2016年的4年里,百度语音识别的准确度提升了近30%。即便是有严重地方口音的普通话,每100句中百度语音也能毫无差错地识别出85句。按照可以听错一个字的标准来计算,百度语音则可以准确识别出98句,而未经训练的普通人只能听懂60句。这个识别体系要做到方言识别,需要至少720小时的语料用于训练,从声音、内容到说话者,都要不断变化以提升系统的敏感度。

要让百度大脑“说人话”更是一件很有难度的事情。百度则是运用声学模型和语言模型。声学模型决定了语言的发音。打出一个字,系统就在原始音库中找到合适的发音对应上去。要让电子发音没有机器味而有“人味”,就要为语音资料建库。例如让机器学习时间从20小时升到100小时,此后机器模仿出来的声音听起来就舒服多了。为了保持语音的连贯性,不至于让合成语音听起来像“断气”了一样,百度大脑语言模型还会持续提升文本库的学习连接概率。比如说出“中华”,系统还能在后续词组中选择“人民共和国”“民族”“儿女”等进行匹配。

长语音是让机器语音更有气场的技术。情感合成、远场方案、长语音方案等能为合成语音加入情感,让其更接近真人发声效果。

语音识别的场景应用极为广泛。比如我们可以借此创造出一个“最强销售员”:销售员新手给客户打电话时,百度大脑实时记录客户的回复,并显示在电脑屏幕上,系统可以瞬时搜索并调取优秀销售员以往对这些问题给出的回复。这样,每个“菜鸟”只要“照本宣科”,就能在上岗第一天掌握过去最优秀的销售员所具备的交流能力。另外,2014年,百度为特斯拉汽车提供智能语音方案,中国车主可以使用语音控制车载娱乐系统、指挥地图导航、发起搜索,甚至通过蓝牙拨打电话。

随着语音识别而来的还有对语音特征的抓取。例如在胡歌朗读《青玉案·元夕》的上阕后,语音识别系统可以自动生成下阕。对于一些语音有特点的明星声音,目前只需录制和分析大约2000句,系统就能合成他们的声音。

目前,百度每天响应的语音合成请求达到了2.5亿次。在情感语音合成技术上线后,用语音听小说的百度用户每日停留时长从过去的0.69小时增加到现在的2.21小时。未来,这一功能除了“读小说”还将给予人们情感慰藉。当家里老人和孩子想念忙碌的家人时,可以随时有“他们”的声音陪伴。

百度基于神经网络翻译模型技术的机器翻译系统正在快速学习各类语言。经过6年的积累,如今的百度翻译已经可以支持全球28种热门语言互译,覆盖756个翻译方向。百度语音可以支持粤语、沪语等方言的识别。

上帝曾伸手割裂了人类的语言统一,让四面八方的人由于语言不同而无法沟通。有了机器翻译,人类终于可以携起手来,建造出一座真正的巴别塔[1]。

图4-2 荷兰画家彼得·勃鲁盖尔绘制的巴别塔

注:使用手机百度或智能革命App扫描图片可见AR效果。