04 中国大脑计划:自下而上的超级工程(第3/5页)

百度大脑的好视力

“视觉”承担着我们80%的信息摄入工作。在解决“听”“说”问题的同时,我们也要教会计算机“看”,即图像识别。以识别一朵花为例,用户将图片上传百度后,百度大脑将它转化成“0101”的数字流,然后输入深度神经网络,经过层层分析、层层抽象,对包括像素在内的各层信息与现有的大数据进行比对,才能重新还原并识别出它是一朵花。这种方法其实和人类眼睛的功能是近似的。

这一切都要建立在预先对图片做出分类的基础上。目前世界上最大的图像识别数据库ImageNet的图片分类有1000多类。而百度图片数据库的分类则已经达到4万类。

百度正在从四个方面推进计算机视觉计划。首先是人脸识别,通过捕捉人脸关键点形成人脸表情网,实现人脸的准确识别;其次是在类似百度地图的产品中,实现地图服务与图像智能识别技术的结合,打造数据无限逼近现实世界的效果;此外,百度无人驾驶技术也正在利用计算机视觉进行程序优化,从而使无人车的研发速度加快;图像识别还会被应用于AR(增强现实)领域提高视觉效果。

百度的人脸识别已经远远超过人类,百度资料库中有超过2亿张人脸照片,浏览识别训练量超过200万张。目前,百度大脑能够自动确定图片中人脸的数目及每张人脸的位置和大小,并支持正面、侧面多个角度。即使目标在运动中也不会降低甄别率。系统通过定位眼睛、眉毛、鼻子、嘴巴、脸颊轮廓等70多个关键点位置,能够进行像素级人脸解析,并根据人脸图像识别人的性别、年龄、表情、姿态等属性。

像AlphaGo团队一样,百度也好奇自己的技术边界在哪里,人工智能的研发体系究竟有没有偏差?为此,百度团队参加了江苏卫视大型科学类真人秀《最强大脑》,与能够裸眼区分520杯水的“水哥”王昱珩一战高下。在此前的节目中,“水哥”战胜了蚂蚁金服的人工智能“蚂可”。作为国内最强人工智能技术的结晶,百度团队为了这次荧屏上的人机对战特意优化了算法,最终证明百度团队的机器人小度确实技高一筹。

在百度人脸识别技术落地的产品中,最为“高大上”的当属乌镇的“刷脸”门禁系统。有出入资质的人将面部信息事先录入系统,今后出入任何安装有“人脸闸机”的地方,只需“刷脸”即可。

这种技术在百度内部俗称“1对1”,也就是一张面部与资料库中的信息比对,与之对应的是“1对N”。这个概念我们经常在西方谍战电影中见到:系统在监控信息呈现的茫茫人海中搜索一个人的面部信息以确定其方位。尽管国产电影中我们很难看到这种“炫技”,但在“1对N”的比对中,百度能真真切切地做到99%以上的识别准确度。

这项技术说起来容易,做起来难。等到技术成熟和数据库之间互相联网时,我们出门乘坐飞机、火车就无须出示身份证以供查验。因为当我们进入任意的交通枢纽,被摄像头拍摄到面部信息时,系统就能通过人脸识别确认我们的身份和购票信息。这相当于普通人都能获得一条绿色通道,出行效率和公共秩序都将大幅改善。

百度的人脸识别系统只需要1根蜡烛汇聚在1平方米以上的亮度,就能够完成识别和判断过程。在远程开户场景中,活体识别技术反应速度达到每秒20帧,交互过程费时不到2秒。在这一基础上,结合视频序列,百度已经将人脸身份验证应用在百度金融反欺诈领域,用于贷款审批、远程身份证识别、银行卡识别等,从而精准识别用户,预防欺诈。

百度大脑的“好视力”除了搭载大数据,还能做到许多脑洞大开的事情。当我们拍摄了各种角度的故宫太和殿照片后,百度大脑可以去掉重叠和无用的图片信息,通过计算和建模完成太和殿的三维结构建设。这样,千里之外的人们也可以通过网上的虚拟游览身临其境般地感受太和殿的宏伟。随着上传的照片越来越多,百度大脑就能重构更多的景点,让世界各地的人们都可以足不出户体验三维虚拟旅游。

图4-3 玛珠庙(Maju Deval)数字化三维复原示意图[2]

注:使用手机百度或智能革命App扫描图片可见AR效果。

2016年底,上海虹桥机场出现两架客机仅差3秒险些在地面相撞的事故。塔台的调度和预警功能在这一事件中没有发挥出来。所幸飞行员没有坐等塔台指令,而是紧急处置,避免了一起重大事故的发生。这件事也再次提醒我们,完全依赖塔台人工指挥的模式终究难免有疏漏。

林元庆在与民航部门的交流中了解到这样一个细节:机场塔台工作人员为了了解跑道路面情况,每4小时就要派人去检查跑道。这个岗位专业需求度低、薪资低、劳动强度大、人员流失严重,完全可以用人工智能取代:在停机坪附近安装摄像头并结合人工智能对跑道环境进行实时三维重建。飞机、行李车、机场勤务车和所有人员的动作都能实时体现出来。除此之外,跑道上意外掉落的零件和所有异物也能在第一时间被发现,并不会出现遗漏。这种系统建立的准确度、可预测性和安全性都远远高于人工检查。

时代召唤中国大脑

2015年全国“两会”上,我作为政协委员提交了设立“中国大脑计划”的提案——由国家投入专项资金主导,尽快搭建全球最大规模的人工智能基础资源和公共服务平台,比如建立一个拥有几十万台服务器的大型人工智能平台,支撑各个计划参与方的数据调用、模型调试和应用开发,高效对接全社会的智力、数据、技术和计算资源,依托统一平台,实现资源共享,促进研发创新。这将是新一轮工业革命的助推器。基础研究的成果应该让更多中国企业受益。包括语音识别、图像识别、自然语言的理解、多语种的翻译,甚至无人驾驶汽车、无人驾驶飞机、智能制造方面的机器人都可以在这个平台上进行各种各样的创新和实践。

这件事如果只是百度来做,可能只能提供几万台服务器;如果由国家主导投入,那就是几十万台服务器。平台大了就可以降低成本,鼓励更多的创新。国家持续、稳定地大规模投入,让一大批企业成长起来,随之而来的就是越来越多的创新,从而奠定未来10年、20年甚至更长时间里中国在全球创新领域的地位。这是我一直以来的想法:我不在乎华尔街怎么看,我一定要把这事儿做成。