03 在大数据与深度学习中蝶化的人工智能(第4/8页)

海量数据中被挖掘出了不少有趣的现象:“吃什么水果减肥最快”有多达30万人提问过,看来许多网友在吃的同时还不忘顾及身材;“昨天晚上还活着的螃蟹死了,还能吃吗?”这一问题有高达6万条回复,看得出中国“吃货”对于螃蟹的热情特别高。当然更多的还是诸如“××能吃吗”“××怎么吃”这类的日常问题,光是“菠菜和豆腐能不能一起吃”就引起了无数讨论。

这些问题数量庞大并且看似混乱重复。但重复正是大数据的妙处。大数据可以从中捕捉到更深刻的含义。如福建、广东地区的网友经常会问某种虫是否可以吃的问题;而西北网友则对海鲜的吃法颇感疑惑。不同用户关心的食材、做法各不相同,百度大数据正是从中归纳出了各省市的“吃货”属性。在这背后大数据考量了网友的地理位置、提问回答的时间、问题中关于吃法或者做法等信息,甚至将网友使用的手机品牌等各种维度都纳入计算当中。

除了对人类关注信息的描摹,大数据甚至在构造我们的身体。现在许多人都十分熟悉的健身腕带,就是通过收集我们日常运动作息的数据,例如,行走步数、卡路里消耗、睡眠时长等来分析我们的健康状况并提出建议。更进一步,未来我们可以将个人数据上传,通过大数据检测我们罹患各种疾病的可能性或者潜在威胁,更好地预防疾病。

关于生活中的大数据有许多例子。我们现在用到的绝大部分成熟的互联网产品,无论是计算机还是智能手机,背后都或多或少有大数据的身影。当我们理所当然地使用这些服务时,就已经邀请大数据进入我们的生活。它默默注视着我们生活中的每一个细节,潜移默化地鼓励和劝告我们做出选择,强化了我们的角色。

突破:机器学习与人工智能

1950年,阿兰·图灵创造了一个针对机器的测试方法,即后来大名鼎鼎的“图灵测试”。这位充满传奇色彩的科学家认为,如果一台机器能够与人类展开对话(通过电传设备)而不能被辨别出其机器身份,那么就可以认为这台机器具有智能。这一简化使图灵能够令人信服地说明“思考的机器”是可能的,而“图灵测试”直到现在也被当作判断人工智能的重要标准。

这个标准已经暗示了一个新的路径,只要机器表现得像人类,我们可以不必过分关心机器的运作规则是什么。有人提出让机器自己来学习规则的办法,人类不用操心那些规则是什么。

1949年,唐纳德·赫布基于神经心理学的学习机制,踏出了机器学习的第一步,创造了此后被称为赫布学习规则的方法。赫布认为神经网络的学习过程发生在神经元之间的突触部位,突触的联结强度随着突触前后神经元的活动而变化,正确的反馈会让两个神经元的联系得到强化。这个原理机制类似巴甫洛夫的条件反射实验:每次给狗喂食前都先响铃,时间一长,狗的神经系统就会将铃声和食物联系起来。赫布用一套加权公式来模仿人类的神经网,权重就代表神经元之间联系的强弱。赫布给机器创造了一套可以简单区分事物的方法,对于每个数据,让决策树程序做出判断,判断对了就奖励(提高函数的权重),判断错了就惩罚(降低函数的权重)。他利用这个方法创造了一个分类器,可以提取数据集的统计特性,把输入信息按照它们的相似程度划分为若干类。看上去如同人类在观察某种现象时,会观察和总结并区分事物,但机器的这种“观察”更接近一种通过训练达成的条件反射,并非如人类那样思考,重视的是数据中蕴含的相关性关系,而非人类思维中的因果性关系。

之后的十几年中,关于人工智能的研究愈发热烈,灵感一个接一个地涌出。1952年,IBM科学家亚瑟·塞缪尔成功开发了一个可以下得越来越好的跳棋程序。他创造了“机器学习”的概念,并将它定义为“可以提供计算机能力而无需显式编程的研究领域”。

1957年,Rosenblatt(罗森布拉特)提出了感知机的概念,成为日后发展神经网络和支持向量机(Support Vector Machine,SVM)的基础。感知机就是一种用算法构造的“分类器”,是一种线性分类模型,原理就是通过不断地训练试错以期寻找一个合适的超平面把数据分开(超平面可以这样理解:三维坐标空间里二维的形状称作平面,能划分三维空间。如果数据是多维的,那么N维坐标空间里,N-1维就是超平面,能划分N维空间)。如同你把写着“正确”和“错误”的两堆球输入进去,感知机可以为你找出这两堆不同球的分界线。

感知机好比在输入和输出之间只有一层的神经网络。当面对复杂一点的情况时就力不从心了,比如当“正确”和“错误”的球互相混合的时候,或者又有第三种球出现的时候,感知机就无法找到那个分类的界线。这使感知机很难在一些即使看似简单的问题上有所突破。

如今,不需要人类输入规则(编程),而是让机器自己寻找规则,这样看上去机器就有了自己的智能。今天的人工智能便是在机器学习的基础上发展起来的,只是成长速度受到硬件和方法的限制。

如果多台电脑、多个芯片联网进行机器学习,而且具备多个芯片网络层次,就进入了所谓的“深度学习”的范畴。在20世纪70年代末,Geoffrey Hinton教授等人已经发现,如果能实现多层的神经网络,就可以逐层递进找到模式中的模式,让计算机自己解决复杂的问题。那时他们就开发了“反向传播”算法神经网络。但是多层神经网络的复杂性也导致对其训练的难度大大增加,数据不足和硬件计算能力成为掣肘。

从20世纪60年代中期到20世纪70年代末,机器学习的发展步伐几乎处于停滞状态。这种情况一直到20世纪80年代才有所好转。随着计算机性能的突飞猛进和互联网的到来,人工智能研究终于如虎添翼,在20世纪90年代,现代机器学习初步成形。

互联网在20世纪90年代投入商用,使分布式计算方法获得长足发展。超级计算机造价昂贵,而分布式计算技术则发挥了“人多力量大”的优势,让多台普通计算机可以协同工作,各自承担计算任务的一部分,并把计算结果汇总,效率可以超过超级计算机,而且分布式的结构正好适应了日渐增多的数据量。