|
2#
楼主 |
发表于 2014-2-16 10:55:56
|
只看该作者
深度学习让机器学会思考和做决定 计算机人工智能化 2
发展历程缓慢艰辛
在上世纪50年代,计算机还是新兴事物,那时,第一代人工智能研究人员就满怀期望地预测,完全成熟的人工智能很快就会到来。但随着人们慢慢认识到客观世界的极端复杂性,尤其是当人们开始接触到诸如人脸为什么是人脸而非一张面具或猴脸这样的知觉或感性问题时,这种过于乐观的想法才逐渐偃旗息鼓。
标准的机器学习以及图像识别技术依靠数以千计带标签的图片,对电脑进行初始“训练”,使电脑从一开始就对猫脸长什么样有一个概念。但图片加标签需要耗费大量人力,成千上万名研究人员耗费了数十年时间来为与计算机需要识别物体的不同特征有关的规则进行手工编码。“找出这些特征非常困难,耗费时间而且需要专业知识。”恩格说,“你不得不问自己,是否还有更好的办法,可以让人解脱出来。”
在上世纪80年代,这种更好的方式似乎是神经网络内的深度学习。这样的系统可以从头开始学习规则,而且具有令人愉悦的对称性——使用受到大脑启发的机制来完成类似大脑的功能。在这一系统中,模拟的神经细胞被组织成不同的层,当向这样的系统展示一副人脸的图片时,第一层只是注意所有黑像素和亮像素;接下来的一层可能可以意识到这些像素会形成边角;再下一层或许可以识别出横线和竖线;最后一层或许可以认出眼睛,能够意识到两只眼睛实际上出现在同一张脸上。
马利克说,与更简单的系统相比,第一个深度学习软件的表现可谓差强人意,而且使用起来还需要技巧。他说:“一直以来,神经网络都需要精细管理,而且其中充满了各种窍门和技巧。”在学习过程中,这样的系统需要被“喂食”大量的实例,就像婴儿贪婪地从周围世界中汲取大量信息一样。在上世纪80年代到90年代,还没有如现在一样多的数字信息可用,而且,计算机的运行速度也很慢,因此,深度学习软件本身非常罕见,其应用更是屈指可数。其中的一套软件由杨乐康研发,目前被银行用来阅读手写的支票。
然而,到2000年左右,情况发生了巨大的变化,似乎是“一夜之间春风来,千树万树梨花开”。2000年以来互联网的高速发展,对大数据的智能化分析和预测提出了巨大需求。包括杨乐康和加拿大多伦多大学机器学习领域的泰斗杰弗里·希顿在内的科学家确信,计算能力的增加和数字数据的大规模爆发意味着,深度学习复兴的时刻到了。希顿的一名研究生乔治·德哈尔表示:“我们想向全世界证明,这些深度学习神经网络真的有用。”
2006年,希顿和学生在顶尖学术刊物《科学》上发表了一篇文章,开启了深度学习在学术界和工业界的浪潮。这篇文章有两个主要信息:一、很多隐层的人工神经网络具有优异的特征学习能力,学习得到的特征对数据有更本质的刻画,从而有利于可视化或分类;二、深度神经网络在训练上的难度,可以通过“逐层初始化”来有效克服,在这篇文章中,逐层初始化是通过无监督学习实现的。
最初,希顿、德哈尔和其他人利用深度学习解决了一个非常困难但从经济角度而言非常重要的语音识别任务。2009年,研究人员报告称,他们利用一组经典的数据对一套深度学习软件进行训练——3个小时的录音和语音翻译,这套深度学习软件能够精确地理解语音的内容,并将其转化为文字,精确度创下了纪录。德哈尔表示,这一进步引起了智能手机市场巨头们的极大关注,他在微软实习期间,将这套技术带到了微软。德哈尔说:“几年后,这些巨头们都开始研究深度学习。”例如,苹果手机上的声控数字助手(Siri)就是建立在深度学习的基础上。
今天,谷歌、微软等知名的拥有大数据的高科技公司争相投入资源,占领深度学习的技术制高点,正是因为它们都看到了在大数据时代,更加复杂且更加强大的深度模型能深刻揭示海量数据里所承载的复杂而丰富的信息,并对未来或未知事件作出更精准的预测。
在语音和图像识别领域取得巨大飞跃
当谷歌公司在其安卓智能手机操作系统上采用基于深度学习的语音识别技术后,其单词拼写的错误率下降了25%,这是语音识别领域10多年来最大的突破性进展。“我们耗费10年时间才能做到这一点。”希顿表示,这也反映了要想在这一领域取得突破是多么困难。
与此同时,恩格也说服谷歌,让他使用该公司与“谷歌大脑”有关的数据和计算机。“谷歌大脑”能从互联网视频中识别出猫的图像,这极准确而恰当地展示了无人监督学习的潜力。无人监督学习是最困难的学习任务,因为输入的信息没有附着任何解释性信息,比如姓名、标签或类别等。但恩格很快遇到了麻烦,因为很少有谷歌以外的研究人员拥有如此丰富而有力工具来开展与深度学习有关的研究。“我和很多人谈过话,很多学生沮丧地跑过来告诉我说,我又没有1000台计算机来用,我如何进行这类研究呢?”
因此,恩格回到斯坦福大学,开始利用图形处理单元(GPU,这种运行速度超快的芯片主要为游戏而研发)来研制更大、成本更低的深度学习网络,也有很多人在这么做。恩格说:“使用大约价值10万美元的硬件,我们能利用64个GPU,建造出一个拥有110亿个连接的网络。”
但这样的系统要想赢得机器视觉科学家的青睐,可能还需要“百尺竿头,更进一步”。这些机器视觉科学家希望能在标准化测试方面看到其优异的表现。马利克记得,希顿曾经问过他:“你是一个怀疑论者,什么使你如此确信深度学习系统的潜力呢?”马利克回答说:“深度学习系统在国际闻名的数据池(ImageNet)竞赛中取胜或许让我看到了其巨大的潜能。”
在该比赛中,研究团队需要训练计算机程序识别与100万张图像有关的一套数据,这些图像已被人工贴上了各类标签。经过训练后,通过让这些程序从以前未曾见过的图像中找出同样的标签来测试这些程序的性能。每一幅测试图像,程序都会给出5个答案,如果正确的答案并非其中之一,那么,这一测试就被认为是错误的。以前,获胜者们一般的出错率为25%。2012年,希顿的实验室使用深度学习获得了冠军,错误率仅为15%。
杨乐康并非这个团队的一员,不过,他说:“深度学习影响了很多方面。”这次获胜让希顿在谷歌获得了一份兼职工作,该公司2013年也使用该程序来对其谷歌+图像搜索软件进行了升级。
马利克说:“在科学领域,你经常会受到经验证据的摆弄,而这是扎扎实实的证据。”后来,他携这项技术参与另一项视觉识别竞赛,并破了纪录。很多人开始效尤这一做法:2013年,所有参加ImageNet竞赛的团队都开始使用深度学习技术。
随着深度学习技术在图像和语音识别领域不断取得突破,科学家们对用其来处理自然语言的兴趣也与日俱增,包括用其来理解人类的演说以进行转述或回答相关问题,将一种语言翻译成另一种语言等。现在,科学家们使用手写的规则和对已知的文本进行统计分析来做上述事情。深度学习在自然语言方面的最好表现在“谷歌翻译”这样的软件上得到了彰显,尽管谷歌翻译能提供可理解的结果,但是,与人类的翻译比起来,还要差很多。
总的来说,深度学习在自然语言处理方面取得的进展没有在语音图像上那么令人印象深刻。一个很有意思的悖论是:相比于声音和图像,语言是唯一的非自然信号,是完全由人类大脑产生和处理的符号系统,但模仿人脑结构的人工神经网络却似乎在处理自然语言上没有显现明显优势。
语言学习翻译服务网站Duolingo的创办者、卡内基梅隆大学教授路易斯·冯·安表示:“在这一方面,深度学习还有很大的探索空间,从2006年图像深度学习成为学术界热门课题到2012年10月希顿在ImageNet上取得重大突破,经历了6年时间。我们需要有足够的耐心。我们也相信,深度学习在自然语言处理方面的表现会越来越好。”
|
|