人工智能简史第五章:第三次浪潮期-2006年以后

 

人工智能简史第五章:第三次浪潮期-2006年以后_第1张图片

第三次人工智能浪潮兴起的标志可能要数2006年杰弗里·辛顿(Geoffrey Hinton)等人提出的深度学习,或者说Hinton等人吹响了这次浪潮的号角。与之前最大的不同,这次引领浪潮冲锋的是企业:塞巴斯蒂安·特龙(Sebastian Thrun)在谷歌领导了自动驾驶汽车项目;IBM 的沃森(Watson)于 2011 年在《危险边缘》(Jeopardy)中战胜人类、获得冠军;苹果在 2011 年推出了自然语言问答工具 Siri 等;2016年谷歌旗下DeepMind公司推出的阿尔法围棋(AlphaGo)战胜围棋世界冠军李世石等。可以说这次人工智能浪潮的影响是前所未有的。

 

人工智能简史第五章:第三次浪潮期-2006年以后_第2张图片


 

5.1波士顿动力公司(Boston Dynamics)

波士顿动力公司(Boston Dynamics)创办时是一家美国的工程与机器人设计公司,此公司的著名产品包含在国防高等研究计划署(DARPA)出资下替美国军方开发的四足机器人:波士顿机械狗,以及DI-Guy,一套用于写实人类模拟的现成软件(COTS)。此公司早期曾和美国系统公司一同接受来自美国海军航空作战中心训练处(NAWCTSD)的一份合约,该合约的内容是要以DI-Guy人物的互动式3D电脑模拟,取代海军飞机弹射任务训练影片。

 

人工智能简史第五章:第三次浪潮期-2006年以后_第3张图片

该公司由Marc Raibert和其合伙人一起创办。Marc Raibert是著名的机器人学家。其28岁毕业于MIT,随后在CMU担任过副教授,并且在那里建立了CMUleg实验室研究与机器人有关的控制和视觉处理相关的技术。在37岁时回到MIT的继续从事机器人相关的科研和教学工作。在1992年,其与合伙人一起创办了Boston Dynamics这家公司,开启了机器人研究的新纪元。

波士顿动力公司于 2005 年推出一款四足机器人——big Dog ,它被人们亲切地称为 “大狗”,也正是这款四足机器人让波士顿动力公司名声大噪。大狗抛开传统的轮式或履带式机器人,转而研究四足机器人,是因为四足机器人能够适应更多地形地貌,通过性能更强。同时,在波士顿动力公司发布的宣传视频中,Big Dog 在装载着重物的情况下,仍能对人类从其侧面的踢踹做出灵敏的反应,始终保持站立的姿态。

 

人工智能简史第五章:第三次浪潮期-2006年以后_第4张图片

在2013年12月13日,波士顿动力公司被Google收购。2017年6月9日软银以不公开的条款收购谷歌母公司Alphabet旗下的波士顿动力公司。


 

5.2迁移学习(Transfer Learning)

迁移学习是机器学习的一个重要分支,是指利用数据、任务、或模型之间的相似性,将在原领域学习过的模型,应用于新领域的一种学习过程。比如我们大部分人学摩托车的时候,都是把骑自行车的经验迁移了过来。

 

人工智能简史第五章:第三次浪潮期-2006年以后_第5张图片

2010年Sinno Jialin Pan和 Qiang Yang发表文章《迁移学习的调查》,详细介绍了迁移学习的分类问题。当以迁移学习的场景为标准时分为三类:归纳式迁移学习(Inductive Transfer Learning)、直推式迁移学习(Transductive Transfer Learning)、和直推式迁移学习(Unsupervised Transfer Learning)。

 

人工智能简史第五章:第三次浪潮期-2006年以后_第6张图片

深度迁移学习主要就是模型的迁移,一个最简单最常用的方法就是fine-tuning,就是利用别人已经训练好的网络,针对目标任务再进行调整。近年来大火的BERT、GPT、XLNET等都是首先在大量语料上进行预训练,然后在目标任务上进行fine-tuning。


 

5.3 IBM沃森挑战史上最强Jeopardy!(IBM Watson wins Jeopardy!)

Watson是一种能够回答自然语言提出的问题的问答计算机系统,由主要研究员David Ferrucci领导的研究小组在IBM的DeepQA项目中开发。Watson以IBM的创始人兼第一任首席执行官工业家Thomas J. Watson的名字命名。

 

人工智能简史第五章:第三次浪潮期-2006年以后_第7张图片

最初开发Watson计算机系统是为了回答测验节目 Jeopardy!中的问题,并且在2011年参与Jeopardy比赛与与冠军布拉德·鲁特(Brad Rutter)和肯·詹宁斯(Ken Jennings)竞争。最终赢得了胜利赢得一百万美元的冠军奖金。

Waston运行机制:Watson是作为问题解答(QA)计算系统被创建的,它将高级自然语言处理,信息检索,知识表示,自动推理和机器学习技术应用于开放域问题解答领域。

QA技术与文档搜索之间的主要区别在于,文档搜索采用关键字查询并返回按与查询相关性排序的文档列表(通常基于受欢迎程度和页面排名),而QA技术则采用于自然语言,试图更详细地理解它,以此反馈出对该问题的精确答案。创建时IBM表示,“有100多种不同的技术用于分析自然语言,识别来源,查找和生成假设,查找和评分证据以及合并和排列假设。” 近年来,Watson的功能得到了扩展,Watson的工作方式也发生了变化,以利用新的部署模型(IBM Cloud上的Watson)以及不断发展的机器学习功能和开发人员和研究人员可用的优化硬件。它不再是单纯的计算系统的Q&A,现在可以“看”,“听”,“读”,“讲”,“味道”,“解释”,“学习”和“推荐'。

 

人工智能简史第五章:第三次浪潮期-2006年以后_第8张图片

Watson中使用的IBM Deep QA的高级体系结构

大卫·费鲁奇(David Ferrucci)是首席研究员,他在2007年至2011年带领IBM和学术研究人员及工程师组成的团队,开发了赢得Jeopardy的沃森计算机系统。

 

人工智能简史第五章:第三次浪潮期-2006年以后_第9张图片

Ferrucci于1994年毕业于曼哈顿学院,获得生物学学士学位,并于Rensselaer理工学院获得博士学位。计算机科学学位,专门研究知识表示和推理。他于1995年加入IBM的Thomas J. Watson,并于2012年离开,加入Bridgewater Associates。他还是Elemental Cognition的创始人,首席执行官兼首席科学家,该公司致力于探索自然学习这一新的研究领域,Ferrucci将其描述为“人工智能,它以人们的方式理解世界”。


 

5.4谷歌自动驾驶汽车(Google self-driving car)

Google的自动驾驶技术开发始于2009年1月17日,一直在在该公司秘密的X实验室中进行,在2010年10月9日《纽约时报》透露其存在之后,当天晚些时候,谷歌通过正式宣布了自动驾驶汽车计划。该项目由斯坦福大学人工智能实验室(SAIL)的前负责人塞巴斯蒂安·特伦(Sebastian Thrun )和510系统公司和安东尼机器人公司的创始人安东尼·莱万多夫斯基(Anthony Levandowski)发起。

 

人工智能简史第五章:第三次浪潮期-2006年以后_第10张图片

在Google工作之前,Thrun和包括Dmitri Dolgov,Anthony Levandowski和Mike Montemerlo在内的15位工程师共同为SAIL开展了名为VueTool的数字地图技术项目。许多团队成员在2005 DARPA大挑战赛上见面,Thrun和Levandowski都有团队竞争自动无人驾驶汽车挑战。在2007年,Google收购了整个VueTool团队,以帮助推进Google的街景技术。

作为街景服务开发的一部分,购买了100辆丰田普锐斯,并配备了莱康多夫斯基公司510 Systems开发的Topcon盒,数字地图硬件。2008年,街景小组启动了“地面真相”项目,目的是通过从卫星和街景中提取数据来创建准确的路线图。这为Google的自动驾驶汽车计划奠定了基础。

 

人工智能简史第五章:第三次浪潮期-2006年以后_第11张图片

2014年5月下旬,Google展示了其无人驾驶汽车的新原型,该汽车无方向盘,油门踏板或制动踏板,并且100%自制。12月,他们展示了一个功能完备的原型,计划从2015年初开始在旧金山湾区道路上进行测试。这款车名Firefly,旨在用作实验平台和学习,而不是大量生产。

2015年,联合创始人Anthony Levandowski和CTO Chris Urmson离开了该项目。2015年8月,Google聘用了现代汽车前高管约翰·克拉夫奇克(John Krafcik)作为首席执行官。2015年秋天,Google向总工程师纳撒尼尔·费尔菲尔德(Nathaniel Fairfield)的合法盲人朋友提供了“世界上第一个完全无人驾驶的公共道路上的骑行服务” 。这次乘车之旅由得克萨斯州奥斯汀市圣塔克拉拉谷盲中心的前首席执行官史蒂夫·马汉(Steve Mahan)乘车。这是公共道路上的第一个完全无人驾驶的汽车。它没有测试驾驶员或警察护送,也没有方向盘或地板踏板。截至2015年底,这辆汽车已实现超过100万英里的自驾里程。

 

人工智能简史第五章:第三次浪潮期-2006年以后_第12张图片

2016年12月,该部门从Google独立出来,更名为Waymo,并拆分为Alphabet的新部门。这意味着Google在主线业务中放弃了自动驾驶汽车项目。


 

5.5谷歌知识图谱(Google Knowledge graph)

谷歌知识图谱(Google Knowledge Graph,也称Google知识图)是Google的一个知识库,其使用语义检索从多种来源收集信息,以提高Google搜索的质量。知识图谱2012年加入Google搜索,2012年5月16日正式发布。

 

人工智能简史第五章:第三次浪潮期-2006年以后_第13张图片

Google Knowledge Graph是 Google 一个相当有野心的计划 -- 在这里 Google 为字串赋予了意义,而不只是单纯的字串而已。以 Google 自己的例子来说,当你在英文 Google 上搜索泰姬马哈陵(Taj Mahal)的时候,传统的搜索会试着比对这个字串和 Google 扒下来的巨大文章库,找出最合适的结果,并依照 Google 神秘的演算法进行排序;但在 Google Knowledge Graph 里 Taj Mahal 会被理解成一个「东西」,并在搜索结果的右侧显示它的一些基本资料,像是地理位置、Wiki 的摘要、高度、建筑师等等,再加上一些和它类似的「东西」,例如万里长城等。

当然,Google也了解「Taj Mahal」不见得一定是指泰姬马哈陵 -- 这就是 Knowledge graph 的威力显现出来的时候了。在泰姬马哈陵的框框底下还有两个常见的「Taj Mahal」,一个是歌手,另一个是一间赌场,正常状况下你如果想找这两个 Taj Mahal,却打不对关键字的话,有可能搜索结果会被最有名的那个淹没,但 Google Knowldge Graph 可以协助你找到你要的那个特定的内容。

 

人工智能简史第五章:第三次浪潮期-2006年以后_第14张图片

Google希望藉由 Knowledge Graph 来在普通的字串搜索上叠一层相互之间的关系,协助使用者更快找到所需的资料的同时,也可以更了解使用者需要的是什么,从而往以「知识」为基础的搜索更近一步。目前 Google 的这张 Knowledge Graph 已经有五亿样「东西」在上面,产生 35 亿个属性和相互关系,未来当然还会再继续扩充下去。继续阅读里有 Google 的介绍视频,可惜目前只支持英文,不知道还要多久才会支持中文呢。

Knowledge Graph的历史

这些内容是怎么来的呢?当然,不可能完全靠google自己搜索数据得到,因为,这个数据实在是太庞大了。

比如说,其中有部分数据来源于The World Factbook(世界概况) - CIA(中央情报局):《世界概况》是由美国中央情报局出版的调查报告,发布世界各国及地区的概况,例如人口、地理、政治及经济等各方面的统计数据。因中央情报局属美国政府部门,所以其资料格式、体例、内容皆需符合美国政府的官方需要及立场资料则是由美国国务院、美国人口调查局、国防部等部门及其辖下的相关单位提供。(google)

 

人工智能简史第五章:第三次浪潮期-2006年以后_第15张图片

还有数据来自freebase:Freebase是一个由元数据组成的大型合作知识库,内容主要来自其社区成员的贡献。它整合了许多网上的资源,包括部分私人wiki站点中的内容。Freebase致力于打造一个允许全球所有人(和机器)快捷访问的资源库。它由美国软件公司Metaweb开发并于2007年3月公开运营。2010年7月16日被谷歌收购。2014年12月16日,Google宣布将在六个月后关闭Freebase,并将全部数据迁移至维基数据。

当然,还有大名鼎鼎的wikipedia。

在2012年的时候,google的语义网络就已经包含了超过5亿7千万个对象实体,而且对象实体之间超过了180亿的事实和关系。这些数据用于理解我们输入到搜索栏中的关键字。

 

人工智能简史第五章:第三次浪潮期-2006年以后_第16张图片

在2012年12月4日,Knowledge Graph被翻译成了七种语言,其中包括了:西班牙语,法语,德语,葡萄牙语,日语,俄语和意大利语。


 

5.6 AlexNet

 

人工智能简史第五章:第三次浪潮期-2006年以后_第17张图片

AlexNet是一种卷积神经网络(CNN),由亚历克斯·克里泽夫斯基(Alex Krizhevsky)设计,与伊尔亚‧苏茨克维(Ilya Sutskever)和克里泽夫斯基的博士导师杰弗里·辛顿(Geoff Hinton)共同发表. AlexNet参加了2012年9月30日举行的ImageNet大规模视觉识别挑战赛,达到最低的15.3%的Top-5错误率,比第二名低10.8个百分点,至此一战成名。原论文的主要结论是,模型的深度对于提高性能至关重要,AlexNet的计算成本很高,但因在训练过程中使用了图形处理器(GPU)而使得计算具有可行性 。

 

人工智能简史第五章:第三次浪潮期-2006年以后_第18张图片

克里热夫斯基(Krizhevsky)出生于乌克兰,在加拿大长大,当时他与杰弗里·辛顿(Geoff Hinton)接触,打算在多伦多大学(University of Toronto)从事AI的计算机科学博士学位研究。在读研究生时,克里热夫斯基就在阅读由其导师辛顿(Hinton)发明的一种早期算法的论文,该算法称为““restricted Boltzmann machine”。此时他已经发现图形处理器(GPU)与restricted Boltzmann machines一起使用的前景,而不是中央处理器(CPU)。他认为,如果可以在其他具有更多层(或称为“深度神经网络”)的神经网络上使用这些GPU,则可以提高深度神经网络的处理速度并创建更好的算法。在算法准确性方面可以迅速超越其他最新基准。

在他发现之后不久,2011年,辛顿的另一个研究生Sutskever就了解了ImageNet数据集。ImageNet有超过一百万张图像,是专门为多伦多团队试图解决的计算机视觉算法而设计的。“我意识到他的代码能够解决ImageNet,” Sutskever说。“当时的实现还不是很明显。”

两个人经过一番研究后,克里热夫斯基使用他的GPU加速代码的增强功能来训练数据集上的神经网络。更高的计算速度使网络可以在五六天内处理数百万张图像,而不是以前需要花费的几周甚至几个月的时间。所有可以处理的额外数据使神经网络在分辨图像中对象之间的差异方面具有空前的敏感性。

之后,二人和其导师辛顿一起参加了2012年的ImageNet竞赛。该竞赛是对AI的一种测试,其中包括庞大的在线图像数据库。这项比赛对全世界的所有人都开放,旨在评估为大规模物体检测和图像分类而设计的算法。关键不仅仅在于赢得胜利,还在于检验一个假设:如果使用正确的算法,那ImageNet数据库中的大量数据可能是释放AI潜力的关键。最后他们以错误率低于第二名10.8%的巨大优势击败其他所有研究实验室。

 

人工智能简史第五章:第三次浪潮期-2006年以后_第19张图片

然而最开始的时候,Hinton是反对这种想法的,因为他认为,仍然需要告知神经网络哪些对象位于哪些图像中,而不是学习标签本身。尽管持怀疑态度,他仍以顾问身份为该项目做出了贡献。克里热夫斯基仅仅用了六个月的时间就让他的神经网络就达到了ImageNet的图像分类基准,然后又花了六个月才能达到团队提交的结果。

最终的克里热夫斯基神经网络框架在AI领域的一项开创性研究论文中得到了验证,该论文首先在ImageNet挑战之后于2012年在AI最大的年度会议上提出。

 

人工智能简史第五章:第三次浪潮期-2006年以后_第20张图片

现在的神经网络框架通称为AlexNet,但最初并未使用该名称。在ImageNet挑战之后,Google任命了名叫Wojciech Zaremba的实习生(现为OpenAI的机器人负责人)在克里热夫斯基的基础上重新编写了一套框架作为该公司的论文。由于Google具有按照其创建者命名神经网络的传统,因此该公司对克里热夫斯基的神经网络的近似版本最初称为WojNet。但是随后Google赢得了邀请克里热夫斯基的争夺战,并收购了其神经网络,此后名称已正确更改为AlexNet。


 

5.7变分自编码器VAE(Variational Auto-Encoder)

VAE,也可以叫做变分自编码器,属于自动编码器的变体。VAE于2013年,由Durk Kingma和Max Welling在ICLR上以文章《Auto-Encoding Variational Bayes》发表。

自动编码器是一种人工神经网络,用于学习高效的数据值编码以无监督方式。自动编码器的目的是通过训练网络忽略信号“噪声” 来学习一组数据的表示(编码),通常用于降维。基本模型存在几种变体,其目的是强制学习的输入表示形式具有有用的属性。

 

人工智能简史第五章:第三次浪潮期-2006年以后_第21张图片

与经典(稀疏,去噪等)自动编码器不同,变分自动编码器(VAE)是生成模型,例如生成对抗网络。文章重点解决,在存在具有难解的后验分布的连续潜在变量和大型数据集的情况下,如何在定向概率模型中进行有效的推理和学习。他们引入了一种随机变分推理和学习算法,该算法可以扩展到大型数据集,并且在某些微分可微性条件下甚至可以在难处理的情况下工作。 

作者证明了变化下界的重新参数化产生了一个下界估计量,该估计量可以使用标准随机梯度方法直接进行优化。 其次表明,对于每个数据点具有连续潜在变量的iid数据集,通过使用拟义的下界估计器将近似推理模型(也称为识别模型)拟合到难处理的后验,可以使后验推理特别有效。

主要提出者Durk Kingma(Diederik P. Kingma),目前就职于Google。 在加入Google之前,于2017年获得阿姆斯特丹大学博士学位,并于2015年成为OpenAI创始团队的一员。 他主要研究的方向为:推理,随机优化,可识别性。其中的研究成就包括变分自编码器(VAE)(一种用于生成建模的有原则的框架)以及广泛使用的随机优化方法Adam。


 

5.8生成对抗网络GAN(Generative Adversarial Network)

生成对抗网络(Generative Adversarial Network,简称GAN)是非监督式学习的一种方法,通过让两个神经网络相互博弈的方式进行学习。该方法由伊恩·古德费洛等人于2014年提出。生成对抗网络由一个生成网络与一个判别网络组成。生成网络从潜在空间(latent space)中随机取样作为输入,其输出结果需要尽量模仿训练集中的真实样本。判别网络的输入则为真实样本或生成网络的输出,其目的是将生成网络的输出从真实样本中尽可能分辨出来。而生成网络则要尽可能地欺骗判别网络。两个网络相互对抗、不断调整参数,最终目的是使判别网络无法判断生成网络的输出结果是否真实。

 

人工智能简史第五章:第三次浪潮期-2006年以后_第22张图片

框架中同时训练两个模型:捕获数据分布的生成模型G,和估计样本来自训练数据的概率的判别模型D。G的训练程序是将D错误的概率最大化。这个框架对应一个最大值集下限的双方对抗游戏。可以证明在任意函数G和D的空间中,存在唯一的解决方案,使得G重现训练数据分布,而D=0.5。在G和D由多层感知器定义的情况下,整个系统可以用反向传播进行训练。在训练或生成样本期间,不需要任何马尔科夫链或展开的近似推理网络。实验通过对生成的样品的定性和定量评估证明了本框架的潜力

生成对抗网络常用于生成以假乱真的图片。此外,该方法还被用于生成影片、三维物体模型等。虽然生成对抗网络原先是为了无监督学习提出的,它也被证明对半监督学习、完全监督学习、强化学习是有用的。

GAN的提出者伊恩·古德费洛,曾就读于斯坦福大学,在那里获得了计算机科学学士和硕士学位,之后在Yoshua Bengio和Aaron Courville 的指导下于蒙特利尔大学获得机器学习博士学位。毕业后,Goodfellow加入Google,成为Google Brain研究小组的成员。2015年他离开了Google,加入了新成立的OpenAI研究所。2017年3月回到Google Research。

 

人工智能简史第五章:第三次浪潮期-2006年以后_第23张图片

Goodfellow最知名的成就就是发明了GAN,被誉为GAN之父。同时他还是 Deep Learning 教材的主要作者。在Google,他开发了一个系统,该系统使Google Maps能够自动转录街景汽车拍摄的照片中的地址,并展示了机器学习系统的安全漏洞。

2017年,Goodfellow被《MIT技术评论》的35位35岁以下的创新者所引用。在2019年,他被列入《外交政策》的100位全球思想家名单。


 

5.9随机失活(Dropout)

随机失活(dropout)是对具有深度结构的人工神经网络进行优化的方法,在学习过程中通过将隐含层的部分权重或输出随机归零,降低节点间的相互依赖性(co-dependence )从而实现神经网络的正则化(regularization),降低其结构风险(structural risk)。2014年,针对神经网络容易过拟合的问题,Srivastava和Hinton等人完整的对dropout进行了描述,并证明了比当时使用的其他正则化方法有了重大改进。实证结果也显示dropout在许多基准数据集上获得了优秀的结果。

 

人工智能简史第五章:第三次浪潮期-2006年以后_第24张图片

2012年,Hinton和Srivastava等人首先提出了Dropout的思想。2013年,Li Wan和Yann LeCun等人介绍了Drop Connect,是另一种减少算法过拟合的正则化策略,是 Dropout 的一般化。在 Drop Connect 的过程中需要将网络架构权重的一个随机选择子集设置为零,取代了在 Dropout 中对每个层随机选择激活函数的子集设置为零的做法。Drop Connect 和 Dropout 相似的地方在于它涉及在模型中引入稀疏性,不同之处在于它引入的是权重的稀疏性而不是层的输出向量的稀疏性。2014年,针对神经网络容易过拟合的问题,Srivastava和Hinton等人完整地对dropout进行了描述,并证明了比当时使用的其他正则化方法有了重大改进。实证结果也显示dropout在许多基准数据集上获得了优秀的结果。自2014年Srivastava和Hinton等人的论文发表后,Dropout很快受到了各类研究的青睐。在批归一化(BN)提出之前,Dropout 几乎是所有的最优网络的标配,直到Ioffe & Szegedy 于 2015 提出批归一化(BN)技术,通过运用该技术,不仅可以加速现代模型的速度,而且可以以正则项的形式来提高基线水平。因此,批归一化几乎应用在近期所有的网络架构中,这说明了它强大的实用性和高效性。


 

5.10深度学习(Deeping Learning)

深度学习(Deeping Learning)可以作为机器学习最重要的一个分支。2006年,被称为深度学习元年。2006年杰弗里 ·辛顿以及他的学生鲁斯兰·萨拉赫丁诺夫正式提出了深度学习的概念。杰弗里 ·辛顿也因此被称为深度学习之父。2015年,杰弗里 ·辛顿等人在世界顶级学术期刊 《自然》 发表的一篇文章中详细地给出了 “梯度消失”问题的解决方案 —— 通过无监督的学习方法逐层训练算法,再使用有监督的反向传播算法进行调优。该深度学习方法的提出,立即在学术圈引起了巨大的反响,以斯坦福大学、多伦多大学为代表的众多世界知名高校纷纷投入巨大的人力、财力进行深度学习领域的相关研究。而后又在迅速蔓延到工业界中。因为在深度学习方面做出的突出贡献,2019年3月27日,ACM(美国计算机协会)宣布,有“深度学习三巨头”之称Yoshua Bengio、Yann LeCun、Geoffrey Hinton共同获得了2018年的图灵奖,这是图灵奖1966年建立以来少有的一年颁奖给三位获奖者。

 

人工智能简史第五章:第三次浪潮期-2006年以后_第25张图片

2012年,在著名的ImageNet图像识别大赛中, 杰弗里 ·辛顿领导的小组采用深度学习模型AlexNet一举夺冠。同年,由斯坦福大学著名的吴恩达教授和世界顶尖计算机专家Jeff Dean共同主导的深度神经网络 —— DNN技术在图像识别领域取得了惊人的成绩,在ImageNet评测中成功地把错误率从26%降低到了15%。深度学习算法在世界大赛的脱颖而出,也再一次吸引了学术界和工业界对于深度学习领域的关注。

随着深度学习技术的不断进步以及数据处理能力的不断提升,2014年,Facebook基于深度学习技术的DeepFace项目,在人脸识别方面的准确率已经能达到97%以上,跟人类识别的准确率几乎没有差别。这样的结果也再一次证明了深度学习算法在图像识别方面的一骑绝尘。

 

人工智能简史第五章:第三次浪潮期-2006年以后_第26张图片

杰弗里·埃弗里斯特·辛顿(Geoffrey Everest Hinton),计算机学家、心理学家,被称为“神经网络之父”、“深度学习鼻祖”。他研究了使用神经网络进行机器学习、记忆、感知和符号处理的方法,并在这些领域发表了超过200篇论文。他是将(Backpropagation)反向传播算法引入多层神经网络训练的学者之一,他还联合发明了波尔兹曼机(Boltzmann machine)。他对于神经网络的其它贡献包括:分散表示(distributed representation)、时延神经网络、专家混合系统(mixtures of experts)、亥姆霍兹机(Helmholtz machines)等。

 

人工智能简史第五章:第三次浪潮期-2006年以后_第27张图片

1970年,Hinton在英国剑桥大学获得文学学士学位,主修实验心理学;1978年,他在爱丁堡大学获得哲学博士学位,主修人工智能。此后Hinton曾在萨塞克斯大学、加州大学圣迭戈分校、剑桥大学、卡内基梅隆大学和伦敦大学学院工作。2012年,Hinton获得了加拿大基廉奖(Killam Prizes,有“加拿大诺贝尔奖”之称的国家最高科学奖)。Hinton是机器学习领域的加拿大首席学者,是加拿大高等研究院赞助的“神经计算和自适应感知”项目的领导者,是盖茨比计算神经科学中心的创始人,目前担任多伦多大学计算机科学系教授。


 

5.11残差网络(ResNet)

残差网络(ResNet)是由来自Microsoft Research的4位学者,分别是Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun提出的卷积神经网络,在2015年的ImageNet大规模视觉识别竞赛(ImageNet Large Scale Visual Recognition Challenge, ILSVRC)中获得了图像分类和物体识别的优胜。残差网络的特点是容易优化,并且能够通过增加相当的深度来提高准确率。其内部的残差块使用了跳跃连接,缓解了在深度神经网络中增加深度带来的梯度消失问题。

 

人工智能简史第五章:第三次浪潮期-2006年以后_第28张图片

残差网络的主要提出者何凯明,2003年广东省理科高考状元,曾就读于清华基础科学班并在香港中文大学攻读研究生。2011年获得博士学位后加入微软亚洲研究院(MSRA)工作。他的主要研究方向是计算机视觉和深度学习。目前就职于Facebook AI Research(FAIR)

 

人工智能简史第五章:第三次浪潮期-2006年以后_第29张图片

他的论文Deep Residual Networks(ResNets)是2019年Google Scholar Metrics中所有领域中被引用最多的论文。ResNets的应用还包括语言、语音和AlphaGo。


 

5.12 TensorFlow

TensorFlow是一个基于数据流编程(dataflow programming)的符号数学系统,被广泛应用于各类机器学习(machine learning)算法的编程实现,其前身是谷歌的神经网络算法库DistBelief。自2015年11月9日起,TensorFlow依据阿帕奇授权协议(Apache 2.0 open source license)开放源代码。TensorFlow拥有多层级结构,可部署于各类服务器、PC终端和网页并支持GPU和TPU高性能数值计算,被广泛应用于谷歌内部的产品开发和各领域的科学研究。TensorFlow由谷歌人工智能团队谷歌大脑(Google Brain)开发和维护,拥有包括TensorFlow Hub、TensorFlow Lite、TensorFlow Research Cloud在内的多个项目以及各类应用程序接口(Application Programming Interface, API)。

 

人工智能简史第五章:第三次浪潮期-2006年以后_第30张图片

TensorFlow的 Tensor(张量)表示无限的数据,Flow表示节点,流程和处理。就如同神经信号在大脑内纵横驰骋,TensorFlow模拟了一个人造的大脑。TensorFlow内核定义了一系列的深度学习方法:卷积神经网络,使用 GPU 的反向传播算法,交叉熵。神经网络的每一层都可以映射到一个或者多个方法,方便扩展其它深度学习算法,同时架构适合在高性能计算机系统中工作,和底层的具体计算机硬件无关。

 

人工智能简史第五章:第三次浪潮期-2006年以后_第31张图片

TensorFlow可以利用一个长短期记忆神经网络将输入序列映射到多维序列,同时使用另一个长短期记忆神经网络从多维序列中生成输出序列。想象一下,如果输入序列是英文,输出序列是中文,TensorFlow就组成了一个智能翻译系统;如果输入序列是问题,输出序列是答案,TensorFlow就组成了一个Siri;如果输入序列是图片,输出序列是文字,TensorFlow就组成了一个图片识别系统,让TensorFlow有了无限的可能。


 

5.13 OpenAI

OpenAI,由诸多硅谷大亨联合建立的人工智能非盈利组织。2015年马斯克与其他硅谷科技大亨进行连续对话后,决定共同创建OpenAI,希望能够预防人工智能的灾难性影响,推动人工智能发挥积极作用。特斯拉电动汽车公司与美国太空技术探索公司SpaceX创始人马斯克、Y Combinator总裁阿尔特曼、天使投资人彼得·泰尔(Peter Thiel)以及其他硅谷巨头2014年12月份承诺向OpenAI注资10亿美元。

 

人工智能简史第五章:第三次浪潮期-2006年以后_第32张图片

OpenAI的使命是确保通用人工智能 (Artificial General Intelligence, AGI),即一种高度自主且在大多数具有经济价值的工作上超越人类的系统,将为全人类带来福祉。不仅希望直接建造出安全的、符合共同利益的通用人工智能,而且愿意帮助其它研究机构共同建造出这样的通用人工智能以达成他们的使命。


 

人工智能简史第五章:第三次浪潮期-2006年以后_第33张图片

 


 

5.14索菲亚机器人(Sophia)

索菲亚是由中国香港的汉森机器人技术公司(Hanson Robotics)开发的类人机器人,是历史上首个获得公民身份的一台机器人。索菲亚看起来就像人类女性,拥有橡胶皮肤,能够表现出超过62种面部表情。索菲亚“大脑”中的计算机算法能够识别面部,并与人进行眼神接触。

 

人工智能简史第五章:第三次浪潮期-2006年以后_第34张图片

2016年3月,在机器人设计师戴维·汉森(David Hanson)的测试中,与人类极为相似的人类机器人索菲亚(Sophia)自曝愿望,称想去上学,成立家庭。索菲亚看起来就像人类女性,拥 有橡胶皮肤,能够使用很多自然的面部表情。索菲亚“大脑”中的计算机算法能够识别面部,并与人进行眼神接触。索菲亚的皮肤使用名为Frubber的延展性 材料制作,下面有很多电子,让它可以做出微笑等动作。此外,索菲亚还能理解语言和记住与人类的互动,包括面部。随着时间推移,它会变得越来越聪明。汉森说:“它的目标就是像任何人类那样,拥有同样的意识、创造性和其他能力。

 

人工智能简史第五章:第三次浪潮期-2006年以后_第35张图片

2017年10月26日,沙特阿拉伯授予香港汉森机器人公司生产的机器人索菲亚公民身份。作为史上首个获得公民身份的机器人,索菲亚当天在沙特说,它希望用人工智能“帮助人类过上更美好的生活”,人类不用害怕机器人,“你们对我好,我也会对你们好”。


 

5.15阿尔法围棋(AlphaGo)

阿尔法围棋(AlphaGo)是一款围棋人工智能程序。其主要工作原理是“深度学习”。“深度学习”是指多层的人工神经网络和训练它的方法。一层神经网络会把大量矩阵数字作为输入,通过非线性激活方法取权重,再产生另一个数据集合作为输出。这就像生物神经大脑的工作机理一样,通过合适的矩阵数量,多层组织链接一起,形成神经网络“大脑”进行精准复杂的处理,就像人们识别物体标注图片一样。它第一个击败人类职业围棋选手、第一个战胜围棋世界冠军的人工智能机器人,由谷歌(Google)旗下DeepMind公司戴密斯·哈萨比斯领衔的团队开发。其主要工作原理是“深度学习”。

 

人工智能简史第五章:第三次浪潮期-2006年以后_第36张图片

2016年3月,AlphaGo与围棋世界冠军、职业九段棋手李世石进行围棋人机大战,以4比1的总比分获胜;2016年末2017年初,该程序在中国棋类网站上以“大师”(Master)为注册账号与中日韩数十位围棋高手进行快棋对决,连续60局无一败绩;2017年5月,在中国乌镇围棋峰会上,它与排名世界第一的世界围棋冠军柯洁对战,以3比0的总比分获胜。围棋界公认阿尔法围棋的棋力已经超过人类职业围棋顶尖水平,在GoRatings网站公布的世界职业围棋排名中,其等级分曾超过排名人类第一的棋手柯洁。

 

人工智能简史第五章:第三次浪潮期-2006年以后_第37张图片

2017年5月27日,在柯洁与阿尔法围棋的人机大战之后,阿尔法围棋团队宣布阿尔法围棋将不再参加围棋比赛。2017年10月18日,DeepMind团队公布了最强版阿尔法围棋,代号AlphaGo Zero。

旧版的AlphaGo主要由几个部分组成:一、策略网络(Policy Network),给定当前局面,预测并采样下一步的走棋;二、快速走子(Fast rollout),目标和策略网络一样,但在适当牺牲走棋质量的条件下,速度要比策略网络快1000倍;三、价值网络(Value Network),给定当前局面,估计是白胜概率大还是黑胜概率大;四、蒙特卡洛树搜索(Monte Carlo Tree Search),把以上这四个部分连起来,形成一个完整的系统。阿尔法围棋(AlphaGo)是通过两个不同神经网络“大脑”合作来改进下棋。这些“大脑”是多层神经网络,跟那些Google图片搜索引擎识别图片在结构上是相似的。它们从多层启发式二维过滤器开始,去处理围棋棋盘的定位,就像图片分类器网络处理图片一样。经过过滤,13个完全连接的神经网络层产生对它们看到的局面判断。这些层能够做分类和逻辑推理。

新版的AlphaGo名为AlphaGo Zero在此前的版本的基础上,结合了数百万人类围棋专家的棋谱,以及强化学习进行了自我训练。它与旧版最大的区别是,它不再需要人类数据。也就是说,它一开始就没有接触过人类棋谱。研发团队只是让它自由随意地在棋盘上下棋,然后进行自我博弈。

据阿尔法围棋团队负责人大卫·席尔瓦(Dave Sliver)介绍,AlphaGo Zero使用新的强化学习方法,让自己变成了老师。系统一开始甚至并不知道什么是围棋,只是从单一神经网络开始,通过神经网络强大的搜索算法,进行了自我对弈。随着自我博弈的增加,神经网络逐渐调整,提升预测下一步的能力,最终赢得比赛。更为厉害的是,随着训练的深入,阿尔法围棋团队发现,AlphaGo Zero还独立发现了游戏规则,并走出了新策略,为围棋这项古老游戏带来了新的见解。

AlphaGo Zero仅用了单一的神经网络。在此前的版本中,AlphaGo用到了“策略网络”来选择下一步棋的走法,以及使用“价值网络”来预测每一步棋后的赢家。而在新的版本中,这两个神经网络合二为一,从而让它能得到更高效的训练和评估。同时AlphaGo Zero并不使用快速、随机的走子方法。在此前的版本中,AlphaGo用的是快速走子方法,来预测哪个玩家会从当前的局面中赢得比赛。相反,新版本依靠的是其高质量的神经网络来评估下棋的局势。

 

人工智能简史第五章:第三次浪潮期-2006年以后_第38张图片

AlphaGo的主要设计者,戴密斯·哈萨比斯(Demis Hassabis),人工智能企业家,DeepMind Technologies公司创始人,人称“阿尔法围棋之父”。4岁开始下国际象棋,8岁自学编程,13岁获得国际象棋大师称号。17岁进入剑桥大学攻读计算机科学专业。在大学里,他开始学习围棋。2005年进入伦敦大学学院攻读神经科学博士,选择大脑中的海马体作为研究对象。两年后,他证明了5位因为海马体受伤而患上健忘症的病人,在畅想未来时也会面临障碍,并凭这项研究入选《科学》杂志的“年度突破奖”。2011年创办DeepMind Technologies公司,以“解决智能”为公司的终极目标。


 

5.16联邦学习(Federated Learning)

联邦学习(又称协作学习)是一种机器学习技术, 2016 年由谷歌最先提出,它在多个持有本地数据样本的分散式边缘设备或服务器上训练算法,而不交换其数据样本。这种方法与传统的集中式机器学习技术形成鲜明对比,传统的集中式机器学习技术将所有的数据样本上传到一个服务器上,而更经典的去中心化方法则假设本地数据样本是完全相同分布的。

联邦学习能够使多个参与者在不共享数据的情况下建立一个共同的、强大的机器学习模型,从而解决数据隐私、数据安全、数据访问权限和异构数据的访问等关键问题。其应用遍布国防、电信、物联网或制药等多个行业。

 

人工智能简史第五章:第三次浪潮期-2006年以后_第39张图片

联邦学习原本用于解决安卓手机终端用户在本地更新模型的问题,其设计目标是在保障大数据交换时的信息安全、保护终端数据和个人数据隐私、保证合法合规的前提下,在多参与方或多计算结点之间开展高效率的机器学习。其中,联邦学习可使用的机器学习算法不局限于神经网络,还包括随机森林等重要算法。联邦学习有望成为下一代人工智能协同算法和协作网络的基础。


 

5.17 BERT

BERT的全称为Bidirectional Encoder Representation from Transformers,是一个预训练的语言表征模型。BERT论文 BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding于2018年发表,它强调了不再像以往一样采用传统的单向语言模型或者把两个单向语言模型进行浅层拼接的方法进行预训练,而是采用新的masked language model(MLM),以至能生成深度的双向语言表征。发表时提及在11个NLP(Natural Language Processing,自然语言处理)任务中获得了新的state-of-the-art的结果,令人目瞪口呆。

 

人工智能简史第五章:第三次浪潮期-2006年以后_第40张图片

该模型有以下主要优点:

1)采用MLM对双向的Transformers进行预训练,以生成深层的双向语言表征。

2)预训练后,只需要添加一个额外的输出层进行fine-tune,就可以在各种各样的下游任务中取得state-of-the-art的表现。在这过程中并不需要对BERT进行任务特定的结构修改。

BERT的本质上是通过在海量的语料的基础上运行自监督学习方法为单词学习一个好的特征表示,所谓自监督学习是指在没有人工标注的数据上运行的监督学习。在以后特定的NLP任务中,我们可以直接使用BERT的特征表示作为该任务的词嵌入特征。所以BERT提供的是一个供其它任务迁移学习的模型,该模型可以根据任务微调或者固定之后作为特征提取器。BERT的源码和模型2018年10月31号已经在Github上开源,简体中文和多语言模型也于11月3号开源。

 


 

2023年Openai的ChatGPT 4.0火爆出圈,这么好的东西却不对中国用户(包括港澳台)开放。我们希望通过自己的内容、技术和服务,些许的抹平差异,让中国用户,也能更方便、更便宜的了解和使用到全球最强大的对话式AI大模型。

 

人工智能简史第五章:第三次浪潮期-2006年以后_第41张图片

 

你可能感兴趣的:(人工智能)