李航:未来若干年,AI 技术发展可能会进入平缓期

日期:2019-08-24 16:23:44   来源:互联网   编辑:小狐   阅读人数:392

李航:未来若干年,AI 技术发展可能会进入平缓期(图1)

采访嘉宾 李航,字节跳动人工智能实验室总监

整理 夕颜

一阵凉风吹过人工智能,让这个曾是燥热的领域逐渐冷却下来,留下的是扎实地在做研究的人、机构、企业。先后在 NEC 公司中央研究所、微软亚洲研究院、华为诺亚方舟实验室从事和领导 AI 技术研发,现任字节跳动人工智能实验室总监的李航,就是一位 AI 技术的坚实研究者和实践者。

从2018年起,李航参与组织了字节跳动 Byte Camp 训练营活动。2019年8月24-30日, 2019 字节跳动 Byte Camp 夏令营将在北京正式开营。本届夏令营,来自全球各大高校的150名同学,经过笔试和面试几个环节,从6000名报名者中脱颖而出,将在北京接受来自全球的学术界专家、工业界大咖亲自授课,并进行项目实践。

李航除了将在夏令营中亲自授课之外,还通过自己的人脉关系,邀请到了包括2018年图灵奖获得者、深度学习三巨头之一 Yoshua Bengio ,艾伦人工智能研究所 CEO、AAAI Fellow Oren Etzioni 等在内的国内外知名专家来授课。

夏令营开营前夕,在字节跳动的一间会议室,笔者第一次见到这位卓有建树的AI技术研究者和实践者。关于李航的严谨和认真笔者早有耳闻,而在这次会面中,笔者才真正领会了他的学者风范。

让笔者欣喜的是,李航非常友善且健谈,从早年的研究经历到最近的新书《统计学习方法》第二版,再到对机器学习热门技术的看法及对未来人工智能的展望,相关问题他都一一做了详尽的回答。

初遇“机器学习”也曾有过怀疑

从事 AI 研究 30 多年,目前李航作为字节跳动人工智能实验室总监,负责领导AI 技术基础研究和产品落地,主要集中在搜索、推荐、对话、问答、教育几个领域。目前,李航投入主要的精力在产品研发上,但仍有一些精力放在基础研究上。

李航:未来若干年,AI 技术发展可能会进入平缓期(图2)

在字节跳动,李航的主攻方向还是自然语言处理、信息检索、数据挖掘,认为学术和落地两者的结合至关重要。他认为,把研究的成果应用到产品,解决实际问题,同时把具有普世意义的成果,作为学术论文发表,在计算机领域这样的工作很有价值。因此,他表示将不断推动产品和学术研究,同时做好两者之间的平衡。

对李航的现状有所了解之后,我们不妨来了解一下,当初是什么样的契机,让他走上了 AI 研究的道路并一直坚持到现在。相信这会让有意进入该领域,但是对于未来职业和人生规划感到迷茫的年轻人受益匪浅。

1、京都大学留学开始“AI”生涯

李航回忆道,他最初与 AI “结缘”是1988年,在京都大学留学的本科时期。当时,他最早做的两个工作都是文本生成相关的。然而,彼时的主流技术并不是机器学习,而是基于规则的方法。

读本科时,李航做了一个叫做 System Grammar(文法)的语言学框架,用它进行中文生成;硕士期间,他研发了一个能够根据不同需求生成多样表达的。但值得一提的是,这两个项目中使用的都是基于规则的方法。

他回忆道,其实到 90 年代初,机器学习才进入到自然语言等领域,或者说在这些领域产生更大的影响,逐渐变成主流技术。但当李航开始进入这个行业时,状况并不是这样,他也未曾想到,机器学习后来会给AI带来翻天覆地的变化。

回首 90 年代初开始接触机器学习时的经历,李航坦诚当时内心也有过一些怀疑,因为人的语言理解和生成机制与机器学习是完全不同,当时整个业界都认为应该基于规则建立认知模型,去做一些智能相关的任务。李航说,他的机器学习知识也都是从那时开始,通过自学获取的。

2、务实的 90年代

李航以他自己的亲身经历,讲解了 90 年代那群“务实”的人。他最早接触的机器学习算法是决策树,叫做 ID3,这个算法其实只能做一些简单的事情。再如,基于神经网络的手写数字识别,也是一个典型的例子。

新书再版计划,增加深度学习和强化学习

李航指出,无学习有若干个不同的定义,《统计学习方法》第二版新增的无学习内容主要是传统机器学习中的无学习,与Hinton等人最近说的深度学习中的无学习不尽相同。他认为无学习确实是深度学习未来发展的重要方向,有望让机器变得更加智能化,像人一样使用语言,比如,自然语言处理领域的BERT 之所以可以发挥巨大的威力,根本原因在于它做了很好的预训练,就是无学习。Hinton 所谓的无学习是深度学习的未来,是指类似于 BERT这样的预训练方法。从这个意义上来说,无学习非常重要。

李航表示,因为这本书是在业余时间写作的,因此耗费时间较长,第一版花了七年,第二版花了六年时间。2012 年《统计学习方法》第一版出版时正值深度学习初火,当时他曾有意加入一些神经网络的内容,但是担心时间拖得太久故作罢,所以第一版只对传统机器学习中的学习的主要方法做了介绍。

本来,李航计划再加上无学习的内容就结束本书,但是出版之后受到读者的欢迎,这使他备受鼓舞,很多人希望再加上深度学习和强化学习,可以看到全新的,沿袭本书简洁和重点突出风格的内容。所以,李航计划为这本书增加深度学习和强化学习,希望可以覆盖所有机器学习常用的方法,帮助读者更好更快地掌握机器学习技术。然而,再出新版的时间不能确定,也许要几年之后。

李航特别指出,这本书的定位并非入门书籍,不一定适合入门者,因为虽然该书的内容都是最基本的,没有一定的统计概率知识和其他相关基础知识,学起来可能有点吃力。他希望,这本书能成为一本字典一样的书籍,让大家能够反复研读,经常使用。

对人工智能的洞察与前瞻

1、强化学习比学习更需要数据

李航曾表示,构建一个复杂的智能,原理上需要从“身体“入手,让智能在与环境的互动中进行学习,而强化学习是实现这一目标的有效手段。深度强化学习应用到真实环境中有什么样的优势?深度强化学习在智能的学习过程中会起到什么样的作用?

深度强化学习是把深度学习和强化学习结合起来,用深度学习学习强化学习模型,所以深度强化学习本质上还是强化学习。

李航表示,当智能学习做一些相对简单任务时,可以使用学习,学习技术已经比较成熟和实用,但代价是要用很多标注数据。相比,强化学习可以适用于让智能学习做更加复杂的任务。所以,从这种意义上来说,强化学习未来很有前景。

2、机器学习做不到和人一样触类旁通

目前,统计学习是机器学习的主流,但是统计学习还做不到和人一样的触类旁通,自学知识,达到人的学习能力。统计学习在机器学习中起到什么作用?机器如何才能获得人的学习能力?

对于机器学习和深度学习目前取得的一些成果,李航认为应理性看待,“这让大家有一种错觉,认为机器已经非常接近人,但实际上差得还很远,这是因为人类学习和机器学习具有完全不同的机制。人天然具有三个最重要的学习能力,即记忆能力、泛化能力、联想能力,在机器上实现同样的学习能力还有很多困难。特别是现在人的学习的具体机理还不是很清楚。”

3、人的思考机制与机器本质上不同

那么,有没有一种方法能够让机器做到和人一样触类旁通呢?李航认为还看不到这种可能,要想机器学习做到像人类一样触类旁通非常难,做到这一点还需要漫长的时间,至于是多久,他也无法给出准确的估计。

为什么机器无法和人一样触类旁通?这要从人的学习机制来看。一言以蔽之:人与机器的学习在本质上是完全不同的。

李航讲到,人和动物天然具有记忆和泛化能力,这其实是在做概念的存储和抽象。比如,老鼠吃了一次让它中毒的食物,就能认识到这种食物不能吃,下次看到同样的有毒食物就不会再去碰它。也就是说,只用了一个样本就把有毒食物的特点,如颜色和气味学到了(记忆了)在这个过程中,老鼠做了抽象,因为食物的个体都不是完全一样的,老鼠能区分哪些东西属于同类。这些能力都是老鼠生来具有的,有很充分理由相信,具有同样的能力。

此外,人还具有一项重要的能力,它在人的学习或概念形成、推理、语言使用中起到最根本的作用,那就是联想。联想是什么?李航用一个简单的例子来做了说明,比如现在你看到一瓶水,你可能会联想到你昨晚也喝过这种水,或者它的生产厂家等。人的经历不同、场景不同,联想的内容也不同。人时时刻刻都会做联想,所以人的思考其实很大部分都是在找到相关的记忆。计算机做检索的过程其实也是在联想。我们产生新的概念、做创造发明、学习新知识等常常也是在做联想。即记忆的机制就是联想,发明创造的机制也是联想。

所以,人的这种最基本的思考机制是记忆、泛化、联想→学到知识。

但是,机器学习目前完全是基于统计,即依靠数据。李航表示,他的书之所以命名为《统计机器学习方法》是为了强调理论和统计的重要性,因为在他的认知里,机器学习基本上约等于统计机器学习或统计学习,这也是目前业界的共识。未来也有可能出现其他的机器学习方法,但至少目前来说机器学习就是约等于统计学习。

统计机器学习最核心的想法,就是从大量数据中找到统计规律。即使是深度学习,本质上也是统计学习,用复杂的训练神经网络,表示找到的复杂的统计规律,去做一些看似智能,但本质上和人的智能机制不同的事情。

因此,机器学习与人类学习的本质完全不同,所以让机器达到与人一样触类旁通非常难。

4、图神经网络重要,但其作用不应被夸大

近年,图神经网络(GNN)的研究火了起来。这是因为深度学习虽然进展迅猛,但是却有着无法进行推理的缺陷,而基于图的深度学习将端到端学习和归纳推理结合起来,使模型兼有表示能力和推理能力,被有些人视为未来智能技术突破的关键。

对此,李航表示,图神经网络是很重要的技术,但其作用不应该被夸大。

深度学习,从最基本的深度神经网络 ,发展到CNN,之后又出现了几次重大突破,如 GAN、自然语言处理领域的 BERT 等,图神经网络也属于这样的重大突破。从这个意义上来说,图神经网络,GNN是一个重要方向,也是一个大的突破口,很多人在做相关研究,包括字节跳动。

然而,李航认为,GNN 的特点在于通常以图数据为输入,利用图上各个节点之间的关系,学习更加复杂的模式,做智能性的判断和简单推理。这种意义上它是一个强大的工具,目前在很多应用中已经得到了很好的结果,未来还有很大的发展前景,值得深入研究。但是实现智能的一些关键问题,仅靠GNN还不能解决。它是未来重要的研究方向,但并非唯一方向。

“人类研究人工智能这么多年,苦于不知道如何把自己的知识告诉计算机,以实现人类智能,GNN并没有本质解决这个问题 ,单靠GNN实现人类智能,我认为不现实。”李航说道。

5、符号处理+神经处理、多模态让机器更加智能

上面讨论了一些机器学习领域很重要的技术,但是显然每一项技术单独来看都有局限性,无法单纯依靠某种技术实现人的智能。那么问题来了,如何才能让机器变得更加智能呢?我们至少需要一些思路。

李航认为,要实现人工智能,需要解决的一个重要问题是把符号处理与神经处理结合起来。

他首先解释了大脑的思考机制。人类的智能有两个层面,一个层面是人的大脑,是一个包含 1000 亿神经元,1000万亿联接的复杂神经网络。这个网络每个时刻都处于不同的状态,信号在网络中传输,网络状态发生变化。人工神经网络一定程度上与人脑神经网络相似,比如两者都是在网络结构中引入一些输入,做各种变换,之后产生一些输出。现在,深度学习中是用向量、矩阵或张量进行神经表示。但是,人工神经网络比人脑简单得多。

另外一个是意识层面,即人类做推理、理解语言、使用知识的层面,意识层面的东西大致可以用符号表示,对应着计算机的符号处理。但这方面的机制,我们并不十分清楚,脑科学和认知科学有一些假说。人脑中,意识层面的符号处理和脑层面(下意识层面)的神经处理是如何结合的还完全不清楚。

但是,看来要推进机器使用人类语言的能力,即自然语言处理能力,可能需要神经符号处理,就是把神经处理和符号处理两者结合起来,这样才能使机器更接近人。

另一个重要问题是Hinton等所说的无学习,这里不在重复。

5、通用人工智能展望

实现通用人工智能,是人工智能领域的终极目标。李航在 2016 年的一次采访中曾预测,通用人工智能可能要 500 年才能实现,但或许永远都不可能实现。时隔三年,随着人工智能领域的进一步发展,李航的观点有改变吗?

“我不太喜欢用强人工智能、弱人工智能、通用人工智能的说法,因为这几个概念都没有严格的定义,很多时候大家说的并不是同一个东西。但是AI领域会不断发展,机器智能的水平会不断提高,这一点是不容置疑的。当时,被记者要求一定要说个数字,就随便说需要500年才能实现通用人工智能,其实没有科学的依据。”李航说道。

所谓的通用人工智能还是很遥远的。比如,机器很难具备常识和情感,即使是简单的常识性推理对于机器来说也是一道很难跨越的门槛,更不用说具有情感的机器。而这些都是人类智能的一部分。

面向未来,李航预测,从功能主义的角度来说,今后有相当长一段时间,瞄着实现合理行动的机器、合理思考的机器,把符号处理和神经处理结合起来,加上无学习、多模态等技术,可以让的智能程度上升好几个台阶,但是它最核心的可能还是机器学习,未来 50年,我们仍在使用这些最基本的技术,看来这个概率最大。

从另外的思路来看,常识推理、因果推断等也是一些重要的研究方向,希望它们能和机器学习结合起来。可以预见,合理行动、合理思考的机器会根据不同的场景需求,组合衍生出各种各样的智能和智能工具。

6、未来若干年,很有可能AI发展将会慢一些,突破会少一些

当然,李航谈论了他对于机器学习发展的看法。他说道,就像人的智能发育是一个漫长的过程一样,机器智能的构建也需要漫长的积累。人虽然自出生的那一刻起就具备了基本的认知和感知的能力,但是后天成长中也需要漫长的学习过程,不断积累才拥有了各种知识,具备了各种能力。

虽然李航认为机器学习的发展距离人的智能还有相当大的距离,但有几件事情是可以预见的:机器最强大能力就是计算和存储,过去 30 年,计算的速度、存储的容量、通讯的速度都提升了 100 万倍,未来 30 年、100年、500 年以后仍会飞速增长。如果我们能让机器很好地利用大数据和大算力,进行自主学习,这在将来带来性的变化。

2018年,李航参与组织了字节跳动 Byte Camp 训练营活动。李航表示,希望通过一年两度的训练营活动,帮助高校提高学生在计算机领域的专业度,完善从算法到产品全流程的能力,培养业界顶尖人才。

2019年8月24-30日, 2019 字节跳动 Byte Camp 夏令营将在北京正式开营。本届夏令营,来自全球各大高校的150名同学,经过笔试和面试几个环节,从6000名报名者中脱颖而出,将在北京接受来自全球的学术界专家、工业界大咖亲自授课,并进行项目实践。

李航除了将在夏令营中亲自授课之外,还通过自己的人脉关系,为夏令营的同学们邀请到了包括2018年图灵奖获得者、深度学习三巨头之一 Yoshua Bengio ,艾伦人工智能研究所 CEO、AAAI Fellow Oren Etzioni 等国内外知名专家来夏令营授课。

李航:未来若干年,AI 技术发展可能会进入平缓期(图3)

Byte Camp 2019 讲师阵容

官网显示,本次 Byte Camp 共设有三个赛道,奖金池攻击 10.5 万元,每个赛道将决胜出一、二、三等奖,分别获得 20000、10000和5000元奖金。

本次 Byte Camp 上,李航也将作为导师进行授课,课程名为《深度学习介绍》他希望即使是完全没有深度学习知识的同学,也能够通过讲座掌握最基本的概念和技术,并了解一些前沿技术。

李航表示,希望字节跳动 Byte Camp可以做两件事情,一是帮助业界培养人才,二是与学术界进行交流合作。该项目里邀请了很多国内外专家做讲演和报告,公司内部也有很多员工指导学生一起做项目和互动,与业界的优秀的人才做交流。

据李航介绍,本届 Byte Camp 共分为技术、产品和算法三个赛道,每个赛道均设有讲座,由专家讲解对各赛道基本技术的看法,并与学生一起组织项目,让学生根据自己的兴趣列出项目清单,在字节跳动内部员工指导完成。

Byte Camp 的另一个特点是时间相对较短,整个活动持续一周左右,像打造“铁人三项”一样对学生进行集中和高强度训练,在短时间内产出优秀成果。

“希望这段经历将成为这些同学美好的回忆,对他们的人生发展有很大的帮助。”李航说道。

采访嘉宾

李航,字节跳动人工智能实验室总监,北京大学、南京大学客座教授,IEEE 会士,ACM 杰出科学家,CCF 高级会员。他的研究方向包括信息检索,自然语言处理,统计机器学习,及数据挖掘。李航 1988 年京都大学电气 工程系毕业,1998 年获得东京大学计算机科学博士。他 1990 年至 2001 年就职于 NEC 公司中央研究所,任研究员,2001 年至 2012 年就职于微软亚洲研究院,任高级研究员与主任研究员。2012 年至 2017 年就职于华为技术有限公司诺亚方舟实验室,任首席科学家、主任。李航一直活跃在相关学术领域,曽出版过三部学术专著,并在顶级国际学 术会议和顶级国际学术期刊上发表过 120 多篇学术论文,包括 SIGIR, WWW, WSDM 等。李航参与了多项产品,包括 Microsoft SQL Server 2005, Microsoft Office 2007, Microsoft Live Search 2008, Microsoft Bing 2009, Bing 2010, Office 2010, Office 2012。他拥有 42 项授权美国专利。李航还在顶级国际学术会议和顶级国际学术期刊担任大会程序委员会主席、资深委员、委员、期刊编委,包括 SIGIR, WWW 等。

本文相关词条概念解析:

学习

学习,是指通过阅读、听讲、思考、研究、实践等途径获得知识或技能的过程。学习分为狭义与广义两种:狭义:通过阅读、听讲、研究、观察、理解、探索、实验、实践等手段获得知识或技能的过程,是一种使个体可以得到持续变化(知识和技能,方法与过程,情感与价值的改善和升华)的行为方式。广义:是人在生活过程中,通过获得经验而产生的行为或行为潜能的相对持久的行为方式。

网友评论
米老鼠_18
AI技术会不会带来新的风险?
2019-09-16 22:14 646
核桃林小子
量子技术则应用于科学及试验,以物质结构分析为主,推广应用至工农业生产则需要较长时间
2019-09-17 10:15 824
mr.勾巴的d
中国科技立足国内发展,只有限的走出去
2019-09-16 13:53 110
肥肥肥肥皂
相比而言,面部识别方案需要比对的库里数据处理量虽然少,但是在特征点采集上面,面部识别的神经元网络需要经过更深次的细节训练
2019-09-12 12:06 725
半熄的红塔
而要分析作用之前,我们需要先解释清楚AI这个流行词
2019-09-13 13:48 419
相关阅读
外卖小哥撞上劳斯莱斯,维修费用50多万,目击者:赔惨了

外卖小哥撞上劳斯莱斯,维修费用50多万,目击者:赔惨了

近日,成都发生的一起外卖骑手冲撞劳斯莱斯的,在网上引起热烈讨

沙特最大石油厂被炸后,2千胡塞武装精锐发动总攻,俘获500件武器

沙特最大石油厂被炸后,2千胡塞武装精锐发动总攻,俘获500件武器

这次沙特损失惨重沙特方面在9月17日报道称,随着沙特阿美石油

广东要转型淘汰的工厂, 为什么不搬去隔壁砍甘蔗的广西?

广东要转型淘汰的工厂, 为什么不搬去隔壁砍甘蔗的广西?

应该说,国内的“兄弟省份”中,两广是比较亲切的了。虽然如今兄

9月, 分手后深刻反思自己再遇旧爱的三大星座, 将爱火重燃

9月, 分手后深刻反思自己再遇旧爱的三大星座, 将爱火重燃

九月将在进入中旬,十月也将悄然而至,爱神带回了三个星座的旧爱

木村拓哉女儿晒自拍大秀美腿 细腰

木村拓哉女儿晒自拍大秀美腿 细腰

9月17日,光希在微博上晒出几张美照,并配文: 我去参观了圣

《水月洞天》中的男主童博太苏, 影响了很多人的择偶观

《水月洞天》中的男主童博太苏, 影响了很多人的择偶观

豆豆傻乎乎的,傻白甜,但不会让人讨厌,童博顶着泡面头,却依旧

五华山系列文稿(结束篇)五华山赋

五华山系列文稿(结束篇)五华山赋

天造明月,地生五华,独耸莽原,横卧巴渝。东望寿湖,西接邻州。

这四种肠粉, 广东人都不一定吃过

这四种肠粉, 广东人都不一定吃过

广式早茶是目前全国最正统的早茶。广东人早晨去茶楼吃早茶是一种

原本是一名普通护士, 因嫁岳云鹏成“师娘”, 一席话改变小岳命运

原本是一名普通护士, 因嫁岳云鹏成“师娘”, 一席话改变小岳命运

提起岳云鹏,现在可以说是尽人皆知,从河南农村来到北京的他一开

连续求婚一个月女友却毫无察觉,英国小哥差点崩溃:我太难了!

连续求婚一个月女友却毫无察觉,英国小哥差点崩溃:我太难了!

求婚,也许对于每个人来说,都是段浪漫又特别的回忆。而是他的求