设为首页收藏本站

大数据论坛

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
查看: 182|回复: 0

肖仰华:深度剖析知识图谱与认知智能

[复制链接]
发表于 2018-7-12 16:02:46 | 显示全部楼层 |阅读模式
人类社会已经进入智能化时代。各行各业纷纷踏上智能化升级与转型的道路,各类智能化应用需求大量涌现。这些智能化应用需求对于机器认知水平提出了全新要求。实现机器认知智能的关键技术之一是知识库技术。
知识图谱作为大数据时代的重要的知识表示方式之一,为机器语言认知提供了丰富的背景知识,使得机器语言认知成为可能,因而也成为了行业智能化转型道路上的关键技术之一。本报告结合复旦大学相关课题组在基于知识图谱的认知智能化研究与落地实践,系统地介绍知识图谱与认知智能之间的关系,梳理新一代知识工程技术给认知智能带来的全新机遇,介绍基于知识图谱的认知智能落地关键技术,展望以知识图谱为典型代表的知识工程复兴之路。
知识图谱自2012年提出至今,发展迅速,如今已经成为人工智能领域的热门问题之一,吸引了来自学术界和工业界的广泛关注,在一系列实际应用中取得了较好的落地效果,产生了巨大的社会与经济效益。
人类社会已经进入智能时代,智能时代的社会发展催生了大量的智能化应用,智能化应用对机器的认知智能化水平提出了前所未有的要求,机器认知智能的实现依赖的就是知识图谱技术。
2012年Google的图像识别错误率显著下降,机器在图像识别方面接近人类水平;到2016年AlphaGo战胜了人类围棋冠军;再到2017年AlphaZero战胜了AlphaGo,以及DeepMind去尝试星际争霸游戏,这一系列AI发展的标志性事件让我们看到了人工智能技术帮助解决人类社会发展若干问题的希望。我们已经见证的这一系列人工智能技术的发展,本质上是受益于大数据给人工智能带来的数据红利。
这一波人工智能热潮是在大数据所给予的海量标注样本以及超强计算能力这两个强大的支撑作用下所形成的。可以说,这一波人工智能的发展本质上是大数据喂养出来的。到了今天,可以很自豪地宣告机器智能在感知智能和计算智能等若干具体问题上已经达到甚至超越人类水平。现在,在语音识别与合成、图像识别、封闭环境有限规则的游戏领域等问题上,机器智能水平堪比、甚至超越人类水准。
自计算机面世以来,人类社会在经历了计算机技术发展的一系列浪潮之后,基本完成了信息化的使命。信息化时代最重要的任务是数据记录与采集,这势必造就大数据。当我们迈进大数据时代之后,我们势必对大数据的价值挖掘提出诉求。大数据的价值挖掘需要智能化手段。因此大数据时代的到来,某种意义上只是智能化时代的短暂序曲。我们相信,未来若干年,计算机技术的主要使命是帮助人类社会实现智能化。
在各行业的智能化发展进程中,AI+或者AI赋能成为了传统行业智能化升级和转型的一个基本模式。在AI的赋能下,传统行业面临着非常多的机遇,其所关心的一系列核心问题,比如增加收入、降低成本、提高效率和安全保障等,都将显著受益于智能化技术。比如智能客服系统已经在很多行业大规模应用,大大降低了人工客服的巨大劳动力成本;一些企业利用知识图谱,对企业内部的研发资源进行管理,显著提升研发效率,这些都是AI可以赋能传统行业的具体体现。
智能化的升级和转型对整个传统行业产生的影响将是颠覆性的,将重塑整个行业的形态,革新传统行业的各个关键环节,智能化技术将逐步渗透到传统行业的各个角落。最近几年我们看到越来越多的传统行业将人工智能领域升格为企业的核心战略,在电商、社交、物流、金融、医疗、司法、制造等很多领域涌现出越来越多的AI赋能传统行业的发展案例。
随着大数据红利的消失殆尽,以深度学习为代表的感知智能水平日益接近其“天花板”。以深度学习为代表的统计学习严重依赖大样本,这些方法只能习得数据中的统计模式。然而,现实世界很多实际问题的解决单单依靠统计模式是不够的,还需要知识,特别是符号化的知识。
我们人类的语言理解、司法判案、医疗诊断、投资决策等等很多领域都是显著依赖我们的知识才能实现的。很多从事自然语言处理的研发人员普遍有个深刻的感受:即便数据量再大,模型再先进,很多自然语言处理任务,比如中文分词、情感分析达到一定准确率之后,就很难再改进了。
机器认知智能绝不是束之高阁、高高在上的前沿技术。它是一类能够实实在在落地的、有着广泛且多样的应用需求的、能够产生巨大社会经济价值的技术。机器认知智能的发展过程本质上是人类脑力不断解放的过程。在工业革命和信息化时代,我们的体力被逐步解放;而随着人工智能技术的发展,尤其是认知智能技术的发展,我们的脑力也将会逐步解放。越来越多的知识工作将逐步被机器所代替,伴随而来的将是机器生产力的进一步解放。机器认知智能在应用方面是广泛和多样的,体现在精准分析、智慧搜索、智能推荐、智能解释、更自然的人机交互和深层关系推理等各个方面。
智能系统另外一个非常重要的表现方式就是自然人机交互。人机交互将会变得越来越自然,越来越简单。越自然简单的交互方式越依赖强大的机器智能水平。自然人机交互包括自然语言问答、对话、体感交互、表情交互等等。特别是自然语言交互的实现需要机器能够理解人类的自然语言。会话式(Conversational UI)、问答式(QA)交互将逐步代替传统的关键字搜索式交互。对话式交互还有一个非常重要的趋势就是一切皆可问答。我们的BOTs(对话机器人)将代替我们阅读文章、新闻,浏览图谱、视频,甚至代替我们看电影、电视剧,然后回答我们所关心的任何问题。自然人机交互的实现显然需要机器的较高认知智能水平,以及机器具备强大的背景知识。
如何实现机器的认知能力?或者更具体一点,如何让机器具备理解和解释的能力?可以认为知识图谱,或者说以知识图谱为代表的这一波知识工程的一系列技术,在认知智能的实现中起到非常关键的作用。一言以蔽之,知识图谱是实现机器智能的使能器(Enabler)。也就是说没有知识图谱,或许就没有机器认知智能的实现。
知识图谱是什么?我认为知识图谱本质上是一种大规模语义网络。理解知识图谱的概念,有两个关键词。首先是语义网络。语义网络表达了各种各样的实体、概念及其之间的各类语义关联。理解知识图谱的第二个关键词是“大规模”。语义网络并非新鲜事物,早在上个世纪七八十年代知识工程盛行之时,就已存在。相比较于那个时代的语义网络,知识图谱规模更大。关于这一点后面还会深入介绍。
2012年Google提出知识图谱直到今天,知识图谱技术发展迅速,知识图谱的内涵远远超越了其作为语义网络的狭义内涵。当下,在更多实际场合下,知识图谱是作为一种技术体系,指代大数据时代知识工程的一系列代表性技术进展的总和。去年我国学科目录做了调整,首次出现了知识图谱的学科方向,教育部对于知识图谱这一学科的定位是“大规模知识工程”,这一定位是十分准确且内涵丰富的。这里需要指出的是知识图谱技术的发展是个持续渐进的过程。
知识图谱对机器认知智能的必要性还可以从若干具体问题来进行阐述。
首先,我们来看机器认知的核心能力之一:自然语言理解。我的观点是机器理解自然语言需要类似知识图谱这样的背景知识。自然语言是异常复杂的:自然语言有歧义性、多样性,语义理解有模糊性且依赖上下文。机器理解自然语言困难的根本原因在于,人类语言理解是建立在人类的认知能力基础之上的,人类的认知体验所形成的背景知识是支撑人类语言理解的根本支柱。
实现机器自然语言理解所需要的背景知识是有着苛刻的条件的:规模足够大、语义关系足够丰富、结构足够友好、质量足够精良。以这四个条件去看知识表示就会发现,只有知识图谱是满足所有这些条件的:知识图谱规模巨大,动辄包含数十亿实体;关系多样,结构友好,通常表达为RDF三元组,这是一种对于机器而言能够有效处理的结构;质量也很精良,因为知识图谱可以充分利用大数据的多源特性进行交叉验证,也可利用众包保证知识库质量。所以知识图谱成为了让机器理解自然语言所需的背景知识的不二选择。
知识图谱对于认知智能的另一个重要意义在于:知识图谱让可解释人工智能成为可能。“解释”这件事情一定是跟符号化知识图谱密切相关的。因为解释的对象是人,人只能理解符号,没办法理解数值,所以一定要利用符号知识开展可解释人工智能的研究。可解释性是不能回避符号知识的。
知识图谱的另一个重要作用体现在知识引导将成为解决问题的主要方式。前面已经多次提及用户对使用统计模型来解决问题的效果越来越不满意了,统计模型的效果已经接近“天花板”,要想突破这个“天花板”,需要知识引导。
知识对于认知智能又一个很重要的意义就是将显著增强机器学习的能力。
当前的机器学习是一种典型的“机械式”学习方式,与人类的学习方式相比显得比较笨拙。我们的孩童只需要父母告知一两次:这是猫,那是狗,就能有效识别或者区分猫狗。而机器却需要数以万计的样本才能习得猫狗的特征。我们中国学习英语,虽然也要若干年才能小有所成,但相对于机器对于语言的学习而言要高效的多。
机器学习模型落地应用中的一个常见问题是与专家知识或判断不符合,这使我们很快陷入进退两难的境地:是相信学习模型还是果断弃之?机器学习与人类学习的根本差异可以归结为人是有知识的且能够有效利用知识的物种。
知识的沉淀与传承铸就了人类文明的辉煌,也将成为机器智能持续提升的必经之路。只不过到了机器身上,知识的沉淀变成了知识的表示,知识的传承变成了知识的应用。所以,知识的沉淀和传承不仅铸就了人类文明的辉煌,或许也将造就机器智能的全新高度。

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|大数据论坛 ( 京ICP备10002193号-4  

GMT+8, 2018-9-26 22:38 , Processed in 0.273840 second(s), 26 queries , Gzip On.

Powered by Discuz! X3.1

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表