设为首页收藏本站

大数据论坛

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
查看: 178|回复: 0

袁书寒:文本大数据内容理解及其发展趋势

[复制链接]
发表于 2018-7-12 16:03:46 | 显示全部楼层 |阅读模式
近年来,随着互联网、云计算、社交网络的发展,网络空间中的信息总量在飞速膨胀,网络大数据时代已经到来。如何充分挖掘大数据中蕴含的价值成为全社会共同关注的话题。
20世纪90年代,数据仓库之父比尔·恩门(Bill Inmon)提出数据仓库的概念,激活了沉睡在数据库中多年的历史数据,使之用于数据分析与决策支持,以挖掘出隐藏在数据背后的有价值信息。而在大数据时代,互联网每分钟都在产生大量的数据,YouTube每分钟内上传的视频长达72 h,Facebook上每分钟共分享了多达246万条信息,Instagram每分钟可产生21万张新照片;在数据快速增长、数据类型多样、数据结构复杂的背景下,传统的基于静态、浅层的数据分析方法,已经无法适应当前越来越多的对数据语义深层理解和计算应用的需求。因此,大数据的分析、挖掘成为学术界、工业界共同的研究热点。
文本大数据是网络大数据的重要组成部分,人们日常工作和生活中接触最多的电子文档也是以文本的形式存在。从海量文本数据中挖掘有价值的信息、知识,一直都是学术界研究的热点问题,但是文本大数据的复杂性和规模性,导致传统的全量数据模式下对文本进行分析变得异常困难。挖掘海量文本数据的特征是降低计算时空复杂性、实现文本语义理解的重要手段。
文本大数据内容理解
由于语言本身是一个复杂的结构对象,借助于特征学习方法可以较好地刻画语言的复杂结构,从而实现对文本大数据的内容理解。基于特征学习的文本大数据内容理解目前主要从两个方面展开:第一个方面是面向非结构化文本,以词汇为基本单元,抽象词汇的特征,进而组合以表示语句的特征,并在特征表示的基础上实现对文本内容的理解;第二个方面是面向结构化知识数据,以知识表示三元组为基本单元,从非结构化文本中抽取出计算机可操作的结构化知识,实现知识的发现、推理等,从而理解文本的内容。
1 面向非结构化文本的内容理解
词汇作为自然语言的最小组成单元,学习其特征是让计算机理解词汇进而理解文本的基础;在理解词汇的基础上,阐述语义组合方法,语义组合通过将词汇组合成短语、语句的特征表示,从而让计算机理解文本大数据内容。
2 面向结构化知识的内容理解
结构化知识是文本内容理解的产物,同时也可用于文本的内容理解。知识数据作为搜索引擎、智能问答重要的信息源,扮演着越来越重要的角色。通过知识图谱可以建立实体的关系网络,赋予丰富的语义信息,从而为文本理解提供基础。
文本内容理解发展趋势
针对非结构化文本的内容理解,深度学习由于其可以抽象高层次的概念特征,是未来重要的研究方向;而针对结构化知识的内容理解,知识图谱可以结构化、形式化地刻画文本的语义内容,进而实现关联推理,是实现文本内容深度理解的重要手段。
深度学习作为非结构化文本内容理解的重要方法,未来将继续探索适合文本内容理解的模型,以提高内容理解的准确性。语言是一种序列模型,语言本身具有一定连续性,因此一个能刻画语言时序特征的模型是实现文本内容理解的重要基础。由于递归神经网络具有一定的时序性和记忆性,利用递归神经网络训练文本的特征符合语言的形式,在机器翻译、自然语言生成等应用中都取得较好的结果,递归神经网络正逐渐成为文本内容理解的重要模型。在递归神经网络模型的基础上,有研究进一步提出有长期记忆能力的递归模型,并将该模型用于自动问答中,取得了较好的结果。具有较强记忆能力的模型对于文本内容理解起着重要的作用。
知识图谱作为结构化知识的重要组织形式,刻画实体关系的演化是重要发展方向。实体间的关系是不断演化发展的,具有时序性,因此有其自身的生命周期,绘制一张动态的知识关系网,对文本大数据内容理解的实时性有很大帮助。此外,目前的知识图谱围绕实体展开,描述实体间的关系;未来如何从文本大数据中抽取事件信息,实现事件的发现和推理,是文本大数据全面深入内容理解的重要方向。
随着文本大数据的涌现,文本处理已经从数据不足转向数据过量,虽然文本大数据主要是无标注或者弱标注的数据,但是这类数据正好为特征学习方法提供了数据基础,进而实现了特征发现基础上的文本语义理解。基于特征学习的文本内容理解有了许多探索和突破,但是由于自然语言自身的复杂性、模糊性,特征学习需要更为准确的结构以刻画自然语言。相信随着特征学习技术的发展和对自然语言本身认识的加深,对文本大数据的内容理解能力一定会进一步提高。

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|大数据论坛 ( 京ICP备10002193号-4  

GMT+8, 2018-9-26 16:50 , Processed in 0.197641 second(s), 26 queries , Gzip On.

Powered by Discuz! X3.1

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表