设为首页收藏本站

大数据论坛

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
查看: 215|回复: 0

徐安华:大数据决定特定领域自然语言处理最终效果

[复制链接]
发表于 2018-7-3 15:27:48 | 显示全部楼层 |阅读模式
自然语言处理及文本挖掘技术的应用正变得更加广泛,尤其是在一些公共服务以及企业级应用方面的作用更加突出,比如执法机构需要用到的犯罪嫌疑分析,或者是企业决策用到的商业智能分析,以及普通人日常都需要用到的智能搜索功能等等,这些看似简单的应用背后,实际所需要的技术是比较复杂而专业。
在进行自然语言处理的过程当中,会用到一些工具。自然语言处理工具的使用,一般是由具体的自然语言处理过程来决定的。常见的处理过程主要就是进行分词处理,也就是将语句切分成几个有意义的词,接下来还要进行实体识别以及关系挖掘,有时可能还包括关健词提取、情感分析分类等工作。在这个过程中需要用到的,基本上就是跟这个过程相对应的那些工具,而这些工具基本上都在试图去覆盖这里面涉及所有的内容。一般来说这些工具可分为两大类,一类是来源于开源社区,比如中文分词组件jieba,而另外一类是来源于国内的一些大学的研究成果。
然而要想进一步提升自然语言处理的精准度或者是精确的解决企业的业务问题,还是需要在这些现有的工具基础上,加入一些自己定制开发的东西,最后形成自己的一套自然语言处理工具。
自然语言处理与文本挖掘比较难的一点就是准确率问题。准确率直接影响着自然语言处理技术在产品化运用过程中的最终效果。现在很多在学术界准确率较高的自然语言处理技术其实在产品化之后,用户体验都不太好,依然会感觉到人可以精确识别的部分,机器识别起来却还是非常困难。
从技术上来说,解决方法可能就是需要非常大量的人工来训练相应的模型,当然这里指的就是叫做基于监督的模型,基于监督的模型在特定领域的效果非常好,但它的缺点在于可能换一类文本,准确率就会下降。因此现在很多人都试图去寻找完全无监督的,可以不用人工去进行标注的这种方式去训练模型,通过机器自己的学习,也能够正常进行这种分词处理,或者是进行命名实体识别。
具体问题还是需要做具体分析。现在来看,并没有一种放之四海而皆准的方法,即使是基于深度学习的技术,其实也是在特定领域之内才可能会有实际用处,它的实际效果,其实跟现在主流的这种基于监督的方法而得到的模型的效果是差不多的,甚至有些情况下还不如后者。
而对于企业级用户来说,要想克服这些困难,一方面还是需要找到一些专业的人才,具体的问题还是应该在具体的应用场景下进行分析,除了之前提到的工具之外,更重要的是只有这种具有专业知识的人才能够有经验和能力去更好的解决这些问题,而想要完全依靠工具去解决则是非常不现实的。
目前在自然语言处理以及文本挖掘技术方面比较受关注的趋势基本上在于两方面。首先是知识图谱的应用正变得更加广泛。之前对知识图谱的应用更多的是停留在大企业中,用来解决一些搜索问题。但是现在因为有更多相关的开源项目被公布出来,再加上也有一些企业将知识图谱构建技术公布了出来,这就使得更多的企业级客户,以及公安的客户来说去使用这种技术,来提高它现有的这种文本挖掘,以及这个文本处理的准确率,以及这个更加人性化的去识别一些这个相关的这个要素,其实会是一个趋势。
第二个趋势是深度学习,深度学习在图片挖掘领域获得成功之后,迅速朝向文本挖掘领域拓展,谷歌、Facebook等公司都已经公布出来一些自己专门用来进行自然语言处理的深度学习框架以及相关的一些产品,甚至有些深度学习的产品,已经在朝iOS或者是安卓系统设备平移,这样一来可能后续的自然语言处理以及文本挖掘技术将不再停留在服务器端,在说移动端或者其他更小的便携设备上,也可以去进行自然语言处理,或者说能够受益于自然语言处理技术,甚至是享受到更宽泛意义上的人工智能的优势。

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|大数据论坛 ( 京ICP备10002193号-4  

GMT+8, 2018-9-26 16:25 , Processed in 0.241000 second(s), 26 queries , Gzip On.

Powered by Discuz! X3.1

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表