设为首页收藏本站

大数据论坛

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
查看: 151|回复: 0

沈艳:大数据时代网络数据处理技术应用

[复制链接]
发表于 2018-7-4 16:18:36 | 显示全部楼层 |阅读模式
Web2.0带来了信息传播的根本性变革,信息不仅仅总量大,更体现了及时性、流动性的特点。对于信息的掌握、分析和运用,利用文本挖掘技术对网络评论的信息提取,可以说是近年来的热点领域。网络评论中具有较强应用性的四种分析:主题词提取、社会网络分析、舆情分析以及情感强度分析,这四种分析都是以计算机文本挖掘为技术支持,是新闻学、传播学、营销学以及社会学研究中具有较强应用性的领域。
文本挖掘的概况
1.研究意义
互联网自产生那天起就有着强大的功能,随着世界网民数量的激增,近十年来,移动互联网网民更是呈现指数级的增长。在Web2.0的新环境下,基于互联网的舆论平台包括论坛、微博、微信、QQ、网络购物商业平台等所有开放平台成为巨大的信息场,这些信息不仅巨大(数据存储量已经从TB级别升至PB级别),而且体现了及时性、互动性、流动性等属性,传统的数据收集(主要指结构性数据)和舆情分析方法处理能力非常有限,也影响了有效分析网络评论的效果。有鉴于此,从纷繁庞杂的海量非结构性数据中,挖掘提取有价值的信息变得非常重要。而基于Web2.0的文本挖掘在网络营销和舆情追踪领域上,对于决策和未来趋势的预测上能够提供更加深层和丰富的信息。文本挖掘属于大数据分支领域,十三五期间,大数据应用更是提到了“助力产业升级转型和社会治理创新”的高度。目前我们看到的文献大多基于计算机软件科学研究不同算法和原理,比如提出新算法或者优化原有算法,在精确度上不断改进。在商业智能研判上,比如客户产品需求、精准营销上,各个大的网络销售平台均由团队做大数据分析,数据挖掘已经比较成熟。而在社会科学领域中,比如传播学、新闻学、社会学大多依赖传统的抽样调查,如何应对新的社会发展形态,优化社会治理模式,借助文本挖掘技术对于拓展研究领域,深化研究方法均具有重要的意义。网络评论在互联网信息中直接体现用户个人态度、情感,这些信息特征是怎么样的又是怎样关联的,运用文本挖掘方法可以回答这些问题。
2.文本挖掘的特点和方法
网络评论属于文本信息,文本挖掘也称为文本数据库中的知识发现,是从大量文本的集合或者语料库中提取事先未知的,可以理解的有潜在实用价值的模式和知识[3]。在大数据应用商业和社会治理层面,人们更看重的是精准预测。网络评论属于非结构性数据,其中意见挖掘主要针对非事实性主观文本,加之中文语法的特点,这三个因素增加了文本挖掘的难度,中文文本挖掘技术至今在算法和精确度方面还在不断探索。概括而言,文本挖掘的方法主要有以下四个方面:(1)分词技术。中文分词时中文信息处理的基础,比如中科院的ICTCLAS分词系统可以提供词性标注、新词识别、用户词典等,是开源分词系统;(2)信息提取和关联分析。信息抽取的目的是抽取出指定的事件、事实等信息供用户查询使用。如新闻报道中的时间、地点、人物、关系、事件。关联分析是发现两个或者两个以上的变量取值之间存在某种规则,比如时序关联、因果关联;(3)分类分析。找出并区分数据分类的模型,以便能够使用模型预测给定数据对象所属的数据类。比如,财经新闻、社会新闻等新闻归档的应用,建立先模型(分类器),再将文档通过分类器归为某种类别;(4)聚类分析。将物理或抽象对象的集合分组成为由类似的对象组成的多个分析过程。它的目标就是在相似的基础上收集数据来分类。比如图书评论中抽取好、一般、比较差等。
文本挖掘的技术实现
文本挖掘技术属于计算机、数学等学科,研究主要侧重在研究技术层面,其中仅仅分词方法和算法就有十几种。目前的文本挖掘侧重在不同领域中的应用,比如在舆情领域,商业智能研判领域中。越来越多的语言或者软件的开源系统和界面友好的数据挖掘软件比如KNIME,以及在线网站玻森,只需要“拖、拉、拽”就可以实现部分的数据挖掘,所以越来越多的商业领域和社会领域可以使用文本挖掘。主要介绍在文本关键词提取、网络舆情分析、社会网络应用分析以及用户情感倾向分析。这四种应用通过文本挖掘可以实现,具体如下:
1. 文本关键词提取。新闻学中的标题往往具有概况、总结的功能,需要新闻从业者或者读者看完全篇再归纳整理出来新闻摘要。那么在海量的文章中,在全面把握文章的中心思想的基础上,迅速(每小时至少处理50万篇文章)提取出若干个代表文章语义内容的词汇或短语,相关结果可用于精化阅读、精准排序。比如2015年李克强总理的政府工作报告,依据分词技术计算词频,可以提取出市场化、改革等关键词。这些关键词往往能反映出政府工作报告的主干特征。
2.舆情分析应用。在海量的网络信息环境下,人们面临的问题不是信息匮乏,而是信息过载和信息噪音,所以人们关注的重心已从搜索采集的信息序化变为分析为主的信息转化。舆情信息获取的速度和质量依赖于舆情系统技术。网络舆情系统的主要功能有信息数据自动采集、文本自动聚类和自动分类、话题与跟踪。目前舆情分析主要集中在信息采集、热点问题发现和热点评估。信息采集主要用爬虫Python以及Heritrix从web、博客、邮件、微博等采集数据,存储在PostgreSQL数据库中,再进行主题提取等。热点问题发现技术主要使用文本聚类分析的办法发现网络舆情热点。热点事件抽取方面主要是首先对微博数据进行预处理,去除数据中噪声信息;文本聚类有很多算法,相对传统的Single-pass和K-means规则简单比较易用。舆情处理本质上是中文聚类和分类处理,关键是主要用到分词系统,Python语言调入的jieba词包,再结合各个领域的词库可以实现。
3.社会网络分析。应用社会网络分析(关联分析)技术实现KOL(Key Opinion Leade)意见领袖查找,KOL被称为意见持有者的识别,是影响力较大的用户。意见领袖能在短时间内对数量众多的用户产生直接或间接的影响。因此,挖掘意见领袖成为了解决社交网络中许多实际问题的关键点,社会治理当中的舆论引导,特别是传播学领域中的社会网络研究,特别是近年来的商业上比较热门的广告投放和微商开展。比如用户属性分类方法进行意见领袖挖掘,主要依据关注度、粉丝数、发帖数以及是否认证对用户重要性进行评分,以关系为处理单位的社会网络分析方法在意见领袖识别当中应用越来越多。网络分析有了非常多的理论成果和软件分析工具,方法有随机网络、规整网络、小世界理论等,Ucinet是主要处理数据的关联规律软件,结合网络的可视化技术,用Netdraw软件进行展现,这两款软件均可以人机互动,操作比较简单。
4.情感倾向性分析。主要指的是用户评价分析,主要是态度、评价等级的测量。过程如下:抓取获得语料,其工具主要是Python网络爬虫,这是非常庞大的海量数据,将原始数据存储在PostgreSQL数据库中。不过,原始数据中有很多无用信息、重复评论等这些都是属于无效信息,所以要进行语料预处理,将PostgreSQL数据库转换成文本格式(txt)格式文件,再用停用词表进行过滤垃圾。预处理之后,开始进行分词处理,只有进行分词计算机才能找到关键词和特征词,分词技术和分词方法已经比较成熟,业界使用比较多的中文分词工具是ICTCLAS中文分词系统,分词工具常用的有jieba和Ansj。首先是将海量的数据通过分词找到主题词,比如购物平台上的服装评论,其中有款式、质量、物流三个主题词,按照三个主题词使用Word2Vec进行词语聚类,把语义距离相近的词归为一类,比如在预处理后的可用语料库中把时尚、休闲等归为款式一类,把正品、不掉色等放在质量一类,把块、及时放在物流一类。之后分别进行HowNet情感词典构建和程度级别词典构建以及否定词典构建,再进行主题词分类,计算得出句子情感倾向,用户情感倾向,最后分别得出质量、内容、物流情感倾向。
这里需要说明,四种文本挖掘可以交叉使用,比如舆情分析中评论的情感性分析,可以通过上述第四种操作实现。不管是哪种分析,都包含数据爬取、存储、分词。
随着数据挖掘技术在各个领域的不断扩展和深入,实际生活中,文本挖掘还可以拓展更宽更深的应用,不仅仅限于列举的四种。大数据变成人们生活中的思维意识离不开数据挖掘技术更多的使用,而文本挖掘可以一定程度上实现更多人的技术可能,这需要更多的团队合作,更重要的是有更多的专业交叉,比如计算机应用和社会学、传播学专业、汉语言学的交叉。

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|大数据论坛 ( 京ICP备10002193号-4  

GMT+8, 2018-7-22 03:31 , Processed in 0.265946 second(s), 26 queries , Gzip On.

Powered by Discuz! X3.1

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表