设为首页收藏本站

大数据论坛

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
查看: 233|回复: 0

NLPIR大数据语义智能教学科研平台

[复制链接]
发表于 2017-12-26 15:37:22 | 显示全部楼层 |阅读模式
一、平台概述
1背景
大数据时代,人工智能将是下一个浪潮。十九大报告:“推动互联网、大数据、人工智能和实体经济深度融合”。ACL主席周明“人工智能,现代科学皇冠上的明珠;自然语言处理则是人工智能皇冠上的明珠”。微软全球执行副总裁沈向洋“人工智能的突破在自然语言理解,懂语言者得天下”。

大数据、人工智能技术发展已上升为国家战略,相关技术将成为推动行业增长的下一个引擎!国务院发文号召人工智能人才培养的重要意义与重大战略,人工智能人才培养作为技术发展的基础之一,如何在新的时代号召下寻求更大的发展与变革是当务之急!
2、平台概述
NLPIR大数据语义智能教学科研平台是大数据语义智能分析专业的教学科研综合平台。平台以自然语言理解为核心,结合北理工团队多年的科学研究与一线教学经验,以科学严谨的方式,致力于提升学员大数据与人工智能的教学培训、科学研究与工程实践的水平。
3、适用对象
NLPIR大数据语义智能教学科研平台适用对象主要包括三类:
1)职高及社科类专业、数据分析师
熟悉基本理论,掌握NLPIR语义智能分析的专业工具。
2)工科类专业学生、数据工程师
大数据与人工智能专业能力建设,掌握语义智能分析关键技术,可在应用实践中二次开发。
3)语义智能分析科研人员、数据科学家
深入理解大数据、人工智能理论,掌握自然语言理解关键技术,利用二次开发接口完成科研项目,并在具体研究点上进一步创新。
4、主要范畴
NLPIR大数据语义智能教学科研平台的主要范畴包括:
1)科学认知。培养学员大数据、人工智能那个与自然语言理解的科学认知观。
2)基础理论。基础理论包括机器学习、深度学习以及人工智能常见算法。
3)关键技术。平台关键技术以自然语言理解为基础,包括汉语分词、新词发现、关键词提取、文本分类聚类精准搜索、知识图谱以及其他相关技术。
4)工具平台。成熟的工具平台有:NLPIR语义搜索与挖掘平台、HadoopSparkHive等大数据平台和TensorFlow等人工智能平台。
5)实战应用。结合实际问题,提升语义智能实战应用能力和二次开发能力。
5、平台特色
Ø 科学体系
平台具有一套科学、完整的大数据、人工智能与自然语言理解知识体系,包括认知、理论、技术、工具、应用五大环节,并注重将原创的科研成果与实际应用结合。
Ø 实践主导
NLPIR大数据语义智能教学科研平台理念:超越纯理论教学,以应用实战导向。平台有3种形式的语言智能应用工具(在线演示、PC端软件、二次开发接口),汇聚了10个语义智能分析学生实验案例;和30个科研项目案例教学,让学员在时间应用中掌握知识。
Ø 精品资源
NLPIR大数据语义智能教学科研平台资源丰富多样,包括:5部专著与教材+32学时名师讲解视频+在线可视化演示平台、NLPIR十大功能客户端、云服务+10大实验+30项目案例。
Ø 一流师资
北京理工大学大数据搜索挖掘实验室师资队伍,20年自然语言理解科研经历,十余年高校教学与高端培训经验,先后获得钱伟长中文信息处理科学奖一等奖,省部级二等奖。
二、教学体系
1、教学体系
NLPIR大数据语义智能教学科研平台具有一套完善且丰富的教学体系,课程教材、视频教学、实训平台、实验验证和项目案例五位一体。
其中,课程教材包括1部教材、2部专著和2部译著,3部核心教材分别为:《大数据分析与应用》、《大数据搜索与挖掘》和《大数据大家谈》;视频教学包括名师专家32学时的一线教学高清视频;实训平台包括三大成熟的工具平台:NLPIR在线演示、NLPIR-Parser大数据语义分析挖掘平台和NLPIR二次开发组件;实验验证汇聚了十大核心实验案例:十九大报告主题分析、方文山高峰歌词智能比对、产品情感挖掘、敏感内容过滤和新闻热点话题发现等十大实验;项目案例部分精选了30余个实践案例赏析。
课程教材结合视频教学让学员感受生动的知识学习体验,成熟的实训平台结合海量实验案例让学员以实践为指导,在实际应用中学习并检验自己,还有经典项目案例实践,学院全方位真正实现教、学、践的完美结合。
2、内容大纲
NLPIR大数据语义智能教学科研平台教学内容丰富,主要围绕大数据、人工智能和自然语言理解三大核心领域展开,核心内容包括以下几个方面:
1)科学的大数据观
大数据的定义,科学发展渊源;如何科学看待大数据?如何把握大数据,分别从“知著”、“显微”、“晓义”三个层面阐述科学的大数据观。
2)大数据技术平台与架构
云计算技术与开源平台搭建;HadoopSpark等数据架构、计算范式与应用实践;TensorFlow深度学习平台。
3)机器学习与常用数据挖掘
常用机器学习算法:Bayes, SVM,最大熵、深度神经网络等;常用数据挖掘技术:关联规则挖掘、分类、聚类、奇异点分析;深度学习:CNN, RNN, LSTM, Attention模型,seq2seq模型。
4)大数据语义精准搜索
通用搜索引擎与大数据垂直业务的矛盾;大数据精准搜索的基本技术:快速增量在线倒排索引、结构化与非机构化数据融合、大数据排序算法、语义关联、自动缓存与优化机制;大数据精准搜索语法:邻近搜索、复合搜索、情感搜索、精准搜索;经典应用案例:国家电网、中国邮政搜索、国家标准搜索、维吾尔语搜索、内网文档搜索、舆情搜索;
5)非结构化大数据语义挖掘
语义理解基础:ICTCLAS与汉语分词;内容关键语义自动标引与词云自动生成;大数据聚类;大数据分类与信息过滤;大数据去重、自动摘要;情感分析与情绪计算;不良信息智能过滤.
6)知识图谱的大数据自动构建与应用                                 
知识图谱概念;知识点的自动发现;基于bootstrapping的知识大数据生成;
7)NLPIR智能语义平台
NLPIR智能语义分析在线云服务;NLPIR Parser语义分析平台实训;NLPIR智能语义二次开发接口与教程。
8)大数据应用案例剖析与综述。
国家电网大数据应用案例;新媒体传播创新与头条应用;公安非结构化大数据挖掘。
3、系列教材
四部核心专著:《大数据搜索与挖掘》、《大数据大家谈》、《信息检索:算法与启发式规则》和《自然语言理解》。
三、实训平台
NLPIR大数据语义智能在线演示平台由多名专注于大数据科学研究与工程应用融合领域的博士硕士,不断创新,倾力打造十余年。并分别荣获了2010年钱伟长中文信息处理科学技术奖一等奖,2002年国内973评测综合第一名,2003年国际SIGHAN分词大赛综合第一名。
NLPIR能够全方位多角度满足应用者对大数据文本的处理需求,包括大数据完整的技术链条:网络抓取、正文提取、中英文分词、词性标注、实体抽取、词频统计、关键词提取、语义信息抽取、文本分类、情感分析、语义深度扩展、繁简编码转换、自动注音、文本聚类等。
在线地址:http://ictclas.nlpir.org/nlpir/
四、科研开发
NLPIR大数据搜索与挖掘共享开发平台针对互联网内容处理的全技术链条的共享开发平台。15年专业研究与工程积累,提供应用软件及各平台下的二次开发包提供了用于技术二次开发的基础工具集。开发平台由多个中间件组成,各个中间件API可以无缝地融合到客户的各类复杂应用系统之中,可兼容WindowsLinuxAndroidMaemo5, FreeBSD等不同操作系统平台,可以供JavaCC#等各类开发语言使用。非商用永久免费。
核心功能包括:
搜索类:全文精准检索;
语言类:新词发现,分词标注,统计分析与术语翻译;关键词提取;
文档类:文本聚类及热点分析;分类过滤;自动摘要;文档去重;情感分析
下载地址:https://github.com/NLPIR-team/NLPIR
五、实验案例
NLPIR大数据语义智能平台引入海量实验资源,十大实验案例和30个经典作品赏析,汇集大数据、自然语言处理和人工智能领域最热应用案例,让学生在具体的应用实践中掌握知识与技能,形成以应用实践引导启发学习的实验环境。
十大实验案例包括:十九大报告的大数据语义智能分析、方文山与汪峰歌词智能对比挖掘、基于用电数据的大厦空置率预测、文章抄袭自动自动检测、微博用户画像与内容推荐、新闻热点话题的发现、人工智能领域近三年研究创新点对比与综合、垃圾邮件中犯罪线索的智能发现、产品点评情感综合判别和科技文献自动分类。
实验案例设计涉及各个应用领域,配套实验的有专业的实验过程说明书和实验视频,手把手教你做实验。
六、团队资质
1、人才优势
自然语言处理与信息检索共享平台(http://www.nlpir.org)由张华平博士发起,由北京理工大学网络搜索挖掘与安全实验室运营,具有多年的NLP(自然语言处理)IR(信息检索)领域技术的研究探索经验。平台人才资源丰富,核心团队包括博士7人、海归4人和资深技术工程师20人。
2、技术积累
北京理工大学具有国内领先的大数据研究基础与技术能力,具有20年专业积累,40万记录的用户支持。研究成果丰富,包括14个软件著作权、专利、获奖。为平台提供强大的技术支撑。
3、行业经验
我们已经跟华为,人民网,中央网信办,灵玖等单位建立了良好的应用合作关系,凭借这些平台多年的大数据应用积累,引入他们多年的项目经验和一线应用资源,为学员提供最具实践意义的实践资源。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|大数据论坛 ( 京ICP备10002193号-4  

GMT+8, 2018-1-17 01:24 , Processed in 0.143856 second(s), 28 queries , Gzip On.

Powered by Discuz! X3.1

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表