设为首页收藏本站

大数据论坛

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
查看: 224|回复: 0

跟着我复现Bug-- NLPIR_ParagraphProcess

[复制链接]
发表于 2017-1-11 21:20:15 | 显示全部楼层 |阅读模式
本帖最后由 蓝天百元 于 2017-1-11 21:23 编辑

UTF8编码时,NLPIR_ParagraphProcess 这个函数有错误。我专门做了图示,以容易理解。
一、先看正常情况
1、输入 '啊我' 两个字,勾选显示词性复选框,点击'分词按钮',显示 :    啊/y 我/yy 。正确
2、取消勾选框后再点击按钮,显示 :    啊 我 。中间有空格,正确

二、该看错误情况了,只修改一个字,把'啊'换成'鿋', 注意不是慈禧的禧,是一个不常用的汉字,是衤字旁,不是礻字旁,重复同样的操作

1、仍然勾选显示词性,点击按钮,显示 :    鿋/n 我/yy 。正确
2、取消勾选框,点击按钮,显示 :    鿋我 。分词结果错误了!中间缺少了空格

即:这个函数NLPIR_ParagraphProcess (const sParagraphUtf8char; bPOStagged:integer=1)的第二个参数只用于控制是否显示词性,但是参数是0时(不输出词性时)竟然会影响分词结果,输出结果错误。
不是所有汉字有错误,而是utf8里的部分汉字处理有错误!!请修改!


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|大数据论坛 ( 京ICP备10002193号-4  

GMT+8, 2017-7-21 00:43 , Processed in 0.269498 second(s), 27 queries , Gzip On.

Powered by Discuz! X3.1

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表