欧普下载是国内较新、较齐、较安全的软件下载基地!
当前位置:首页 ›› 其他软件 ›› 行业软件 ›› ictclas中文分词系统下载

ictclas中文分词系统 v2019官方版 附使用方法

ictclas分词系统[下载地址]
ictclas中文分词系统 v2019官方版 附使用方法

ictclas分词系统是一款简单好用的分词软件,主要用于编程行业的中文分词,具有词性标准、关键词提取、指纹提取、用户词典接口扩展等功能,适用于汉语言词法分析研究,需要的朋友快快下载使用吧!

ictclas中文分词系统 v2019官方版 附使用方法

主要功能

1.指纹提取

根据文章的内容,结构,词语间的关系,分析出能够表示该文章的语义指纹,使用数字序列表示。

2.分词粒度可调

可以控制分词结果的粒度。共享版本提供两种分词粒度,标准粒度和粗粒度,满足不同用户的需求。

3.用户词典接口扩展

用户可以动态增加、删除用户词典中的词,调节分词的效果。提高了用户词典使用的灵活性。

4.词性标注功能加强

多种标注级的选择,系统可供选择的标注级有:计算所一级标注级,计算所二级标注集,北大一级标注集,北大二级标注集。

5.关键词提取

自动抽取出能很好地代表文档主题的若干个词或短语。关键词抽取技术广泛应用于信息检索、文本分类/聚类、信息过滤、文档摘要等各种智能文本信息处理领域,具有很好的应用价值。

6.新词发现与自适应分词功能

从较长的文本内容中,基于信息交叉熵自动发现新特征语言,并自适应测试语料的语言概率分布模型,实现自适应分词。

7.微博分词功能:

对博主ID进行nr标示,对转发的会话进行自动分割标示(标示为ssession),URL以及Email进行自动标引。

ictclas分词系统使用说明

1、首先说一下,用户词典这个功能,因为比较实际,如果你不添加自己的词库,例如上面的例子“手机游戏”、“排行榜”等几个关键的词,最后产生的分词结果会很杂乱,到时候会看到“手”、“排行”、“榜”等单独的字块信息,这样处理起来会很乱。所以如下图把不重要的会产生干扰的词不断完善到词库里,减少后期的处理量。用户词就是需要的“需要添加的关键词”,自定义词性定义了这个词的属性,我习惯用英文的n,adj,adv什么的去标记,待会告诉你这个东西会出现在哪里。

ictclas中文分词系统 v2019官方版 附使用方法

2、接下来就是分词了。如下图,没有添加到过用户词库里的词就出现了“最”、“热”和“火”分开的结果,“手机游戏排行榜”这个词就作为n_newword里过滤结果。

ictclas中文分词系统 v2019官方版 附使用方法

然后你就可以把这些东西复制到自己的excel里,去做处理了(如何处理看你自己的excel或者编程的功底,请自行脑补)。下图是处理过的结果,这将近300个词的词根就这样出来了。

ictclas中文分词系统 v2019官方版 附使用方法

第二张表格是对应的处理完的各个词的分词结果,这个有些词根出来的结果(比如那一串的“免费”、“卡牌”)就能帮你确认这部分的相关词了,最终采用一个写title就行。

ictclas中文分词系统 v2019官方版 附使用方法

总结:来说说这样做的意义吧。

下载ictclas中文分词系统 v2019官方版 附使用方法
本地下载地址:
本地电信下载
本地电信下载
本地联通下载
本地联通下载
本地迅雷下载
本地迅雷下载
移动用户下载
移动用户下载

版权声明:本站提的序列号、注册码、注册机、补丁等均来自互联网,仅供学习交流之用,请在下载后24小时内删除。

猜您喜欢
相关文章
软件评论
请自觉遵守互联网相关政策法规,评论内容只代表网友观点,与本站立场无关!
    登录   注册