Jcseg 2.1.1 发布，Java 轻量级开源自然语言处理包

发布于 2017-04-05 03:25:38 | 99 次阅读 | 评论: 0 | 来源: 网友投递

jcseg 基于mmseg算法的中文分词器

jcseg是使用Java开发的一个开源的中文分词器，使用流行的mmseg算法实现。是一款独立的分词组建，不是针对lucene而开发，但是提供了最新版本的lucene和solr分词接口。

Jcseg 2.1.1 发布了。

Jcseg 2.1.1 更新内容：

优化JcsegTokenizer的实现：clearAttributes改为到reset中调用，去除end()的调用，方便TokenStream外引用做相关统计查询工作。
修复Word#toString中json字符串的特殊字符转义bug，增加"和的预处理。 reported by https://github.com/luohuan02
修复《》之间五内容切出空字符串的bug。 reported by http://git.oschina.net/fige
NLP切分模式增加标准的datetime实体识别。例如：2017/03/07，2017-03-07。
NLP切分模式增加中文通用datetime实体识别。例如：2017年3月7日，明天下午4点半，下周二上午８点４５分等，明天凌晨2点一刻。
NLP切分模式增加混合dateime实体识别。例如：明天下午15:45，下周二10:30，2017-03-15下午三点半，2017/12/24下午15:45。
优化了IWord词条对象的可能的并发访问问题，目前主要是出现在开启词库更新自动加载的情况下IWord.clone()调用时，更新线程和切分线程的竞争。

datetime实体识别测试demo（不同datetime部分使用空格分开，方便二次处理）：

jcseg~tokenzier:NLP>> 2017年3月2日  分词结果：  2017年 3月 2日/t/datetime.ymd  Done, total:9, tokens:1, in 0.00105sec  jcseg~tokenzier:NLP>> 2017年03月07日  分词结果：  2017年 03月 07日/t/datetime.ymd  Done, total:11, tokens:1, in 0.00000sec  jcseg~tokenzier:NLP>> 明天下午4点半  分词结果：  明天 下午 4点半/t/datetime.dahi  Done, total:7, tokens:1, in 0.00000sec  jcseg~tokenzier:NLP>> 下周二上午8点45分  分词结果：  下周二 上午 8点 45分/t/datetime.dahi  Done, total:10, tokens:1, in 0.00000sec  jcseg~tokenzier:NLP>> 2017年03月08日下午15点半去见一个投资人  分词结果：  2017年 03月 08日 下午 15点半/t/datetime.ymdahi 去/q/null 见/n/null 一个/q/null 投资人/n/null  Done, total:24, tokens:5, in 0.00000sec  jcseg~tokenzier:NLP>> 明天凌晨2点一刻产品升级开始  分词结果：  明天 凌晨 2点一刻/t/datetime.dahi 产品/n/null 升级/vn/null 开始/n/null  Done, total:14, tokens:4, in 0.00000sec  jcseg~tokenzier:NLP>> 明天下午15:45  分词结果：  明天 下午 15点 45分/t/datetime.dahi  Done, total:9, tokens:1, in 0.00000sec  jcseg~tokenzier:NLP>> 2017/03/15下午16:45:36开始生日party  分词结果：  2017/03/15 下午 16点 45分 36秒/t/datetime.ymdahis 开始/n/null 生日/n/null party/en/null  Done, total:29, tokens:4, in 0.00210sec

下载地址：

1，大码云：http://git.oschina.net/lionsoul/jcseg/tree/v2.1.1-release/

2，github：https://github.com/lionsoul2014/jcseg/tree/v2.1.1-release

3，maven

历史版本 :
Jcseg 2.2.0 发布，Java 轻量级开源自然语言处理包
Jcseg 2.1.1 发布，Java 轻量级开源自然语言处理包
Jcseg 2.1.0 发布 - Java 开源中文分词器
Jcseg 2.0.0 发布，自定义词库开发支持优化
Jcseg 1.9.9 发布，Maven 仓库上传+无痛安装与测试
Jcseg 1.9.8 发布，新增检索模式/细粒度切分
Jcseg 新提交提供对 lucene-6.0.0，solr-6.0.0 和 elasticsearch-2.3.1 的支持
Jcseg-1.9.7 发布 - Restful API+文章自动摘要/关键字/短语/句子提取
Jcseg-1.9.6 发布，词性补全+lucene/solr/elasticsearch 最新版本支持
jcseg-1.9.5 发布 - Java轻量级开源中文分词器-elasticsearch分词插件

Jcseg 2.1.1 发布，Java 轻量级开源自然语言处理包

jcseg 基于mmseg算法的中文分词器

后端技术

前端技术

数据库

热门框架

常用IDE

其他