jcseg 基于mmseg算法的中文分词器

jcseg是使用Java开发的一个开源的中文分词器,使用流行的MMSeg算法实现。是一款独立的分词组建,不是针对Lucene而开发,但是提供了最新版本的lucene和Solr分词接口。

特点:

1。mmseg四种过滤算法,分词准确率达到了98.41%。
2。支持自定义词库。在jcseg源码中的Lexicon文件夹下,可以随便添加/删除/更改词库和词库内容,并且对词库进行了分类。
3。同义词匹配+分词拼音追加.词库整合了《现代汉语词典》和cc-cedict辞典中的词条,并且依据cc-cedict词典为词条标上了拼音,依据《中华同义词词典》为词条标上了同义词(尚未完成)。更改jcseg.propertIEs配置文档可以在分词的时候加入拼音和同义词到分词结果中。
4。中文数字和中文分数识别,例如:"一百五十个人都来了,四十分之一的人。"中的"一百五十"和"四十分之一"。并且jcseg会自动将其转换为阿拉伯数字加入到分词结果中。如:150, 1/40。
5。支持中英混合词和英中混合词的识别。例如:B超, x射线, 卡拉ok, 奇都ktv。
6。更好的英文支持,电子邮件,网址,小数,分数,百分数,字母和标点组合词(例如C++, C#)的识别。
7。支持阿拉伯/中文数字基本单字单位的识别,例如2012年,五折,并且jcseg会将其转换为“5折”加入分词结果中。
8。自动圆角/半角,大小写转换。
9。特殊字母识别:例如:Ⅰ,Ⅱ
10。特殊数字识别:例如:①,⑩
11。配对标点内容提取:例如:最好的Java书《java编程思想》,‘畅想杯黑客技术大赛’,被《,‘,“,『标点标记的内容。
12。智能中文人名识别。中文人名识别正确率达94%以上。(可以维护lex-lname.lex,lex-dname-1.lex,lex-dname-2.lex来提高准确率)。
13。自动中英文停止词过滤功能(需要在jcseg.properties中开启该选项,lex-stopwords.lex为停止词词库)。
14。词库更新自动加载功能, 开启一个守护线程随时检测词库的更新并且加载.

Jcseg 2.2.0 发布,Java 轻量级开源自然语言处理包
Jcseg是基于mmseg算法的一个轻量级中文分词器,同时集成了关键字提取,关键短语提取,关键句子提取和文章自动摘要等功能,并且提供了一个基于Jetty的web服务器,方便各大语言直接http调用,同时提供了最新版本的lucene,solr和elasticsearch的分词接口!Jcseg 2.2.0更新内容如下:检索模式SearchSeg增加粒度控制,切分单字

发布于 2017-09-06 06:51:06 | 144 次阅读

Jcseg 2.1.1 发布,Java 轻量级开源自然语言处理包
Jcseg 2.1.1 发布了。Jcseg是基于mmseg算法的一个轻量级中文分词器,同时集成了关键字提取,关键短语提取,关键句子提取和文章自动摘要等功能,并且提供了一个基于Jetty的web服务器,方便各大语言直接http调用,同时提供了最新版本的lucene,solr和elasticsearch的分词接口! Jcseg 2.1.1 更新内容:

发布于 2017-04-05 03:25:38 | 99 次阅读

Jcseg 2.1.0 发布 - Java 开源中文分词器
Jcseg是基于mmseg算法的一个轻量级中文分词器,同时集成了关键字提取,关键短语提取,关键句子提取和文章自动摘要等功能,并且提供了一个基于Jetty的web服务器,方便各大语言直接http调用,同时提供了最新版本的lucene,solr和elasticsearch的分词接口!Jcseg 2.1.0更新内容:一,新增功能:01,词库增加词条实体标识和识别

发布于 2017-01-09 03:18:01 | 142 次阅读

Jcseg 2.0.0 发布,自定义词库开发支持优化
    Jcseg是基于mmseg算法的一个轻量级中文分词器,同时集成了关键字提取,关键短语提取,关键句子提取和文章自动摘要等功能,并且提供了一个基于Jetty的web服务器,方便各大语言直接http调用,同时提供了最新版本的lucene,solr和elasticsearch的分词接口!    Jcseg 2.0.0更新如下:   

发布于 2016-11-04 03:56:55 | 260 次阅读

Jcseg 1.9.9 发布,Maven 仓库上传+无痛安装与测试
Jcseg是基于mmseg算法的一个轻量级中文分词器,同时集成了关键字提取,关键短语提取,关键句子提取和文章自动摘要等功能,并且提供了一个基于Jetty的web服务器,方便各大语言直接http调用,同时提供了最新版本的lucene,solr和elasticsearch的分词接口!Jcseg 1.9.9更新如下:1. 上传到了maven中心仓库,依赖地址如下(终于

发布于 2016-07-07 07:28:51 | 338 次阅读

Jcseg 1.9.8 发布,新增检索模式/细粒度切分
Jcseg是基于mmseg算法的一个轻量级开源中文分词器,同时集成了关键字提取,关键短语提取,关键句子提取和文章自动摘要等功能,并且提供了最新版本的lucene, solr, elasticsearch的分词接口。Jcseg 1.9.8 更新内容:增加检索切分模式(SEARCH_MODE),实现细粒度切分,专业为搜索。增加DictionaryFactory#createSingletonDic

发布于 2016-06-13 03:49:48 | 186 次阅读

Jcseg 新提交提供对 lucene-6.0.0,solr-6.0.0 和 elasticsearch-2.3.1 的支持
收到很多邮件提及要Jcseg对最新版本的lucene,solr,elasticsearch的支持,昨儿发布了新的提交,Jcseg主版本号未变,因为1.9.8的功能还在开发,特此通知! Jcseg新提交: 1,提供了对lucene-6.0.0和solr-6.0.0的支持。2,提供了对elasticse

发布于 2016-04-20 06:57:48 | 313 次阅读

Jcseg-1.9.7 发布 - Restful API+文章自动摘要/关键字/短语/句子提取
Jcseg是基于mmseg算法的一个轻量级开源中文分词器,同时集成了关键字提取,关键短语提取,关键句子提取和文章自动摘要等功能,并且提供了最新版本的lucene, solr, elasticsearch的分词接口, Jcseg自带了一个 jcseg.properties文件用于快速配置而得到适合不同场合的分词应用,例如:最大匹配词长,是否开启中文人名识

发布于 2015-12-09 03:46:57 | 509 次阅读

Jcseg-1.9.6 发布,词性补全+lucene/solr/elasticsearch 最新版本支持
Jcseg[dʒɛ\'ke\'sɛ]是使用Java开发的一个轻量级中文分词器,使用流行的mmseg算法实现,并且提供了最高版本的lucene-5.1.0(发布时我发现5.2.0又发布了 ),solr-5.1.0,elasticsearch-1.5.2的分词接口. Jcseg-1.9.6: 1. mmseg过滤器的lazyInitRace bug

发布于 2015-06-09 03:19:04 | 431 次阅读

jcseg-1.9.5 发布 - Java轻量级开源中文分词器-elasticsearch分词插件
Jcseg[dʒɛ\'ke\'sɛ]是使用Java开发的一个开源中文分词器,使用流行的mmseg算法实现,并且提供了最高版本的lucene-4.9.0,solr-4.9.0,elasticsearch-1.3.2的分词接口. jcseg-1.9.5:1. 修复部分英中混合词的同义词无法追加的bug.2. 增加jcseg-elastics

发布于 2014-08-28 02:31:02 | 427 次阅读


Copyright © 2007-2017 PHPERZ.COM All Rights Reserved   冀ICP备14009818号  版权声明  广告服务