jcseg是使用Java开发的一个开源的中文分词器,使用流行的MMSeg算法实现。是一款独立的分词组建,不是针对Lucene而开发,但是提供了最新版本的lucene和Solr分词接口。
特点:
1。mmseg四种过滤算法,分词准确率达到了98.41%。
2。支持自定义词库。在jcseg源码中的Lexicon文件夹下,可以随便添加/删除/更改词库和词库内容,并且对词库进行了分类。
3。同义词匹配+分词拼音追加.词库整合了《现代汉语词典》和cc-cedict辞典中的词条,并且依据cc-cedict词典为词条标上了拼音,依据《中华同义词词典》为词条标上了同义词(尚未完成)。更改jcseg.propertIEs配置文档可以在分词的时候加入拼音和同义词到分词结果中。
4。中文数字和中文分数识别,例如:"一百五十个人都来了,四十分之一的人。"中的"一百五十"和"四十分之一"。并且jcseg会自动将其转换为阿拉伯数字加入到分词结果中。如:150, 1/40。
5。支持中英混合词和英中混合词的识别。例如:B超, x射线, 卡拉ok, 奇都ktv。
6。更好的英文支持,电子邮件,网址,小数,分数,百分数,字母和标点组合词(例如C++, C#)的识别。
7。支持阿拉伯/中文数字基本单字单位的识别,例如2012年,五折,并且jcseg会将其转换为“5折”加入分词结果中。
8。自动圆角/半角,大小写转换。
9。特殊字母识别:例如:Ⅰ,Ⅱ
10。特殊数字识别:例如:①,⑩
11。配对标点内容提取:例如:最好的Java书《java编程思想》,‘畅想杯黑客技术大赛’,被《,‘,“,『标点标记的内容。
12。智能中文人名识别。中文人名识别正确率达94%以上。(可以维护lex-lname.lex,lex-dname-1.lex,lex-dname-2.lex来提高准确率)。
13。自动中英文停止词过滤功能(需要在jcseg.properties中开启该选项,lex-stopwords.lex为停止词词库)。
14。词库更新自动加载功能, 开启一个守护线程随时检测词库的更新并且加载.
发布于 2017-09-06 06:51:06 | 144 次阅读
发布于 2017-04-05 03:25:38 | 99 次阅读
发布于 2017-01-09 03:18:01 | 142 次阅读
发布于 2016-11-04 03:56:55 | 260 次阅读
发布于 2016-07-07 07:28:51 | 338 次阅读
发布于 2016-06-13 03:49:48 | 186 次阅读
发布于 2016-04-20 06:57:48 | 313 次阅读
发布于 2015-12-09 03:46:57 | 509 次阅读
发布于 2015-06-09 03:19:04 | 431 次阅读
发布于 2014-08-28 02:31:02 | 427 次阅读