jcseg 基于mmseg算法的中文分词器

jcseg是使用Java开发的一个开源的中文分词器，使用流行的MMSeg算法实现。是一款独立的分词组建，不是针对Lucene而开发，但是提供了最新版本的lucene和Solr分词接口。

特点：

1。mmseg四种过滤算法，分词准确率达到了98.41%。
2。支持自定义词库。在jcseg源码中的Lexicon文件夹下，可以随便添加/删除/更改词库和词库内容，并且对词库进行了分类。
3。同义词匹配+分词拼音追加．词库整合了《现代汉语词典》和cc-cedict辞典中的词条，并且依据cc-cedict词典为词条标上了拼音，依据《中华同义词词典》为词条标上了同义词(尚未完成)。更改jcseg.propertIEs配置文档可以在分词的时候加入拼音和同义词到分词结果中。
4。中文数字和中文分数识别，例如："一百五十个人都来了，四十分之一的人。"中的"一百五十"和"四十分之一"。并且jcseg会自动将其转换为阿拉伯数字加入到分词结果中。如：150， 1/40。
5。支持中英混合词和英中混合词的识别。例如：B超, x射线, 卡拉ok, 奇都ktv。
6。更好的英文支持，电子邮件，网址，小数，分数，百分数，字母和标点组合词（例如C++, C#）的识别。
7。支持阿拉伯/中文数字基本单字单位的识别，例如2012年，五折，并且jcseg会将其转换为“5折”加入分词结果中。
8。自动圆角/半角，大小写转换。
9。特殊字母识别：例如：Ⅰ，Ⅱ
10。特殊数字识别：例如：①，⑩
11。配对标点内容提取：例如：最好的Java书《java编程思想》，‘畅想杯黑客技术大赛’，被《,‘,“,『标点标记的内容。
12。智能中文人名识别。中文人名识别正确率达94%以上。（可以维护lex-lname.lex，lex-dname-1.lex，lex-dname-2.lex来提高准确率）。
13。自动中英文停止词过滤功能（需要在jcseg.properties中开启该选项，lex-stopwords.lex为停止词词库）。
14。词库更新自动加载功能, 开启一个守护线程随时检测词库的更新并且加载.

发布与更新

Jcseg 2.2.0 发布，Java 轻量级开源自然语言处理包: Jcseg是基于mmseg算法的一个轻量级中文分词器，同时集成了关键字提取，关键短语提取，关键句子提取和文章自动摘要等功能，并且提供了一个基于Jetty的web服务器，方便各大语言直接http调用，同时提供了最新版本的lucene，solr和elasticsearch的分词接口！Jcseg 2.2.0更新内容如下：检索模式SearchSeg增加粒度控制，切分单字
发布于 2017-09-06 06:51:06 | 145 次阅读
Jcseg 2.1.1 发布，Java 轻量级开源自然语言处理包: Jcseg 2.1.1 发布了。Jcseg是基于mmseg算法的一个轻量级中文分词器，同时集成了关键字提取，关键短语提取，关键句子提取和文章自动摘要等功能，并且提供了一个基于Jetty的web服务器，方便各大语言直接http调用，同时提供了最新版本的lucene，solr和elasticsearch的分词接口！ Jcseg 2.1.1 更新内容：
发布于 2017-04-05 03:25:38 | 99 次阅读
Jcseg 2.1.0 发布 - Java 开源中文分词器: Jcseg是基于mmseg算法的一个轻量级中文分词器，同时集成了关键字提取，关键短语提取，关键句子提取和文章自动摘要等功能，并且提供了一个基于Jetty的web服务器，方便各大语言直接http调用，同时提供了最新版本的lucene，solr和elasticsearch的分词接口！Jcseg 2.1.0更新内容：一，新增功能：01，词库增加词条实体标识和识别
发布于 2017-01-09 03:18:01 | 147 次阅读
Jcseg 2.0.0 发布，自定义词库开发支持优化: Jcseg是基于mmseg算法的一个轻量级中文分词器，同时集成了关键字提取，关键短语提取，关键句子提取和文章自动摘要等功能，并且提供了一个基于Jetty的web服务器，方便各大语言直接http调用，同时提供了最新版本的lucene，solr和elasticsearch的分词接口！ Jcseg 2.0.0更新如下：
发布于 2016-11-04 03:56:55 | 267 次阅读
Jcseg 1.9.9 发布，Maven 仓库上传+无痛安装与测试: Jcseg是基于mmseg算法的一个轻量级中文分词器，同时集成了关键字提取，关键短语提取，关键句子提取和文章自动摘要等功能，并且提供了一个基于Jetty的web服务器，方便各大语言直接http调用，同时提供了最新版本的lucene，solr和elasticsearch的分词接口！Jcseg 1.9.9更新如下：1. 上传到了maven中心仓库，依赖地址如下（终于
发布于 2016-07-07 07:28:51 | 339 次阅读
Jcseg 1.9.8 发布，新增检索模式/细粒度切分: Jcseg是基于mmseg算法的一个轻量级开源中文分词器，同时集成了关键字提取，关键短语提取，关键句子提取和文章自动摘要等功能，并且提供了最新版本的lucene, solr, elasticsearch的分词接口。Jcseg 1.9.8 更新内容：增加检索切分模式（SEARCH_MODE），实现细粒度切分，专业为搜索。增加DictionaryFactory#createSingletonDic
发布于 2016-06-13 03:49:48 | 187 次阅读
Jcseg 新提交提供对 lucene-6.0.0，solr-6.0.0 和 elasticsearch-2.3.1 的支持: 收到很多邮件提及要Jcseg对最新版本的lucene，solr，elasticsearch的支持，昨儿发布了新的提交，Jcseg主版本号未变，因为1.9.8的功能还在开发，特此通知！ Jcseg新提交： 1，提供了对lucene-6.0.0和solr-6.0.0的支持。2，提供了对elasticse
发布于 2016-04-20 06:57:48 | 319 次阅读
Jcseg-1.9.7 发布 - Restful API+文章自动摘要/关键字/短语/句子提取: Jcseg是基于mmseg算法的一个轻量级开源中文分词器，同时集成了关键字提取，关键短语提取，关键句子提取和文章自动摘要等功能，并且提供了最新版本的lucene, solr, elasticsearch的分词接口， Jcseg自带了一个 jcseg.properties文件用于快速配置而得到适合不同场合的分词应用，例如：最大匹配词长，是否开启中文人名识
发布于 2015-12-09 03:46:57 | 512 次阅读
Jcseg-1.9.6 发布，词性补全+lucene/solr/elasticsearch 最新版本支持: Jcseg[dʒɛ\'ke\'sɛ]是使用Java开发的一个轻量级中文分词器，使用流行的mmseg算法实现，并且提供了最高版本的lucene-5.1.0（发布时我发现5.2.0又发布了），solr-5.1.0，elasticsearch-1.5.2的分词接口． Jcseg-1.9.6： 1. mmseg过滤器的lazyInitRace bug
发布于 2015-06-09 03:19:04 | 431 次阅读
jcseg-1.9.5 发布 - Java轻量级开源中文分词器-elasticsearch分词插件: Jcseg[dʒɛ\'ke\'sɛ]是使用Java开发的一个开源中文分词器，使用流行的mmseg算法实现，并且提供了最高版本的lucene-4.9.0，solr-4.9.0，elasticsearch-1.3.2的分词接口． jcseg-1.9.5:1. 修复部分英中混合词的同义词无法追加的bug.2. 增加jcseg-elastics
发布于 2014-08-28 02:31:02 | 428 次阅读

jcseg 基于mmseg算法的中文分词器

后端技术

前端技术

数据库

热门框架

常用IDE

其他