发布于 2016-11-04 03:56:55 | 260 次阅读 | 评论: 0 | 来源: 网友投递
jcseg 基于mmseg算法的中文分词器
jcseg是使用Java开发的一个开源的中文分词器,使用流行的mmseg算法实现。是一款独立的分词组建,不是针对lucene而开发,但是提供了最新版本的lucene和solr分词接口。
Jcseg 2.0.0更新如下:
1. 增加自定义词库开发文档(查看README)。
2. 完善关键字提取,关键短语提取,关键句子,自动摘要提取的自定义开发文档(查看README)。
3. 文档增加词库自动加载lex-autoload.todo权限提示(启动时检测权限,如果权限不够会提示)
4. DictionaryFactory增加如下两个接口方便自定义词库开发
createDefaultDictionary(JcsegTaskConfig config, boolean sync, boolean loadDic) createSingletonDictionary(JcsegTaskConfig config, boolean loadDic) /* * loadDic 用于控制工厂是否自动从config检测并且加载词库,兼容旧版本的默认是自动监测加载 * 方便用户自定义加载自己的设置的词库 */
5. 修复了并发情况下IWord#position可能的污染bug,这个bug会导致lucene的高亮错误。
6. 优化了复杂英文组合的二次切分,确保返回词条后者的startOffset大于等于前者的,这个bug也会导致lucene默认的高亮机制错误。
maven仓库同步中,下载/git仓库:https://github.com/lionsoul2014/jcseg