发布于 2016-06-13 03:49:48 | 186 次阅读 | 评论: 0 | 来源: 网友投递
jcseg 基于mmseg算法的中文分词器
jcseg是使用Java开发的一个开源的中文分词器,使用流行的mmseg算法实现。是一款独立的分词组建,不是针对lucene而开发,但是提供了最新版本的lucene和solr分词接口。
Jcseg 1.9.8 更新内容:
增加检索切分模式(SEARCH_MODE),实现细粒度切分,专业为搜索。
增加DictionaryFactory#createSingletonDictionary,用于创建单例词库。
将analyzer,elasticsearch接口词库更改为单例创建,节省内存,同时避免了多实例的下词库自动加载无法全局更新的问题。
提供对lucene,solr 6.0以上版本的支持,elasticsearch 2.3.1以上版本的支持。
增加JcsegAnalyzer5X如下构造方法方便lucene应用的打包发布:
JcsegAnalyzer5X(int mode, String proFile) JcsegAnalyzer5X(int mode, JcsegTaskConfig config) JcsegAnalyzer5X(int mode, JcsegTaskConfig config, ADictionary dic)
代码格式标准化,例如:4空格代替tab,花括号的换行等。
词库优化(去除些许无用词,完善部分词条词性定义)。
修复jcseg-server.properties#jcseg_global_setting名称错误, 更改为:jcseg_global_config。
修复JcsegServer#http_config设置bug和TokenizerController#pos拼写错误。