MMSeg4j 基于 Chih-Hao Tsai 的 MMSeg 算法实现的中文分词器,并实现 Lucene 的 analyzer 和 Solr 的TokeNizerFacTory 以方便在Lucene和Solr中使用。

MMSEG是中文分词中一个常见的、基于词典的分词算法(作者主页:HTTP://chtsai.org/index_tw.html),简单、效果相对较好。由于它的简易直观性,实现起来不是很复杂,运行速度也比较快。

MMSeg 算法有两种分词方法:Simple和CompLex,都是基于正向最大匹配。Complex 加了四个规则过虑。官方说:词语的正确识别率达到了 98.41%。mmseg4j 已经实现了这两种分词算法。

 


Copyright © 2007-2017 PHPERZ.COM All Rights Reserved   冀ICP备14009818号  版权声明  广告服务