RMMSeg 是一个基于MMSeg中文分词算法的Ruby中文分词器

MMSeg 算法是由 Chih-Hao Tsai 提出的一种基于最大匹配的分词算法。算法以最大匹配为基础,通过几条规则的修正,达到了很高的精确度。按照作者的说法,在一个 1013 的词的测试输入中,词语的正确识别率达到了 98.41% 。下面我简单地介绍一下 MMSEG 算法,更详细的介绍可以参考 Chih-Hao Tsai 的文章。

MMSEG 算法主要分为两种:simple 和 compLex 。simple 算法就是前面提到的最简单的正向最大匹配算法。为了解决 simple 算法的不足,MMSEG 又提供了另一种选择:complex 算法。该算法使用了 Chen K. J. 和 Liu S. H. 于 1992 年在 Word identification for Mandarin Chinese sentences 中提出的一种最大匹配算法的变种。


Copyright © 2007-2017 PHPERZ.COM All Rights Reserved   冀ICP备14009818号  版权声明  广告服务