imdict-chinese-analyzer 中文分词模块

imdict-chinese-analyzer 是 imdict智能词典的智能中文分词模块，算法基于隐马尔科夫模型(Hidden Markov Model, HMM)，是中国科学院计算技术研究所的ICTCLAS中文分词程序的重新实现（基于Java），可以直接为Lucene搜索引擎提供简体中文分词支持。

主要特点：

1. 完全UNi CODE支持

分词核心模块完全采用Unicode编码，无须各种汉字编码的转换，极大的提升了分词的效率。

2. 提升搜索效率

根据imdict智能词典的实践，在有智能中文分词的情况下，索引文件比没有中文分词的索引文件小1/3

3. 提高搜索准确度

imdict-chinese-analyzer采用了HHMM分词模型，极大的提高了分词的准确率，在此基础上的搜索，比对汉字逐个切分要准确得多！

4. 更高效的数据结构

为了提高效率，针对常用中文检索的应用场景，imdict-chinese-analyzer对一些不必要的功能进行了删减，例如词性标注、人名识别、时间识别等等。另外还修改了算法的数据结构，在内存占用量缩减到1/3的情况下把效率提升了数倍。

imdict-chinese-analyzer 中文分词模块

后端技术

前端技术

数据库

热门框架

常用IDE

其他