发布于 2016-07-30 23:47:46 | 104 次阅读 | 评论: 0 | 来源: 网友投递
Ansj 中文分词
这是一个ictclas的java实现.基本上重写了所有的数据结构和算法.词典是用的开源版的ictclas所提供的.并且进行了部分的人工优化
更新内容:
需改歧义词典的格式,修复%作为量词存在
对新词的新词发现提供了词性分析功能,不再词性全部标注为nw
重新训练新词发现模型,针对机构名做了大量调优,
测试地址:http://www.nlpcn.org/demo.jsp