发布于 2015-12-09 03:46:57 | 509 次阅读 | 评论: 0 | 来源: 网友投递

这里有新鲜出炉的精品教程,程序狗速度看过来!

jcseg 基于mmseg算法的中文分词器

jcseg是使用Java开发的一个开源的中文分词器,使用流行的mmseg算法实现。是一款独立的分词组建,不是针对lucene而开发,但是提供了最新版本的lucene和solr分词接口。


Jcseg是基于mmseg算法的一个轻量级开源中文分词器,同时集成了关键字提取,关键短语提取,关键句子提取和文章自动摘要等功能,并且提供了最新版本的lucene, solr, elasticsearch的分词接口, Jcseg自带了一个 jcseg.properties文件用于快速配置而得到适合不同场合的分词应用,例如:最大匹配词长,是否开启中文人名识别,是否追加拼音,是否追加同义词等!

Jcseg-1.9.7:

1. 词库优化:增加新词,去掉一些无用词,部分词条词性优化。

2. 增加文章关键字提取:基于textRank算法。

3. 增加文章关键短语提取:基于textRank算法。

4. 增加文章关键句子/文章摘要提取:基于BM25+textRank算法。

5. 增加jcseg-server模块:嵌入jetty,提供了一个高性能的服务器,给关键字提取,关键短语提取,关键句子提取,文章摘要提取,中文分词都提供了restful api,并且标准为json结果输出! [详细文档]

6. 终端测试程序增加关键字/关键短语/关键句子/摘要提取测试项。

1.9.7-release版本下载

1.9.7开发帮助文档

感谢大家的支持与关注,Happy Jcseg!



历史版本 :
Jcseg 2.2.0 发布,Java 轻量级开源自然语言处理包
Jcseg 2.1.1 发布,Java 轻量级开源自然语言处理包
Jcseg 2.1.0 发布 - Java 开源中文分词器
Jcseg 2.0.0 发布,自定义词库开发支持优化
Jcseg 1.9.9 发布,Maven 仓库上传+无痛安装与测试
Jcseg 1.9.8 发布,新增检索模式/细粒度切分
Jcseg 新提交提供对 lucene-6.0.0,solr-6.0.0 和 elasticsearch-2.3.1 的支持
Jcseg-1.9.7 发布 - Restful API+文章自动摘要/关键字/短语/句子提取
Jcseg-1.9.6 发布,词性补全+lucene/solr/elasticsearch 最新版本支持
jcseg-1.9.5 发布 - Java轻量级开源中文分词器-elasticsearch分词插件
最新网友评论  共有(0)条评论 发布评论 返回顶部

Copyright © 2007-2017 PHPERZ.COM All Rights Reserved   冀ICP备14009818号  版权声明  广告服务