发布于 2014-12-02 02:02:39 | 447 次阅读 | 评论: 0 | 来源: 网友投递
jieba 结巴分词
结巴分词是一个Python下的中文分词组件
结巴分词是一个Python下的中文分词组件
jiebaR 中文分词 0.3 版本发布,此版本更新内容如下:
通过 UBSAN 测试。
修正 Mac 下的编译警告。
完善跨平台支持,现支持 Windows、Linux、Mac、Solaris。
修正 Windows 下的区域设置问题。
发布到 CRAN,简化安装流程。
install.packages("jiebaR") library("jiebaR")
简化预处理文本的正则表达式,优化性能。
新增快速模式,使用默认设置分词,自动加载 worker() 函数。
library(jiebaR) qseg <= "江州市长江大桥参加了长江大桥的通车仪式"
[1] "江州" "市长" "江大桥" "参加" "了" "长江大桥" "的" [8] "通车" "仪式"
新增分词符号[。
library(jiebaR) qseg[ "江州市长江大桥参加了长江大桥的通车仪式" ]
完善文档说明。
现在还可以查看这个 Shiny 演示应用。其他更新内容请看发行说明。