发布于 2014-12-02 02:02:39 | 447 次阅读 | 评论: 0 | 来源: 网友投递

这里有新鲜出炉的精品教程,程序狗速度看过来!

jieba 结巴分词

结巴分词是一个Python下的中文分词组件


结巴分词是一个Python下的中文分词组件

jiebaR 中文分词 0.3 版本发布,此版本更新内容如下:

编译改进

  • 通过 UBSAN 测试。

  • 修正 Mac 下的编译警告。

  • 完善跨平台支持,现支持 Windows、Linux、Mac、Solaris。

Bugs 修正

  • 修正 Windows 下的区域设置问题。

新功能和功能增强

  • 发布到 CRAN,简化安装流程。

install.packages("jiebaR") 
	library("jiebaR") 
	
  • 简化预处理文本的正则表达式,优化性能。

  • 新增快速模式,使用默认设置分词,自动加载 worker() 函数。

library(jiebaR) 
	qseg <= "江州市长江大桥参加了长江大桥的通车仪式" 
	
[1] "江州" "市长" "江大桥" "参加" "了" "长江大桥" "的"  
	[8] "通车" "仪式" 
	
  • 新增分词符号[。

library(jiebaR) 
	qseg[ "江州市长江大桥参加了长江大桥的通车仪式" ] 
	
  • 完善文档说明。

现在还可以查看这个 Shiny 演示应用。其他更新内容请看发行说明



历史版本 :
jiebaR 0.3 发布,R语言中文分词
jiebaR 0.1 发布,R语言中文分词
结巴分词 0.34 发布,Python 中文分词组件
结巴分词 0.33 发布,Python 中文分词组件
最新网友评论  共有(0)条评论 发布评论 返回顶部

Copyright © 2007-2017 PHPERZ.COM All Rights Reserved   冀ICP备14009818号  版权声明  广告服务