Sphinx系列文章SCWS中文分词

发布于 2016-01-05 01:43:41 | 229 次阅读 | 评论: 0 | 来源: PHPERZ

SCWS 简易中文分词系统

SCWS 是 Simple Chinese Word Segmentation 的首字母缩写（即：简易中文分词系统）。这是一套基于词频词典的机械式中文分词引擎，它能将一整段的中文文本基本正确地切分成词。词是中文的最小语素单位，但在书写时并不像英语会在词之间用空格分开，所以如何准确并快速分词一直是中文分词的攻关难点。

软件清单

SCWS： 1.2.2，下载
XDB字典： 下载

安装

For Mac / Linux

请注意，我的系统是Mac OS X 10.11.2

假设你已经下载好了上面的软件。

第一步：编译和安装

# 解压
➜  tar -xvf scws-1.2.2.tar.bz2 

# 编译和安装 scws
./configure --prefix=/usr/local/Cellar/scws # --preifx=[安装路径]
make -j4
make install

# 编译和安装 php-scws
➜  cd phpext
➜  phpize
➜  ./configure --with-scws=/usr/local/Cellar/scws --with-php-config=/usr/local/Cellar/php56/5.6.16/bin/php-config
➜  make -j4
➜  make install
# 输出
Installing shared extensions: /usr/local/Cellar/php56/5.6.16/lib/php/extensions/debug-non-zts-20131226/

这说明 php-sces 扩展被安装到了，/usr/local/Cellar/php56/5.6.16/lib/php/extensions/debug-non-zts-20131226/ 路径下。然后启用这个 PHP 模块：

# 两种方法：
# 1.直接在 php.ini 中配置；2.写成单独的配置文件（前提是启用了加载附加 .ini 配置文件这个功能）
# 配置内容都一样：
[scws]
extension = "/usr/local/Cellar/php56/5.6.16/lib/php/extensions/debug-non-zts-20131226/scws.so"
scws.default.charset = utf-8
scws.default.fpath = "/usr/local/Cellar/scws/etc"

解释一下：
extension: 模块链接库路径
scws.default.charset：scws 模块执行时默认编码集
scws.default.fpath：scws 配置文件路径

重启PHP，看看模块是否加载成功：

➜  kill -USR2 311
➜  php -m | grep scws
# 输出
scws

第二步：词库

# 解压词库
➜  tar -xvf scws-dict-chs-utf8.tar.bz2
# 输出
x dict.utf8.xdb

将词库移动至安装 scws 的 etc 目录下：

➜  mv dict.utf8.xdb /usr/local/Cellar/scws/etc

测试安装是否成功

<?php
header('Content-type: text/html; charset=utf-8');

if (extension_loaded('scws')) {
    $module = 'scws';
    $funcs  = get_extension_funcs($module);
    echo "模块包含以下函数：\n";
    echo "---------------------------------------\n";
    print_r($funcs);
    echo "---------------------------------------\n";
    echo "模块版本：\n";
    echo scws_version();
} else {
    echo '模块未找到！<br>';
}

输出：

模块包含以下函数：
---------------------------------------
Array
(
    [0] => scws_open
    [1] => scws_new
    [2] => scws_close
    [3] => scws_set_charset
    [4] => scws_add_dict
    [5] => scws_set_dict
    [6] => scws_set_rule
    [7] => scws_set_ignore
    [8] => scws_set_multi
    [9] => scws_set_duality
    [10] => scws_send_text
    [11] => scws_get_result
    [12] => scws_get_tops
    [13] => scws_has_word
    [14] => scws_get_words
    [15] => scws_version
)
---------------------------------------
模块版本：
SCWS (Module version:0.2.2, Library version:1.2.2) - by hightman%

SCWS 自带函数详解

mixed scws_new(void)

功能： 创建并返回一个 SimpleCWS 类操作对象。

返回值： 成功返回类操作句柄，失败返回 false。

mixed scws_open(void)

功能： 创建并返回一个分词操作句柄。

返回值： 成功返回 scws 操作句柄，失败返回 false。

bool scws_close(resource scws_handle)

功能： 关闭一个已打开的 scws 分词操作句柄。

参数： scws_handle 即之前由 scws_open 打开的返回值。

返回值： 始终为 true

bool scws_set_charset(resource scws_handle, string charset)

功能： 设定分词词典、规则集、欲分文本字符串的字符集。

参数： charset 要新设定的字符集，只支持 utf8 和 gbk。（默认为 gbk，utf8不要写成utf-8）。
返回值： 始终为 true

bool scws_add_dict(resource scws_handle, string dict_path [, int mode])

功能： 添加分词所用的词典，新加入的优先查找。

参数： dict_path 词典的路径，可以是相对路径或完全路径（遵循安全模式下的 open_basedir）。

参数： mode 可选，表示加载的方式，其值有：

- SCWS_XDICT_TXT  表示要读取的词典文件是文本格式，可以和后2项结合用
- SCWS_XDICT_XDB  表示直接读取 xdb 文件（此为默认值）
- SCWS_XDICT_MEM  表示将 xdb 文件全部加载到内存中，以 XTree 结构存放，可用异或结合另外2个使用。

返回值： 成功返回 true 失败返回 false

bool scws_set_dict(resource scws_handle, string dict_path [, int mode])

功能： 设定分词所用的词典并清除已存在的词典列表

参数： dict_path 词典的路径，可以是相对路径或完全路径（遵循安全模式下的 open_basedir）。
参数： mode 可选，表示加载的方式。参见 scws_add_dict

返回值： 成功返回 true 失败返回 false

bool scws_set_rule(resource scws_handle, string rule_path)

功能： 设定分词所用的新词识别规则集（用于人名、地名、数字时间年代等识别）。

参数： rule_path 规则集的路径，可以是相对路径或完全路径（遵循安全模式下的 open_basedir）。
参数： mode 表示加载的方式。参见 scws_add_dict

返回值： 成功返回 true 失败返回 false

bool scws_set_ignore(resource scws_handle, bool yes)

功能： 设定分词返回结果时是否去除一些特殊的标点符号之类。

参数： yes 如果为 true 则结果中不返回标点符号，如果为 false 则会返回，缺省为 false。

返回值： 始终为 true

bool scws_set_multi(resource scws_handle, int mode)

功能： 设定分词返回结果时是否复式分割，如“中国人”返回“中国＋人＋中国人”三个词。

参数： mode 复合分词法的级别，缺省不复合分词。取值由下面几个常量异或组合（也可用 1-15 来表示）：

- SCWS_MULTI_SHORT   (1)短词
- SCWS_MULTI_DUALITY (2)二元（将相邻的2个单字组合成一个词）
- SCWS_MULTI_ZMAIN   (4)重要单字
- SCWS_MULTI_ZALL    (8)全部单字

返回值： 始终为 true

bool scws_set_duality(resource scws_handle, bool yes)

功能： 设定是否将闲散文字自动以二字分词法聚合

参数： yes 设定值，如果为 true 则结果中多个单字会自动按二分法聚分，如果为 false 则不处理，缺省为 false。

返回值： 始终为 true

bool scws_send_text(resource scws_handle, string text)

功能： 发送设定分词所要切割的文本。

参数： text 要切分的文本的内容。

返回值： 成功返回 true 失败返回 false

注意： 系统底层处理方式为对该文本增加一个引用，故不论多长的文本并不会造成内存浪费；执行本函数时，若未加载任何词典和规则集，则会自动试图在 ini 指定的缺省目录下查找缺省字符集的词典和规则集。

mixed scws_get_result(resource scws_handle)

功能： 根据 send_text 设定的文本内容，返回一系列切好的词汇。

返回值： 成功返回切好的词汇组成的数组，若无更多词汇，返回 false。返回的词汇包含的键值如下：

- word  string      词本身
- idf   float       逆文本词频
- off   int         该词在原文本路的位置
- attr  string      词性

注意： 每次切词后本函数应该循环调用，直到返回 false 为止，因为程序每次返回的词数是不确定的。

mixed scws_get_tops(resource scws_handle [, int limit [, string attr]])

功能： 根据 send_text 设定的文本内容，返回系统计算出来的最关键词汇列表。

参数： limit 可选参数，返回的词的最大数量，缺省是 10 。

参数： attr 可选参数，是一系列词性组成的字符串，各词性之间以半角的逗号隔开，这表示返回的词性必须在列表中，如果以~开头，则表示取反，词性必须不在列表中，缺省为NULL，返回全部词性，不过滤。

返回值： 成功返回统计好的的词汇组成的数组，返回 false。返回的词汇包含的键值如下：

- word    string    词本身
- times   int       词在文本中出现的次数
- weight  float     该词计算后的权重
- attr    string    词性

mixed scws_get_words(resource scws_handle, string attr)

功能： 根据 send_text 设定的文本内容，返回系统中词性符合要求的关键词汇。

参数： attr 是一系列词性组成的字符串，各词性之间以半角的逗号隔开，这表示返回的词性必须在列表中，如果以~开头，则表示取反，词性必须不在列表中，若为空则返回全部词。

返回值： 成功返回符合要求词汇组成的数组，返回 false。返回的词汇包含的键值参见 scws_get_result

bool scws_has_word(resource scws_handle, string attr)

功能： 根据 send_text 设定的文本内容，返回系统中是否包括符合词性要求的关键词。

返回值： 如果有则返回 true，没有就返回 false。

string scws_version(void)

功能： 返回 scws 版本号名称信息（字符串）。

返回值： 返回string，scws 版本号名称信息。

测试分词功能

<?php
echo "开始测试分词：\n";
echo "------------------------------------------------\n";
// 记录开始时间
$starttime = microtime(true);

// 开始分词
$keyword = <<<EOF
陈凯歌并不是《无极》的唯一著作权人，一部电影的整体版权归电影制片厂所有。

一部电影的作者包括导演、摄影、编剧等创作人员，这些创作人员对他们的创作是有版权的。不经过制片人授权，其他人不能对电影做拷贝、发行、反映，不能通过网络来传播，既不能把电影改编成小说、连环画等其他艺术形式发表，也不能把一部几个小时才能放完的电影改编成半个小时就能放完的短片。

著作权和版权在我国是同一个概念，是法律赋予作品创作者的专有权利。所谓专有权利就是没有经过权利人许可又不是法律规定的例外，要使用这个作品，就必须经过作者授权，没有授权就是侵权。

一九八零年春天
EOF;

$cws = scws_open();
// 设置分词编码
scws_set_charset($cws, "utf8");
// 设置分词所用字典
scws_set_dict($cws, ini_get('scws.default.fpath') . '/dict.utf8.xdb');
// 设定分词所用的识别规则集
scws_set_rule($cws, ini_get('scws.default.fpath') . '/rules.utf8.ini');
// 发送要分割的字符串
scws_send_text($cws, $keyword);
// 设定分词返回结果时是否去除一些特殊的标点符号之类
scws_set_ignore($cws, true);
// 设定分词返回结果时是否复式分割，如“中国人”返回“中国＋人＋中国人”三个词
// scws_set_multi($cws, false);
// 散文字自动以二字分词法聚合
scws_set_duality($cws, true);

echo "\n最关键词汇列表\n";
echo "-------------------------------------------------------------\n";
echo "No. 关键词                       Attr     Weight(times)\n";
echo "-------------------------------------------------------------\n";
$list = scws_get_tops($cws, 20, '');
$number = 1;
foreach ($list as $value) {
    printf("%02d. %s \t\t\t %s \t  %.2f(%d)\n",
        $number, $value['word'], $value['attr'], $value['weight'], $value['times']);
    $number++;
}

echo "-------------------------------------------------------------\n";
echo "\n返回切好的词汇\n";
echo "-------------------------------------------------------------\n";
while ($result = scws_get_result($cws)) {
    foreach ($result as $value) {
        if ($value['len'] == 1 && $value['word'] == "\r")
            continue;
        if ($value['len'] == 1 && $value['word'] == "\n")
            echo $value['word'];
        else
            printf("%s：%s  ", $value['word'], $value['attr']);
    }
}
scws_close($cws);

// 对于分词返回结果去除特殊标点符号
// scws_set_ignore($cws, true);
// 对于分词结果是否复试分割
// scws_set_multi($cws, SCWS_MULTI_ZMAIN);

$endtime = microtime(true);
// 执行时间
echo "\n-------------------------------------------------------------\n\n";
echo '脚本执行了：'.bcsub($endtime, $starttime,  6)."秒";
echo "\n\n";

输出：

开始测试分词：
------------------------------------------------

最关键词汇列表
-------------------------------------------------------------
No. 关键词                       Attr     Weight(times)
-------------------------------------------------------------
01. 电影                         n        25.02(6)
02. 不能                         v        19.08(4)
03. 经过                         v        14.82(3)
04. 创作                         vn       14.82(3)
05. 授权                         v        14.79(3)
06. 版权                         n        14.76(3)
07. 专有                         vn       13.94(2)
08. 陈凯歌                       nr       11.87(1)
09. 改编                         v        11.82(2)
10. 一九八零年                   t        10.72(1)
11. 无极                         ns       10.02(1)
12. 权利                         n        9.88(2)
13. 小时                         n        9.68(2)
14. 人员                         n        9.60(2)
15. 就是                         n        9.52(2)
16. 不是                         v        9.48(2)
17. 法律                         n        9.32(2)
18. 没有                         v        9.30(2)
19. 作者                         n        9.18(2)
20. 作品                         n        9.12(2)
-------------------------------------------------------------

返回切好的词汇
-------------------------------------------------------------
陈凯歌：nr  并：c  不是：v  无极：ns  的：uj  唯一：b  著作权人：n  一部：n  部：n  电影：n  的：uj  整体：n  版权：n  归：v  电影：n  制片厂：n  所有：v  

一部：n  部：n  电影：n  的：uj  作者：n  包括：v  导演：n  摄影：vn  编剧：n  等：v  创作：vn  人员：n  这些：r  创作：vn  人员：n  对：p  他们：r  的：uj  
创作：vn  是：v  是有：v  有：v  版权：n  的：uj  不：d  经过：v  制片人：n  授权：v  其他人：rr  不能：v  对：p  电影：n  做：v  拷贝：n  发行：vn  反映：v  
不能：v  通过：v  网络：n  来：v  传播：vn  既：c  不能：v  把：p  电影：n  改编：v  成：v  小说：n  连环画：n  等：v  其他：r  艺术：n  形式：n  发表：v  也
：d  不能：v  把：p  把一：m  一部：n  部几：m  几个：q  个：q  小时：n  才能：v  放：v  放完：v  完的：uj  的：uj  电影：n  改编：v  成半个：nr  小时：n  就
能：v  能放：v  放完：v  完的：uj  的：uj  短片：n  

著作权：n  和：c  版权：n  在：p  我国：n  是：v  同一个：b  概念：n  是：v  法律：n  赋予：v  作品：n  创作者：n  的：uj  专有：vn  权利：n  所谓：v  专有：v
n  权利：n  就是：n  没有：v  经过：v  权利人：n  许可：v  又：d  不是：v  法律：n  规定：v  的：uj  例外：v  要：v  使用：v  这个：r  作品：n  就：d  必须：d
  经过：v  作者：n  授权：v  没有：v  授权：v  就是：n  侵权：vn  

一九八零年：t  春天：t  
-------------------------------------------------------------

脚本执行了：0.004200秒

搞定！

总结

测试了一些词，分词准确性在90%左右。继续对配置文件修改一下，应该可以正常使用。

SCWS 简易中文分词系统

软件清单

安装

For Mac / Linux

测试安装是否成功

SCWS 自带函数详解

mixed scws_new(void)

mixed scws_open(void)

bool scws_close(resource scws_handle)

bool scws_set_charset(resource scws_handle, string charset)

bool scws_add_dict(resource scws_handle, string dict_path [, int mode])

bool scws_set_dict(resource scws_handle, string dict_path [, int mode])

bool scws_set_rule(resource scws_handle, string rule_path)

bool scws_set_ignore(resource scws_handle, bool yes)

bool scws_set_multi(resource scws_handle, int mode)

bool scws_set_duality(resource scws_handle, bool yes)

bool scws_send_text(resource scws_handle, string text)

mixed scws_get_result(resource scws_handle)

mixed scws_get_tops(resource scws_handle [, int limit [, string attr]])

mixed scws_get_words(resource scws_handle, string attr)

bool scws_has_word(resource scws_handle, string attr)

string scws_version(void)

测试分词功能

总结

后端技术

前端技术

数据库

热门框架

常用IDE

其他