1、装置 bzip2 及 gcc gcc-c++ yum install bzip2 yum -y install gcc gcc-c++ 2、下载 scws-1.2.3 的代码 wget http://www.xunsearch.com/scws/down/scws-1.2.3.tar.bz2 3、解压 tar xvjf scws-1.2.3.tar.bz2 4、装置 cd scws-1.2.3 ./configure --prefix=/usr/local/scws make ; make install 顺遂的话已编译并装置胜利到 /usr/local/scws 中了,实行下面敕令看看文件是不是存在 ls -al /usr/local/scws/lib/libscws.la 5、用 wget 下载并解压辞书,或从主页下载然后自行解压再将 *.xdb 放入 /usr/local/scws/etc 目次中 cd /usr/local/scws/etc wget http://www.xunsearch.com/scws/down/scws-dict-chs-gbk.tar.bz2 wget http://www.xunsearch.com/scws/down/scws-dict-chs-utf8.tar.bz2 tar xvjf scws-dict-chs-gbk.tar.bz2 tar xvjf scws-dict-chs-utf8.tar.bz2 6、php扩大 假如您须要在 php 中挪用分词,发起继承浏览本文装置 php 扩大,不然可跳过不看。 假定您已将 scws 按上述步骤装置到 /usr/local/scws 中。 装置此扩大请求您的 php 和体系环境装置了响应的 autoconf automake 东西及 phpize 。 1) 进入源码目次的 phpext/ 目次 cd /var/scws-1.2.3/phpext 2) 实行 phpize (在PHP装置目次的bin/目次下)[没有装置phpize 运用 yum install php-devel 装置] 3) 实行 ./configure --with-scws=/usr/local/scws 4) 若 php 装置在特别目次 $php_prefix, 则请在 configure 后加上 --with-php-config=$php_prefix/bin/php-config 5) 在 php.ini [/etc/php.ini] 中到场以下几行 [scws] extension = scws.so scws.default.charset = utf8 scws.default.fpath = /usr/local/scws/etc
Windows 环境下装置 scws
php 扩大下载地点 1. 依据您当前用的 PHP 版本,下载响应已编译好的 php_scws.dll 扩大库。 现在支撑 PHP-4.4.x 和 PHP-5.2.x 系列,下载地点分别为: php-4.4.x: http://www.xunsearch.com/scws/down/php-4.4.x/php_scws.dll php-5.2.x: http://www.xunsearch.com/scws/down/php-5.2.x/php_scws.dll php-5.3.x: http://www.xunsearch.com/scws/down/php-5.3.x/php_scws.dll 2. 将下载后的 php_scws.dll 放到 php 装置目次的 extensions/ 目次中去(一般为:X:/php/extensions/或 X:/php/ext/)。 3. 竖立一个当地目次放划定规矩集文件和辞书文件,发起运用:C:/program files/scws/etc 4. 从 scws 主页上下载辞书文件,解压后将 *.xdb 放到上述目次中 辞书系列:http://www.xunsearch.com/scws/down/scws-dict-chs-gbk.tar.bz2 http://www.xunsearch.com/scws/down/scws-dict-chs-utf8.tar.bz2 http://www.xunsearch.com/scws/down/scws-dict-cht-utf8.tar.bz2 5. 从 scws 主页上下载划定规矩集文件,解压后将 *.ini 放到第 3 步竖立的目次 划定规矩集文件压缩包:http://www.xunsearch.com/scws/down/rules.tgz 解压后有三个文件分别为 rules.ini rules.utf8.ini rules_cht.utf8.ini 将三件文件拷到第 3 步所述的目次中 6. 修正 php.ini 一般位于 C:/windows/php.ini 或 C:/winnt/php.ini 之类的目次, 在 php.ini 的末端到场以下几行: [scws] ; ; 注重请搜检 php.ini 中的 extension_dir 的设定值是不是准确, 不然请将 extension_dir 设为空, ; 再把 php_scws.dll 指定为绝对途径。 ; extension = php_scws.dll scws.default.charset = gbk scws.default.fpath = "c:/program files/scws/etc" 5. 重开 web 服务器即可完成。
php 代码
php 代码 <?php $so = scws_new(); //$so->set_charset('utf-8'); // 这里没有挪用 set_dict 和 set_rule 体系会自动试挪用 ini 中指定途径下的辞书和划定规矩文件 $so->send_text("我是一个中国人,我会C++言语,我也有许多T恤衣服 name is hai"); while ($tmp = $so->get_result()) { print_r($tmp); } $so->close(); ?> 预定义常量 ----------- * `SCWS_XDICT_XDB` 辞书文件为 XDB * `SCWS_XDICT_MEM` 将辞书悉数加载到内存里 * `SCWS_XDICT_TXT` 辞书文件为 TXT(纯文本) * `SCWS_MULTI_NONE` 不举行复合分词 * `SCWS_MULTI_SHORT` 短词复合 * `SCWS_MULTI_DUALITY` 散字二元复合 * `SCWS_MULTI_ZMAIN` 主要单字 * `SCWS_MULTI_ZALL` 悉数单字 预定义类 --------- 这是一个相似 `Directory` 的内置式伪类操纵,类要领竖立请运用 `scws_new()` 函数,而不能直接用 `new SimpleCWS`。 不然不会包含有 handle 指针,将没法准确操纵。它包含的要领有: ```php class SimpleCWS { resource handle; bool close(void); bool set_charset(string charset) bool add_dict(string dict_path[, int mode = SCWS_XDICT_XDB]) bool set_dict(string dict_path[, int mode = SCWS_XDICT_XDB]) bool set_rule(string rule_path) bool set_ignore(bool yes) bool set_multi(int mode) bool set_duality(bool yes) bool send_text(string text) mixed get_result(void) mixed get_tops([int limit [, string xattr]]) bool has_word(string xattr) mixed get_words(string xattr) string version(void) }; ``` > **注重** 类要领的用与支 scws_xxx_xxx 系列函数用法一致,只不过免除第一参数, > 故不别的编写申明,请拜见函数列表即可。 **例子1** 运用类要领分词 ```php <?php $so = scws_new(); $so->set_charset('gbk'); // 这里没有挪用 set_dict 和 set_rule 体系会自动试挪用 ini 中指定途径下的辞书和划定规矩文件 $so->send_text("我是一个中国人,我会C++言语,我也有许多T恤衣服"); while ($tmp = $so->get_result()) { print_r($tmp); } $so->close(); ?> ``` **例子2** 运用函数提取高频词 ```php <?php $sh = scws_open(); scws_set_charset($sh, 'gbk'); scws_set_dict($sh, '/path/to/dict.xdb'); scws_set_rule($sh, '/path/to/rules.ini'); $text = "我是一个中国人,我会C++言语,我也有许多T恤衣服"; scws_send_text($sh, $text); $top = scws_get_tops($sh, 5); print_r($top); ?> ``` > **注重** 为方便运用,当 `SimpleCWS::send_text` 要领或 `scws_send_text()` 函数被挪用前而且没有 > 加载任何辞书和划定规矩集时,体系会自动在 `scws.default.fpath` (ini设置)目次中查找响应的字符集辞书。 > 辞书和划定规矩文件的定名体式格局为 dict[.字符集].xdb 和 rules[.字符集].ini ,当字符集是 gbk 时中括号内里的 > 部份则不须要,直接运用 dict.xdb 和 rules.ini 而不是 dict.gbk.xdb 。 > > 另外,输入的笔墨,辞书、划定规矩文件这三者的字符集必需一致,假如不是默许的 gbk 字符集请挪用 > `SimpleCWS::set_charset` 或 `scws_set_charset` 来设定,不然能够涌现意外毛病。 函数详解 -------- 1. `mixed scws_new(void)` 建立并返回一个 `SimpleCWS` 类操纵对象。 > **返回值** 胜利返回类操纵句柄,失利返回 false。 2. `mixed scws_open(void)` 建立并返回一个分词操纵句柄。 > **返回值** 胜利返回 scws 操纵句柄,失利返回 false。 3. `bool scws_close(resource scws_handle)` `SimpleCWS::close(void)` 封闭一个已翻开的 scws 分词操纵句柄。 > **参数 scws_handle** 即之前由 scws_open 翻开的返回值。 > **返回值** 一直为 true > **注重** 背面的 API 中省去引见 scws_handle 参数,寄义和本函数雷同。 4. `bool scws_set_charset(resource scws_handle, string charset)` `bool SimpleCWS::set_charset(string charset)` 设定分词辞书、划定规矩集、欲分文本字符串的字符集。 > **参数 charset** 要新设定的字符集,现在只支撑 utf8 和 gbk。(注:默许为 gbk,utf8不要写成utf-8) > **返回值** 一直为 true 5. `bool scws_add_dict(resource scws_handle, string dict_path [, int mode])` `bool SimpleCWS::add_dict(string dict_path [, int mode])` 增添分词所用的辞书,新到场的优先查找。 > **参数 dict_path** 辞书的途径,可所以相对途径或完整途径。(遵照平安形式下的 open_basedir) > **参数 mode** 可选,示意加载的体式格局。其值有: > > - SCWS_XDICT_TXT 示意要读取的辞书文件是文本格式,能够和后2项连系用 > - SCWS_XDICT_XDB 示意直接读取 xdb 文件(此为默许值) > - SCWS_XDICT_MEM 示意将 xdb 文件悉数加载到内存中,以 XTree 构造寄存,可用异或连系别的2个运用。 > > **返回值** 胜利返回 true 失利返回 false 6. `bool scws_set_dict(resource scws_handle, string dict_path [, int mode])` `bool SimpleCWS::set_dict(string dict_path [, int mode])` 设定分词所用的辞书并消灭已存在的辞书列表。 > **参数 dict_path** 辞书的途径,可所以相对途径或完整途径。(遵照平安形式下的 open_basedir) > **参数 mode** 可选,示意加载的体式格局。拜见 `scws_add_dict` > **返回值** 胜利返回 true 失利返回 false 7. `bool scws_set_rule(resource scws_handle, string rule_path)` `bool SimpleCWS::set_rule(string rule_path)` 设定分词所用的新词辨认划定规矩集(用于人名、地名、数字时候年代等辨认)。 > **参数 rule_path** 划定规矩集的途径,可所以相对途径或完整途径。(遵照平安形式下的 open_basedir) > **参数 mode** 可选,示意加载的体式格局。拜见 `scws_add_dict` > **返回值** 胜利返回 true 失利返回 false 8. `bool scws_set_ignore(resource scws_handle, bool yes)` `bool SimpleCWS::set_ignore(bool yes)` 设定分词返回效果时是不是去除一些特别的标点符号之类。 > **参数 yes** 设定值,假如为 true 则效果中不返回标点符号,假如为 false 则会返回,缺省为 false。 > **返回值** 一直为 true 9. `bool scws_set_multi(resource scws_handle, int mode)` `bool SimpleCWS::set_multi(bool yes)` 设定分词返回效果时是不是复式支解,如“中国人”返回“中国+人+中国人”三个词。 > **参数 mode** 复合分词法的级别,缺省不复合分词。取值由下面几个常量异或组合(也可用 1-15 来示意): > > - SCWS_MULTI_SHORT (1)短词 > - SCWS_MULTI_DUALITY (2)二元(将相邻的2个单字组合成一个词) > - SCWS_MULTI_ZMAIN (4)主要单字 > - SCWS_MULTI_ZALL (8)悉数单字 > > **返回值** 一直为 true 10. `bool scws_set_duality(resource scws_handle, bool yes)` `bool SimpleCWS::set_duality(bool yes)` 设定是不是将闲散笔墨自动以二字分词法聚合 > **参数 yes** 设定值,假如为 true 则效果中多个单字会自动按二分法聚分,假如为 false 则不处置惩罚,缺省为 false。 > **返回值** 一直为 true 11. `bool scws_send_text(resource scws_handle, string text)` `bool SimpleCWS::send_text(string text)` 发送设定分词所要切割的文本。 > **参数 text** 要切分的文本的内容。 > **返回值** 胜利返回 true 失利返回 false > **注重** 体系底层处置惩罚体式格局为对该文本增添一个援用,故不管多长的文本并不会形成内存糟蹋; > 实行本函数时,若未加载任何辞书和划定规矩集,则会自动试图在 ini 指定的缺省目次下查找缺省字符集的辞书和划定规矩集。 12. `mixed scws_get_result(resource scws_handle)` `mixed SimpleCWS::get_result()` 依据 send_text 设定的文本内容,返回一系列切好的辞汇。 > **返回值** 胜利返回切好的辞汇构成的数组,若无更多辞汇,返回 false。返回的辞汇包含的键值以下: > > - word _string_ 词自身 > - idf _float_ 逆文本词频 > - off _int_ 该词在原文本路的位置 > - attr _string_ 词性 > > **注重** 每次切词后本函数应当轮回挪用,直到返回 false 为止,由于顺序每次返回的词数是不确定的。 13. `mixed scws_get_tops(resource scws_handle [, int limit [, string attr]])` `mixed SimpleCWS::get_tops([int limit [, string attr]])` 依据 send_text 设定的文本内容,返回体系盘算出来的最症结辞汇列表。 > **参数 limit** 可选参数,返回的词的最大数目,缺省是 10 > **参数 attr** 可选参数,是一系列词性构成的字符串,各词性之间以半角的逗号离隔, > 这示意返回的词性必需在列表中,假如以~开首,则示意取反,词性必需不在列表中,缺省为NULL,返回悉数词性,不过滤。 > **返回值** 胜利返回统计好的的辞汇构成的数组,返回 false。返回的辞汇包含的键值以下: > > - word _string_ 词自身 > - times _int_ 词在文本中涌现的次数 > - weight _float_ 该词盘算后的权重 > - attr _string_ 词性 14. `mixed scws_get_words(resource scws_handle, string attr)` `mixed SimpleCWS::get_words(string attr)` 依据 send_text 设定的文本内容,返回体系中词性相符请求的症结辞汇。 > **参数 attr** 是一系列词性构成的字符串,各词性之间以半角的逗号离隔, > 这示意返回的词性必需在列表中,假如以~开首,则示意取反,词性必需不在列表中,若为空则返回悉数词。 > **返回值** 胜利返回相符请求辞汇构成的数组,返回 false。返回的辞汇包含的键值拜见 `scws_get_result` 15. `bool scws_has_words(resource scws_handle, string attr)` `mixed SimpleCWS::has_words(string attr)` 依据 send_text 设定的文本内容,返回体系中是不是包含相符词性请求的症结词。 > **参数 attr** 是一系列词性构成的字符串,各词性之间以半角的逗号离隔, > 这示意返回的词性必需在列表中,假如以~开首,则示意取反,词性必需不在列表中,若为空则返回悉数词。 > **返回值** 假如有则返回 true,没有就返回 false。 16. `string scws_version(void)` `string SimpleCWS::version(void)` 返回 scws 版本号称号信息(字符串)。
以上就是怎样装置 php scws(分词组件)?的细致内容,更多请关注ki4网别的相干文章!