PHP完成中文全文搜刮的道理引见【php教程】,PHP,中文全文搜索

平常的开辟中的相干文章或内容都是经由历程关键词标签、题目来完成相干搜刮的，但如许是搜刮基本会应用低效的like语句，因为效力低下在轻微大一点的项目开辟中我们没法举行文章或许相干内容的概况字段搜刮（服务器压力过大、效力极低）。

罕见的解决方案

1、sphinx + coreseek

长处 : 手艺成熟、稳固

瑕玷 : sphinx 不支撑中文 coressk 现在已住手保护【如果是纯英文环境 sphinx 极佳】

2、迅搜(Xunsearch)

长处 : 手艺成熟、稳固

瑕玷 : 装置历程庞杂，设置不够天真

3、mysql 全文搜刮

有点：装置轻易、效力高

瑕玷：对中文支撑不够好

来自hcoder的解决方案（分词 + 自立设置）

长处 : 装置简朴（php 组件）、底层由开辟者自行编写更清楚底层、更轻易的优化

瑕玷 : 须要开辟者有 php + mysql 基本，须要本身编写全部历程的代码

道理

1、猎取词语环节
文章数据表 -> 逐行读取文章信息 -> 组合一切笔墨内容 -> 分词、去重 -> 纪录到新的数据表
2、搜刮环节
搜刮关键字纪录表 -> 兼并文章数据 -> 去重 -> 展现数据

应用到的第三方组件（scws）

http://www.xunsearch.com/scws/

SCWS 是 Simple Chinese Word Segmentation 的首字母缩写（即：浅易中文分词体系）。

这是一套基于词频辞书的机械式中文分词引擎，它能将一整段的中文文本基本正确地切分红词。词是中文的最小语素单元，但在誊写时并不像英语会在词之间用空格离开，所以怎样正确并疾速分词一直是中文分词的攻关难点。

SCWS 采纳纯 C 言语开辟，不依赖任何外部库函数，可直接应用动态链接库嵌入应用程序，支撑的中文编码包含 GBK、UTF-8 等。另外还供应了 PHP 扩大模块，可在 PHP 中疾速而轻易地应用分词功用。

分词算法上并没有太多立异身分，采纳的是本身收集的词频辞书，并辅以肯定的专有称号，人名，地名，数字年代等划定规矩识别来到达基本分词，经小范围测试正确率在 90% ~ 95% 之间，基本上能满足一些小型搜刮引擎、关键字提取等场所应用。初次雏形版本宣布于 2005 岁尾。

SCWS 由 hightman 开辟，并以 BSD 允许协定开源宣布，源码托管在 github。

以上就是PHP完成中文全文搜刮的道理引见的细致内容，更多请关注ki4网别的相干文章！