罕见的解决方案
1、sphinx + coreseek
长处 : 手艺成熟、稳固
瑕玷 : sphinx 不支撑中文 coressk 现在已住手保护【如果是纯英文环境 sphinx 极佳】
2、迅搜(Xunsearch)
长处 : 手艺成熟、稳固
瑕玷 : 装置历程庞杂,设置不够天真
3、mysql 全文搜刮
有点:装置轻易、效力高
瑕玷:对中文支撑不够好
来自hcoder的解决方案 (分词 + 自立设置)
长处 : 装置简朴(php 组件)、底层由开辟者自行编写更清楚底层、更轻易的优化
瑕玷 : 须要开辟者有 php + mysql 基本,须要本身编写全部历程的代码
道理
1、猎取词语环节 文章数据表 -> 逐行读取文章信息 -> 组合一切笔墨内容 -> 分词、去重 -> 纪录到新的数据表 2、搜刮环节 搜刮关键字纪录表 -> 兼并文章数据 -> 去重 -> 展现数据
应用到的第三方组件(scws)
http://www.xunsearch.com/scws/
SCWS 是 Simple Chinese Word Segmentation 的首字母缩写(即:浅易中文分词体系)。
这是一套基于词频辞书的机械式中文分词引擎,它能将一整段的中文文本基本正确地切分红词。 词是中文的最小语素单元,但在誊写时并不像英语会在词之间用空格离开, 所以怎样正确并疾速分词一直是中文分词的攻关难点。
SCWS 采纳纯 C 言语开辟,不依赖任何外部库函数,可直接应用动态链接库嵌入应用程序, 支撑的中文编码包含 GBK、UTF-8 等。另外还供应了 PHP 扩大模块, 可在 PHP 中疾速而轻易地应用分词功用。
分词算法上并没有太多立异身分,采纳的是本身收集的词频辞书,并辅以肯定的专有称号,人名,地名, 数字年代等划定规矩识别来到达基本分词,经小范围测试正确率在 90% ~ 95% 之间, 基本上能满足一些小型搜刮引擎、关键字提取等场所应用。初次雏形版本宣布于 2005 岁尾。
SCWS 由 hightman 开辟, 并以 BSD 允许协定开源宣布,源码托管在 github。
以上就是PHP完成中文全文搜刮的道理引见的细致内容,更多请关注ki4网别的相干文章!