非常佩服这位兄弟开发的开源php分词系统,现在终于发布1.0.0版本了。本版本的功能有了很大的加强,同时也简化了使用,仅一个php函数。现在转帖全部内容,对张宴表示强烈的支持!! [文章/程序 作者:张宴 本文版本:v1.0 最后修改:2009.02.16 原文链接:http://blog.s135.com/post/398.htm] 名称:PHPCWS(PHP中文分词扩展) 协议:New BSD License 作者:张宴 网址:http://code.google.com/p/phpcws/ SVN:http://code.google.com/p/phpcws/source/browse/#svn/trunk/phpcws 一、PHPCWS 简介 1、什么是 PHPCWS ? PHPCWS 是一款开源的PHP中文分词扩展,目前仅支持Linux/Unix系统。 PHPCWS 先使用“ICTCLAS 3.0 共享版中文分词算法”的API进行初次分词处理,再使用自行编写的“逆向最大匹配算法”对分词和进行词语合并处理,并增加标点符号过滤功能,得出分词结果。 ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System)是中国科学院计算技术研究所在多年研究工作积累的基础上,基于多层隐马模型研制出的汉语词法分析系统,主要功能包括中文分词;词性标注;命 名实体识别;新词识别;同时支持用户词典。ICTCLAS经过五年精心打造,内核升级6次,目前已经升级到了ICTCLAS3.0,分词精度 98.45%,各种词典数据压缩后不到3M。ICTCLAS在国内973专家组组织的评测中活动获得了第一名,在第一届国际中文处理研究机构SigHan 组织的评测中都获得了多项第一名,是当前世界上最好的汉语词法分析器。 ICTCLAS 3.0 商业版是收费的,而免费提供的 ICTCLAS 3.0 共享版不开源,词库是根据人民日报一个月的语料得出的,很多词语不存在。所以本人对ICTCLAS分词后的结果,再采用逆向最大匹配算法,根据自己补充的 一个9万条词语的自定义词库(与ICTCLAS词库中的词语不重复),对ICTCLAS分词结果进行合并处理,输出最终分词结果。 由于 ICTCLAS 3.0 共享版只支持GBK编码,因此,如果是UTF-8编码的字符串,可以先用PHP的iconv函数转换成GBK编码,再用phpcws_split函数进行分词处理,最后转换回UTF-8编码。 2、PHPCWS 中文分词在线演示 演示网址:http://blog.s135.com/demo/phpcws/ 3、PHPCWS 分词速度及用途 初次使用时,Apache 或 php-cgi(FastCGI) 进程,需要加载一次词库到内存中,需要0.0X秒。58字节的一句话——“2009年2月13日,我编写了一款PHP中文分词扩展:PHPCWS [...]
Archives
- May 2011
- April 2011
- February 2011
- December 2010
- November 2010
- October 2010
- August 2010
- February 2010
- January 2010
- December 2009
- November 2009
- October 2009
- September 2009
- August 2009
- July 2009
- June 2009
- May 2009
- April 2009
- March 2009
- February 2009
- January 2009
- December 2008
- October 2008
- September 2008
- August 2008
- July 2008
- June 2008
- May 2008
- April 2008
- March 2008
Links
Recent Comments
