<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
		>
<channel>
	<title>Comments on: SCWS简易中文分词系统</title>
	<atom:link href="http://www.pkphp.com/2008/06/12/scws%e7%ae%80%e6%98%93%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e7%b3%bb%e7%bb%9f/feed/" rel="self" type="application/rss+xml" />
	<link>http://www.pkphp.com/2008/06/12/scws%e7%ae%80%e6%98%93%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e7%b3%bb%e7%bb%9f/</link>
	<description>PK with php!</description>
	<lastBuildDate>Thu, 03 Mar 2011 02:11:27 +0000</lastBuildDate>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.1</generator>
	<item>
		<title>By: askie</title>
		<link>http://www.pkphp.com/2008/06/12/scws%e7%ae%80%e6%98%93%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e7%b3%bb%e7%bb%9f/comment-page-1/#comment-15</link>
		<dc:creator>askie</dc:creator>
		<pubDate>Sat, 14 Jun 2008 14:06:14 +0000</pubDate>
		<guid isPermaLink="false">http://www.pkphp.com/?p=76#comment-15</guid>
		<description>SCWS 简易分词函数

简介

SCWS 是一个简易的分词引擎，它可以将输入的文本字符串根据设定好的选项切割后以数组形式返回每一个词汇。它为中文而编写，支持 gbk 和 utf-8 字符集，适当的修改词典后也可以支持非中文的多字节语言切词（如日文、韩文等）。除分词外，还提供一个简单的关键词汇统计功能，它内置了一个简单的算法来排序。本扩展内部直接绑绑定了 libscws 相关代码。

注：更多消息请访问 http://www.hightman.cn

需求

本扩展直接内部绑定了 libscws 源代码，不需要安装任何其它扩展。

安装

这是一个 php 扩展，需要另行下载并编译。目前只有源码代码，而且只在 php4 环境及 Unix 族平台测试编译。下载后直接 ./configure --enable-scws 编译即可。安装后需要在 php.ini 中加入相应的行，其中红色部分为必须，灰色部分可有可无：

[scws]
extension = scws.so
scws.default.charset = gbk
scws.default.fpath = /usr/local/etc/scws

运行时配置

scws.default.charset  (default = gbk) , Changeable = PHP_INI_ALL
scws.default.fpath (default = NULL) , Changeable = PHP_INI_ALL
有关 PHP_INI_* 常量进一步的细节与定义参见PHP手册。

资源类型

本扩展定义了一种资源类型：一个 scws 指针，指向正在被操作的 scws 对象。

预定义常量

本扩展模块未定义任何常量。

预定义类

这是一个类似 Directory 的内置式伪类操作，类方法建立请使用 scws_new() 函数，而不要直接用 new SimpledCWS。
否则不会包含有 handle 指针，将无法正确操作。包含的方法有：
class SimpledCWS  {
  resource handle;
  bool close(void);
  bool set_charset(string charset)
  bool set_dict(string dict_path)
  bool set_rule(string rule_path)
  bool set_ignore(bool yes)
  bool set_multi(bool yes)
  bool send_text(string text)
  mixed get_result(void)
  mixed get_tops(void)
  string version(void)
};  

例子1. 使用类方法分词
&lt;?php
$so = scws_new();
$so-&gt;set_charset(&#039;gbk&#039;);
// 这里没有调用 set_dict 和 set_rule 系统会自动试调用 ini 中指定路径下的词典和规则文件
$so-&gt;send_text(&quot;我是一个中国人,我会C++语言,我也有很多T恤衣服&quot;);
while ($tmp = $so-&gt;get_result())
{
  print_r($tmp);
}
$so-&gt;close();
?&gt;

例子2. 使用函数提取高频词
&lt;?php
$sh = scws_open();
scws_set_charset($sh, &#039;gbk&#039;);
scws_set_dict($sh, &#039;/path/to/dict.xdb&#039;);
scws_set_rule($sh, &#039;/path/to/rules.ini&#039;);
$text = &quot;我是一个中国人，我会C++语言，我也有很多T恤衣服&quot;;
scws_send_text($sh, $text);
$top = scws_get_tops($sh, 5);
print_r($top);
?&gt;

注意：
为方便使用，当 send_text 方法或 scws_send_text 函数被调用前，没有加载词典和规则集时，系统会自动在scws.default.fpath(ini配置)中查找相应的字符集词典。词典和规则文件的命名方式为 dict[.字符集].xdb 和 rules[.字符集].ini ，当字符集是 gbk 时中括号里面的部分则不需要，直接使用 dict.xdb 和 rules.ini 而不是 dict.gbk.xdb 。

此外，输入的文字，词典，规则文件这三者的字符集必须统一，如果不是默认的 gbk 字符集请调用 set_charset 或 scws_set_charset来设定，否则可能出现意外错误。

函数列表：

mixed scws_new(void)
说明：创建并返回一个 SimpledCWS 类操作对象。
参数：无
返回值：成功返回类操作句柄，失败返回 false

mixed scws_open(void)
说明：创建并返回一个分词操作句柄
参数：无
返回值：成功返回 scws 操作句柄，失败返回 false

bool scws_close(resource scws_handle)
说明：关闭一个已打开的 scws 分词操作句柄
返回：始终为 true
参数：scws_handle 即之前由 scws_open 打开返回的。

bool scws_set_charset(resource scws_handle, string charset)
说明：设定分词词典、规则集、欲分文本字符串的字符集，系统缺省是 gbk 字集。
返回：始终为 true
参数：scws_handle 即之前由 scws_open 打开返回的；
         charset 是要新设定的字符集，目前只支持 utf8 和 gbk。（注：utf8不要写成utf-8）

bool scws_set_dict(resource scws_handle, string dict_path)
说明：设定分词所用的词典。
返回：成功返回 true 失败返回 false
参数：scws_handle 即之前由 scws_open 打开返回的；
         dict_path 是词典的路径，可以是相对路径或完全路径。（遵查安全模式下的open_basedir）

bool scws_set_rule(resource scws_handle, string rule_path)
说明：设定分词所用的新词识别规则集（用于人名、地名、数字时间年代等识别）。
返回：成功返回 true 失败返回 false
参数：scws_handle 即之前由 scws_open 打开返回的；
         rule_path 是规则集的路径，可以是相对路径或完全路径。（遵查安全模式下的open_basedir）

bool scws_set_ignore(resource scws_handle, bool yes)
说明：设定分词返回结果时是否去除一些特殊的标点符号之类。
返回：始终为 true
参数：scws_handle 即之前由 scws_open 打开返回的；
         yes 设定值，如果为 true 则结果中不返回标点符号，如果为 false 则会返回，缺省为 false。

bool scws_set_multi(resource scws_handle, bool yes)
说明：设定分词返回结果时是否复式分割，如“中国人”返回“中国＋人＋中国人”三个词。
返回：始终为 true
参数：scws_handle 即之前由 scws_open 打开返回的；
         yes 设定值，如果为 true 则结果中执行复式分割，如果为 false 则不会，缺省为 false。

bool scws_send_text(resource scws_handle, string text)
说明：发送设定分词所要切割的文本
返回：成功返回 true 失败返回 false
参数：scws_handle 即之前由 scws_open 打开返回的；
         text 是文本的内容。
注1：系统底层处理方式为对该文本增加一个引用，故不论多长的文本并不会造成内存浪费；
注2：执行本函数时，若未加载任何词典和规则集，则会自动试图在ini指定的缺省目录下查找词典和规则集。

mixed scws_get_result(resource scws_handle)
说明：根据 send_text 设定的文本内容，返回一系列切好的词汇。
返回：成功返回切好的词汇组成的数组， 若无更多词汇，返回 false。
参数：scws_handle 即之前由 scws_open 打开返回的。

注1：每次切割后本函数应该循环调用，直到返回 false 为止，因为程序每次返回的词数是不确定的。
注2：返回的词汇包含的键值有：word (string, 词本身) idf (folat, 逆文本词频) off (long, 在文本中的位置) attr(string, 词性表示)

mixed scws_get_tops(resource scws_handle [, int limit [, string attr]] )
说明：根据 send_text 设定的文本内容，返回系统计算出来的最关键词汇列表。
返回：成功返回切好的词汇组成的数组， 若无更多词汇，返回 false。
参数：scws_handle 即之前由 scws_open 打开返回的；
        limit 可选参数，返回的词的最大数量，缺省是 10；
        attr 可选参数，是一系列词性组成的字符串，各词性之间以半角的逗号隔开，
        这表示返回的词性必须在列表中，如果以~开头，则表示取反，词性必须不在列表中，
        缺省为NULL，返回全部词性，不过滤。

mixed scws_version(void)
说明：返回 scws 版本号名称信息。
返回：字符串
参数：无

类对象用法参照函数用法，区别就是不需要传入第一参数（会自动从handle的属性中取值）。</description>
		<content:encoded><![CDATA[<p>SCWS 简易分词函数</p>
<p>简介</p>
<p>SCWS 是一个简易的分词引擎，它可以将输入的文本字符串根据设定好的选项切割后以数组形式返回每一个词汇。它为中文而编写，支持 gbk 和 utf-8 字符集，适当的修改词典后也可以支持非中文的多字节语言切词（如日文、韩文等）。除分词外，还提供一个简单的关键词汇统计功能，它内置了一个简单的算法来排序。本扩展内部直接绑绑定了 libscws 相关代码。</p>
<p>注：更多消息请访问 <a href="http://www.hightman.cn" rel="nofollow">http://www.hightman.cn</a></p>
<p>需求</p>
<p>本扩展直接内部绑定了 libscws 源代码，不需要安装任何其它扩展。</p>
<p>安装</p>
<p>这是一个 php 扩展，需要另行下载并编译。目前只有源码代码，而且只在 php4 环境及 Unix 族平台测试编译。下载后直接 ./configure &#8211;enable-scws 编译即可。安装后需要在 php.ini 中加入相应的行，其中红色部分为必须，灰色部分可有可无：</p>
<p>[scws]<br />
extension = scws.so<br />
scws.default.charset = gbk<br />
scws.default.fpath = /usr/local/etc/scws</p>
<p>运行时配置</p>
<p>scws.default.charset  (default = gbk) , Changeable = PHP_INI_ALL<br />
scws.default.fpath (default = NULL) , Changeable = PHP_INI_ALL<br />
有关 PHP_INI_* 常量进一步的细节与定义参见PHP手册。</p>
<p>资源类型</p>
<p>本扩展定义了一种资源类型：一个 scws 指针，指向正在被操作的 scws 对象。</p>
<p>预定义常量</p>
<p>本扩展模块未定义任何常量。</p>
<p>预定义类</p>
<p>这是一个类似 Directory 的内置式伪类操作，类方法建立请使用 scws_new() 函数，而不要直接用 new SimpledCWS。<br />
否则不会包含有 handle 指针，将无法正确操作。包含的方法有：<br />
class SimpledCWS  {<br />
  resource handle;<br />
  bool close(void);<br />
  bool set_charset(string charset)<br />
  bool set_dict(string dict_path)<br />
  bool set_rule(string rule_path)<br />
  bool set_ignore(bool yes)<br />
  bool set_multi(bool yes)<br />
  bool send_text(string text)<br />
  mixed get_result(void)<br />
  mixed get_tops(void)<br />
  string version(void)<br />
};  </p>
<p>例子1. 使用类方法分词<br />
&lt;?php<br />
$so = scws_new();<br />
$so-&gt;set_charset(&#8216;gbk&#8217;);<br />
// 这里没有调用 set_dict 和 set_rule 系统会自动试调用 ini 中指定路径下的词典和规则文件<br />
$so-&gt;send_text(&#8220;我是一个中国人,我会C++语言,我也有很多T恤衣服&#8221;);<br />
while ($tmp = $so-&gt;get_result())<br />
{<br />
  print_r($tmp);<br />
}<br />
$so-&gt;close();<br />
?&gt;</p>
<p>例子2. 使用函数提取高频词<br />
&lt;?php<br />
$sh = scws_open();<br />
scws_set_charset($sh, &#8216;gbk&#8217;);<br />
scws_set_dict($sh, &#8216;/path/to/dict.xdb&#8217;);<br />
scws_set_rule($sh, &#8216;/path/to/rules.ini&#8217;);<br />
$text = &#8220;我是一个中国人，我会C++语言，我也有很多T恤衣服&#8221;;<br />
scws_send_text($sh, $text);<br />
$top = scws_get_tops($sh, 5);<br />
print_r($top);<br />
?&gt;</p>
<p>注意：<br />
为方便使用，当 send_text 方法或 scws_send_text 函数被调用前，没有加载词典和规则集时，系统会自动在scws.default.fpath(ini配置)中查找相应的字符集词典。词典和规则文件的命名方式为 dict[.字符集].xdb 和 rules[.字符集].ini ，当字符集是 gbk 时中括号里面的部分则不需要，直接使用 dict.xdb 和 rules.ini 而不是 dict.gbk.xdb 。</p>
<p>此外，输入的文字，词典，规则文件这三者的字符集必须统一，如果不是默认的 gbk 字符集请调用 set_charset 或 scws_set_charset来设定，否则可能出现意外错误。</p>
<p>函数列表：</p>
<p>mixed scws_new(void)<br />
说明：创建并返回一个 SimpledCWS 类操作对象。<br />
参数：无<br />
返回值：成功返回类操作句柄，失败返回 false</p>
<p>mixed scws_open(void)<br />
说明：创建并返回一个分词操作句柄<br />
参数：无<br />
返回值：成功返回 scws 操作句柄，失败返回 false</p>
<p>bool scws_close(resource scws_handle)<br />
说明：关闭一个已打开的 scws 分词操作句柄<br />
返回：始终为 true<br />
参数：scws_handle 即之前由 scws_open 打开返回的。</p>
<p>bool scws_set_charset(resource scws_handle, string charset)<br />
说明：设定分词词典、规则集、欲分文本字符串的字符集，系统缺省是 gbk 字集。<br />
返回：始终为 true<br />
参数：scws_handle 即之前由 scws_open 打开返回的；<br />
         charset 是要新设定的字符集，目前只支持 utf8 和 gbk。（注：utf8不要写成utf-8）</p>
<p>bool scws_set_dict(resource scws_handle, string dict_path)<br />
说明：设定分词所用的词典。<br />
返回：成功返回 true 失败返回 false<br />
参数：scws_handle 即之前由 scws_open 打开返回的；<br />
         dict_path 是词典的路径，可以是相对路径或完全路径。（遵查安全模式下的open_basedir）</p>
<p>bool scws_set_rule(resource scws_handle, string rule_path)<br />
说明：设定分词所用的新词识别规则集（用于人名、地名、数字时间年代等识别）。<br />
返回：成功返回 true 失败返回 false<br />
参数：scws_handle 即之前由 scws_open 打开返回的；<br />
         rule_path 是规则集的路径，可以是相对路径或完全路径。（遵查安全模式下的open_basedir）</p>
<p>bool scws_set_ignore(resource scws_handle, bool yes)<br />
说明：设定分词返回结果时是否去除一些特殊的标点符号之类。<br />
返回：始终为 true<br />
参数：scws_handle 即之前由 scws_open 打开返回的；<br />
         yes 设定值，如果为 true 则结果中不返回标点符号，如果为 false 则会返回，缺省为 false。</p>
<p>bool scws_set_multi(resource scws_handle, bool yes)<br />
说明：设定分词返回结果时是否复式分割，如“中国人”返回“中国＋人＋中国人”三个词。<br />
返回：始终为 true<br />
参数：scws_handle 即之前由 scws_open 打开返回的；<br />
         yes 设定值，如果为 true 则结果中执行复式分割，如果为 false 则不会，缺省为 false。</p>
<p>bool scws_send_text(resource scws_handle, string text)<br />
说明：发送设定分词所要切割的文本<br />
返回：成功返回 true 失败返回 false<br />
参数：scws_handle 即之前由 scws_open 打开返回的；<br />
         text 是文本的内容。<br />
注1：系统底层处理方式为对该文本增加一个引用，故不论多长的文本并不会造成内存浪费；<br />
注2：执行本函数时，若未加载任何词典和规则集，则会自动试图在ini指定的缺省目录下查找词典和规则集。</p>
<p>mixed scws_get_result(resource scws_handle)<br />
说明：根据 send_text 设定的文本内容，返回一系列切好的词汇。<br />
返回：成功返回切好的词汇组成的数组， 若无更多词汇，返回 false。<br />
参数：scws_handle 即之前由 scws_open 打开返回的。</p>
<p>注1：每次切割后本函数应该循环调用，直到返回 false 为止，因为程序每次返回的词数是不确定的。<br />
注2：返回的词汇包含的键值有：word (string, 词本身) idf (folat, 逆文本词频) off (long, 在文本中的位置) attr(string, 词性表示)</p>
<p>mixed scws_get_tops(resource scws_handle [, int limit [, string attr]] )<br />
说明：根据 send_text 设定的文本内容，返回系统计算出来的最关键词汇列表。<br />
返回：成功返回切好的词汇组成的数组， 若无更多词汇，返回 false。<br />
参数：scws_handle 即之前由 scws_open 打开返回的；<br />
        limit 可选参数，返回的词的最大数量，缺省是 10；<br />
        attr 可选参数，是一系列词性组成的字符串，各词性之间以半角的逗号隔开，<br />
        这表示返回的词性必须在列表中，如果以~开头，则表示取反，词性必须不在列表中，<br />
        缺省为NULL，返回全部词性，不过滤。</p>
<p>mixed scws_version(void)<br />
说明：返回 scws 版本号名称信息。<br />
返回：字符串<br />
参数：无</p>
<p>类对象用法参照函数用法，区别就是不需要传入第一参数（会自动从handle的属性中取值）。</p>
]]></content:encoded>
	</item>
	<item>
		<title>By: askie</title>
		<link>http://www.pkphp.com/2008/06/12/scws%e7%ae%80%e6%98%93%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d%e7%b3%bb%e7%bb%9f/comment-page-1/#comment-14</link>
		<dc:creator>askie</dc:creator>
		<pubDate>Sat, 14 Jun 2008 14:04:13 +0000</pubDate>
		<guid isPermaLink="false">http://www.pkphp.com/?p=76#comment-14</guid>
		<description>由于词典条目多达26万条之巨，在整理的时候已经把很多明显不对的标注或词条清理了，但仍然肯定有很多错误的条目。

主要表现在不是词的列在词里，还有词性标注错误的。本词典中的标注使用的是北大版本的标注集（见附录），在使用中发现错误的请大家协助跟踪汇报。这是一个长期艰巨的任务，希望本着有一纠一的原则。如有汇报，请遵守格式为：

词    原attr  正确attr
--------------------------
XXX       -        -    （表示错误或不需要的词，应删除）不需要的词指能自动识别了的。
XXX      n        c    （原来标注为n 实际应该为 c）

---- 附北大词性标注版本 ----
Ag
形语素
形容词性语素。形容词代码为a，语素代码ｇ前面置以A。

a
形容词
取英语形容词adjective的第1个字母。

ad
副形词
直接作状语的形容词。形容词代码a和副词代码d并在一起。

an
名形词
具有名词功能的形容词。形容词代码a和名词代码n并在一起。

b
区别词
取汉字“别”的声母。

c
连词
取英语连词conjunction的第1个字母。

Dg
副语素
副词性语素。副词代码为d，语素代码ｇ前面置以D。

d
副词
取adverb的第2个字母，因其第1个字母已用于形容词。

e
叹词
取英语叹词exclamation的第1个字母。

f
方位词
取汉字“方”

g
语素
绝大多数语素都能作为合成词的“词根”，取汉字“根”的声母。

h
前接成分
取英语head的第1个字母。

i
成语
取英语成语idiom的第1个字母。

j
简称略语
取汉字“简”的声母。

k
后接成分
　
l
习用语
习用语尚未成为成语，有点“临时性”，取“临”的声母。

m
数词
取英语numeral的第3个字母，n，u已有他用。

Ng
名语素
名词性语素。名词代码为n，语素代码ｇ前面置以N。

n
名词
取英语名词noun的第1个字母。

nr
人名
名词代码n和“人(ren)”的声母并在一起。

ns
地名
名词代码n和处所词代码s并在一起。

nt
机构团体
“团”的声母为t，名词代码n和t并在一起。

nz
其他专名
“专”的声母的第1个字母为z，名词代码n和z并在一起。

o
拟声词
取英语拟声词onomatopoeia的第1个字母。

ba 介词 把、将 　
bei 介词 被 　
p
介词
取英语介词prepositional的第1个字母。

q
量词
取英语quantity的第1个字母。

r
代词
取英语代词pronoun的第2个字母,因p已用于介词。

s
处所词
取英语space的第1个字母。

Tg
时语素
时间词性语素。时间词代码为t,在语素的代码g前面置以T。

t
时间词
取英语time的第1个字母。

dec 助词 的、之 　
deg 助词 得 　
di 助词 地 　
etc 助词 等、等等 　
as 助词 了、着、过 　
msp 助词 所 　
u
其他助词
取英语助词auxiliary

Vg
动语素
动词性语素。动词代码为v。在语素的代码g前面置以V。

v
动词
取英语动词verb的第一个字母。

vd
副动词
直接作状语的动词。动词和副词的代码并在一起。

vn
名动词
指具有名词功能的动词。动词和名词的代码并在一起。

w
其他标点符号
　
x
非语素字
非语素字只是一个符号，字母x通常用于代表未知数、符号。

y
语气词
取汉字“语”的声母。

z
状态词
取汉字“状”的声母的前一个字母。</description>
		<content:encoded><![CDATA[<p>由于词典条目多达26万条之巨，在整理的时候已经把很多明显不对的标注或词条清理了，但仍然肯定有很多错误的条目。</p>
<p>主要表现在不是词的列在词里，还有词性标注错误的。本词典中的标注使用的是北大版本的标注集（见附录），在使用中发现错误的请大家协助跟踪汇报。这是一个长期艰巨的任务，希望本着有一纠一的原则。如有汇报，请遵守格式为：</p>
<p>词    原attr  正确attr<br />
&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8212;&#8211;<br />
XXX       &#8211;        &#8211;    （表示错误或不需要的词，应删除）不需要的词指能自动识别了的。<br />
XXX      n        c    （原来标注为n 实际应该为 c）</p>
<p>&#8212;- 附北大词性标注版本 &#8212;-<br />
Ag<br />
形语素<br />
形容词性语素。形容词代码为a，语素代码ｇ前面置以A。</p>
<p>a<br />
形容词<br />
取英语形容词adjective的第1个字母。</p>
<p>ad<br />
副形词<br />
直接作状语的形容词。形容词代码a和副词代码d并在一起。</p>
<p>an<br />
名形词<br />
具有名词功能的形容词。形容词代码a和名词代码n并在一起。</p>
<p>b<br />
区别词<br />
取汉字“别”的声母。</p>
<p>c<br />
连词<br />
取英语连词conjunction的第1个字母。</p>
<p>Dg<br />
副语素<br />
副词性语素。副词代码为d，语素代码ｇ前面置以D。</p>
<p>d<br />
副词<br />
取adverb的第2个字母，因其第1个字母已用于形容词。</p>
<p>e<br />
叹词<br />
取英语叹词exclamation的第1个字母。</p>
<p>f<br />
方位词<br />
取汉字“方”</p>
<p>g<br />
语素<br />
绝大多数语素都能作为合成词的“词根”，取汉字“根”的声母。</p>
<p>h<br />
前接成分<br />
取英语head的第1个字母。</p>
<p>i<br />
成语<br />
取英语成语idiom的第1个字母。</p>
<p>j<br />
简称略语<br />
取汉字“简”的声母。</p>
<p>k<br />
后接成分<br />
　<br />
l<br />
习用语<br />
习用语尚未成为成语，有点“临时性”，取“临”的声母。</p>
<p>m<br />
数词<br />
取英语numeral的第3个字母，n，u已有他用。</p>
<p>Ng<br />
名语素<br />
名词性语素。名词代码为n，语素代码ｇ前面置以N。</p>
<p>n<br />
名词<br />
取英语名词noun的第1个字母。</p>
<p>nr<br />
人名<br />
名词代码n和“人(ren)”的声母并在一起。</p>
<p>ns<br />
地名<br />
名词代码n和处所词代码s并在一起。</p>
<p>nt<br />
机构团体<br />
“团”的声母为t，名词代码n和t并在一起。</p>
<p>nz<br />
其他专名<br />
“专”的声母的第1个字母为z，名词代码n和z并在一起。</p>
<p>o<br />
拟声词<br />
取英语拟声词onomatopoeia的第1个字母。</p>
<p>ba 介词 把、将 　<br />
bei 介词 被 　<br />
p<br />
介词<br />
取英语介词prepositional的第1个字母。</p>
<p>q<br />
量词<br />
取英语quantity的第1个字母。</p>
<p>r<br />
代词<br />
取英语代词pronoun的第2个字母,因p已用于介词。</p>
<p>s<br />
处所词<br />
取英语space的第1个字母。</p>
<p>Tg<br />
时语素<br />
时间词性语素。时间词代码为t,在语素的代码g前面置以T。</p>
<p>t<br />
时间词<br />
取英语time的第1个字母。</p>
<p>dec 助词 的、之 　<br />
deg 助词 得 　<br />
di 助词 地 　<br />
etc 助词 等、等等 　<br />
as 助词 了、着、过 　<br />
msp 助词 所 　<br />
u<br />
其他助词<br />
取英语助词auxiliary</p>
<p>Vg<br />
动语素<br />
动词性语素。动词代码为v。在语素的代码g前面置以V。</p>
<p>v<br />
动词<br />
取英语动词verb的第一个字母。</p>
<p>vd<br />
副动词<br />
直接作状语的动词。动词和副词的代码并在一起。</p>
<p>vn<br />
名动词<br />
指具有名词功能的动词。动词和名词的代码并在一起。</p>
<p>w<br />
其他标点符号<br />
　<br />
x<br />
非语素字<br />
非语素字只是一个符号，字母x通常用于代表未知数、符号。</p>
<p>y<br />
语气词<br />
取汉字“语”的声母。</p>
<p>z<br />
状态词<br />
取汉字“状”的声母的前一个字母。</p>
]]></content:encoded>
	</item>
</channel>
</rss>

