计算机毕业设计介绍:
(2)匹配方法
由于词库中的最大词长通常大于所切分出的词长,为了提高切分的效率,不采用逐次减一个字的方法,而是使用正向逐一增长的方法。
假设对一个句子C1C2……进行分词处理,算法描述如下:
1) 两个字(开始时为C1C2),在词典中查询C1C2是否存在
2) 不存在,则C1为单字词,一次分词结束,返回1。
3) 存在,判断C1C2是否为词,并从词典中获取该词下层节点汉字的最大长度,设为n
4) 若n=0,一次分词结束,保存结果。
5) 否则,i=2,转6)。
6 ) i=i+1,若i=n+3,转8);否则,转7)。
7) 再取一个字(此处为Ci),判断第三层中是否有以C3……Ci开始的字(不需要恰好匹配,只要匹配开始的i个字就可以了)。
8) 若存在,分词结束,返回最近一次能够恰好匹配的C3……Cj(j9) 否则,转6)。
(3)统计方法运用
由于词典的不完全性,许多词可能不会在字典中登录,为了处理句子中的未登录词,我们在原有的算法中嵌入词频统计方法,将某些出现频率较高的连续字段作为一个词切分,我们首先对频度设定一个阈值f。
设已对C1……Cn进行切分,由切分算法和歧义处理算法得到C1……Ci为一个词,Cj……Cn为一个词,Ci与Cj之间皆为单字词,即C1……Ci和Cj……Cn是相邻最近的两个多字词,则将Ci+1……Cj-1作为一个多字词进行词频统计,在对文章全部切分完毕之后,若Ci+1……Cj-1的出现次数达到f时,则将其看作一个词,否则,将其拆分为单字词。
同时,对于相同或相近专业和领域建立起动态词库,将由统计得到的词不断加入词库中,可以实现对词典的动态维护。
以上通过将基于词典的处理方法和基于频率的统计方法结合起来匹配搜索运算,不仅保证了切分速度快、精度高的优点,而且能够结合上下文,最大限度的识别人名、地名、专业术语等未登录词。
〖资料来源:计算机毕业论文 www.xiaoniu168.com〗
第5页为计算机毕业论文部分......