计算机毕业设计介绍:
2.2.2 分词技术和匹配方法
1. 常用的切词算法如下:
(1)最大正向匹配法
基本思想是:设D为词典,MAX表示D中的最大词长,str为待切分的字串。它是每次从str中取长度为MAX的子串与D中的词进行匹配。若成功,则该子串为词,指针后移MAX个汉字后继续匹配,否则子串逐次减一进行匹配。
(2)逆向最大匹配法
它的基本原理与前面的相同,不同的是分词的扫描方向,它是从右至左取子串进行匹配。统计结果表明,单纯使用正向最大匹配的错误率为1/169,单纯使用逆向最大匹配的错误率为1/245,它切分的准确率上比正向匹配法有很大提高。
(3)基于词频的统计方法
统计方法一般不依赖于词典,而是将原文中任意前后紧邻的两个字作为一个词进行出现频率的统计,出现的次数越高,成为一个词的可能性也就越大。在频率超过某个预先设定得阈值时,就将其作为一个词进行索引。这种方法能够有效地提取出未登录词。
〖资料来源:计算机毕业论文 www.xiaoniu168.com〗
第4页为计算机毕业论文部分......