搜索引擎管理系统开题报告
来源:未知
作者:NuLi
添加时间:2010-12-08
点击数:6790
搜索引擎管理系统开题报告
一、本课题设计(研究)的目的: 网络信息的快速增长、传统的搜索引擎并不能很好地满足用户需求,尚存在诸多不足。例如对于用户给出的某关键字往往返回上万条结果,也即使搜索引擎找到了用户所期望的结果,用户仍然无法快速地定位到自己所需要的资源,甚至有许多属于同一类型、同一方面的无效信息返回。 本课题的目的是对现有的搜索引擎进行优化,解决上述问题,使用户可以更快定位自己所需结果集,缩小选择范围,提高用户搜索效率。 | 二、设计(研究)现状和发展趋势: 搜索引擎发展到今天,无论从产业角度还是从产品角度来看,都成为计算机领域的一个重要研究方向,创造了一个又一个互联网亮点。众多的搜索引擎的出现,有着不同的信息搜集方法和服务提供方式,如百度、google所采用的全文检索搜索引擎,Yahoo、LookSmart所采用的目录式搜索引擎,以及LookSmart、WebCrawler所采用的元搜索引擎。 对于众多的搜索引擎,我们可以用衡量传统信息检索系统的性能参数-召回率(Recall)和精度(Pricision)衡量一个搜索引擎的性能。召回率是检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系统(搜索引擎)的查全率;精度是检索出的相关文档数与检索出的文档总数的比率,衡量的是检索系统(搜索引擎)的查准率。对于一个检索系统来讲,召回率和精度不可能两全其美:召回率高时,精度低,精度高时,召回率低。对于搜索引擎系统来讲,因为没有一个搜索引擎系统能够搜集到所有的WEB网页,所以召回率很难计算。目前的搜索引擎系统都非常关心精度,其中google以搜索精度高、速度快成为最受欢迎的搜索引擎,是目前搜索界的领军人物。 影响一个搜索引擎系统的性能有很多因素,最主要的是信息检索模型,包括文档和查询的表示方法、评价文档和用户查询相关性的匹配策略、查询结果的排序方法和用户进行相关度反馈的机制。 基于机器人技术的搜索引擎是国内外关于搜索引擎采用的较好技术之一,即由一种叫“蜘蛛”的计算机程序在网络中爬行,并发现、加工、整理信息,为用户提供检索服务;部分中文搜索采用目录式搜索引擎(Directory Search Engine),即通过人工发现信息并依靠编目员的知识进行分类;前者获得的信息量较大,耗费资源较少,后者精确度较高。从发展趋势来看,将人工发现信息并依靠编目员的知识分类与机器人搜索引擎二者融合,优缺互补,可以提高智能化程度和准确度。而元搜索引擎没有自己的数据,是将用户的查询请求同时向多个搜索引擎递交,将返回的结果进行重复排除、重新排序等处理后,作为自己的结果返回给用户。服务方式为面向网页的全文检索。这类搜索引擎的优点是返回结果的信息量更大、更全,缺点是不能够充分使用所使用搜索引擎的功能,用户需要做更多的筛选。 互联网的普及,使用搜索引擎的用户多样化,覆盖各个行业领域,各个年龄阶段,其需求也呈现多样化。大多数搜索引擎目前仍然采用通用式的搜索方式,即针对同一关键词进行的查询,搜索引擎会对不同用户给出相同结果。这种模式以网页的加权评价为核心,而并非以用户为核心,并不能满足不同用户的不同需求。针对某一特定行业的专业搜索,即垂直搜索的出现在一定程度上填补了这一需求缺口,但其覆盖范围有限,搜索信息有限,用户群体有限;而近年来,一些优秀的社会化搜索和智能搜索等搜索引擎工具的出现为该领域注入了新的活力,元搜索也有着良好的发展势头。 |
| |
|
|