|
摘 要 主要介绍了中文搜索引擎的机理及国内几种常见的中文搜索引擎,从实践运用的角度阐述了中文搜索引擎的检索技巧和方法,并指出了其存在的不足。 关键词 搜索引擎 检索技巧 在internet浩瀚无垠的大海里,面对眼花缭乱的信息资源,如何又快又准地找到所需的信息,已成为众多信息检索人员面临的一个必须解决的问题。在这方面,搜索引擎派上了大用场,它通过提供web信息查询的快捷方式,像图书馆的馆藏目录一样,提供链接路径,让搜索者到相应的网站去寻找相应的信息或资源,以实现信息的快速获取。中文搜索引擎就是这样一种为广大用户提供查找中文网络信息资源的有力检索工具。 1 中文搜索引擎的机理 1.1 搜索引擎涵义 目前,关于搜索引擎(search engine)的说法很多,国内还没有一个明确的定义。一般而言,我们可以从广义和狭义上去理解。从狭义的角度来说,搜索引擎由信息收集软件、索引数据库和查询接口三部分组成。信息收集软件从一个已知的文档集中读取信息, 并检查这些文档的链接指针,找出新的信息空间, 然后取回这些新空间中的文档 ,将它们加入到索引数据库。查询接口通过索引数据库为用户的查询请求提供服务。即指的是基于技术在整个网上自动执行网页全文搜索的网上指南工具。按照这个涵义理解,一般的网站不算是真正的搜索引擎,如yahoo!,它是网站索引或者目录指南,或者说,是靠人工对整个网上的网站一个个进行搜集、分类。从这点上说,搜索引擎是一种“技术密集型”工具,而 yahoo! 们则是“劳动密集型”工具。yahoo! 上的搜索引擎,不是它自己的,是由 inktomi 合作提供的。从广义的角度上讲,搜索引擎是因特网上的一类网站,这类网站与一般的网站不同的是它是提供查询、搜索的网站,或称查询站点、导航站点 ,即因特网上具有检索功能的网页。从这点上说,搜索引擎分为两种,一种是分类目录型的检索,它将因特网上的信息资源,如网址、描述主题、字顺或时间顺序汇总整理,形成图书馆目录一样的分类树型结构目录,用户通过逐级浏览这些目录来找寻自己需要的网址或相关内容;另一种是基于关键词的检索,这种方式用户可以用逻辑组合方式输入各种关键词 (keyword),搜索引擎计算机根据这些关键词寻找用户所需资源的地址,然后根据一定的顺序(如字母排列、时间、相关级别等)反馈给用户包含此关键字词信息的所有网址和指向这些网址的链接。现在的发展趋势是这两种类型正在合二为一。 1.2 中文搜索引擎的分类 随着信息技术的发展和运用,因特网每时每刻都在增加新的内容,用人工方式收集网址几乎不可能。为了及时反映信息源的情况,人们不断地开发出新的程序来适应这种变化,各种各样的搜索引擎应运而生。目前因特网上中文搜索引擎有十几种,它们各有其特点。从其评价标准上,可以分为以下几类: (1)全文搜索(fulltext search)引擎 它是采用对站点页面文字内容进行全面检索。全文检索技术的出现,导致了信息检索领域的一场革命。比起目录检索,全文检索提供了全新的、强大的检索功能,可以直接根据文献资料的内容进行检索,支持多角度、多侧面地综合利用信息资源。全文检索技术是发现信息、分析和过滤信息、信息代理、信息安全控制等应用的主要技术基础。以全文检索为核心技术的搜索引擎已经成为网络时代的主流技术之一。全面、准确和快速是衡量全文检索系统的关键指标。目前,国内功能较为完整、提供中文全文搜索的站点为www.4u4me4us.com和www.netnease.net等。全文搜索虽然多而全,但没有分类式搜索引擎那样清晰的层次结构,有时给人一种繁乱的感觉。 (2)目录式分类结构(directory) 引擎 分类搜索引擎是将信息系统地分门归类,用户可方便地查到某一大类信息,与传统的信息查找方式相近,特别适合希望了解某一方面信息并不严格限于查询关键字的用户。但目录式搜索引擎的搜索范围较全文搜索引擎要小许多。它只是将该网站划分到某个分类下,并记录一些摘要信息等概述性的介绍。如中文yahoo等。 (3)目录、全文合二为一的搜索引擎 由于纯粹的全文式和目录式的搜索引擎都存在各自的不足,人们自然想到将上述两种搜索引擎的优点结合起来,扬各自的长,避各自的短。实际上目前优秀的搜索引擎都是采用这种方式。 2 介绍几种主要的中文搜索引擎 2.1 中文excite搜索引擎 中文excite搜索引擎目前只进行网页搜索,它是提供资料及信息最全的页搜索引擎。共收集了近200万个网页,并提供了5个“高性能检索平台”帮助查询者进行查找。最有特点的是检索结果按你提问的相关程度来排序,一般来说,排在越前面,相关程度越高。如果你发现某一检索结果很符合你的检索要求,按一下“检索更多类似该网页的文献”键,excite中文搜索引擎会检索出更多与此类似的网页。使用比较专指的提问词进行检索,就可以搜索到更多想要找的文献。利用“高性能检索平台”,还能像职业信息专家一样快捷准确地搜索到更多相关的文献。我们还可以自己指定检索数据库(全部中文网页数据库、中国网页数据库、香港网页数据库、台湾网页数据库、新加坡网页数据库以及西方语言网页)来控制检索结果的数量和显示方式,并能十分容易地使用所有高级检索功能。 2.2 中文雅虎(yahoo!):http://gbchinese.yahoo.com 它是著名的搜索引擎yahoo!的中文站点,不论是国标码的简体字、大五码的繁体字的信息都可在这里查询到。使用的方法是:如果你清楚地知道你查询的主题,可在检索栏内键入相关主题的关键字,或者按照其分级目录一级一级地查询。 2.3 搜狐:http://www.sohu.com 搜狐站点全部采用人工分类,分为搜狐新闻、免费资源、企业集粹、搜狐社区、搜狐多媒体、搜狐三维空间、搜狐体育、外国参考大全等10余个栏目,是国内较有影响的中文搜索引擎。 2.4 新浪:http://www.sina.com.cn 新浪搜索目前共分15大类,1万多细目10余万个站点。新浪网的搜索器查询顺序依次为:目录搜索、网站搜索、网页全文检索。 2.5 天网:http://www.pku.edu.cn:8000/gbindex.htm 这是由北大计算机系开发的搜索引擎,是中国教育和科研计算机网的示范项目。其特点为收集的网页较多,查询速度快。它采用了中文分词技术,对能分出词的查询字串的查准率较高。它的查询界面分为简单查询和复杂查询两种方式。 2.6 悠游:http://www.goyoyo.com.cn 它不仅仅是一个中文搜索引擎,还包含关于中文信息处理的功能,提供自动构造式的概念类型(conceptsearch)查询。它的查询方式有:分类查询、概念查询、精确查询和网址查询。它还有一个特点是自动转换繁体、简体汉字。 另外,还有一些重要的搜索引擎,在此列出,不一一介绍。 若比邻:http://www.robot.com.cn 东方网景导航:http://www.east.cn.net/search 华好网景导航:http://www.chinaok.com 瑞得站点导航:http://www.rol.cn.net/station/index.htm 四通利方中文检索:http://www.richsurf.com 网现引擎:http://www.search.com.cn 网易中文搜索http://www.yeah.net cseekhttp://www.cseek.com 我是野虎:http://www.5415.com 指南针:http://www.yippee.com.cn 搜索客:http://www.cseek.com 北极星:http://www.beijixing.com.cn 常青藤:http://www.tonghua.com.cn 中经网搜索:http://www.infonavi.gov.cn 广州视窗:http://www.gznet.com 3 中文搜索引擎的检索技巧 今天的搜索引擎不仅迅速准确而且有清晰的组织结构,同时提供多项有助于用户快速缩小包围圈的搜索功能。但仍需要通过不断的实践来积累经验,使用户在大量的信息中筛选需要的信息成为可能,因此,了解搜索引擎的检索技巧,非常必要,而且势在必行。 3.1 熟悉经常使用的查询工具及其特性是搜索成功的基础 检索人员必须对所要使用的搜索引擎有一个清楚的了解,如前所述,对各种搜索引擎的结构及特性的熟悉是必要的。另外还要认识到不同的查询方式会产生不同的结果。不同目的的查询应使用不同的查询策略,这主要取决于你是想得到一个问题的多方面信息还是简单的答案。 3.2 关键字的选择是运用搜索引擎成功的重要因素 “关键词(keywords)”是搜索引擎将站点进行分类的依据,即查找信息时输入的那些词,所以关键词在利用搜索引擎时至关重要。目前,绝大多数搜索引擎都支持关键字索引,即按照登记网站提供的关键字记录网站并按照查询者输入的关键字索引网站。因此,正确的关键字可以使您利用较短的时间检索到较多的信息。网站搜索引擎上关键字的产生目前还没有一个十分明确的标准,依笔者的经验,选择合适的关键字要从以下几点去考虑:(一)检索时使用检索人员所用的关键字的同义词。因为一个好的搜索引擎,使用一个关键字后的结果一般都有上万条信息,这时,检索人员必须试着将能够想到的关键字全部写下来,并不断在搜索引擎上进行检索,以找出最适合您课题的关键字。(二)利用关键字的地区性来考虑检索。通常,一个地区性明显的关键字一定会比那些不明显的关键字吸引更多的访问量,一般的搜索引擎的关键字也是按照区域性范围来设定的。(三)使用更长的关键字来检索。选择长的关键字,符合搜索上的“单词堵塞”现象。通常,在进行检索时,会出现这样一种现象,即搜索的结果并不和您的搜索完全匹配,但它们可能会很相似或者就是同一个信息。当一个搜索引擎使用单词堵塞时,就意味着对词根的搜索也包括了对很多其他单词的搜索。因此,对于单词堵塞的搜索引擎,只需要选择更长的关键字。 (四)关键字的组合检索。使用组合应强调了解使用关键字组合的习惯及频率,因此, 确定一个特定主题的大部分短语,重新组合所要的关键字,并让其他的人参与考虑,从而能够得到最适合的关键字组合。 4 中文搜索引擎的不足 4.1 中文搜索引擎技术尚未成熟 中文搜索引擎技术出现的时间并不比英文的晚多少,然而发展速度却远远赶不上英文,这是由于网页级搜索引擎的开发难度相当大,该方面的专业人才奇缺,有开发这种搜索引擎经验的人,即使在硅谷也属凤毛麟角,开发所需要的硬件要求也比一般的网页制作高出很多。因此,中文搜索引擎的成熟还需要有一个过程。 4.2 中文搜索引擎速度很慢 某些中文网站的网页搜索服务外包给了一些服务器在境外的应用服务提供商(asp),如altavista或openfind等, 由于用户搜索需要占用出国带宽,因而速度极慢。这不是中文搜索引擎的错,而是这些网站没有选对asp 所致。 4.3 中文搜索引擎的相关性较差 这是相比英文搜索引擎而言的,中文与英文最大的不同之处在于中文中有词的概念,检索字串与网页中文字的简单匹配并不见得就是语义上的匹配;要想提高中文搜索的相关性,必须结合中文词和中文字,并使用一些先进的算法,如新一代信息检索(ir)算法、超链分析(link analysis)等。中文搜索也有许多英文搜索望尘莫及之处,如中文网页极少有针对搜索引擎的欺骗(spamming)行为,中文没有单复数、时态等的变化,大多数先进的算法也完全适用于中文。中文搜索的相关性完全可以与英文媲美。百度搜索使用了目前国际上先进的搜索引擎技术,并结合中文的语言特点和文化特点,成功地解决了中文搜索的相关性问题。另外,中文搜索引擎还有数据更新慢、中英文不支持等情况,尚需进一步完善。 总而言之,中文搜索引擎从产生到运用,是一个不断发展,不断完善的过程。其产生依赖于计算机、电子通信等新技术,其使用在于信息检索人员不断的实践和摸索。随着信息及网络技术的发展,中文搜索引擎将不断发展,日臻完善,为信息检索提供更完善的服务。 参考文献 1 http://member1.shangdu.net/home2/birdhome/text/xinshou/c22.htm,2000-12 2 http://www.gll-gx.org.cn/xxzz/ssyq.htm,2000-10-11 3 http://www.cn3e.net/suo/suo7.htm,2000-10-05 4 http://www.china-th.com/computer/faq/19.htm,2000-12-03 5 http://www.cnshow.com/computer/messages/732.html, 2000-11-13 6 http://edoor.home.sohu.com/search2.htm,2000-11 |