计算机信息检索
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

2.3 计算机信息检索原理、步骤和检索效果

2.3.1 计算机信息检索的步骤

计算机信息检索的具体步骤示意图如图2-6所示。

图2-6 计算机信息检索的具体步骤示意图

1.分析研究课题

这是指在着手查找信息前对课题进行分析,明确学科或专业的范围,弄清检索的真正意图及实质。它包括了解课题的内涵概念范围和外延概念范围,以便确定检索标识(检索词、分类等);明确课题所需信息的内容、性质和水平以及出版国别、语种和年限;了解并掌握课题的国内外情况;同时还要在分析的基础上形成主题概念,包括所需信息的主题概念有几个?概念的专指度是否合适?哪些是主要的?哪些是次要的等要素。还有些检索系统要求使用相应的词表和类表对选择出来的检索词进行核对,力求检索的主题概念准确反映检索需求。

可从以下几方面确定检索范围。

(1)专业范围。确定该课题涉及哪些专业及其相关的学科。

(2)时间范围。确定该课题需要检索信息的年代范围。

(3)地理范围。各国出版的检索系统以收藏本国的信息为主,因此要了解某课题在哪个国家处于领先地位,原则上就采用该国的检索系统。

(4)语种范围。视该课题在哪国占优势,据此选择该国母语的检索系统。

(5)信息类型。各种检索系统收录信息的着重点是不同的,即使是综合性检索系统也未必面面俱到,因此要选择与课题有关的、针对性强、适合课题需要的检索系统。

2.选择检索系统

利用哪些检索系统进行查找,这直接与检索结果有关。要根据课题要求,选择与所查课题相适应、质量较高、检索手段比较完善的检索系统须了解和掌握其适用范围、收录特点,然后可通过三次信息的选择和检索,如《工具书指南》、《数据库目录》、搜索引擎介绍等工具指引到二次信息检索系统。

在选择检索系统时,要考虑的主要问题如下。

(1)在内容和时间方面,要考虑检索系统、数据库内容对课题内容的覆盖面和一致性,如应综合考虑检索系统、数据库收录信息的齐全、编制的质量、使用的方便等因素。

(2)在手段上和技术上,具有机检条件一般就不选择手检工具,机检无疑具有较高的检索效率。但是数据库收录的信息一般都是20世纪80年代至90年代的,若需较久远的信息,未必已被回溯建库,所以在选择时必须掌握其收录信息的年代范围,才能获得满意的结果。

(3)考虑价格和可获得性,应选择就近容易获得的检索系统。

3.确定检索途径

检索途径是进入检索的入口。归结起来,有两类检索途径,一是反映信息内容特征的(主题、分类)途径,二是反映信息外部特征的(著者、题名、代码等)途径。上述两类途径构成了信息检索的整个检索途径体系。

(1)分类途径。这是按学科分类体系查找信息的途径,采用的是分类目录和分类索引。它以学科概念的上、下、左、右的关系来反映事物的派生、隶属、平行、交叉的关系,能够较好地满足族性检索的要求。

(2)主题途径。这是利用信息主题内容进行检索的途径,即利用从信息中抽象出来的,或经过人工规范化的,能够代表信息内容的标引词来检索。它打破了按学科分类的方法,使分散在各个学科领域里的有关课题的信息集中于同一主题。其最大优点是接近人们的工作和生活实际,且直接准确,同时,由于采用的概念易于理解或为人所熟悉,能够把同性质的事物集中于一处,使检索时便于选取。在各学科和其分支交叉渗透日益强化的今天,这种途径的检索是深受欢迎的。

(3)题名途径。这是根据信息的题名来检索信息的途径。比较符合一般用户对信息使用的习惯。知道信息题名的读者可以通过这种途径获取所需的信息。但题名往往较长而且复杂,题名相同或相似的甚多,容易造成误检,故不宜作为主要的检索标识。

(4)著者途径。这是以著者(包括个人及团体著者)的名称,按照字顺编排成一个体系,通过这一体系的排列规律,把某一著者的信息集中起来通过这一途径能获取该著者所有的信息。

国外对著者途径非常重视,许多检索系统都把著者索引作为最基本的必备辅助性索引。著者途径的特点是:科研人员一般是各有所长,尤其是有些领域的知名学者、专家,他们的文章和特点一般都代表了一定的水平和动向,通过著者线索,可以系统地发现和掌握他们研究的进展,可以查寻某著者的最新论著。一定程度上,可以引导查找到同类或相关的信息。这种途径的检索既快速又方便,但查得的信息缺乏系统性、完整性。

(5)代码途径。这是通过已知信息的专用代码,如国际标准书目号(ISBN)、国际连续出版物号(ISSN)、专利号、合同号等查找信息的途径。它们是一些信息类型的特有标识,与信息有对应的关系。在已知信息代码的前提下,用此途径检索信息比较方便、快速,尤其是ISBN、ISSN的唯一性使得检索更体现其快速和便捷的特点。正因为信息代码的唯一性特征,所以现代人们应该重视对ISBN、ISSN等的记忆。

(6)其他途径。有些检索系统还附有一些特殊的索引,可用特殊途径找到所需信息的线索。如已知题名、会议时间和地点,则可用“图书索引”和“会议索引”等来检索所需的信息。另外根据学科性质和它们的不同特点,也出现了一些特殊的标识,由这些标识构成了辅助检索途径,如以地质地理科学的地域区划和地名为标识编制的专门索引。

在计算机信息系统中,检索途径还有很多,几乎信息的每一个特征(如出版社、出版年代等)都可作为检索途径。显然,检索途径的多少直接关系到检索的便利与否。

多种检索途径各有特色、作用,使用时不可偏废。在检索信息时,应根据检索要求、已知条件、设备是否齐全等因素,尽量综合利用各种途径,取长补短,进行优化选择,以提高检索效率。

例如,为科学研究确定的课题,为了解某一学科的发展历史、研究现状和发展趋势,为制定战略决策和进行预测而搜集有关信息,应以分类途径为主,辅以主题检索途径;为研究解决某一具体问题或攻克某一技术难关,应以主题途径为主,辅以分类途径;如果已知检索课题的外部特征,则应选择题名、著者、代码等检索途径;如果已知检索课题的内容特征,则应选择主题途径或分类途径。

选择检索途径可供参考的意见如下。

(1)从已知信息特征选择检索途径。如果事先已知信息题名、著者、代码等条件,应相应采用题名目录、著者索引、代码索引或有关的目录索引。用这些途径进行检索比较快速、方便和有效。若与分类途径或主题途径配合使用,即从分类途径或主题途径查出一批信息,掌握一些著者姓名,然后采用著者途径进行追溯,更能收到较好的检索效果。

(2)从课题检索要求选择检索途径。如果课题检索的泛指性较强,也就是说所需信息的范围广,要求“特性检索”,则选用主题途径为好。检索途径选择不当,将会造成误检和漏检,影响检索效果。

(3)从检索系统提供的索引选择检索途径。检索系统提供的每种索引,都是一种检索途径,应充分熟悉和使用。目前国内外检索系统提供的索引情况不一,多的提供索引十多种,少的只提供一二种索引。因此,选择检索途径还要根据检索系统的具体情况来决定。

检索途径确定以后,就要根据课题要求拟定相应的检索标识。当选择内容途径时,有时检索系统还要求将确定的检索标识与相应的词表或类表进行核对,以提高查准率。

4.制定、调整检索策略

(1)信息检索的策略。所谓信息检索策略,即将课题的提问及其检索词与检索系统的收录内容、编排特点相匹配而确定的检索方案或程序。制定检索策略的主要内容是,在分析检索课题的基础上,确定要利用哪些检索系统,确定查找年限和专业范围的选择,确定检索用词并判明各词之间的逻辑关系与查找步骤等事项的科学安排。

(2)检索策略的调整。检索过程是一个动态的随机过程,在某些检索环节中,会不可避免地产生一些和检索目标相差甚远的现象,如检索词过于宽泛或过于偏窄而造成扩检或漏检,检索词不规范而引起的误检等。所以,有必要在评价检索效果的基础上,还要对检索结果进行信息反馈,以便于重新修正检索策略,调整检索手段,进行新一轮的循环检索,从而实现检索目标的完善。

以SKBK数据库检索为例:

页:21

C913.5*G =青少年犯罪*E=2001

C913.5*(G =青少年犯罪+G=未成年人犯罪)*(E=2001+E=2002)

C913.5*(G=青少年犯罪+G=未成年人犯罪+B=青少年犯罪+B=未成年人犯罪)*

(E=2006+E=2007)

2.3.2 检索效果的评价指标

检索效果是指信息系统检索信息的有效程度,反映了信息系统的检索能力。检索效果包括检索的技术效果和经济效果。技术效果是由信息系统完成其功能的能力确定,主要指性能和质量。经济效果由完成这些功能的价值确定,主要指信息系统服务的成本和时间。克兰弗登(Cranfield)在分析用户基本要求的基础上,提出了六项评价系统性能的指标,它们是收录范围、查全率、查准率、相应时间、用户负担和输出形式。其中,查全率和查准率是两个最主要也是最常用的指标。

1.查全率和查准率

查全率(Recall Ratio)是指检索出的相关信息量与信息系统中的相关信息总量之比。

查准率(Precision ratio)是指检索出的相关信息量和检索出的信息总量之比。

它们的定义用下列公式表示:

在上述公式中,前者是衡量系统检索出与课题相关信息的能力;后者是衡量系统拒绝非相关信息的能力。两者结合起来,即表示信息系统的检索效率。可是相关信息和非相关信息在检索效果的分析中总是相辅相成的,其关系可参见表2-1。

检索者的最终目的是要求达到查全率和查准率均为100%,这实际上是不可能的。一系列试验结果表明,查全率和查准率之间存在互逆关系。例如,心理学是包含教育心理学的大概念,把“心理学”作为检索词具有泛指性,能提高查全率(如图2-7中的A点),但是正因为检索范围的扩大使得查准率因此降低。同样把“教育心理学”作为检索词具有针对性,能提高检索词的专指性,排除非相关信息,但是同样也降低了查全率(如图2-7中的B点)。可见,查准率和查全率是不可能同时提高的。也就是说,对任何一个信息信息系统,在其查全率与查准率之间都存在一个最佳的比例关系,如图2-7中的C点和D点,就是A点和B点两种极端之间的折中检索,即查全率一般为60%~70%,查准率一般为40%~50%,这是检索的最佳状态,如图2-7所示。

表2-1 检索效果评估相关数据表

图2-7 查全率和查准率关系曲线图

2.查全率和查准率的局限性

查全率和查准率虽然是目前用来衡量检索效果的相对合理的指标,但它们却存在着难以克服的局限性。

查全率的局限性主要表现在:它等于检索出的相关信息与存储信息中的相关信息之比,但很少有人事先确知存储信息中相关信息究竟总共有多少,而只能估计;另外,查全率或多或少具有“假设”的局限性,这种“假设”是指检索出的相关信息对用户具有同等价值,但实际并非如此。

查准率的局限性主要表现在:如果检索结果是题录式而非全文式,由于著录的内容简单,用户很难判断检索到的信息是否确切与课题密切相关,而必须寻找到该题录的全文,才能真正判断该信息是否符合检索课题的需要。同时,查准率中所讲的相关信息,也具有“假设”的局限性。

产生这种局限性的主要原因是在“相关性”这个概念上。“相关性”概念本身,主观成分颇多。不同的课题,对检索信息相关性的要求不同,即使同一课题,随着时间、地点、条件的不同,对检索信息的相关性要求也会有很大出入。例如,在开始确定一项新的研究计划时,对查全率要求很高,希望不漏掉任何一个重复研究项目的情报;而在进行这项研究的过程中,为了核实或补充某个问题,有时又需要很高的查准率。因此,前面所说的查全率和查准率,都是相对的查全率和查准率,而不是绝对的查全率和查准率。它们只能近似地描述检索效果。在评价检索效果时,必须谨慎使用这两个概念。

在实际检索中需要根据具体的检索课题来调整查全率和查准率。用户常常是经过几次检索来调整符合检索课题需要的查全率和查准率。在多数情况下,应该在查全基础上逐步利用限制检索来逐步提高查准率。

3.影响查全率和查准率的主要因素

对用户来说,最关心的是检索效果而影响检索效果的主要因素有信息标引的广泛性和用户检索标识的专指性。标引的广泛性是指标引时揭示信息主题基本概念的广度而言,是支配查全率的重要因素;检索标识的专指性是指检索标识表达主题的基本概念的专指度而言,是支配查准率的重要因素。

对于一个信息系统来讲,这些都是影响查全率和查准率的客观因素、系统内信息存储不全,收录遗漏严重;索引词汇缺乏控制;词表结构不够完善;标引缺乏详尽性,没有网罗应有的内容;信息分类(标引)专指度缺乏深度,不能精确地描述信息主题;组配规则不严密,容易产生模棱两可或歧义现象等。

对用户来说,影响查全率和查准率的主观因素有:检索课题要求不明确;检索系统选择不恰当;检索途径和方法过少;检索词缺乏专指性;检索面宽于检索要求;用词不当;组配错误等。

4.提高检索效果的措施和方法

要提高检索效果,可以参考使用以下辅助性措施和方法。

(1)提高检索系统的质量包括:数据库收录信息内容的范围不但要广泛,而且要切合课题检索的要求;著录的内容详细、准确,辅助索引完备;具有良好的索引语言的专指性与网罗性及其标引质量等。

(2)提高用户利用检索系统的能力,使之具备一定的检索语言知识,能选取正确的检索词,并能合理使用逻辑组配符完整地表达信息需求的主题;能灵活运用各种检索方法和检索途径等使检索系统最大限度地发挥作用。比如,全面准确地表达检索要求,合理使用信息、检索点。根据不同检索课题的需要,适当调整对查全率和查准率的要求。

(3)制订优化的检索策略,尽量准确地表达检索要求,合理调整查全率和查准率。由于查全率和查准率是互逆的,所以,需要根据课题的具体要求,来合理调整两者的比例关系。如需了解某项研究的概况、申请专利、科技查新、开题、立项等则要求查全率高,如需了解某项研究的最新进展、检索新的课题则要求有较高的查准率。总之,选用泛指的检索词,或尽可能增加与检索主题概念相关的检索词的数量,则查全率就高;选用专指性的检索词或由若干个检索词组配的专指概念的检索词,则查准率就高。只要掌握了这些方法和技巧,并在具体检索中合理运用,就能得到满意的检索结果。

不同的检索课题,不同的信息需求,对查全率和查准率的要求是不同的,表2-2给出了调整查全率和查准率的一些措施,供用户检索时选用。

表2-2 调整查全率和查准率的措施

2.3.3 检索策略

检索功能强调的是静态性,检索策略则强调动态性。

检索策略是对检索行为的全面策划,在操作上主要是指选择合适的数据库和编制检索提问式,前者取决于现有的数据库源,后者则反映出检索目标。尽管计算机检索为用户创造了良好的检索环境,尤其是其强大的检索功能、诸多的检索入口和用户友好的检索界面,即使是对计算机检索知识掌握有限的人也能上机进行检索。但是,要想以低廉的费用快速地获得满意的检索效果,就离不开计算机检索的3个基本步骤。即全面地分析信息需要、选择合适的数据库、制订正确的检索策略。

1.信息需要的分析

明确检索的要求和目的,是制定检索策略的前提。信息需要受社会因素和个人因素的制约,是各不相同的。因此,在着手信息检索前,必须全面地了解清楚信息需要和检索目的、检索的学科内容、主题范畴。根据社科信息的需求特点,其需求不外乎下述4种类型。

(1)了解学科发展动态的要求。这类信息需求的特点是一个“新”字,即要求及时获得学科前沿研究的最新动态、最新研究进展和研究成果。针对检索要求,在选择数据库时,除了必须考虑选择在学科内容方面与检索要求相吻合的基本要求以外,还应注意考虑到信息内容更新周期短的因素。

(2)了解某一研究主题的片断性信息。这类信息需求旨在于借鉴他人研究成果,用以解决研究中碰到的具体问题。这类信息需求的量最大,其特点是一个“准”字。即检索出的信息应有针对性,能帮助解决具体问题。因此,在数据库选择方面,除了注意内容主题的匹配外,还应注意原始信息的易获性,最好选择全文数据库。

(3)了解某一研究主题的全面性信息。出于基础理论研究、编写教材及申请课题的需要,用户往往需要全面系统地收集某一个主题范围内的信息资料,这类检索具有横向普查、纵向追溯的特点,并对查全率有较高的要求。因此,针对这类检索在选择数据库时,要注意选择存储容量大,覆盖年限长,具有较强随机存取能力的数据库。

(4)检索特定的文献信息。用户已经知道文献的题名、作者,而只是要求获取原文。对这类用户需求只需要选择与学科主题相吻合的数据库。

除了需要了解清楚用户信息需求和目的以外,了解清楚待查文献的年限、文献类型、语种和检索费用的支付能力等情况,对制定正确的检索策略也很重要。

不同类型的信息需求,对查全率和查准率的要求不尽相同,对选择数据库的要求也有差异。因此,在后续制定检索策略时,也应区别对待。

2.检索课题的分析

(1)一般课题概念的分析。分析检索课题就是分析出课题所涉及的主要概念,并选择能代表这些概念的若干个词或词组,进而分析概念之间的上、下、左、右关系。尤其值得注意的是对于新学科、交叉学科和边缘学科的课题,清楚概念关系就显得尤为重要,如市场文化学、经济数理统计等。概念分析的结果应以概念组为单元的词或词组形式列出,以便制订检索策略。

例如,检索课题:网络资源的知识产权保护

关键词:知识产权保护 网络资源

(2)隐含课题概念的分析。有些课题的实质性内容往往很难从课题的名称上反映出来,课题所隐含的概念和相关的内容需要从课题所属的专业角度作深入分析,才能提炼出能够确切反映课题内容的检索概念。如“知识产权保护”的概念中的“知识产权”一词隐含着“版权”、“著作权”等概念。

(3)核心概念的选取。有些检索词已经含有的某些概念,在概念分析中应予以排除。如“社会保障”包含“养老保险”、“失业保险”、“医疗保险”、和“社会救济”等下位概念及同位概念“社会保险”。所以,如果需要检索“养老保险”方面的信息,应直接使用“养老保险”做检索词最确切。

如果有些检索概念已经体现在使用的数据库中,这些概念也应该予以排除。例如,在使用法律文摘数据库(law abstracts)时,“法律”(law)这一概念一般可以排除;而computer(计算机)一词在计算机数据库(The Computer Database)中一般也应予以排除。

另外有一些比较泛指、检索意义不大的概念,如“发展”、“趋势”、“现状”等在不是专门查找综述类信息时也予以排除。

3.选择数据库

不同的数据库学科范围不同,检索指令不同,收费标准也不同。所以在检索之前阅读有关数据库的使用介绍,以便选择数据库时做到心中有数。数据库选择不当,就好像买东西走错了商店一样,不可能购买到满意的商品。因此针对用户的信息检索要求,选库时应遵循下列原则。

(1)要根据用户信息检索的学科内容和目的选择数据库。如果检索课题涉及的内容全面而广泛,为了避免漏检,应同时选择几个不同的数据库,如需检索的课题内容专业性很强,则可以选择专业文档进行检索。

(2)在同时有几个数据库可供检索的情况下,应首先选择比较熟悉的数据库。这样能够既快速又准确地查找到真正需要的信息。

(3)当几个数据库的内容交叉重复率较高时,应选择检索费用比较低廉的数据库。

(4)当用户要求检索的信息量比较大时,可以利用“数据库主题指南”,例如“Subject Guide to Dialog Database”或“Find Your Database Fast”等查询待查主题内容的文档号码。并通过这些文档号及名称转查“数据库目录”(Dialog Database Catalog)进行初选,然后查“文档说明书”-“蓝页”作精选,最后选定数据库;此外,也可以利用系统提供的数据库总索引文档,联机选择数据库。

4.编制检索提问式

经过对课题内容做出分析,比较完整和准确地了解用户课题检索的主题内容和要求之后,接下来的工作就是制定检索提问式。在制定检索提问式时,事先应考虑到联机检索过程中可能出现的各种情况,准备几套不同的检索提问式,以便在上机过程中随时作调整用。编制检索提问式要尽可能地精炼,不要编得太复杂。限制条件不要太多,否则会得不到理想的检索结果。一般应采用逐步加以限制的方法。在输入反映课题的检索词之后,如检得的信息很少,就没有必要再检索下去了。例如,查找“东西方社会保障制度比较研究”课题的相关信息。该课题要求检索出有关东西方建立和实施社会保障制度的有关信息和研究动态。下列主题词可选用检索词。

社会保障 social security 社会救济 social relieve

失业保险 unemployment insurance 社会保险 social insurance

养老保险 endowment insurance 医疗保险 health services insurance

确定的检索策略为:

① s social ( )security+social ( )relieve

② s unemployment ? ( )insurance+social ( )insurance

③ s insurance * (endowment+health ( )service?)

④ s s1+s2+s3

“建立”、“实施”、“研究”等一类比较泛指的词语一般不宜作检索词。只有在检出的信息比较多时,才使用在检索表达式中加以限制。否则,一开始在检索表达式中就限制得过多,会适得其反,得不到理想的检索效果。