2.2 计算机信息检索语言
检索语言(retrieval language)是检索信息所使用的人工语言。就检索语言的实质而言,它是从自然语言中精选出来并加以规范化的一套词汇符号,用于对信息内容进行概括或外在特征的概念及其相互关系的概念标识体系。检索语言由词汇和语法两部分组成。
词汇:是指登录在类表、词表中的所有的标识(分类号、检索号、代码等),是可识别的语词。
语法:是指如何运用标识来准确表达信息内容和特征,以有效实现信息检索的规则。
在存储和检索过程中,检索语言起着重要的语言保障作用。它既是沟通信息存储和检索两个过程中信息标识和信息检索双方思路的桥梁,又是编制检索数据库的各种索引的依据。检索语言是为了达到信息标识和信息检索一致性的一种受控语言。
2.2.1 检索语言基础知识
任何一种检索语言,无论其表达形式是词、词组或符号,都是一种用概念及其相互关系表达信息内容特征的标识系统。它们都建立在概念逻辑的基础上,并以此为依据。
在信息检索过程中,为了揭示一事物与其他各种事物之间的区别与联系,达到检索的目的,检索语言不仅要表达事物的不同概念,还要揭示概念之间的逻辑关系。逻辑概念的关系见图2-3。
1.等同关系
指两个或两个以上的词所表达的概念完全相同或基本相同。它包括同义关系和准同义关系两种类型。
(1)同义关系。指所表达的概念完全相同。其逻辑关系如图2-3(a)所示。
图2-3 检索语言概念间逻辑关系
图2-3(a)中A和B分别表示两个同义词,重合的AB两圆代表这两个同义词所表达的概念具有同一关系,即A和B外延完全重合。同义词的形式主要有:规范词与俗称(如马铃薯与土豆),全称与简称(如澳大利亚与澳洲),新词与旧词(如斯里兰卡与锡兰),正式译名与其他译名(如激光与莱塞)等。
(2)准同义关系。指所表达的概念基本相同或相近。准同义词的形式主要有:近似词之间(如实验与试验);泛指词与专指词之间(法律制度和司法制度);部分反义词之间(稳定性与不稳定性)等。在检索语言中,为了保持事物-概念-语言形式一一对应的关系,只能选择一个概念作为正式的标引词。
2.从属关系
又称上下位关系,是指这样两个概念:其中一个概念完全被包括在另一个概念的外延里,是另一个概念外延的一部分,见图2-3(b)。外延较大的称为上位概念,外延较小的称为下位概念。如“经济”与“工业经济、农业经济”之间的关系便是属分关系。“经济”是个上位概念,“工业经济、农业经济”是个下位概念。一系列从属关系的概念,总称为一个概念系。例如,经济→贸易经济→商品学→食品商品学,就是一个概念系。
3.相关关系
它是指概念之间关系密切,又不同于等同关系和属分关系的互相联系的一种关系。它不像前两种那样关系密切,灵活性较大。相关关系一般有三种类型。
(1)交叉关系。又称部分重合关系,是指有一部分外延相重合的概念之间的关系,见图2-3(c)。两个交叉概念外延的重合部分(即相同部分)往往形成一个新概念。这个新概念对原来两个概念中任何一个来说,都是下位概念。以“技术”与“经济”为例,其逻辑关系是:A代表“技术”,B代表“经济”,它们的外延重合部分C是“技术经济学”。
(2)矛盾关系。指两个在外延上互相排斥,而它们的外延之和等于其共同上位概念的外延总和的概念间的关系,见图2-3(d)。以“英语教材”和“非英语教材”为例,其逻辑关系就是矛盾关系,A与非A的外延之和为图2-3(d)中的圆,表示“教材”。
(3)对立关系。指在外延上互相排斥,但其外延之和不等于其上位概念外延概念间的关系,见图2-3(e)。以“法制”与“犯罪”为例,其逻辑关系就是对立关系。图2-3(e)中A代表“法制”,B代表“犯罪”,它们的概念外延之和并不等于“法律”这个上位概念的外延。因为“法律”除了“法制”和“犯罪”外,还包括“司法”、“审判”等内容。也就是说,“法制”与“犯罪”概念的外延之和小于其共同上位概念的外延,它们之间还存在着中间概念,即图中的C。这是它与矛盾关系最本质的区别。
(4)并列关系。也称同位关系,是指同一个上位概念之下的几个下位概念之间的关系。例0如,“外国语言”概念下的“英语”、“日语”、“法语”等,它们之间就是并列关系。
检索语言在表达各种概念及相互关系时,普遍地应用了上述概念逻辑的原理,并且利用了概念的划分与概括、概念的分析与综合这两种逻辑方法来建立自身的结构体系。
概念的划分和概括是概念的分类过程。利用划分和概括过程中所产生的概念隶属、相关和并列关系,可以建立某些形式的信息检索语言结构体系——概念等级体系,这样就可以显示信息内容和形式千差万别的联系,如图2-4所示。
概念的分析与综合是概念的组配过程。用此种方法建立的检索语言形成了另一种形式的结构体系——概念组配体系。这种检索语言不但可以提供多种途径来进行信息的标引和检索,而且可以任意选择检索标识的专指度,并随具体情况而扩大、缩小或改变检索范围。
课题名称:中国经济“软着陆”与宏观经济的调控模式的研究
概念分析:中国经济 软着陆 宏观经济 调控模式
概念组配:① 宏观经济 调控模式;② 中国经济 软着陆;③ 经济软着陆 宏观调控 中国
图2-4 概念划分示意图
为了使信息检索语言能够适合科学研究的需要,必须把各种概念之间的关系建立在知识分类的基础上。换句话说,信息检索语言除了以概念逻辑为划分依据外,还要以知识分类为依据,否则不能适合科学研究的需要。
知识分类体系是多维性的,信息检索语言能否全面反映当代知识分类水平,是衡量其质量的重要标志之一。只有较充分地反映知识分类的信息检索语言,才能保证信息检索的系统化和科学化。
2.2.2 检索语言的类型
1.分类语言
分类语言是建立在科学分类的基础上,运用概念划分与概括的方法,将大大小小的概念进行层层划分,每次划分,就产生许多类目。逐级划分就产生许多不同级别的类目。所有不同级别的类目,层层隶属,从而产生出不同级别且存在隶属关系和体现知识等级体系的类目,形成了一个严格有序、层次分明的知识门类等级制体系,如图2-5所示。每一类目分别以不同的符号作标志,每个分类号都是表达特定知识概念的语词,即分类语言的语词。这种标志就是分类语言。大多数分类表都是根据该语言编制而成的。
图2-5 检索语言的类型
优势:能体现学科的系统性,反映事物的派生、隶属与平行关系,符合人们从学科角度检索信息的习惯,使读者能鸟瞰全貌、触类旁通。便于随时放宽或缩小检索范围,能从学科和专业角度检索信息。使用分类标识(分类号)来表达事物的主题概念,比较简单明了,易于掌握。特别对于外文检索工具,即使不懂其文字,只要掌握其采用的分类法,也可以借助类号进行检索。
缺陷:在标引和检索主题概念复杂的信息时不够准确,也就是说,分类表的类目专指度不很高,影响到查准率;分类表不能随时修改、补充,对边缘学科和新兴学科缺乏有效的方法;检索时,要将信息的主题内容转换成学科或专业名称,还要将类目转换成学科,影响检索效率和准确性;不利于特性检索。如“茶的种植”、“茶的制造工业”、“茶的贸易”,都是论述“茶”这个主题的,但在分类语言中被分别归入“农业(S)”、“工业技术(T)”、“经济(F)”类,同一主题的信息却被分散在分类法的各类之中。
利用分类途径查找信息的步骤:① 分析研究所需要查找信息的内容主题;② 判断该主题在分类法中属于哪一大类;③ 然后再从大类逐级往下寻找,直到查到具体类目和具体的检索结果为止。
2.主题语言
主题语言是使用词语标识的一类信息检索语言,又称主题法。主题语言是一种描述语言,即用自然语言中的名词、名词性词组描述事物概念的中心语义。也就是说,它以语言文字为基础,以反映特定事物为中心,不论学科分类或科学技术的逻辑序列,都直接借助于自然语言的形式,作为信息内容的标识和检索依据的一种以主题字顺体系为基本结构的检索语言,给人们以直观的感觉。例如,《中国财政法》一书,用主题语言标引时,其标识为“财政法+中国”(《汉语主题词表》);用分类语言标引时,其标识则为“D922.2”(《中图法》)。
主题语言包含两个内容:一是指表达信息内容特征的、经过规范化了的名词术语(包括词组和短语);二是把这些名词术语按字顺排列成主题记号表或标题词表,以此作为规范语词标引和检索信息的工具。
主题语言的标识,直接从信息论述的问题和研究的具体对象选取,描述时采用组配方式,所以它不论信息主题如何专深,也不论其主题学科性质如何交叉渗透,只要具有明确的表达概念的术语,一般都可以根据需要,或者把它直接选作标识语言,或者通过组配的方法加以表达,而不像分类语言那样受到线性结构和学科体系固定的约束。对于不断出现的新学科、新事物和新概念,主题语言可以随时进行增删和修改,而不像分类语言那样需要瞻前顾后,一类变动,牵动全局。
把主题词按照一种便于检索的方式编排起来,就是主题词表。它是主题标引和检索的主要工具。主题词表揭示和处理了信息提问中有可能出现的各种同义词、近义词、反义词之间的语义关系,展开了同一族系中各主题词的语义等级结构,限定了较含糊主题词的含义及确定其意义与范围。主题词表提供了按字顺、学科专业及等级结构等多种不同角度查找的途径。
由于主题词表列举的概念标识数量较多,多数标识的指代范围较窄,所以利用主题词表检索信息具有直指性强、专指度高的特点。而且同一篇信息可用多个主题词来标引,因此扩大了检索途径。例如,一篇题为《教育与国民经济》的信息,经过主题内容的概念分析,就可以得出“教育”和“国民经济”两个概念单元。用两个标准化的语言符号来代表这两个概念单元,这就是主题词。
3.关键词
关键词是表达用户信息需求和检索课题内容的基本元素,也是计算机检索系统进行匹配的基本单元。正确的主题分析是制定检索策略的保证,它决定了检索策略的质量和检索效果的好坏。因此,务必要在分析课题的主题概念中掌握课题的内容实质,概括出能最恰当地代表主题概念的关键词。
(1)关键词的选择
① 选择最核心词汇,不要加修饰词,这样查找的范围会大些,得到的结果也多一些。
例如关键词“知识产权” 得到的检索结果一定大大多于“知识产权保护”或是“知识产权研究”。因此,在检索前要明确自己的目的,是要得到关于某一事物的相关所有信息,就要把关键词范围放大,不加修饰词,只输入核心词。如“中国近阶段社会保险体系的发展趋势研究”,核心词只有一个,那就是“社会保险”。要查找具体的某一确切的事物,则与之相反,应该把具体的详细的名称输入,以便于直接得到查询结果,如“社会保险体系”
② 选择概念表达最确切的词语 关键词的选择不仅从课题名称中分析,更要从学科专业和检索目的的角度,概括出能够反映课题实质内容的检索词,需从概念内涵的深浅程度、概念的属分、整体与部分等,选择最切合实际要求的词作检索词,以便提高检索的切题程度。如“茶”和“铁观音”、“鲜花”和“玫瑰花”等。
③ 选择通用性的术语 切忌使用国际上并不通用的术语,如“第三世界”、“下岗”等查找国外数据库,通常不能达到预期的效果。在选用关键词检索的过程中要尽量使用本学科在国际上通用的、国外文献上出现过的术语,并尽量避免使用冷僻词和自选词。
④ 从相应的规范词表中选定所需的关键词 由于主题词是信息标引和检索中必须共同遵循使用的语言,而且很多数据库都有自己的主题词表,所以应该优先选用词表中的规范词,以便能使检索获得最佳的效果。在计算机检索系统中一般都备有联机查询指令供检索者联机确定关键词用。
⑤ 注意关键词的单复数、拼写变异、单词结尾的不同等。
例如,中国近阶段青少年犯罪的根源分析。
关键词:青少年犯罪(未成年人犯罪)中国。
如果是英文,要注意单复数问题,如woman、women及拼写变异colure、colue。
(2)关键词的扩展处理
目前的计算机信息检索系统,还不具备智能思考能力,不会对所输入检索词以及涉及的所有词进行自动地、全面地检索。在确定检索词时,除了要考虑到被选用检索词的缩写词及不同拼法的词,还要考虑反映主题概念的同义词、近义词等相关词,以便在编制检索式时考虑到这些因素,避免漏检有关的信息。
① 同义词的判断和选择 在同一概念的范畴内,从语言角度,选择不同的名称、拼写方法和单复数形式。
例如,学名和俗名:激光(镭射)、马铃薯(土豆)。
简称和全称:TV(television)、澳洲(澳大利亚)、WTO(世贸组织)。
英式和美式:catalog(catalogue)、color(colour)等。
② 近义词的判断和选择 在相近概念的范畴内,从概念的微小区别,概念的多义性,概念的相近性等。
例如,合同纠纷(合同争议)、国际矛盾(国际冲突)、跨国公司(跨国企业)、法律监督(司法监督)。
③ 概念为单位,构成组面检索词。
例如,检索课题:经济领域犯罪的心理分析。
关键词:经济犯罪 犯罪心理分析。
值得注意的是关键词的选取应该考虑一些其他因素。
例如,关于经济领域的诈骗行为的心理分析。
关键词:经济诈骗 诈骗心理(分析)。
这里有个概念的重叠和拆分问题,如果关键词标引为“经济领域 诈骗行为 心理剖析”,显然没有达到简洁、切题的要求。
例如,家庭、婚姻裂变和青少年犯罪的内在联系。
关键词:离婚(不完整家庭、单亲家庭) 青少年(未成年人)犯罪。
这里有个常用概念、相近概念需要考虑,如果关键词标引为“婚姻裂变 青少年犯罪”,检索结果的查全率一定会大大降低。
(3)关键词的4种变化:同义词、上位词、下位词、近义词
上位词(教育)
|
关键词(高等教育) 同义词(大学教育) 近义词(高校教育)
|
下位词(成人教育)
① 同义词:某种明确概念,可以有不同的表达词。
这些不同的表达词指的是同一个明确概念,互相等同,可以称为等同义词。引起同义词的原因,包括但不限于:缩写、全称、简称、学名、俗名、简繁体、不同语言说法、不同地区说法(美语英语,港台大陆)、不同时代说法(古今、代差)、别称、全角半角、大写小写、错别字、网络通假字、敏感词通假……
例如,以下5个是同义词:“飘”、“乱世佳人”、“Gone with the wind”、“随风而逝”、“gonewiththewind”。它们可能有更多同义词。
例如,以下5个是等同词:“鳜鱼”、“桂鱼”、“桂花鱼”、“季花鱼”、“花鲫鱼”。
② 上位词:指概念上外延更广的检索词。
例如,“花”是“鲜花”的上位词,“植物”是“花”的上位词;“音乐”是“mp3”的上位词。
一个关键词所表达概念的任何一种属性、任何一种归类方式,都可以是它的上位词。例如,“鲜花快递”的上位词可以是“鲜花”、“快递”、“网上购物”、“鲜花礼仪”、“鲜花店”、“礼品公司”。
③ 下位词:指概念上内涵更窄的检索词。
例如,“鲜花速递”的下位词包括“上海鲜花速递”、“深圳鲜花速递”、“网上鲜花速递”,“笨小孩”是“歌”的下位词,“笨小孩”是“刘德华”的下位词。
④ 同类词:指与检索词具有某种相同属性的词。
与关键词有同一个上位词的,都是同类词。所以,推算一个关键词的同类词,可以从这个关键词的某个上位词开始反推。
以关键词“yahoo”为例,“looksmart、yahoo”是作为“分类目录”属性的同类词;“yahoo、altavista、vivisimo、hotbot”是作为“搜索引擎”属性的同类词;“yahoo、sina、sohu”是作为“中文门户”属性的同类词;“yahoo、hotmail、网易”是作为“电子邮箱”属性的同类词。
(4)关键词的多重排列组合
改变短语中的词序以创建不同的词语组合;使用不常用的组合;组合成一个问句;包含同义词、替换词、比喻词和常见错拼词;使用其他限定词来创建更多的两字组合,三字、四字组合。
① 关键词:宽带。可能遇到像数字宽带、数字无线宽带、无线数字宽带,宽带加速、宽带新闻、数字无线宽带新闻,数字无线通信,等词组。
② 关键词:软件解决方案。不妨试一试流量分析软件解决方案、流量分析报告、流量报告工具、B2B软件解决方案、电子商务软件解决方案等。
(5)关键词的专指和泛指来提高查准和查全
为了查准,不用“服装”(泛指),而用“西服”(专指);不用“flower”(泛指)而用“rose”(专指)。为了查全,要避免专业词汇而使用大众化的词汇。如不用“移动电话”,而用“手机”;使用上位概念,“恐怖组织”而不用“基地组织”;或者要尽可能使用一些同义词或近义词。如司法监督(法律监督)、WTO(世贸组织)等。
如品牌企业,则用公司名可以提高查准或查全。像联想这样的网站应该有这样的关键词组:联想电脑、联想电子元件、联想电话等。如果联想要招募员工,可使用这些关键词:为联想工作、联想全国工作,联想管理职位,以招聘具有专业水准的雇员。
但如果公司名字是XXX地产,没什么人会在搜索框中输入那个名字,除非人家知道你。因此,如果你并非品牌,关键词中包含公司名就不值一试。
(6)使用地理位置
如果你的位置很关键,则把它加入你的关键词组。例如,上海浦东万科地产,这里,“上海浦东”就是一个很有用的关键词。