您的当前位置:首页正文

信息检索复习(名词解释)

2020-10-29 来源:年旅网
信息检索复习(名词解释)

1、同句检索是要求参加检索运算的两个词必须在同⼀⾃然句中出现,其先后顺序不受限制。

2、查全率:是指检出的相关⽂献量与检索系统中相关⽂献总量的⽐率,是衡量信息检索系统检出相关⽂献能⼒的尺度,可⽤下⾯的公式表⽰:

查全率=(检出相关⽂献量/系统中相关⽂献总量)*100%

3、查准率:是指检出的相关⽂献量与检出⽂献总量的⽐率,是衡量信息检索系统精确度的尺度,可⽤以下公式表⽰:查准率=(检出相关⽂献量/检出⽂献总量)*100%

4、漏检率:是指漏检相关⽂献量与在检索系统中相关⽂献总量的⽐率,是衡量信息检索系统漏检⽂献的尺度,可⽤下⾯的公式表⽰:

漏检率=(漏检相关⽂献量/系统中相关⽂献总量)*100%

5、跨库检索:可同时检索多个平台上的多种资源,输⼊⼀个检索式,便可以看到多个数据库的查询结果。6、单库检索:在选定的单⼀数据库中进⾏检索。

7、经典论⽂优先:被引⽤数⽐较多,或者⽂章发表在档次⽐较⾼的杂志上等经典的、有价值的⽂献优先排在前⾯。8、相关度优先:和查询的条件内容最相关的⽂献优先排在前⾯。9、最新论⽂优先:发表时间⽐较新的⽂献优先排在前⾯。10、精确匹配:检索结果中包含与检索词完全相同的词语11、模糊匹配:检索结果包含检索词或检索词中的词素

12、顺查法是根据有关课题的起始年代利⽤选定的检索⼯具由远及近的进⾏逐年查找。13、倒查法从最新时间查找起,直到满⾜检索要求为⽌。

14、抽查法是针对有关学科的发展特点,抽查某些特定时期的⽂献信息。15、⼆次检索是指在前⼀次检索结果的范围内,继续进⾏检索。

16、定题检索 SDI (selective dissemination of information)查找有关特定主题最新信息的检索。17、回溯检索 RS (retrospective search)查找⼀段时期内有关特定主题信息的检索。数据库的基本复习:

数据收录⽂献范围,有哪些数据库?⼆、信息检索的原因

1、信息检索是获取知识的途径2、信息检索是科学研究的向导3、信息检索是终⾝教育的基础信息检索语⾔与检索途径

(1)分类语⾔(2)主题语⾔(3)分类主题⼀体化语⾔(4)代码语⾔(5)引⽂语⾔1、内容特征检索途径

(1)分类途径(2)主题途径(3)分类主题途径2、外部特征检索途径

(1)责任者途径(2)题名途径(3)序号途径(4)引⽂途径

第⼆节事实数据信息的检索⼯具

⼀、字典、词典(辞典)⼆、百科全书三、⼿册四、年鉴五、名录第三节⽂献检索⼯具简介

⼀、⽬录型检索⼯具;题录型检索⼯具;⽂摘型检索⼯具第四节索引介绍

著者索引、主题索引(关键词索引)、分类索引、题名索引、其他索引⼀、《 Ei Village 数据库》Ei Compendex Web(EI ⽹络版)

INSPEC 是《科学⽂摘》(Science Abstracts ,简称SA)的电⼦版,专利 (Patents): USPTO Patents 为美国专利和商标局的全⽂专利数据库。Techstreet 标准 (Techstreet Standards)世界上最⼤的⼯业标准集之⼀Scirus 是迄今为⽌因特⽹上最全⾯的科技专⽤搜索引擎

什么叫信息

在西⽅英⽂中 information ⼀词有情报、资料、消息、报道之意,我国⼤陆曾译为情报或信息,后经国家有关部门核准,统⼀译成“信息”。在我国台湾、⾹港地区,该词被译为“资讯”。

教材定义:信息是被反映物的属性再现,信息的属性在于表现它物。也就是说,信息不是事物的本⾝,⽽是由事物发出的消息、情报、指令、数据、信号中所包含的内容,是对客观世界中各种事物发出的特征、变化及其相互联系的最新反映。⼀切事物包括⾃然界和⼈类社会都会产⽣信息。⼀个完整的信息过程,包括信息的传递、接收、贮存、加⼯和利⽤。信息具有以下特征:(1)普遍性

(2)时效性:信息在⼀定的时间内是有效的信息,在此时间之外就是⽆效信息。⽽且任何信息从信源传播到信宿都需要经过⼀定的时间,都有其时滞性。

⼆、ISI Web of Knowledge 平台信息资源组成Web of Science(WOS )INSPECMEDLINE

DerwentInnovations

Index ISTP(Index to Scientific & Technical Proceedings ISSHP(Index to Social Science & Humanities Proceedings ScienceCitation Index Expanded Social Science Citation Index Arts & Humanities Citation Index Index Chemicus(IC) CurrentChemical Reactions (CCR) 3个引⽂数据库 2 个会议论⽂引⽂数据库 2个化学数据库ISI Chemistry(3)传递性

(4)可转换性:信息是可以由⼀种形态转换成另⼀种形态。信息⼀般有4种形态:数据、⽂本、声⾳、图像。这4种形态可以相互转化,例如,照⽚被传送到计算机,就把图像转化成了数字。(5)可再⽣性

(6)共享性:同⼀信源可以供给多个信宿,因此信息是可以共享的,且不因共享⽽减少

(7)可识别性:信息是可以识别的,识别⼜可分为直接认别和间接识别,直接认别是指通过感官的识别,间接识别是指通过各种测试⼿段的识别。不同的信息源有不同的识别⽅法。(8)可存储性:信息是可以通过各种⽅法存储的。⼆、信息检索1、定义

(1)从通信的⾓度认识信息检索:强调信息发布者和接受者之间的通信,是两者关系的变化和延伸。(2)从信息检索过程的⾓度认识信息检索,这种观点认为,信息检索就是查找出含有⽤户所需信息的⽂献的过程。

(3)从信息处理的⾓度认识信息检索:信息检索的基本问题,是如何处理信息和信息的结构。这种认识偏重于信息管理领域,认为信息检索不仅限于传统⽂献的范围,图像、声⾳、数据等也都能反映信息,并把信息检索视为计算机科学技术的⼀个分⽀。

(4)从信息获取⽅式来认识信息检索分为:

直接检索:直接从信息源中获取信息,获取⽅式直接,但很难⼴、快、精、准地查到所需的全部信息(5)从实际检索⼯作的⾓度出发,对信息检索这样表达:

⼴义:将信息按⼀定的⽅式组织和存储起来,并根据⽤户需要找出相关⽂献的过程。其中包括存与取两个环节,存即信息存储,是对信息进⾏收集、标引、描述、及组织,并对其特征化表达集加以整序,形成信息检索⼯具或检索系统的过程。取即信息查找,是通过某种查询机制从检索⼯具或检索系统中查找出⽤户所需的特定信息或获取其线索的过程。狭义:仅仅指信息查找的过程。即取的环节。

间接检索:通过信息检索⼯具或检查系统获取所需的信息。(本课程主要学习)克服了直接检索的缺点,在掌握⼀定检索技巧前提下可以较全⾯、准确、快速地检索到相关信息。信息存储与检索流程图

信息检索(information retrieval):信息⽤户为处理解决各种问题,运⽤检索⼯具或数据库等情况集合,从中查找、识别、获取相关的事实、数据、知识的活动及过程。

2检索语⾔⼜称为情报语⾔、情报存储和检索语⾔、信息组织语⾔,是信息存储与检索过程中⽤于描述信息特征和表达⽤户信息提问的⼀种⼈⼯语⾔,是实现⼈与检索系统对话的交流语⾔。

检索语⾔可划分为:分类语⾔、主题语⾔、分类主题语⾔、代码语⾔、引⽂语⾔等。3检索⼯具

是⽤来报道、存储和查找信息的⼯具,通常是指以书本或卡⽚形式呈现、采⽤⼿⼯⽅式进⾏的设施,如检索期刊、书⽬索引和卡⽚⽬录等。

检索⼯具必须具备的条件:

(1)对所收录的信息资料的各种特征(包括外部特征和内容特征)要有详细的描述。

(2)每条描述记录都要标明可供检索⽤的标识,以便按某种⽅式将这些描述记录组织起来,为编织各种索引做准备。(3)全部描述记录要科学地组织成⼀个有机的整体,使这些记录存放有序,⽅便存取。(4)具有多种必要的检索⼿段以满⾜⽤户从多种⾓度查找信息的要求。4、检索系统:

由⼀定的检索设备(如探针、选卡机、电⼦计算机等)和加⼯整理并存储在相应的载体(如穿孔卡⽚、磁带、磁盘等)上⾯的⽂档或数据库及其他必要设备共同构成的,具有存储和检索功能的信息服务设施。它往往由多个⼦系统或模块构成,需借助专门设备进⾏检索。

穿孔卡⽚检索系统、缩微品检索系统、光盘检索系统、计算机检索系统、⽹络信息检索系统三、信息检索的发展

1、第⼀阶段:完全⼿⼯检索阶段

2、第⼆阶段:半机械检索系统-机电、光电检索系统的发展阶段3、第三阶段:计算机检索系统的发展阶段4、第四阶段:基于Internet 的⽹络化检索系统阶段⼆、信息资源的分类:

1、信息源可分为⾃然信息源和社会信息源。

⾃然信息源⼴泛存在于⾃然界中,是物质运动和⽣物⽣存活动的结果。如⼭川、⼟地、⽓候、能源、动物、植物、微⽣物等,它们是⼈类⽣存最基本的⾃然环境和物质条件,是⾃然信息的发⽣源。社会信息源则存在于⼈类活动中,是社会的直接产物。⽆论是⾃然信息源还是社会信息源,其开发利⽤均在社会中进⾏,社会信息源是信息源的主体。2、按信息资源所依附的载体划分

(1)体裁信息资源:以⼈体为载体并能为他⼈识别的信息资源。按其表述⽅式⼜可分为⼝语信息源和体语信息源。⼝语信息源是⼈类以⼝头⽅式表述但未被记录下来的⼝语信息,如:谈话、讲课、讲演、讨论、唱歌等。体语信息源是以⼈的体态为载体表述出来的信息资源,如:表情、⼿势、姿态等⽅式表述的体语信息。

(2)实物信息资源:以实物为载体的信息资源。⼜分为⾃然实物信息源与⼈⼯实物信息源。如:化⽯、产品、样品等。(3)⽂献信息资源:以⽂字、图形、符号、声频、视频等发⽣记录在各种载体上的知识和信息资源。

(4)⽹络信息资源:以⽹络为纽带连接起来的信息资源和以⽹络为主要交流、传递、存储的⼿段与形式的信息资源。3、按信息资源传递的范围划分:

(1)公开信息资源:⼜称共享信息资源或⽩⾊信息资源(white information),指公开发⾏、流通和传递的信息资源,其蕴涵的信息⼈⼈可以使⽤。⼀般来说,公开信息资源的数量最⼤,⽽且能够作为信息商品进⾏流通领域。

(2)半公开信息资源:⼜称灰⾊信息资源(grey information),指⾮公开发⾏、流通和传递,从常规途径难以获取的信息(内部信息)。这类信息出版量⼩,发⾏渠道复杂,流通传递范围有限,不易收集。例如:内部的刊物、技术报告、会议资料等。

(3)⾮公开信息资源:⼜称⿊⾊信息资源(black information),指⼈们未破译或未被识别的,也指处于保密状态的信息。例如:考古发现的古⽼⽂字、未解密的政府⽂件、内部档案、个⼈⽇记、私⼈信件等。4、信息可分为可检信息和不可检信息,⾃然信息均属于不可检信息。三、⽂献信息资源

1、按信息资源所依附的载体的物质形态划分

(1)刻写型:包括⼿稿、⽇记、信件、原始档案、碑刻等。

(2)印刷型:其优点是便于直接阅读、使⽤⽅便,其缺点是较笨重、存储密度低、收藏占⽤空间⼤、加⼯保存等花费⼈⼒物⼒⼤、识别和提取难以实现机械化和⾃动化。

(3)缩微型:如缩微胶卷、缩微胶⽚等。其优点是存储密度较⼤、体积⼩、便于收藏保存和远距离传递。缺点是不能直接阅读、需借助缩微阅读机或阅读复印机才能使⽤。

缩微型⼀般针对于数量⼤、利⽤率低但⼜有较⼤保存和利⽤价值的信息资源。(4)声像型:如唱⽚、录⾳带、录像带、幻灯⽚、电影⽚、多媒体资料等。

其优点是可以闻其声、观其形,直观⽽真切,给⼈以⽣动鲜明的印象。其缺点是制造成本较⾼,且需要借助于⼀定的设备才能使⽤。

5)电⼦型:其优点是存储密度⾼,读取速度快,更新及时,并利⽤电⼦⼿段随时对内容进⾏增、删、改,可以⾼速度、远距离传递信息,具有交互性,便于信息交流和共享。

电⼦⽂献种类很多,按出版类型划分有电⼦教科书、电⼦专著、电⼦⼯具书、电⼦杂志、电⼦报纸、电⼦版书⽬数据、计算机软件等。

按电⼦⽂献载体形式划分其类型有磁性型⽂献、光盘型⽂献和⽹络型⽂献。按信息结构组织形式划分有⽂本型、多媒体型、超⽂本型及超媒体型。2、按信息资源的加⼯深度和结构等级划分

(1)零次⽂献:指未经过任何加⼯的原始⽂献。如:实验记录、⼿稿、⽇记、原始录⾳、原始录像、谈话记录。

(2)⼀次⽂献:未经加⼯或粗略加⼯的原始信息资源,以本⼈的研究成果为基本素材⽽创作的⽂献,具体、详尽和系统化。如期刊论⽂、专利⽂献、科技报告、会议录、学位论⽂等等。

(3)⼆次⽂献:它是将⼤量分散、零乱、⽆序的⼀次⽂献进⾏进⾏加⼯、整理、标引、著录、浓缩,并按照⼀定的逻辑顺序和科学体系加以编排存储,使之系统化,以便于检索利⽤。如:⽬录、题录、索引、⽂摘。具有报道和检索功能。

(4)三次⽂献:通过⼆次信息资源提供的线索,对某⼀范围内的⼀次信息资源进⾏分析、研究、加⼯⽽成的信息资源,它包括综述、述评、专题情报研究报告、百科全书、年鉴、指南、⼿册、词典等。

⼀次⽂献是⼆次⽂献和三次⽂献的基础,是⽂献检索的主要对象;⼆次⽂献具有浓缩性,是⼀次⽂献的简略及有序化,是⽂献检索的⼯具;三次⽂献具有综合性,既是检索对象,⼜可提供⼀定的检索途径与检索⼿段。

总之,⽂献经过加⼯、压缩,从零次信息到三次信息,使科技信息由分散到集中,由⽆序到有序,由⽆组织到系系统化,由博⽽精的对知识信息进⾏不同层次的加⼯的过程。3、信息的不同出版类型划分

(1)图书:包括专著、教科书、各种科普读物及专业参考⼯具书等,特点是:内容系统、成熟、定型、信息经筛选,可靠性强,出版周期长,更新速度慢,从检索⾓度,图书⼀般不作为主要检索对象。

(2)期刊:定期或不定期刊⾏的连续出版物,如杂志、年度报告、年鉴、丛书、学会的会议录、学报和纪要等,特点是:数量⼤、品种多,内容丰富多样、出版周期短、报道速度较快、发⾏、流通⾯很⼴泛,连续性强,伴随着相应的学科领域发展前进。职能:记录正式的公开的科学技术活动,传播科技信息的主要⼯具。

(3)科技报告:⼜称研究报告、报告⽂献。⼤多与政府的研究活动、国防及尖端科技领域有关,发表及时,课题专深,内容新颖、成熟,数据完整,且注重报道进⾏中的科研⼯作,是⼀种重要的信息源。查寻科技报告有专门的检索⼯具。

特点:①反映新的科研成果迅速。②内容多样化。③保密性。④报告质量参差不齐。⑤每份报告⾃成⼀册,装订简单,⼀般都有连续编号,出版发⾏不规则。

(4)会议⽂献:在学术会议上宣读和交流的论⽂、报告及其他有关资料。

会议⽂献的特点是传递情报⽐较及时,内容新颖,专业性和针对性强,种类繁多,出版形式多样。它是科技⽂献的重要组成部分,同⼀会议上的⽂献论题集中、新颖、丰富、专深、学术性强,⼀般是经过挑选的,质量较⾼,能及时反映科学技术中的新发现、新成果、新成就以及学科发展趋向,是了解各国科技发展⽔平和动向的重要⽂献来源。会议⽂献没有固定的出版形式,有的刊载在学会协会的期刊上,作为专号、特辑或增刊,有些则发表在专门刊载会议录或会议论⽂摘要的期刊上。⼀些会议⽂献还常常汇编成专题论⽂集或出版会议丛刊、丛书。还有些会议⽂献以科技报告的形式出版。此外,有的会议⽂献以录⾳带、录像带或缩微品等形式出版。

(5)专利⽂献:专利⽂献是各国专利局及国际性专利组织在审批专利过程中产⽣的官⽅⽂件及其出版物的总称。作为公开出版物的专利⽂献主要有:专利说明书、专利公报、专利⽂摘、专利索引和专利分类表等。特点是:内容具体、可靠、详尽,具有新颖性、创造性和实⽤性。能反映科学技术最新的⽔平,⼤量重复,增加⽤户信息识别和去掉重复的负担。

(6)技术标准和规范:对⼯农业产品和⼯程建设的质量、规格、参数及其检验⽅法等⽅⾯所作的技术灰顶,特点是:制定、审批有程序,适⽤范围明确专⼀,叙述严谨,可靠性和现实性,新陈代谢频繁。(7)政府出版物:政府出版物是由政府机构制作出版、或由政府机构编辑并授权指定出版商出版的⽂献。可分两类:⼀类是⾏政性⽂献(包括宪法、司法⽂献),主要涉及政府法律、经济⽅⾯的国会和议会记录、议案、决议、司法资料、听证记录、法律、法令、规章制度、政策、调查统计资料等;另⼀类是科学技术⽂献,主要指政府部门出版的科技报告、标准、专利⽂献、科技政策⽂件,公开后的科技档案、经济规划、⽓象资料等。政府出版物的内容涉及⼈类⽣活的各个领域:政治、社会、经济、财政、⼯农业⽣产、教育、历史,也有⾃然科学和应⽤科学的各个领域。政府出版物是了解⼀个国家⽅计、政策、科学技术和经济、⽣活现状的权威性信息来源。特点:政策性、综合性、指导性强,对经济、科技发展政策导向明显、可靠。

(8)学位论⽂:学位论⽂是指为了获得学位,要求被授予学位的⼈所撰写的论⽂。根据《中华⼈民共和国学位条例》的规定,学位论⽂分为学⼠论⽂、硕⼠论⽂、博⼠论⽂三种。特点:质量参差不齐,内容专深,有独到见解,较难获取。

(9)产品资料:产品⽬录、产品说明书、产品样本等,是对产品的性能、结构、原理、⽤途、使⽤⽅法、技术规范及产品规格等进⾏描述或说明的⽂献。

特点:图⽂并茂,形象直观,出版及时,更新迅速,反映的技术信息可靠。

(10)技术档案:在⽣产或科研过程中形成的,是具体⼯程和研究对象的技术⽂件的总称,包括任务书、技术经济指标、研究计划、⽅案、试验设计、实验记录、调查材料、总结报告等应⼊档的资料。它是⽣产和科研中⽤以积累经验、吸取教训和提⾼质量的重要依据,具体较⾼的参考价值。技术档案有⼀定的保密性,⼀般在内部控制使⽤。

(11)报纸:报纸指以刊载新闻和新闻评论为主,通常散页印刷,不装订、没有封⾯的纸质出版物。有固定名称,⾯向公众,定期、连续发⾏。现在多数报纸每⽇出版⼀次或数次,也有每周出版⼏次或每周出版⼀次的。特点:传播信息快,传播信息量⼤,现实感强,传播⾯⼴,具有群众性和通俗性,是重要的社会舆论⼯具和信息源。附:美国四⼤科技报告(AD,PB,NASA ,DOE )

1、AD报告1951年开始出版。现由美国国防技术情报中⼼负责收集整理和出版。报告内容以国防部各个合同户的研究报告为主,其报告号冠以AD,A原先为Armed、D则为Document之意,现在则可理解为⼊藏报告(Accession Document)。统化,由博⽽精的对知识信息进⾏不同层次的加⼯的过程。

2、PB报告产⽣于⼆战结束之后,当时美国政府为了整理和利⽤从战败国获得的数以千吨计的秘密科技资料,于1945年6⽉成⽴了⼀个专门的出版局,即美国商务部出版局(Publication Board),负责收集、整理、报导利⽤这些资料

3、NASA报告是美国国家航空航天局NASA科技情报处编辑、出版的专业性检索刊物,它是检索航空航天科技报告的重要⼯具。

4、DOE 报告,是美国能源部DOE技术情报中⼼编辑出版的半⽉刊。收录能源部部属科研机构和各⼤学等⼀切与能源有关的科技⽂献,以科技报告为主。⼀、按检索对象的内容区分:(1)⽂献检索(document retrieval)

⽂献检索是以⽂献作为检索对象,查找含有⽤户所需信息内容的⽂献,⽂献是⼀种相关性检索⽽⾮确定性检索,系统不直接解答⽤户所提出的问题本⾝,只提供与之相关⽂献或⽂献的属性信息与来源指⽰供⽤户参考和取舍。所以其检索对象是包含特定信息的各种⽂献。

(2)数据检索(data retrieval)

数据检索是将经过选择、整理、鉴定的数值存⼊数据库中,根据需要查出可回答某⼀问题的数据的检索。数据检索是⼀种确定性的检索,即直接提供⽤户所需要的确切数据。⽽且检索结果⼀般也是确定性的,要么是有,要么是没有;要么是对,要么是错。有些数据检索系统不仅能查出数据,还提供⼀定的运算、推导能⼒。例如,可以回答“某⼈⽣于何年何处”;“某年的国民⽣产总值”等。(3)事实检索(fact retrieval)

事实检索是检索关于某些客体(如机构、⼈物等)的指⽰性描述,或关于某⼀事件发⽣的时间、地点、经过等信息并将其查找出来的检索。如:名词术语、概念、定义、理论、⽅法、公式、事件等。事实检索属于数据,因为事实也是⼀种数据,即⾮数值性数据。⼆、按检索⽅式区分;

(1)⼿⼯检索:以⼿⼯操作的⽅式,利⽤检索⼯具书进⾏信息检索。⼿⼯信息检索是信息检索的传统⽅式,已经历经了⼀个多世纪的发展历程。

优点:直观、灵活,便于控制检索的准确性。缺点:查找⽐较复杂,检索速度慢,⼯作量较⼤。

(2)机器信息检索:主要是指计算机检索,是通过机器对已数字化的信息,按照设计好的程序进⾏查找和输出的过程。按机器检索的处理⽅式分类,有脱机检索、联机检索;按照存储的⽅式分类,可分为光盘检索、⽹络检索。优点:⼤⼤提⾼了检索效率和检索的全⾯性,⽽且拓展信息检索领域,丰富了信息检索的研究内容。⼿检和机检的⽐较

⼿检:检索点少,通常只有分类、主题、号码、著者等⼏个途径;查准率⾼,查全率低,直接性灵活性差,浏览功能强,检索效率低

机检:检索点多:除虚词外的所有词汇;查全率⾼,查准率⾼,检索效率⾼;直接性灵活性好,浏览功能差三、按检索对象区分:

(1)⽂本检索:查找含有特定信息的⽂本⽂献的检索,其结果是以⽂本形式反映特信息反映的⽂献。这是⼀种传统的信息检索类型,在信息检索中⾄今占据主要地位。

(2)多媒体检索:多媒体是指将声⾳、图像、通信等在内的多种媒体的功能有机结合在⼀起,并⽤某种新媒体代替传统媒体的多种媒体。

多媒体检索是指根据⽤户的需求,对⽂字、声⾳、图像、图形等多种媒体信息进⾏组织、存储从⽽识别、查找并获取所需信息的过程。

在因特⽹上存在着⼤量的多媒体⽂献,⽤户常常需要查找特定的声⾳、图像、动画等。多媒体⽂献的信息组织与处理传统⽂本的处理截然不同,其检索要求和检索途径也别具特⾊,这是现代信息检索的新课题。四、按检索对象的信息组织⽅式区分(1)全⽂检索(full text retrieval)

是将存储于数据库中的整本书、整篇⽂章中的任意内容找出来的检索。它可以根据需要获得全⽂中的有关章、节、段、句、词等的信息,也可以进⾏各种统计与分析。如某个词在⽂章中出现的次数。

以全⽂本信息作为检索对象,建⽴全⽂数据库,除了具有布尔逻辑检索功能外,还具有⽂本检索功能,并允许⽤户以⾃然语⾔检索,直接获得原⽂中的有关章节和段句。(2)超⽂本检索(hypertext retrieval):

超⽂本是⽤超链接的⽅法,将各种不同空间的⽂字信息组织在⼀起的⽹状⽂本。五、按检索要求区分:(1)强相关检索:

强调检索的准确性,也称作特性检索。这种检索注重查准率。只要检索得到的⽂献信息能满⾜⽤户的需求就⾏,对于检索结果的数量多少不作要求。(2)弱相关检索:

强调检索的全⾯性,向⽤户提供系统完整的信息的检索。也称族性检索。这种检索注重查全性,要求检索出⼀段时间期限内有关特定主题的所有信息。为了尽可能避免漏检相关信息,对于检索的准确性相对要求较低。

要注意的是,这是两种检索要求⽐较极端的检索类型。实际上是介于两者之间,保证⼀定的查全率和查准率。六、按时间跨度区分:

(1)定题检索SDI (selective dissemination of information)查找有关特定主题最新信息的检索。其特点:只检索最新的信息,时间跨度⼩。

定题检索在⽂献信息库更新时运⾏,即每当信息库加⼊新的⽂献信息时,就⽤根据⽤户检索需求拟定的提问检索⼀遍,查找出特定主题的最新信息,分析整理检索结果并以⼀定的⽅式提供

给⽤户。这种检索模式⾮常适合于信息跟踪,便于及时了解有关主题领域的最新发展动态。(2)回溯检索RS (retrospectivesearch)查找⼀段时期内有关特定主题信息的检索。

其特点是既可以查找过去⼀段时间的特定主题信息,也可以查找最近的特定主题信息。与每个定题检索需要多次运⾏不同的是,每个回溯检索⼀般只运⾏⼀次,从已有的⽂献信息库中查找出某个时间内特定主题的信息,并提供给⽤户。

⽬前,⽤户利⽤最多的是回溯检索,但定题检索发展也很快,科研课题进⾏中需要定题检索,对企业来说,也⾮常需要利⽤定题检索获得和掌握市场的持续信息。七、按检索途径的特点区分

(1) 常⽤法,⼯具法,利⽤检索⼯具或系统中常设的检索⼊⼝查找⽂献信息的⽅法。如主题、分类、著者、题名等。其具体操作分为顺查,倒查,抽查

顺查⽅式是根据有关课题的起始年代利⽤选定的检索⼯具由远及近的进⾏逐年查找。倒查⽅式则相反。从最新时间查找起,直到满⾜检索要求为⽌。

抽查是针对有关学科的发展特点,抽查某些特定时期的⽂献信息。通常抓住学科专业发展兴旺的时期,此时的不仅⽂献发表的数量多,质量也⾼。

(2) 回溯法,引⽂法,利⽤⽂献末尾所附的参考⽂献或引⽂为检索⼊⼝,查找到越来越多的⽂献。但这种⽅法,查找到最后,

查找到的⽂献与检索主题的相关性会越来越差。

(3)综合法,综合常⽤法和回溯法的检索⽅式。如先⽤⼀般检索途径,再利⽤原始⽂献后的参考⽂献作为检索⼊⼝,分阶段交替使⽤两种⽅法。

第⼀节信息检索语⾔与检索途径⼀、定义

信息检索语⾔(retrieval language)⼜称为情报语⾔、情报存储和检索语⾔、信息组织语⾔,是⽤来描述⽂献特征,表达主题提问的⼀种专门的⼈⼯语⾔,是由给定领域中的⼀切可⽤来描述信息内容和信息需求的词汇或符号,及其使⽤规则构成的供标引和检索的⼯具。是沟通信息存储与检索两个过程,标引⼈员与检索⼈员的桥梁。

信息检索语⾔是检索系统的语⾔基础,主要作⽤是:表达描述信息内容和信息需求;⽤于信息的组织和整序;⽤于对检索系统中索引标识或提问标识的规范和控制。

不同的检索系统由于所覆盖的学科领域不同,包含信息资源类型不同,通常采⽤不同的信息检索语⾔(例如EI与CNKI所使⽤的分类语⾔);

同⼀个检索系统往往也同时采⽤多种检索语⾔,以形成多种检索途径和⾓度。(例如:中国知⽹期刊⽂献与专利⽂献所使⽤的分类语⾔)⼆、分类

1、根据结构原理划分(1)分类语⾔(2)主题语⾔

(3)分类主题⼀体化语⾔(4)代码语⾔(5)引⽂语⾔(1)分类语⾔

分类语⾔主要可分为等级体系型分类语⾔和分⾯组配型分类语⾔两种。

①等级体系型分类语⾔:是⼀种最传统的分类语⾔,是⼀个直接体现知识分类和概念逻辑的标识系统。所有类⽬按照学科专业的等级、层次划分,⼀⼀列举,构成⼀个由总体到个体,由⼀般到特殊,由全部到局部的分类标识体系。这种结构符合⼈们通常的研究思维习惯,能保证较⾼的查全率。

⽬前我国⼴泛采⽤《中国图书馆分类法》(简称《中图法》)进⾏分类,该分类法由5⼤部类、22个⼤类组成

2)主题语⾔:以主题词来表达信息主题概念的语⾔,它按事物对⽂献信息进⾏浓缩、描述和整序,借⽤⾃然语⾔的语词,作为⽂献信息和检索提问的内容标⽰。

特点:按特定的事物集中⽂献信息,有较强的直接性。

构成原理:利⽤⾃然语⾔中的名词术语,经过⼀定程度的规范化处理,作为表达⽂献和提问内容的主题词;利⽤参照系统中的各种⼿段,显⽰主题标识之间的各种关系,并以此把主题词表中的众多主题词相互联系起来,构成多维的主题词体系;利⽤主题词的字顺序列,按事物的名称来排列和检索⽂献信息。

①标题语⾔:采⽤规范化了的⾃然语⾔,即经过标准化处理的名词术语作为标识,来表达⽂献所论述或涉及的事物--主题,并将全部标识按字顺排列。

例:⼀篇⽂章⽤“微型计算机”这个术语来叙述它的研究对象,另⼀篇⽂章⽤“微型电脑”这个术语来叙述它的研究对象,第三篇⽂章⽤“微机”这个术语来叙述,虽然都表⽰同⼀概念,这时就不能直接⽤“微型电脑”或“微机”来作标题词了,这三篇⽂章都必须⽤“微型计算机”作标题词(根据词表决定)。因为这三个术语是等同概念,如果同时⽤三个术语来标引,便会导致⽂献被分散。当然,读者若从“微型电脑”或“微机”⼊⼿检索时,都可以在标题词表中看到“见:微型计算机”的参照指⽰。②关键词语⾔

关键词语⾔(keyword):以关键词(从⽂献题名或⽂摘以及正⽂中抽取的,能够表达⽂献主题并具有实质意义的未经规范化处理的⾃然语⾔词汇)作为⽂献内容标识和检索依据的⼀种信息检索语⾔。

关键词与其他主题语⾔的区别在于:前者是没有经过规范处理的⾃然语⾔。属于⾮受控语⾔。后者是经过规范处理的⾃然语⾔,属于受控语⾔。

③元词语⾔:以元词(从⽂献中抽选出来的,从字⾯上不可分割的表达最基本的概念单元的词汇)作为主题标识,通过字⾯组配来表达主题概念的例:“物理”、“贸易”就是元词

“知识组织”就不是元词,⽽要拆分为:知识、组织

元词语⾔创⽴了检索时进⾏组配的后组⽅式,可以⽤较少的词汇表达⼏乎⽆限的主题,但由于元词不象标题词那样采⽤词组或说明语搭配词语之间的组合关系,其仅为字⾯组配,因⽽利⽤元词检索时错搭配、假联系的现象在所难免,已被淘汰。④叙词语⾔(descriptor):以表达⽂献主题内容的概念单元为基础,经过规范化处理,可以进⾏逻辑组配的⼀种主题语⾔,提⾼标引的专指性和检索的灵活性。

叙词是经过规范化处理的以基本概念为基础的表达⽂献信息和检索提问的主题的词和词组。叙词语⾔对元词语⾔的单词组配原理,标题语⾔的词汇规范和参照系统,以及分类语⾔知识分类的⽅法进⾏了继承和发展。

叙词语⾔的基本原理是概念组配,与元词语⾔的字⾯组配有本质区别。前者是词语概念意义的拆分和组合,其本质是语义层次上的组合,后者是词语字⾯的拆分和组合,其本质是字符层次上的组合。如:“⼉童病理学”⽤元词为“⼉童”和“病理学”

叙词为“⼉童”“消化系统病理”、“内分泌系统病理”、“呼吸系统病理学?叙词的组配,按照叙词意义之间的语义关系,存在如下⼏种类型:

a.交叉组配:指两个或两个以上语义交叉的叙词之间的组配。例:“⼈⼯林”和“防护林”的组配表达“⼈⼯防护林”的主题

b.限定组配:指将⼀个表⽰事物的叙词与表⽰事物属性、部分或⽅⾯的叙词进⾏组配。例如:“电⼦计算机”和“存取速度”的组配表⽰“电⼦计算机的存取速度”

c.组合组配:⼜叫并列组配,是指除上述两类叙词组配之外,任何两个或两个以上的叙词之间的组配。例如:“计算机”、“应⽤”和“图书馆”的组配表达“计算机在图书馆中的应⽤”叙词语⾔的特点是:

规范性强,叙词语⾔事先进⾏规范化处理,列于叙词表中,标引和检索都从叙词表中选词,保证了标引和检索的⼀致性。利⽤叙词的组配,可使⽤有限的叙词表达各种复杂的主题,尤其是最新出现的主题。

叙词语⾔从单元概念出发提⽰⽂献内容,有助于准确、全⾯地揭⽰⽂献的主题,提⾼标引深度和专指度。检索⼊⼝多,能满⾜多元检索的需要,检索范围改变也相当灵活,⼤提⾼了检全率。同时适⽤于⼿⼯检索和计算机检索系统。

叙词语⾔是我国⽬前使⽤最⼴泛的受控主题语⾔。2、根据组配⽅式划分

(1)先组式语⾔:表达信息主题概念的标识已事先⽤固定关系组配好,并编制在词表中,标引⼈员在标引信息或⽤户在检索信息时,必须根据词表选⽤组配好的主题进⾏操作。如:体系分类法和标题词法。

(2)后组式语⾔:表达信息主题概念的标识在编制词表时不曾预先规定组配关系。当标引信息时,只能根据词表中选⽤单独的主题词来描述信息的主题概念;检索时,⽤户可以根据需要将不同的检索词组配在⼀起,⽤来表达复杂的主题概念。如:元词、叙词。

3、根据规范化程度划分(1)规范化语⾔(2)⾃然语⾔

(3)两者结合的发展趋势

4、根据描述的⽂献特征分

(1)描述⽂献内容特征的检索语⾔

内容特征是指表征⽂献实质意义的特征,如主题词、关键词、分类号、内容摘要等。主题语⾔、分类语⾔、分类主题⼀体化语⾔(2)描述⽂献外部特征的检索语⾔

外部特征是指⽂献上显⽽易见的,⼀般情况下不反映⽂献实质意义的那些特征,如书名(题名、篇名)、⼈名、各种符号标识(专利号、标准号、报告号等)、机构名、⽂献出处等。代码语⾔、引⽂语⾔三、检索途径及其选择

1、内容特征检索途径:内容特征是指表征⽂献实质意义的特征,如主题词、关键词、分类号、内容摘要等。(1)分类途径(2)主题途径(3)分类主题途径

2、外部特征检索途径:外部特征是指⽂献上显⽽易见的,⼀般情况下不反映⽂献实质意义的那些特征,如书名(题名、篇名)、⼈名、各种符号标识(专利号、标准号、报告号等)、机构名、⽂献出处等?(1)责任者途径(2)题名途径(3)序号途径(4)引⽂途径

第⼆节事实数据信息的检索⼯具

⼀、字典、词典(辞典):字典是为字词提供⾳韵、意思解释、例句、⽤法等等的⼯具书。在西⽅,是没有字典的概念,全是中国独有的。字典收字为主,亦会收词。词典或辞典收词为主,也会收字。为了配合社会发展需求,词典收词数量激增并发展出不同对象、不同⾏业及不同⽤途的词典。

例:《新华字典》、《现代汉语词典》《⽜津英语词典》、《建筑⼤辞典》

西⽂词典⼀般都是按本国⽂字的字母顺序排列,查询时按字顺查找;⽇⽂字典⼤多按五⼗⾳顺排列,查找时按⾳顺查找;中⽂字典排列⽅法较多,有部⾸法、笔画笔顺法、汉语拼⾳法、四⾓号码法等。⼆、百科全书:常被誉为“没有围墙的⼤学”

概要记述⼈类⼀切知识门类或某⼀知识门类的⼯具书。百科全书在规模和内容上均超过其他类型的⼯具书,它集各类。百科全书的主要作⽤是供⼈们查检必要的知识和事实资料,其完备性在于它⼏乎包容了各种⼯具书的成分,囊括了各⽅⾯的知识。百科全书可按收录范围分为综合性百科全书(如:《中国百科全书》、专业性百科全书(如:《化⼯百科全书》;还可按编辑规模分为:⼤百科全书(20卷以上)、⼩百科全书(10卷以下)、百科词典(单卷)。

编排⽅式有三种:按字顺编排、按分类编排和分类与字顺相结合编排。⽬前,按字顺编排条⽬已成为百科全书编排⽅式的主流,也有采⽤分类与字顺相结合的形式编排的。

百科全书⼀般都有各种索引,其中最主要的是主题索引,就是把条⽬的条头、释⽂的隐含主题和参见主题按字顺排列以供检索。

世界ABC三⼤百科全书:美国百科全书、不列颠百科全书、科利尔百科全书美国百科全书》名为Encyclopedia Americana,简称EA,

《不列颠百科全书(Encyclopedia Britannica)》(⼜称《⼤英百科全书》,简称EB)科利尔百科全书(Collier' Encyclopedia)简称EC三、⼿册:

顾名思义是放置于⼿边可以⽅便地参考的⼀种⼯具书。是汇集某⼀学科或某⼀主题等需要经常查考的资料,供读者随时翻检的⼯具书。⼿册就是各⾏各业、不同地域、不同职业的⼈在进⾏某种⾏为时所需要的⼀种了解相关信息的材料。⼿册主要为⼈们提供某⼀学科或某⼀⽅⾯的基本知识,⽅便⽇常⽣活或学习。⼿册中所收的知识偏重于介绍基本情况和提供基本材料,如各种公式、规章、条例、事实、数据、图表等等。通常按类进⾏编排,便于查找。如:《图书情报⼯作⼿册》、《数学⼿册》

四、年鉴:是⼀种按年编纂出版的参考⼯具书。以全⾯、系统、准确地记述上年度事物运动、发展状况为主要内容的资料性⼯具书。汇辑⼀年内的重要时事、⽂献和统计资料,按年度连续出版。年鉴内容丰富、新颖,叙述简明,编排得当,具有可靠性、统计性、新颖性、连续性、知识性、检索性等特点。其主要作⽤是向⼈们提供⼀年内全⾯、真实、系统的事实资料,便于了解事物现状和研究发展趋势。它所收集的材料主要来源于当年的政府公报、国家重要报刊的报道和统计部门的数据。因此,年鉴有较⼤的总结、统计意义和⽐较系统的连续参考作⽤。通过年鉴,可查找近年来国际国内时事,各部门各⾏业的进展及各学科各专业的研究动态;可查找政府颁布的重要法规⽂献和逐年可⽐的统计数据资料。

年鉴⼤体可分为综合性年鉴和专业性年鉴两⼤类,前者如百科年鉴、统计年鉴等;后者如经济年鉴、历史年鉴、⽂艺年鉴、出版年鉴等。

五、名录:名录是提供有关专名(⼈名、地名和机构名录等)简要⼯具书,内容涉及⽐较⼴泛。⼈们可

以从名录中查找关于⼈物⽣平、机构组织和某⼀⾏政区划沿⾰等信息。名录是⼀种事实便览性的⼯具书,虽只提供有关机构、⼈物等的简要资料,但能起指引情报源的作⽤,对沟通信息、促进交流、加强协作提供了很⼤的⽅便。名录按收集信息的内容的不同,可分为⼈名录、地名录和机构名录。

1、⼈名录⼜称“名⼈录”,是介绍某⼀⽅⾯⼈物⽣卒年、学历经历、荣誉、著作等资料的检索⼯具。如:《世界名⼈录》。⼈名录分为综合性、国别或地区性的、专业或职业性的三类,每类⼜有回溯性的(也称⼈名辞典)和当代⼈物两种。2、地名录

是收录经审定的规范化的地⽅名称,并注明所属的国家、⾏政区划以及在地图集上的具体位置的⼯具书。主要提供各⾏政区域(国家、城市、省、县、乡、街道)、⼭川、河流、岛屿等的规范化名称、地理位置、⼈⼝、历史沿⾰、地产和矿产等资料。如:《中国⾏政区划⼤辞典》、《世界地名录》。3、机构名录⼜叫机构指南

是汇集机构名、⼈名、地名等专名及与之相关的资料的⼀种⼯具书。⼀般提供公司或组织机构的名称、地址、电话号码、历史与现状、机构的主要业务与⼈事、主要负责⼈等情况,许多公司和⼚商名录还要介绍其规模、资产、经营范围、产品、设备等情况。具有简明、新颖、确实等特点。如:《中国企事业名录⼤全》第三节⽂献检索⼯具简介

⽂献检索⼯具是⽤于报道、存贮和查找⽂献线索的⼯具,它通过对⽂献特征的描述,并按⼀定的科学⽅法排列、提供多种检索途径,使我们能从⽂献的汪洋⼤海⾥找到特定的⽂献。检索⼯具必须具备四个条件:

第⼀,必须详细描述⽂献的外部特征和内容特征。

第⼆,每条描述记录都必须具有各种检索标识。(所谓检索标识是指描述⽂献外部特征和内容特征的专门⽤于信息检索的词、词组或代码,如主题词、分类号、著者姓名、⽂献序号等。)第三,全部描述记录要科学地组织成⼀个有机的整体第四,能够提供多种检索途径。检索⼯具的类型:

按检索⼿段分,有⼿⼯检索⼯具、机械检索⼯具和计算机检索⼯具;按出版形式分,有书本式、期刊式、卡⽚式、缩微式和机读式;按收录范围分,有综合性、专业性、专题性和单⼀性;按⽂种分,有中⽂、西⽂、⽇⽂、俄⽂等;按著录⽅式分,有⽬录型、题录型和⽂摘型。

其中按著录⽅式划分体现了检索⼯具对⽂献内容揭⽰的深浅程度,体现了检索⼯具的性质,这是检索⼯具最主要的划分⽅

法。

⼀、⽬录型检索⼯具

⽬录是以出版物(如⼀本图书、⼀种期刊等)为报道对象,揭⽰出版物外部特征的检索⼯具。所以⽬录对⽂献的描述⽐较浅显,⼀般只描述⽂献的外部特征,有时也通过简单的内容提要介绍⽂献的内容,但它不涉及⽂献中的具体章节或具体⽂献。⽬录主要⽤于报道、登记出版物的出版发⾏情况,揭⽰其收藏情况,供⼈们选购、查阅和获取⽂献时使⽤。⽬录的著录项⽬通常包括出版物名称、责任者(著者、编者或译者)、出版项(出版者、出版地、出版时间、版次等)和稽核项(页数、开本、价格等)。

⽬录型检索⼯具主要有图书馆馆藏⽬录、联合⽬录、出版社⽬录、国家书⽬等。⼆、题录型检索⼯具

题录是以单篇⽂献作为报道单位,揭⽰⽂献外部特征的检索⼯具。由于它是以单篇⽂献为单位来

报道和存储⽂献的,所以对⽂献的揭⽰程度⽐⽬录要具体、深⼊。但题录与⽂摘相⽐,对⽂献内容的揭⽰⼜相对较浅,不过,它也因此具有加⼯容易、可以缩短报道的时差、⽂体简短、可以增加检索刊物的容量的优点。题录的著录项⽬⼀般包括题录号、⽂献题⽬、作者及其⼯作单位、出处、原⽂⽂种、主题词、⽂中所附图表数及参考⽂献数等。

《Index to Scientific & Technical Proceedings》是由美国科学信息研究所(ISI)出版的,是专为检索会议录、会议出版物及其会议论⽂题录⽽编制的综合性检索刊物,内容涉及基础学科、⼯程技术及应⽤科学等领域,每年收录约4000次重要科学会议的论⽂。⽬前,全球正式出版的重要会议⽂献约有75%~90%被ISTP收录,是快速、全⾯了解会议⽂献的重要检索⼯具,并作为评价科研⼯作者学术⽔平的重要指标,它与SCI《科学引⽂索引》(Science Citation Index)、EI 《⼯程索引》(TheEngineering Index)、并称为“三⼤索引”。其正⽂按会议号的顺序排列,著录每个会议的名称、会议事项、会议录及其出版情况和该会论⽂的题录。三、⽂摘型检索⼯具

⽂摘(abstract)是指对⼀份⽂献或⼀个⽂献单元的内容所做的简略、准确的描述,通常不包含对原⽂的补充、解释和评论。⽂摘的报道对象与题录相同,但它对⽂献内容的揭⽰程度较题录更深⼊具体,它不仅描述⽂献的外部特征,还进⼀步描述⽂献的主题内容。对内容的介绍主要由其中的“⽂摘”部分完成。⽂摘是最常⽤的⽂献检索⼯具。⽂摘的主要著录项⽬为:

(1)⽂摘号、⼊藏号(abstract number ,reference number , accession number )。它是在⽂献处理完以后,为每条⽂摘编的号码,起排序并帮助读者识别特写⽂摘的作⽤。它可以是简单的顺序号,也可以是含有某种情报内容的代码符号。(2)⽂献名称(document title)。即⽂献的题⽬(篇名),它是读者识别特定⽂献的重要标志之⼀。⽂献名称⼀般是逐字照录,有时也可以删去某些引导性的词,或对含义不清及不完整的名称加以改写、补充。外⽂⽂献⼀般要同时著录译名和原名。有些英⽂检索⼯具对⾮拉丁⽂字的⽂献⼀般不著录原名,⽽著录原名的⾳译名。

(3)著者(author)及其⼯作单位(affiliation)。是读者迅速鉴别⽂献的依据之⼀,著录著者姓名可以⽤全称,也可以⽤简称。许多国家的⼈名表述是名在前,姓在后,⼀般姓⽤全称,名可以缩写。但⼤多数检索⼯具都采⽤姓在前、名在后的形式。英⽂检索⼯具对⾮拉丁⽂姓名⽤⾳译法著录。

(4)合同号(contract number)或拨款号(grant number)。如果该⽂献是在某项合同或拨款的⽀持下进⾏的,⼀般都要标明该项合同的编号或拨款⽂件的编号。科技报告都有这⼀项⽬。

(5)原⽂出处。指刊载原⽂的地⽅。原⽂如果是某种期刊中的论⽂,出处包括该刊的刊名、出版地、卷期号、出版⽇期和起讫页码;如果是图书或其中的⼀部分,出处就是书名、编著者、出版地、出版者、出版时间和起讫页码。科技报告的出处就是⼊藏号、订购号或原来的报告号。专利说明书的出处就是专利申请书或专利说明书的编号。原⽂出处的著录是读者顺利找到原⽂的重要线索。

(6)原⽂⽂别和译⽂来源。原⽂⽂别⼀般⽤某种语⾔的简称标明,放在⽂献出处之后,有的放在⽂献的译名之后。若所摘录的⽂献是⼀篇译⽂,应给出译⽂的来源(被译⽂献的出处),如“译⾃X刊X卷X期X页”。此项的⽤处是免得使读者去找他所不能阅读的东西。

(7)主题词或索引词。指⽤来描述该⽂献的主题内容的若⼲个词或词组。该项的⽤途很多,既可以帮助读者了解原⽂主题,也可以⽤以查找其他相关⽂献,或供计算机识别和进⾏逻辑组配检索。

(8)⽂摘正⽂。对⽂献内容所做的简略描述。可以有报道性⽂摘和指⽰性⽂摘之分。前者需概述原⽂的内容要点,特别是创新点,向读者提供原⽂中的定量信息(如距离、最⼤值、最⼩值、公式等)和定性信息(如发现、结果、新⽅法、新设备、结论等)。它是原⽂内容的浓缩,基本上能反映原⽂的技术内容、信息量⼤,字数也较多。后者则是为了把原⽂的主题范围、⽬的和⽅法概略地指⽰给读者的⼀种⽂摘,⼀般不包含具体的数据、⽅法、设备、结论等内容。它指⽰读者将在原⽂中发现什么,帮助读者判断原⽂是否与⾃⼰的需要相关以及是否需要阅读原⽂,字数也相对较少。

第四节索引介绍

⼀个完整的检索⼯具包括四个部分:1、说明部分2、正⽂部分3、辅助索引部分4、附录部分

索引通常不提供⽂献内容本⾝,只指明⽂献的物理位置,是⼀种检索⽂献的系统指南,使读者能准确地找出⽂献或⽂献集合体中的特定信息。

最常⽤的索引有著者索引、主题索引、分类索引、题名索引。

主题索引是以主题词为标⽬,按照主题词的字顺排列组织的索引。按照组织主题词的原则和⽅法上的不同,⼀、著者索引

⼆主题索引可分为四种:1、标题索引2、关键词索引3、单元词索引4、叙词索引关键词索引

关键词索引是按关键词的字顺排列的索引。关键词是直接从原⽂的标题、摘要或全⽂中抽选出来的,具有实质意义的、未经规范化处理的⾃然语⾔词汇。被抽选出来的关键词都可以作为标引词在索引中进⾏轮排,作为检索词进⾏检索。由于关键词表达事物和概念⽐较直接,不受词表控制,能及时反映新事物、新概念,⽬前被⼴泛地应⽤于⼿⼯检索和计算机检索系统中。但关键词索引不显⽰词间关系,不能进⾏缩检和扩检,影响检索效率。不过,在计算机检索系统中,利⽤关键词之间的逻辑组配,在⼀定程度上解决了这个问题。计算机检索系统还采⽤编制禁⽤词表和关键词表等⽅法,以提⾼关键词抽取的准确性,并对词间关系进⾏控制,提⾼了检索效率。三、分类索引

分类索引以科学分类为基础,运⽤概念划分的⽅法将知识按⼀系列的标准和逻辑规则进⾏层层划分,形成⼀个严格有序的直线式的知识门类等级体系,⽤概括事物本质属性的概念作为类⽬名称,并给出相应的标记符号作为类号,按照分类号编排。分类的⽅法能较好地体现学科的系统性,反映事物之间的平⾏、⾪属和派⽣关系,适合⼈们认识事物的习惯,有利于从学科或专业的⾓度进⾏族性检索。⽬前我国⼴泛采⽤《中国图书馆分类法》。

不过《中国图书馆分类法》作为体系分类法是先组式检索语⾔,缺乏进⾏多概念灵活组配的能⼒,分类表类⽬是根据编制时的学科专业情况设置的,⽆法反映新学科和新技术的内容,且体系分类法是按学科性质建⽴的直线式序列结构,对全⾯检索跨学科跨专业的⽂献信息有⼀定难度。但它仍然是⼀种不可缺少的检索⼯具,特别是在⽹络检索⼯具中,使⽤分类⽅法浏览、搜索信息⼗分普遍。在⼀些专门领域,如专利、标准⽂献的检索中,都有特定的分类索引。四、题名索引

题名索引是以书名、刊名或篇名为标⽬,并按题名的字顺排列的⼀种索引。

如:有些期刊在每年最后⼀期后会附上全年刊登的⽂献的题名索引。其按字顺排列,在每个题名后列出其所在的期号,甚⾄所在页码。五、其他索引

为适应某些专业的特殊需要或某些⽂献的特点,会根据需要编制⼀些专⽤索引。这类索引所⽤的索引词形式很专⼀,通常是某⼀专业领域的专⽤名词,如化学物质名称、动植物名称、药名、矿物名、地名、商品名、机构名等等,以及专⽤的符号代码,如元素符号、化合物分⼦式、专利号、报告号、标准号、合同号等。这些专⽤名称和符号代码表⽰⽂献的某⼀种特征,有⼀定的检索意义,特别是在相应的专业领域内,其检索价值尤为显著。

第五节计算机信息检索基础理论⼀、检索技术及其实现1、布尔逻辑组配检索技术

布尔逻辑组配检索是现⾏计算机检索的基本技术,它利⽤布尔逻辑运算符表⽰两个检索词之间的逻辑关系,将检索提问转换成逻辑表达式。常⽤的运算符有:①逻辑“与” —AND②逻辑“或” —OR③逻辑“⾮” —NOT练习:

头孢菌素钠Ⅴ或磺胺甲恶唑治疗呼吸道感染的引起的副作⽤研究检索式:(头孢菌素钠ⅤOR 磺胺甲恶唑) AND 呼吸道感染AND 副作⽤布尔检索的特点优点:

(1)形式简洁,结构化强,语义表达⼒好。

(2)布尔运算关系有利于准确表达检索概念之间的逻辑关系(3)由于布尔运算以⽐较⽅式在集合中进⾏,故软件易实现缺点:

(1)它不承认⽂献内容所涉及的多个概念的重要性,即没有规定每个检索词的权重,⼀个概念要么与⽂献内容完全相关,要么不完全相关,这常与实际情况不⼀致。

(2)它把各个概念看成相互独⽴的,忽略了概念间的相互关系;它把概念与⽂献的关系简单化,忽略了概念与⽂献内容形式和结构的关系。

(3)它不能妥善区别和处理检索式中较多的概念标引的⽂献和⽤检索式中较少的概念标引的⽂献。如处理提问式: “A AND BAND C…AND Z”时,系统把含有若⼲个提问词和不含任何⼀提问词的⽂献认为⼀样差,同样加以排除;在处理提问式“A ORB OR C…OR Z”时,不能把含有所有提问词的⽂献看做⽐只含有⼀个提问词的⽂献更好⼀些。(4)它不能对检索结果按与检索要求相关的程度排序输出。

(5)过分依赖检索语⾔的⽂字化、规范化,往往要求较复杂的表达式。(如对同义词的全⾯表述)为缩短检索式和醒⽬起见,DIALOG检索系统中“AND”、“OR”、“NOT”算符可分别⽤“*”、“+”、“—”代替。附:DIALOG国际联机检索系统简介

美国DIALOG系统是⽬前世界上最强⼤的国际联机检索系统,也是⽬前运作最成功的联机商业数据库系统之⼀,它拥有80多个国家约10万多个终端⽤户,主机系统位于美国加利福尼亚州。DIALOG拥有近600个联机数据库,其内容涉及40多个语种和占世界发⾏总量的60%的6万多种期刊。DIALOG是世界最著名的商⽤联机数据库系统之⼀,它的服务是收费服务。2、截词技术

所谓截词(Truncation),是指检索者将检索词在他认为合适的地⽅截断;⽽截词检索,则是⽤截断的词的⼀个局部进⾏的检索,并认为凡是满⾜这个词局部中的所有字符的⽂献,都为命中的⽂献。

截词符根据检索系统的不同⽽不同,常⽤截词符有“?”、“﹡”、“¥”、“!”等。通常⽤“﹡”表⽰⽆限截断,“?”表⽰有限截断。截断⽅式也有后截、中截、前截等1)后截断

是最常⽤的截词检索技术。将截词符号放置在⼀个字符串的右⽅,以表⽰其右的有限(?)或⽆限个字符(﹡)不影响该字符串的检索。

如“Computer ﹡”,则词典中存储的前8个字符为Computer的所有词均满⾜条件,因⽽能检出含有Computers、Computering、Computerigation、Computered等词的⽂献。

Computer? ?可检索出含有Computer、Computers、Computered等词的⽂献。可见,截词检索具有隐含的OR运算特性。后截词主要使⽤在以后4 个⽅⾯:①词的单复数,如bag?、box??

②年代,如199??(90年代),19??(20世纪)

③作者,如⽤Lancaster ﹡,可检索出所有姓Lancaster的作者。

④同根词,如⽤poltic ﹡检索出political、politicalize、poltically、poltician等同根词。(2)前截断

例如:“﹡magnetic(有磁性的),可以检索出electro-magnetic(电磁的)、paramagnetic(顺磁的)、thermomagnetic(热磁的)等词汇。(3)中截断例如:

m?n。可以检索出含有词man、men的⽂献。3、字段限定检索技术

⽂献数据库的每条记录通常都由多个代表不同信息内容的字段组成,⼏乎所有机检系统均设置了限定检索的功能,以满⾜⽤户检索某⼀特定字段信息的要求。

在DIALOG联机检索系统中,数据库提供的确可供检索的字段通常分为基本字段和辅助索引字段两⼤类。基本字段表⽰感谢⽂献内容特征,如题名、主题词、⽂摘等;辅助索引字段表⽰⽂献

外部特征,如著者、⽂献类型、语种、出版年代等。每个字段有⼀个字段代码,字段代码通常⽤两个⼤写字母表⽰。如DIALOG联机检索系统中,字段限定符主要有:AU = 限查作者CS = 限查作者机构JN = 限查特定刊名Ti = 限查题⽬字段LA = 限查语种AB = 限查⽂摘字段

PN = 限查特定专利号DE = 限查主题词字段PY = 限查特定年份ID=限查关键词或⾃由词4、词位限定检索技术1)(W)算符与(nW)算符

(W)算符是“Word”或“With”的缩写,它表⽰在此算符两侧的检索词必须按输⼊时的前后顺序排列,⽽且所连接的词之间可以有⼀个空格,或⼀个标点符号或⼀个连接号外不得夹有任何其他单词或字母,且词序不得颠倒。(W)算符严密性较强,它基本等同于词组检索。

⽬前绝⼤部分搜索引擎都具有词组检索的功能,⼀般⽤“”表⽰。例如:SQL(W)SERVER 可以检索出SQLSERVER或SQL SERVERgone(2W)wind 可以检索出gone with the wind

(2) (N)算符和(nN)算符

(N)是Near的缩写,它表⽰:在算符两侧的检索词必须紧密相连,所连接的词间不允许插⼊任何其他单词或字母,但词序可以颠倒。

(nN)表⽰允许在连接的两个词之间夹插⼊⾄少n个单词,且这两个检索词的词序任意。例如:Railway(2N)Bridge,可以表⽰Railway Bridge,Bridge of Railway,Bridge of the Railway(3)(S)算符

在某些情况下,特别是对查全率有较⾼要求时,可放松词位置检索要求,改⽤同句检索。所谓同句检索是要求参加检索运算的两个词必须在同⼀⾃然句中出现,其先后顺序不受限制。同句检索的位置算符是(S)。S是sentence的缩写。例如:electronic(S)optical ,可以检索出题名为Cutting and polishing optical and electronic materials的⽂献。(4)(L)算符

(L)是link的缩写,它要求检索词在同⼀主题词字段中,并且具有词表规定的等级关系。因此,该算符只适⽤于有正式词表,且词表中的词具有从属关系的数据库。

如:railroads (L) traffic control ,表⽰traffic control是railroads的下⼀级主题词。(5)(F)算符

(F)是field的缩写,表⽰在此处符两侧的检索词必须同时出现在数据库记录的同⼀字段中,词序可变,字段类型不限。从限制的严格性看,F、S、L、N、W依次渐严,⽽且都⽐AND严。在执⾏优先级上⽐NOT、AND、OR优先。

计算机信息检索的⼀般步骤为:1、根据检索课题,选择适⽤的数据库;2、确定检索词;3、编制检索式;4、显⽰及判断检索结果;5、修改检索策略。6、索取原⽂

⾮控制词汇是极为灵活有效的检索词。对于⾃由⽂本检索和全⽂检索⽽⾔,关键词更是最重要的检索词。

因篇幅问题不能全部显示,请点此查看更多更全内容