指搜索引擎理解和运算的查词串,由关键词、逻辑运算符、搜索指令(搜索语法)等构成。
主要逻辑算符
布尔逻辑算符:与或非
优先算符
邻接算符
字段算符
截词算符
加权算符
词组或短语
如何构建合理的检索式?
常用检索方法与策略【补充教材2.4-4章】
【主要内容】
1、检索式和运算符
检索式:用运算符将检索词连接起来构成的能让计算机识别的式子。
运算符:又称逻辑算符,是表达检索词之间逻辑关系和限制关系的运算符号,它是复合检索式中必不可缺的构件。
2、布尔逻辑算符
1)逻辑“与”
逻辑“与”可用“AND”或“*”表示,检索词用“AND”或“*”相连,含义是检出的记录中同时含有所有检索词。逻辑“与”运算符的基本作用是对检索词加以限定,逐步缩小检索范围,减少命中文献量,提高检索结果的查准率,适用于不同概念组面之间以及同一组面内不同含义的词之间的组配。
2)逻辑“或”
逻辑“或”可用“OR”或“+”表示,检索词用“OR”或“+”相连,含义是检出的记录中,至少含有检索词中的一个。
逻辑“或”算符的基本作用是扩大检索范围,增加命中文献量,防止漏检,提高检索结果的查全率。适用于同义词或同族概念的组配,如同义词、近义词等。
3)逻辑“非”
逻辑“非”可用“NOT”或“-”表示,检索词用“NOT”或“-”相连,表示排除“NOT”或“-”算符后的词语,检出含有算符前检索词的所有记录。
逻辑“非”算符的基本作用是缩小检索范围,减少文献输出量的作用,但不一定能提高文献命中的准确率。同时应注意在有两个以上运算符的复杂逻辑式中,“NOT”出现次数不能太多,否则检出结果极少,影响检出效果。
使用布尔检索需要注意问题:
(1)布尔检索执行顺序:
布尔检索运算执行顺序通常是NOT、AND、OR。有括号时,先执行括号内的逻辑运算。有多层括号时,先执行最内层括号中的运算。
(2)绝大部分网络信息检索工具都支持布尔检索功能,但不同的检索工具之间有差别。
第一,不同的检索工具表示布尔逻辑关系时使用的符号不同,有的用“&”、“︳”和“!”分别表示布尔关系的AND、OR和NOT,有的用+、-分别表示布尔关系的AND、OR,有的则用表格、文字、空格或菜单来体现不同的布尔关系。使用的时候要注意使用帮助系统了解代表某种逻辑关系的符号。
第二,有的检索工具检索词之间默认关系为AND,有的检索工具检索词之间默认关系为OR。
第三,支持布尔逻辑的程度不同,有的完全支持三种运算,如Infoseek;有的仅在高级检索中完全支持,而简单检索中则部分支持,如Lycos;而Yahoo则不支持布尔关系NOT。
3、优先处理算符
优先处理算符用“()”表示,含义是优先对()内的算符进行逻辑运算,在实际检索中,有时要调整逻辑运算符的运算顺序,使某些算符优先进行逻辑匹配,或者是简化逻辑算式,在这些情况下,将使用算符“()”。
4、邻接算符
邻接算符又称词位置逻辑检索符、全文查找逻辑算符,相邻度检索算符,原文检索符。
在检索中,会遇到如下一些情况:
某个概念需用词组形式表达;
两个或两个以上的词要紧密相邻;
在这些情况下,需要用邻接算符限定检索词之间的间隔距离或是词语出现的顺序。
1)(W)
W的含义是“With”,其用法为A(W)B,表示(W)前后所连接的A、B两个检索词在检出结果中必须紧密相邻,且词序不能颠倒。
2)(nW)
W的含义是“Word”,n代表单词个数,用法为A(nW)B,表示A、B两词之间允许插入最多为n个的其他词语,插入词可以是实词或系统禁用词,同时A、B两词的前后顺序保持不变。
3)(N)
N的含义是“Near”,用法为A(N)B,表示在检出结果中A、B两词必须紧密相邻,并允许词序发生颠倒。
4)(nN)
N的含义仍是“Near”,用法为A(nN)B,表示A、B两词之间允许插入最多为n个的其他词语,插入词可以是实词或系统禁用词,两词的前后顺序可以颠倒。
5、(X),这是无间隔有序检索符。检索式为A(X)B,表示这个算符两边的检索词必须完全一致,并以指定的顺序相邻,中间不允许插入任何单词或字母。
6、(nX),这是有间隔有序检索符。检索式为A(nX)B,表示两个检索词之间最多可以插入n个单元词,两边的检索词必须完全一致。
5、字段限制
在联机数据库或光盘数据库检索系统中,都提供字段限制的检索功能,其作用是检索范围限定在某一字段内如题目、作者等。以DIALOG检索系统,基本字段限制为四个:题目(TI)、叙词(DE)、标引词(ID)、文摘(AB)。
例8:检索式COMPUTER/TI
表示在题目中查找含有COMPUTER一词的文献。
除了基本字段以外,检索系统中的其它字段都可称为辅助字段,其表达方式与基本字段有所不同,它是在检索词前面加上字段代码和运算符“=”,
例9:检索式CS=BEIJINGUNIBERSITY
表示检索著者单位为北京大学的所有文献。
网络检索的字段限制
字段“site:”表示检索应该在一定的站点上进行,
“url:”表示检索词应该是网址的一部分,
“title:”表示检索词应在网页标题中出现,
“alt:”表示检索词应在图像替代文字中。
在搜索引擎Google的检索框键入link:可以得到所有链接到Google主页的网页。
6、截词算法
截词检索是利用检索词的词干或不完整的词形查找信息的一种检索方法。
用户可以在检索式中用截词符号(如“*”、“?”或“$”等等)表示检索词的某一部分允许有一定的词形变化,而不必输入完整的检索词。
检索时,检索工具将用户输入的检索式到数据库中进行查找,凡是与检索式相匹配的字符,不论其后或其前是什么字符都属命中内容。
截词检索可以降低输入次数,简化检索程序,扩大检索范围,提高查全率。
一般情况下,“?”代表一个字符,而“﹡”表示通配所有字符。
1)按截断的字符数量划分
截词检索可以分为有限截词和无限截词。
有限截词,又称有限截断,指对词干以外可以出现的字母数量进行限定。如:studen,截词符“”表示检索含有studen和studen后只跟有两个字母的检
索词的文献。
无限截词,又称无限截断,指对词干前后出现的字母数量不作限定,一切与输入的词干相匹配的字符串,不论词干后或词干前是什么字符串、有多少字
符串都属于要检索的信息。
2)按截断的位置划分
截词检索可以分为前截词、后截词、前后截词和中间截词。
前截词,又称左截词,前截断
允许检索词的前端有一定形式的变化。检索时将截词符放在一个字符串的左方,表示其右的有限或无限个字符不影响该字符串的检索。这实际上是一种
后方一致的检索,对汉语中的复合词组的检索非常方便。
后截词,又称右截词,后截断
允许检索词的尾部有若干形式的变化。检索时将截词符号放在一个字符串的右方,凡是有截词符左方所有字符串的文献都符合检索要求。这实际上是一