(李法勇 北京文献服务处 北京 100036)
Abstract Deriving from the variation of user demand and t-he development of information retrieval technology,this papercompares the natural language retrieval with traditional waysand indicates dialectically that the application of naturalla-nguage processing in information retrieval is an important de-velopment trend of the future information retrieval system.
Keyword Information retrieval Natural language processingRetrieval system
* * *
0 前言
一个理想的信息检索系统应该是一个“问答机”。我们提出问题,它负责解释并回答。它理解的不是只字片语,而是提问意图。作为最终用户,不应多费心思表达自己的提问,也不须学习一套繁琐的命令、格式或代码。我们希望能走进信息仓库,就象走进商店看看有什么,买点什么。
人们大多一直在用基于命令的布尔检索引擎。目前,一种以相关排序和智能文本处理为特征的“自然语言处理”(NLP)系统开始流行。国外对NLP引入信息检索(IR)已由理论研究开始转向应用,而国内目前尚处于理论探讨阶段。5年前,美国尚集中在知识表达等方面的理论发展上,现在,来自美国政府特别是ARPA(美国国防部高级研究计划署)的压力以及商业信息的迅猛发展,将NLP推向应用、系统评估方向。不同于欧美,日本则将包含NLP在内的人工智能技术作为一个整体推进。
1 自然语言检索的产生和发展
自然语言检索,从技术上讲就是将NLP技术应用于信息检索系统的信息组织、标引与输出。从用户讲就是用自然语言作为提问输入和对话接口的检索方式。
1.1 信息检索、文献检索与原文检索
这3种检索是从信息源讲的。信息检索(IR)是最广义的,包括文献检索(DR)、数据检索、知识检索等许多方面。
在信息检索中,文献检索是最重要的,也是独立发展最完善的检索方式,有着自己丰富的特征。在文献检索中,用户是想找点什么读一读,而不是想得到一个特定的数值,或是一个特定的回答。
本文检索(TR)通常都叫文献检索。它提供给用户最终的文本,而不是象题录、文摘型那样只提供给用户找到资料的线索和介绍。随着数据库建设的发展,TR和DR中的地位越来越突出。
1.2 传统标引检索与自然语言检索
从信息技术的发展来看,传统的标引检索方法最早是基于手工标引的主题词检索。它首先由专业人员根据对文献特征与内容实质的分析确定主题词,然后基于相应的主题词表组织、建立检索系统。用户再根据该主题词表作为入口进行检索。它较好地解决了检索效果中查准率与查全率问题。
随着机器抽词技术的发展,计算机自动标引逐步取代手工标引,出现了单元词法。这样,原来的主题词检索也被称为复合词法。30多年的实践表明,用单元词(或词干)标引文献检索并不亚于用手工控制词表的复合词检索效果。但单元词进行组配的效果与复合词法相比没有多大改善,如经常出现误组、漏组现象。
最后,在单元词法中加入位置信息,产生了全文检索方法。全文检索综合了前两者的优点,组配更加灵活,但在实现上却出现了词表空间开销庞大、处理时间增长的问题。
针对中文汉字的特点以及大型海量中文数据库的需要,出现了以字为单位的特征文件存取检索方法。特征检索解决了分词(机器切词)与新生词等问题。由于采用非控制词表和排序功能,既可实现布尔型提问的准确匹配,又可实现近似自然语言检索。
统计文献检索方法是NLP技术在DR中的应用。与传统标引文献检索方法相比,大大改善了布尔型提问方式。它根据与提问的相似性或相关度排序文献。提问可以是用户需求的任意表达,也可以是一篇文献样本。统计文献检索方法给最能体现文献内容的词以较高的权值。一个词在某篇文献、某个提问甚至某个文献集合中出现的频次都可以作为确定其权值大小的考虑因素。另外,如果用户觉得某命中文献很合适,系统可以根据它自动调整检索词及其权值,这常被称为相关反馈。
统计文献检索方法有着明显的优点:①后组式:复杂概念不是在标引时组配而成的,而是在用户提问时形成。②允许冗余词:因为词是从文献原文中抽取,而不是取自控制词表,这样用户表达用词不再受限。如:可以用"testing",而不一定用其主词"test"。③表达用词来自文献本身,所以更易表现文献间的相同和不同。如用"testing"和用"tes-ter"的两篇文献。
下面举一个统计文献检索的例子。例如:
提问式:A cheap[20]method[5]for prefabricated[30]housing[20].
(房屋预制件的廉价方法)
一篇含有cheap和prefabricated的文献获得了最高分值。如果用户认为该篇很合适,相关反馈将增大这两个词的权值,并且,该相关文献中的高权值词unit和construct也将连同其权值加入到提问式中,这样就可能获得一些未可预料的相关文献。
由此可见,该方法更适宜称作“文献导游”,它不是一次性的付给,或是粗略地给出一堆同类文献。当然,它还面临许多问题,如许多NLP理论未能付诸实践,在海量全文型数据库上的应用还不算多,或有的用了自然语言但没有利用词的权值,或不支持相关反馈功能。最重要的许多用户还不习惯,不会构造初始提问或对动态修改提问要求。但总的说,统计文献检索的入门应用比传统方法简单容易得多。
1.3 NLP在DR中的典型应用
统计文献检索方法的应用只是在低垂的枝头上摘下了几个苹果。它以强大的优越性吸引了研究人员,同时也向NLP技术在DR中的发展提出了挑战。NLP在DR中的主要应用有:
(1)NLP可用于复合词的生成,并且可以实现它的自动选择与赋加权值。复合词不再只靠人工编制实现。如"civil communication network"3个词,若提问式与多篇文献中均有此复合形式,则可以被认定为一个复合词。
(2)NLP还可用于自动或半自动的知识采集。如自动生成相关词簇,再大一点就是同义词词典。比如同义词"ARPA"与"DARPA"可作为一个词簇。
(3)NLP用于生成各种匹配形式。如:在传统索引中,元素拆分不允许用副词等非主题词表中的词,而NLP可在必要时通过标记为复合词元素使用这些词。如"very high speed"(甚高速)的"very"。
(4)NLP可将词的上下文作为词义线索。如:在提问中,当多个词使某篇文献与提问相匹配,我们说这些词具有相同的“词感”。词感可作为获取词义线索的一条重要途径。比如用"internet resources"和"www"两个词均可查到同一篇文献而满足同一个需求,那么这两个词的词感是相同的。
2 DIALOG TARGET与DR-LINK之比较
为举例说明,这里取3个比较有影响的代表性信息检索系统作一下比较。DIALOG作为传统的布尔型系统的样本;TARGET作为仅增加了相关排序功能的系统样本;而DR-LINK作为更高级的智能型全文处理系统的例子。
例1:用户想找一篇自己曾经见过的文章,是1995年在"PC Comput-ing"上发表的Microsoft公司对Windows 95有关Internet的补遗。
提问式:
DIALOG
e jn=pc?
s jn=pc/comput?and microsoft/ti and(left()out or omit?)and windows/ti and py=1995.
TARGET
target 'pc comput''windows 95''left out'internet
DR-LINK
I would like information about an article in PCComputingon what Microsoft left out of Windows 95.It mentions an Internettool.
讲评:
DIALOG:该例应该对DIALOG有利,尤其是它可以用“jn=期刊名”。但事实上,DIALOG中没有"PC Computing",而用的是"PC/Computing",所以用户不得不先用命令"e jn=pc?"查看,弄不好还会认为没有。最后,用户终于在命中的几篇文献中把它找到了,但也说明了它作为传统检索方式的不足。
TARGET与DR-LINK:都找到了用户想要的文献并都排在第一位,且都给出了另外49篇相关文献。不过这49篇中,TARGET有些并不真是讲I-nternet的,而DR-LINK由于给"Internet"较高权值,把这些不相关文献都排除在外了。
例2:用户想找在1993年1月至1995年3月《金融时报》上的有关欧洲经济共同体(EEC)的制度、法规对EEC国家经济、商业的影响方面的资料。
DIALOG
s (EEC or European ( ) Economic ( ) Community)and(rule?orregulation?)
s s1 and(econ?or commerc?)and impact?or effect? or future)
s s2 and py=1993:1995
TARGET
?target (eec'european economic community')(rule?regulat?) (impact effect?future) (econ?commerce?)/1993:1995
DR-LINk
I would like information about the impact or effect of EECrules and regulations on the economics or the commerce of EECcountries.
讲评:
DIALOG:命中20篇,都比较对题。但有点模糊,没有突出“影响”这个概念。
TARGET:50篇中有30篇对题,20篇毫无用处。
DR-LINK:所有50篇全部对题,并且很好地突出了“对未来的影响”方面的资料。
以上的例子或许有些偏颇。但我们不能凭主观就认定传统的就是过时的,或说新技术在传统方法中的应用只是玩花样,不实用。我们需要的是多实践。
3 自然语言检索发展趋势
3.1 从用户角度看
用户可分为两类:最终用户(直接用户)和职业用户(间接用户,中介用户)。对职业用户来讲,他们熟悉系统命令及操作技巧,熟悉各种文献的特征,又有丰富的经验,可以充分发挥传统检索方式的优势。另一方面,他们多数恐怕不愿接受“用户一律平等”的自然语言方式。而对最终用户来讲,有两种实现检索的方式。一种是接受传统检索方式繁琐的系统培训,第二种是借助中介用户来检索。两者都有困难的话,他们还是钟情于自然语言检索。
3.2 从信息资源看
传统检索方式主要用于DR。从前面DR的介绍中我们看到,未来DR尤其是TR系统将会或多或少地包含自然语言标引方法、支持设备或应用策略。这是因为它使用户尽心提问而无需考虑文献的各种特征;它支持用词的承继、冗余和后组。另外,它的灵活实用性尤其表现在全文型的次文检索(如段落)和第二次检索(在第一次粗略检索的基础上进行深化)。
数据检索中,各参数的文件信息须预先编码,概念分类也是预知的。自然语言提问式通过特定的模型转换,映射到相应的文件分类中。
象数据检索一样,知识检索也是直接回答用户的提问,没有间接的二次检索。但它不需要严格的预编码,而需要比DR与数据检索更强大的推断能力(知识库包含支持推理的语义结构)。有人提出将DR中的文献文件代之以知识库,这在某些场合可以取得更好的效果,但多数尚不可行。不过DR可以通过在文件级上组织一种超架构来增加其检索深度和集成性。如常见的面索引和超文本,就是在这方面的尝试和应用。
3.3 从用途来看
信息检索的用途、目的迥异,检索策略就大不相同。如编写教材、专利查新、成果鉴定等浏鉴性或回溯性检索,对查全率要求较高。了解情况、事实问答、决策支持等针对性检索,对查准率的要求比较高。不同检索方法对不同的数据库的检索效果不一样,所以还应该具体分析,对查准和查全有所侧重。而自然语言检索与几种传统检索方式对查准与查全的效率也不一样。主题词法有很高的查准率,单元词法有很高的查全率,全文检索有很高的方便性,以及自然语言有综合优势,它们都以不同方式吸引着用户。
总之,自然语言检索的应用是信息检索发展史上的突破。尤其是随着Internet的普及发展,信息检索最终用户日趋壮大。自然语言检索将成为一大发展趋势。但它也不可能完全取代传统检索方式。正如计算机并未取代纸介质使我们进入“无纸时代”,多种检索方式将在并存中为用户提供更多的选择。
参考文献
1 Feldman S.Testing Natural Language:Comparing DLALOG,TA-RGET and DR-LINK.Online,1996,20:71
2 LewisDD.Joes KS.Natural Language Processing forInformation Retrieval.Communications of the ACM,1996,39:92
3 Wilks Y.Natural Language Processing:Introduction.Communi-cations of the ACM,1996,39:60
4 Glymour O,et al. Statistical Inference and Data Mining.Co-mmunications of the ACM,1996 39:35
5 Chien Lee-Feng.Fast and Quasi-Natual Languge Searchfor Gigabytes of Chinese Texts,ACM SIGIR'95
6 张琪玉.检索语言讲座(十).情报理论与实践,1996,(6)
7 张琪玉.情报检索语言.武汉:武汉大学出版社,1983.6
情报理论与实践京260-262G9图书馆学、信息科学、资料工作李法勇19971997 作者:情报理论与实践京260-262G9图书馆学、信息科学、资料工作李法勇19971997
网载 2013-09-10 21:39:27