核心集构建的理论与方法比较研究

簡體傳統

　　“核心”本是一个非常宽泛的概念，在中国期刊网上，检索题名中含有“核心”两字的文章共有15389篇（检索日期：2005—10—01）。题名涉及到的词汇主要有：核心期刊、核心竞争力、核心技术、核心能力、核心员工、核心理念、核心种质、核心思想、核心蛋白、核心概念、核心内容、核心词。但有些学科涉及的“核心”却有着特殊的意义，核心两字的意义可以大致分为两类，一类是泛“核心”，它的意义等同于“重要”、“优秀”等词，如核心思想、核心工作等；另一类是有专业意义的“核心”，如核心期刊是指图书情报学中按一定的理论和方法评价出来的期刊，这里的“核心”不等同于“重要”、“优秀”，又如农业中的核心种质，是指为了保全、管理、遗传作物优良种性而按一定的原则和方法优选出来的品种。
　　事实上，多个学科都提出了“核心”的概念，并对如何确定“核心”给出了不同的理论与方法。
　　本文将对各学科的核心确定方法进行系统的比较和评价，使各领域的研究者能够借鉴其他学科的理论与方法，改进本学科研究存在的问题或创建新的核心集确定的理论与方法。
　　1　多学科核心集确定的理论及方法
　　社会科学、图书情报学、经济学以及农业科学对“核心”的研究较为深入，但由于解决问题的目的不同，研究的视角不同，因此，各学科确定核心集时使用了迥然不同的方法。
　　1.1　社会科学——核心集的确定
　　社会科学中确定核心集的理论基础是马太效应（Matthews Effect）。马太效应是科学社会学家默顿（R. Merton）论证科学建制——科学评价与奖励时，源引圣经《新旧约全书·马太福音》第25章而得来的，现在意指社会舆论与行动上难以避免，又利弊俱现的偏态心理反应、行动趋势以及据此而产生的种种后效。根据马太效应，优质的事物数量必然会累积，好的越好，差的越差，累积结果形成优质核心集。
　　基于马太效应理论确定核心集多寡的常用方法是卢梭定律和“20∶80”律。
　　卢梭定律又称为平方根定律，它是由法国政治学家卢梭（J. J. Roussean）提出的，他是这样表述的：“在任何产品集合N中，品质优良的产品数量，约等于全部产品N的平方根，即

”，如果一个机构有100个员工，按卢梭定律，100个员工中起主要作用的只有10个员工。美国科学史学家普赖斯（Price）也在《小科学，大科学》一书中写道：“在同一主题中，半数的论文为一群高生产能力者所撰，这一作者集合的数量约等于全部作者总数的平方根。”[1] 一些实验证明，平方根定律的准确性较差。多数情况下实际数据并不符合上述定量关系。
　　“20∶80”律（或称为巴特莱法则）是由犹太人经济学者巴特莱提出。他认为事物的80％价值集中在20％的组成部分中，正如10个手指中常用的仅有拇指和食指这2个手指。显然，这种方法过于简单和粗浅。
　　1.2　图书情报学——核心集的确定
　　长期以来，核心资源的评价一直是图书情报学研究的重要内容之一。核心期刊的研究为图书情报机构合理使用经费、提高读者服务质量以及对科学生产力进行评价起到重要的作用；核心馆藏的研究为图书情报机构整合信息资源、提高馆藏效率发挥着重要的作用；核心网站的确定，有助于图书情报机构更好地进行网络资源整合、信息资源管理、学科信息导航、定题服务、信息推送、个性化服务等。
　　在图书情报学领域，“核心”一词可以追溯到布拉德福（S. C. Bradford），布拉德福称之为Nucleus。1934 年布拉德福在《文献工作》中写道：如果将科学期刊按其登载某个学科的论文数量的大小，以渐减顺序排列，那么可以把期刊分为专门面向这个学科的核心区和包含着与核心区同等数量论文的几个区。这时，核心区与相继各区的期刊数量成1∶n∶n2…的关系。他将书目分为3个区，第1区的期刊被称为核心期刊。
　　布拉德福定律是从期刊的载文量的多少确定核心期刊的经典方法。除此以外，图书情报领域已有大量核心期刊评价的方法，如文摘法、引文法、利用率法，综合法。文摘法是根据期刊中论文被文摘的数量来确定核心期刊的方法；引文法是根据期刊被引用的情况确定核心期刊的方法；利用率法是根据期刊被读者利用频率确定核心期刊的方法；综合法是根据载文量、引文量、文摘量、利用率等多项指标进行综合评价确定核心期刊的方法。
　　近年来，图书情报界对核心网站的确定方法也进行了研究，其主要方法有：
　　1）将确定核心期刊的布拉德福定律移植到核心网站的构建上[2]。
　　2）利用超文本链接相关指标（如外部链接数）或相关技术（如网站共引分析）进行核心网站的构建[3]。
　　3）利用主题相关网页的数量、网站被文献引用数量、网站排名、网站被链接数量、网站访问量、网站的权威性等多项指标综合评价确定核心网站[4]。
　　此外，Lotka和Zipf等人针对具体研究对象，发现了一些特殊的规律。
　　Lotka定律是由洛特卡（A. J. Lotaka）1926年提出的，是针对科研人员的科学论文着作的生产量而言的，定律表述为：如果设f（x）为写x篇论文的作者数占作者总数的比例，则：f（x）＝C／x[a]，其中C为某主题领域的特征常数，a约为2。根据该定律，一个学科撰写大量论文的作者只是少量作者，根据该定律可以方便地确定核心作者群。
　　Zipf定律是由齐普夫（G. K. Zipf）于1935年提出的，是文献中词频分布的规律，他以大量统计数据对词频分布规律进行系统研究，发现了被他称之为“最省力法则”的定律：如果统计一篇较长文章中每个词的频次，按照高频词在前，低频词在后的递减顺序排列，并用自然数给这些词编上序号，即频次最高的词等级为1，频次次高的等级为2，以此类推。若用f表示频次，r表示等级序号，则有：fr＝C。该定律说明一篇文献存在着高频词，并可以根据该定律确定核心词。
　　Bradford定律揭示的是论文在期刊中分布的集中与分散现象，Lotka 定律揭示了作者科学生产力的集中与分散现象，而Zipf定律揭示的是词频在文献中分布的集中与分散现象。它们构成了图书情报学的三大定律，都是图书情报领域确定核心集的重要理论。
　　1.3　经济学——核心集的确定
　　经济学中未直接使用“核心”这一概念，它使用“集中”来代替核心的概念。
　　经济学中核心集的确定主要是应用于研究社会财富的集中现象以及市场集中现象。社会财富的集中程度，反映了不同国家或地区的不平等程度。通过比较国家或地区社会财富的集中的程度，可以及时制定和调整政策，对社会财富的分配进行宏观调控，以保持政治的稳定及经济的良好运行。
　　市场集中度是通过市场参与者的数量和参与程度来反映市场的竞争或垄断程度的概念，通过对市场集中度指标对比，可以比较不同行业的市场集中程度，比较不同国家或地区某一行业的市场集中度，以此明确企业在行业中的定位，确定相应的竞争战略[5]。
　　社会科学中提出的马太效应只能解释现象，卢梭定律和“20∶80”律远不能反映经济领域复杂的集中与分散现象。为此，经济学中设计了大量的集中测度指标，如绝对集中度指数、赫佛因德指数，应用最广的是洛伦茨曲线（Lorenz Curve）及基尼系数（Gini Factor）。
　　洛伦茨曲线是由美国统计学家洛伦茨（M. Lorenz）提出的，用以测定社会收入分配公平程度的统计分析方法。
　　洛伦茨曲线就是把人口累计百分比和收入累计百分比的对应关系描绘在图形上的曲线。一般说来，曲线的弯曲程度越大，收入分配程度越不平等；反之亦然。特别是当收入分配达到完全不平等时，洛伦茨曲线成为折线OXL；当收入分配处于平等状态时，洛伦茨曲线成为直线OL（见图1）。图中横轴OX表示人口累计百分比，纵轴OY表示收入的累计百分比，曲线ODL为该图的洛伦茨曲线，ODL曲线与对角线OL的面积就是通常所说的“不平等面积”，OXL与OL的面积就是“完全不平等面积”。
　　

　　图1　洛伦茨曲线图
　　基尼系数是建立在洛伦茨曲线基础上的一个统计量，是衡量收入分配“不平等程度”的指标。
　　基尼系数（G）＝

　　基尼系数值越大，收入分配越不平等。基尼系数值介于0、1之间，0 表示绝对平等，1表示绝对不平等。
　　洛伦茨曲线被用于测定市场集中度时，图1中的X轴通常表示不同规模产业组织或企业的累计百分比，而Y轴表示市场占有率的累计百分比。曲线弯曲程度越大，说明市场的集中度越高。即基尼系数越大，市场集中度越高，说明少量的企业可以占据着某行业的大部分市场。国外学者依据基尼系数的大小将市场集中程度划分为如下标准：分解竞争型：G≤20％；一般竞争型：20％≤G≤40％；一般集中型：40％≤G≤70％；寡头竞争型：G＞70％。
　　1.4　农业科学——作物核心种质的确定
　　农业科学中核心集的确定，非常类似于图书情报学中的核心期刊的确定，农业科学中提出了核心种质（Core Collection）的概念，核心种质是指采用一定的方法，选择整个种质资源的一部分，以最小的资源数量和遗传重复，最大限度地代表整个种质资源的多样性，从而方便于种质的保存、评价与利用。确定核心种质的目的是确定一组可以代表某一种重要植物的遗传多样性、不同类别的样品或类群；是为了作物种质资源的保存和利用，是为了选育高产、优质、抗逆的新品种[6]。
　　概括地说，作物核心种质是采取分层、分组，确定各组中核心种质所占的比例，再在各组中进行聚类，在各类中抽取具有代表性的种群的方法。本文以茶树核心种质构建方法为例，说明作物核心种质确定的方法。
　　1）建立评价指标体系。根据研究对象，确定不同的层次和组数。如在茶树核心种质构建时，可以分为4层：第1层为基本数据（如原产地分为4个地区），第2层为特征数据（如树型分为乔木、小乔木和灌木），第3 层为品种类型（如分为有性和无性两种），第4层为农艺性状，即评价指标。这样得到若干个组（这里为4×3×2＝24组），如华南—乔木—有性为一组，华南—乔木—无性为一组，以此类推。
　　2）评价指标的采集及处理。本例需要采集三方面的数据：基本数据（原产地）、特征数据（如：树型）、农艺性状（如：叶形、树姿、叶色、叶面、叶尖、芽叶茸毛、花瓣数、花柱分裂数、百芽重）。农艺性状数据是作物质量的重要评价指标，其中有数值型指标，有非数值型指标，对非数值型性状的不同表现要进行赋值，如叶形：1＝开展，3＝半开展，5＝直立，对叶面、叶尖也使用类似的方法进行赋值。对于正指标，赋值数越大，其农艺性状越好。
　　3）计算各组的遗传多样性指数。确定遗传多样性指数目的是评价物种的质量，当一品种具有较高的遗传多样性时，说明该品种具有较多的遗传信息，保存这样的品种有利于物种的繁衍和优育。一般采用Shannon-Weaver信息指数计算性状多样性，即

为某性状第j个代码值出现的概率。
　　4）确定核心集。首先确定核心集的大小。一般按各组选20％为核心样品的原则，并根据多样性指数和资源拥有量进行适当的调整，指数高的组适当增加取样数，资源拥有量多的组适当增加取样数（如在所有收集的样品中，“华南—乔木—有性”组比“华南—乔木—无性”组具有更多的样品，则应增加前一组的取样比例）。在各组内，利用离差平方和法或其他方法进行聚类，并根据确定的取样比例确定类群的多少，在每一类群中随机抽取一份资源作为预选核心样品，再增加一些特殊种质材料作为核心集。
　　5）核心集的代表性检验。第一，对多样性指数进行t检验，以保证所选的核心集对全部收集品变异的代表性。第二，对核心样品的农艺性状检验，以确定核心集能否很好地代表原种质群体的遗传多样性。
　　1.5　基于Conglomerate概念的核心集确定的理论及方法
　　Egghe和Rousseau提出了概念——Conglomerate[7]。Conglomerate的英文含义是：密集体、团、混合物，根据其含义，将其译为资源团簇。
　　Egghe等人是这样定义的：对于一组资源（Resource），这些资源产生或未产生项（Item），这样的结构称为资源团簇（Conglomerate）。根据这一定义，可以随意构建资源团簇，例如：n个期刊是一组资源，每个期刊中发表某学科论文数为资源产生的项，这样的一个结构便是一个书目的Conglomerate；又如，n篇科学文献是一组资源，文献中的参考文献是资源产生的项，这样的结构也构成一个Conglomerate。
　　基于Conglomerate概念的核心集的确定方法如下：N个资源的Conglomerate，其中的资源按其产出递减排序，构造某种集中测度C（如基尼系数、集中度信息熵、变差系数、辛普森集中度），在该集中测度下，定义模糊成员值m（S[,i]），满足

个资源为核心。
　　2　核心集确定方法的比较
　　从上述可以看到，各个学科在构建各自领域的核心集时，既有非常大的差别，又有某些共有的理论及方法，但各种方法都存在各自的优点及缺陷。
　　马太效应是核心集存在的理论基础。正是因为马太效应现象的存在，事物的分布才具有集中与分散现象，才有核心集的存在。
　　马太效应只能说明社会生活中某个事物常常存在一个核心集，但无法说明核心集的大小，卢梭定律和“20∶80”律可以说是马太效应的定量表述，因简单易用，在社会科学领域的应用极其广泛。早期在图书情报领域也有应用，如1969年图书馆学家特鲁斯威尔（R. Trueswell）提出了文献馆藏管理的“20∶80”律，即“流通量的80％由大约馆藏量的20％所提供”；英国图书馆学家伯勒尔（Q. Burrell）经过实验，发现20％～40％馆藏支持80％的流通量。但也有一些学者的研究数据并不能很好地与卢梭定律或“20∶80”律拟合，因此，不能将这两个定律视为严谨的定量规律，应该采取宏观的、粗线条的态度使用它们。
　　图书情报学领域确定核心资源的方法较为多样，但基础理论是布拉德福定律。布拉德福定律实际上只是一个经验性定律，多年来，该定律虽然被图书情报机构广为使用，但其合理性却一直处于争议中，许多研究者对该定律进行了改进或推广，但一直未取得突破性进展。近年来，一些研究者试图将这一定律应用于网络资源的集中与分散研究，有些研究发现网络资源分布符合布拉德福定律[2]，但另一些研究发现网络资源分布与布拉德福定律不符[8]，因此，本文认为布拉德福定律用于传统资源评价时，其可靠性要经过实践检验，不同学科的拟合程度是不同的，但对于网络资源的分布，更不能轻率地使用这一定律，毕竟目前尚无科学理论证明网络资源的分布符合布拉德福定律。
　　随着技术的发展，数据采集更为方便。各种引文数据库的建立，使引文数据的采集变得方便易行；网络数据库的使用，使人们能准确地统计下载量、访问量、载文量等数据；因此无论是在传统资源的评价还是在网络资源的评价上，引文法、利用率法、综合评价法都将得到更多的应用。但引文法、利用率法、综合评价法用于核心集评价时常常无法从统计学的意义上确定核心集的大小，以保证核心集的代表性。如我国北京大学图书馆研制的《中文核心期刊目录》，核心的数量都是人为界定的。
　　经济学中核心集的确定更多地使用了统计学的理论与方法，构造了更多的集中测度，如基尼系数、集中度信息熵、变差系数、辛普森集中度等来描述集中与分散现象。但这些集中测度在处理实际问题时，均存在这样那样的缺陷。
　　以应用最为广泛的洛伦茨曲线和基于洛伦茨曲线的统计量基尼系数来说，从其方法的函数值性质上看，会出现扭曲现象，如由两家各生产50％行业产量的企业所组成的产业，会与由100家分别生产1％行业产量的企业所构成的产业具有同样的基尼系数，它们都是0，显然，这两个产业的市场集中度是不同的。另外，只要曲线和对角线所围的相对面积大小是相等的，那么从两条形状不同的洛伦茨曲线还可以得到相同的基尼系数。赫佛因德指数可以改进基尼系数的缺点，但是赫佛因德指数也存在直观性差，需要全面统计资料，其计算更为复杂的缺点。
　　农业科学中核心种质的确定方法具有很强的实用性和科学性。该方法具有以下几个优点：
　　1）采用分层、分组、分类结构后，在各类中抽取有代表性的品种，这种方法特别适用于复杂系统的核心集的处理。例如在进行核心网站评价中，使用了相关网页量、权威作者数、网站被文献引用数这几个指标进行综合评价[4]。事实上，网站如果划分为文摘型网站、全文型网站和混合型网站时，有些指标是有较大差异的，文摘型网站的权威作者数往往远远大于全文型网站，文摘型网站的被文献引用量往往远远小于全文型网站。如果在评价核心网站时，借鉴核心种质分层、分组、分类的方法，就很顺利地解决了这一问题，如第一层分为：专业网站、综合网站；第二层分为：文摘型网站、全文型网站和混合型网站；第三层分为：英文网站、中文网站、法文网站等。在第三层下再设计网站的评价指标，最后在每一类中抽取有代表性的网站作为核心集元素。显然，这种方法评价的结果与现实更为吻合。
　　2）核心种质确定的方法给出了核心集的代表性检验，用统计学的方法对核心集的代表性进行了检验，使该方法较其他方法更为科学严谨，也更为实用。
　　基于Conglomerate概念的核心集确定方法具有更强的通用性，适用于多学科的核心集的确定。该方法的优点在于：
　　1）早在20世纪80年代初，布鲁克斯（Brookes）就曾用源（Source ）和项（Item）这两个术语来代替布拉德福定律中的期刊和论文，然而，Conglomerate突破了传统书目中源与项，它的优势在于通用性、自定义性（人们可以根据不同的目的、不同的方法构造这样一个Conglomerate）。它抽象地概括了多学科“核心”概念，适应了今天载体多样化、研究对象多样化的研究需求，本文提及的其他核心集的测定方法都未脱离具体的研究对象，其方法具有很强的学科研究特征，Conglomerate的提出以及在此概念下构建的核心集理论，使核心集研究向前迈进了一大步。
　　2）布拉德福定律、卢梭定律、巴特莱法则确定核心的数量只能称得上是经验性定律，而基于Conglomerate概念的核心集理论却运用了统计学、经济学的相关理论，创立了更为科学的核心集确定方法。
　　3）用户可以根据需要自由地选择集中测度，如基尼系数、集中度信息熵、变差系数、标准化的变差系数及辛普森（Simpson）集中度。
　　4）虽然在该方法中核心的取值仍是弹性的，用户可以根据需要选择不同大小的“核心”，但该方法给出了这个核心集是在什么测度之下、什么样的p ％值下得到的核心数量。
　　该方法的缺点是：
　　1）考察了资源产出的项的数量，却未考虑项的质量，因此，基于Conglomerate概念下评价的核心集是统计学意义上的核心集，正如布拉德福确定核心期刊的方法一样，只考虑了每个期刊上发表的文献数量，而未对文献的质量进行考察。重“量”不重“质”是该理论的主要缺陷。
　　2）在实际应用中，该方法有时可能得不到理想的结果，有时可能没有合理的p％，即不能明显体现“少量的资源具有大量的产出”这一要求。Egghe本人也发现有这样的例子，当使用信息熵测度时，如果模糊成员值百分比取95％和90％，只有一个资源，当模糊成员值百分比取50％时，才能得到一定的资源数，不能明显体现“少量的资源具有大量的产出”这一要求。因此，尽管理论上可以根据需要取不同的p％，可以根据需要使用不同的集中测度，但是在实际应用时均要在满足“少量的资源具有大量的产出”时，才能确定较为合理的核心。
　　本文认为，尽管该方法不能反映资源产出项的质量，但是在许多情况下，可以采取一定的方法进行修正，以实现质与量的统一。
　　例如，当资源为大学，资源产出为论文数时，如果单纯使用该方法，则可能会导致发表大量低水平论文的大学进入核心集，而注重于高水平研究的大学甚至可能进不了核心集的现象。这时，可以采取如下方法，根据论文的等级作为数量上的当量，如1篇核心期刊论文相当于3篇一般期刊上的论文，这样使原来的大学产生论文数变成融入质量评价的当量论文数，再使用此方法，则会改善重量不重质的缺陷。当然，对于不同的研究对象及研究目的，使用何种质量评价指标进行数量上的当量运算，仍需要具体情况具体分析。
　　3　结语
　　核心期刊评价、核心网站评价、核心馆藏评价、核心人力资源的评价、核心竞争力的评价、核心产品的评价、核心物种的评价等越来越引起人们的关注。简单的定性评价已满足不了生产实践的需要，多学科形成截然不同的核心评价理论与方法，给核心集的研究提供了更坚实的理论和更多样的方法。
　　但是应该看到，封闭在学科内部的方法均存在各自的缺陷，迄今为止，尚无一种公认的完美的确定核心集的方法。打破学科壁垒，取长补短，将会对完善和发展核心集理论及方法起到一定的作用。
　　收稿日期：2006—05—09
情报理论与实践京547～551G9图书馆学、信息科学、资料工作袁毅/封雷20072007
核心集/评价/理论方法/比较研究
社会科学、图书情报学、经济学和农业科学等学科均存在“核心”的评价与确定问题。本文系统研究了各学科核心集构建的理论与方法，分析了各种方法的优点及存在的问题，提出了融多学科研究方法，取长补短，完善核心集构建理论与方法的思想。
作者：情报理论与实践京547～551G9图书馆学、信息科学、资料工作袁毅/封雷20072007
核心集/评价/理论方法/比较研究

网载 2013-09-10 21:36:26

[新一篇] 杜威論道德與人性

[舊一篇] 梁啟超“趣味”說的理論構架和現實意義