复杂网络理论的情报学意义探讨　　——以科研合作网络和引文网络为例

簡體傳統

　　复杂网络是近几年科学研究发现的一种介于规则网络和随机网络之间的一种更接近于真实网络的一种网络模型，最典型的特征是小世界现象和无尺度特征。本文的研究只涉及复杂网络中的两种网络——科研合作网络和引文网络，因为科研合作和引文研究也是情报学的一个重要研究领域。科研合作网络是指为了研究某一学术领域的发展变化，某一个新的思想在此领域内的产生、传播，科学家构造的一个科学家之间通过文献相互联系影响的网络。在这个网络中，以科学家为节点，以他们之间的联系为边，一般认为两个科学家如果共同撰写一篇论文，则认为他们是相连的。科研合作网络的研究文献并不是很多，比较着名的有物理学家Newman的两篇论文。[1][2]国内的研究尚在进行，仅见于武汉大学刘杰与陆君安的论文。[3]在引文网络中，节点是发表的论文，每一次引用表示为一条边。
　　复杂网络的研究视角是从整体角度来关注网络结构对其功能的影响。这为我们提供了一种研究问题的新方法。首先，在研究方法上，创造了一系列更好地理解拓扑结构与功能关系的分析方法；其次，它提出了一系列指导着复杂网络研究的概念、命题、基本原理，使对于复杂网络的研究面目一新，并把这些理论、概念应用于其他领域的研究，使我们认识到网络不仅是一种客观存在，也是一种观察事物、分析事物的方法。[4]
　　科研合作和引文研究是情报学研究的一个重要领域，并且在该领域取得丰硕的研究成果——情报计量学三大定律，即科学家研究撰文的数量分布（洛特卡定律）、期刊论文的分布（布拉德福定律）、还有研究词语分布（齐夫定律），对于这三大定律的研究一直受到情报学界的关注，本文将在复杂网络的背景下对他们进行新的探讨。
　　1 情报计量学三大经典定律的复杂网络特征——幂律分布
　　洛特卡定律表明一定时期某一学科或主题内，撰写了x篇论文的作者数y(x)与x满足幂律关系，不管学科或主题如何变化，其幂指数均在1.2-3.7之间，且大致按基础自然科学、技术科学、社会科学与人文科学的顺序递增。[5]RousseauB，RousseauR也对洛特卡定律进行了验证，结论是洛特卡定律符合幂律分布。[6]因为布—齐—洛定律实际是同一分布的不同表达方式，都是研究主体特征在主体上集中与分散这一社会现象的。一方面，大量主体特征分布在少数的主体上，另一方面，少量的主体特征却广泛地分布在多数的主体源中。[7]所以，可以说三大定律都符合幂律分布。
　　复杂网络的一个重要特征是网络的无尺度性，即幂律分布，在这一点上，二者有共同之处，不同之处在于一个是个体的数量分布呈幂律，一个是个体之间的联系呈幂律。
　　2 从三大定律到复杂网络，从线性到非线性（网络）
　　三大定律与科学家之间的合作，论文的引用都符合幂律分布，本是同一领域的研究问题，又得出相似的结论，所以我们有必要在这里寻找一下二者的联系。
　　洛特卡定律研究的是科学家撰文的数量分布，科学家之间的联系包括共同撰写论文与合作，加上节点之间的联系，进而形成复杂网络所研究的科研合作网络。布拉德福定律研究的是期刊上的论文分布，论文之间的联系包括引用与被引的关系，形成复杂网络所研究的引文网络。齐夫定律研究词语出现数量分布，但是这个定律不能深入洞察语言的组织结构，因为信息是通过句子传播的，而非单词。词语之间的不同联系可以表达不同的含义，把词语进行筛选，选择有能力表达知识内在联系的词语，他们之间也构成了一个网络。有研究表明，单词之间构成的人类语言形成了一个小世界网络。[8]从情报学的角度研究词的位置关系的不同所代表的意义、对语义网的研究、知识进化研究、知识地图构建及其对自然语言检索有着特殊的意义，目前还没有对与词语相关的复杂网络进行的专项研究，但对Internet和www的研究可以近似地看成对由词语构成的复杂网络的研究，因为研究表明，Internet和www也是复杂网络。
　　简言之，三大定律研究的作者、论文、词语的数量分布，是线性的。而复杂网络的研究则进一步涉及作者与作者、论文与论文、词语之间的关系，更为复杂化的非线性。三大定律是一维的，加进了联系构成网络后就是二维的，是科研者之间、论文之间、词语之间联系的关系研究，形成了更为复杂的复杂网络。复杂网络在研究方法上与三大定律相比，研究数量更加庞大，数词处理方法更加先进，研究角度更加全面（见表1）。
　　表1 三大定律与复杂网络比较表
　　

　　相同点：三大定律的元素个体的数量分布符合幂律分布，复杂网络的元素之间的联系也符合幂律分布；研究的对象都是科学家、论文、词语。
　　不同点：研究规模与方法区别。鉴于当时的研究水平，洛特卡，齐夫和布拉德福的研究都是采用人工采集数据，人工统计，数据规模在几千，最多的可达几万，经过计算，推出相应公式和特征常数。如布拉德福，他通过每天对到馆的润滑学和应用地球物理学 490种期刊上1724篇论文进行逐册逐篇统计，按其发表论文数量的多少排出序列。这些研究只能在总体上得出幂律分布的结论，对其中的某些个体间的联系却无法表现。复杂网络的研究运用网络分析的研究方法，选择大量的数据，数量级可达百万级或更多，建立数据库，编制相关程序，运用计算机进行运算，并确立不同的特征指标，计算数值，分析意义，相比较更复杂；研究角度区别。科研合作网络和引文网络从更为广阔的角度出发，把研究的对象构建成一个网络，从拓扑结构来考虑其对功能的影响，注重节点间的联系，而传统的三大定律只是进行简单的数据统计，没有关注各个元素之间的联系。
　　三大定律只是对情报学科的科学家撰文数量、论文发表数量、词语的使用频率进行了线性的描述，用来解释情报学的各种现象，并指导情报学的某些工作，对情报学的学科发展，情报学问题的定量描述有着重大贡献。鉴于前面所述，复杂网络借助现代计算机技术，使研究方法更精确，研究角度更加宽广，并且定义了不同的复杂网络的性能指标，接下来能否用网络的方法来继续研究情报学的学科问题？用复杂网络的指标来深入地分析情报学所形成的网络中各个元素间的联系，以促进情报学的理论发展和实践问题的研究呢？
　　3 复杂网络下的相关指标的情报学意义探讨
　　复杂网络有其特有的描述其网络结构的概念，也是其性能指标，通过认识网络结构来了解网络的功能，常用的指标有如下几个，如长程联接，最短路径、联通集团、介数等。在复杂网络的研究中，研究者只是用这些概念来描述复杂网络的结构和性能，并没有对它们的情报学意义进行过探索，可能与研究者皆是物理学者有关。下面本文将从情报学的角度来分析它们在情报学领域的意义。
　　3.1 长程联接
　　从小世界网络模型可以发现（图1），它之所以具有独特的几何性质，完全是因为加入了极少量的长程联接的缘故。
　　

　　图1 小世界网络模型
　　图中所示的小世界网络是在左图的规则网络基础上通过边的重连得到的，当p（重连概率）=0时，成为规则网络，p=1时为随机网络，此图摘自文献[9]，环状网络中含20个节点，每个节点向与它最邻近的4个节点连出4条边。中间的小世界网络模型中就是在左图规则网络的基础上加入了3条长程连接后形成的。长程连接的加入，剧烈地改变了网络的距离。长程联接一般连接着两个局域集团，在科研合作网络中长程联接连接着网络中不同的科研团队，正是因为它的存在，使网络具有小世界性，缩短了网络最短路径，使科研活动合作范围扩大，科研合作变得频繁。
　　长程联接在引文网络研究中，尤其是跨学科研究，能够直观地反映学科间的相互影响，学科的分化与融合。
　　3.2 最短路径
　　这是复杂网络研究中的一个基本概念，指连接两个节点的最少的连边或节点。
　　通过追随最短路径，可以确定两个科学家之间的距离，对于单个科学家而言，两个学者之间的最短路径的值的大小，可以发现科学家之间学术联系的远近关系。对于不同学科的平均最短路径的计算，其值大小可以反映出某一学科的长程连接多少，也就是不同的子学科之间的联系，不同地域之间的联系，如果平均最短路径大，则学术研究较封闭，研究不活跃，反之亦然。反映了科研的复杂程度与学科综合程度。
　　另外，通过计算机展示的科学家之间联系的拓扑图，可以在此基础上人为的加以改造，如果需要加强学术联系，可以选择需要联接的学者（一般选择较有名的学者），在他们之间加上长程联接，缩短他们之间的最短路径，加强学术联系。还有，我们可以从网络中抽取出任意科学家之间合作的链条，通过这一链条可以清晰地层现中间科学家的数量和位置，从而根据需要来确定学术上的联系。
　　最短路径在引文网络中反映的是引文之间影响，学科之间的影响力。引文网络最大的优点就是直观地层现全部论文之间被引用的关系，以前的研究很难从整体的角度来考察，对于直接的联系可以进行统计。但如果两篇论文A和B，他们之间不直接有引用关系，需要经过其他的论文，可能一篇两篇甚至更多，那么AB之间的关系在传统的方法中就很难确定。可是通过引文网络就不同了，引文网络最大的优点就是能够通过引文形成的拓扑结构图，直观地展现论文的关系和距离，可以计算出两篇论文之间的距离（通过计算两个节点间的最短路径），确定一篇论文对另一篇论文的影响，距离越近影响越大，反之亦然。同时也可以展示出任意两篇论文之间的中间论文，也可以形成一个“参考链”，展示学术理论的传播路径，进而发现知识是如何在个学者和学科之间流动的。例如：文献 [10]是国家自然科学基金资助项目，该论文在万方数据生物医学期刊（1062种，150万篇）作者在合作研究中形成的复杂网络的基础上，将检索结果可视化，应用在文献检索的结果展示上，为用户呈现合作网络的结构，将数据库中大量隐藏的合作关系展示给用户，同时还可以对图中任意节点进行交互式访问，为复杂网络及可视化在文献检索的增值服务做出了有意义的探索。[10]
　　在词语形成的网络中，最短路径则能反映知识的远近关系。可以形成新的检索策略，例如：路径近的词语之间的联系可能会更密切。
　　3.3 连通集团
　　连通集团是指网络中的一个子图，在这个子图内，任意两点之间都存在通路。一个网络可能存在多个相互独立的连通集团。科研网络中存在团队现象，这些团队内部顶点之间的联接会比团队之间的联接更加频繁。只要这样的几何结构存在，就可以通过结构上的分析来发现这些团队，而不需要依靠内容。每个团队研究的内容相似，很可能就是一个课题组，如果发现这些团队，了解在这一领域的研究人员的情况，通过作者检索就可以发现一族相关论文，在信息检索方面，一直都是基于内容的检索，能不能发展一种基于结构的检索呢？或二者兼之。
　　在引文网络中连通集团的发现就是发现一族相关论文，这里直接可以检索到论文。利用数据库，可以非常方便地提取所需要的数据。
　　3.4 介数
　　在复杂网络研究中，研究者不仅要非常客观地关注系统内个体之间的相互作用，而且还要注视系统的整体相互作用。表达这种整体相互作用的概念是“介数”，它是一个重要的全局几何量。节点i的介数含义为网络中所有的最短路径之中，经过i的数量。它反映了节点i的影响力。[11]同时，可以定义边的介数，利用边的介数也可以对科学家做聚类分析，其基本思想是在包含不同集团的网络中所有最短路径经过次数最多的边，也就是介数最大的边，必然是联接两个集团之间的边。
　　在科研合作网络中，介数反映了在本领域内某位科学家影响力的大小。全部顶点的介数分布反映的是科学家影响力的层次。边的介数反映的是不同科学家之间的交流对学科发展的影响力的不同，在进行科研水平评价时，介数可不可以作为一个评价指标，值得思考。
　　在引文网络中，介数大的节点反映了论文在研究者选定的范围内影响力大。能否把引文网络的研究与传统的引文研究方法结合起来，使引文研究再向前迈进一步？值得进一步探讨。
　　3.5 聚集系数
　　选定一节点i有ki条边与其他节点相连，在这些相连的节点之间最多会有ki(ki-1)/2条边，这些节点之间实际存在的边（用Ei表示）与最多边之间的比率就是聚集系数Ci，Ci=2Ei/ki(ki-1)，平均聚集系数就是网络中所有节点的平均值。聚集系数大的网络，说明科学家之间合作频繁，学术交流活跃。同理，聚集系数大的网络说明学科之间的联系密切，在知识进化上的亲缘关系比较近。
　　结论：复杂网络的研究已经引起了情报界学者的注意，并已经开始把其应用到情报领域的不同问题的研究中，相信会有更多的研究成果相继出现。这些只是笔者浅显的认识，希望能够在今后的研究中进一步得到深入和纠正，使复杂网络理论在情报学领域的研究走向深入。本文只是把复杂网络与情报学的三大定律做了简单的比较，得出复杂网络研究的科研合作网络、引文网络和情报学研究的三大定律在研究对象上是一致的，前者是非线性的网络研究，后者是线性的纯数量的分布研究。另外，复杂网络的某些性能指标可以用来描述情报学的问题，解释情报学的问题。尤于复杂网络的研究处于婴儿期，所以，本研究也只是刚刚开始，只是把研究的注意力转到了这一领域，在研究方法和研究内容等诸方面都还很不成熟，希望能够有更多的学者注意这一领域，共同探讨，深入研究。
　　收稿日期：2007-07-14
L1情报资料工作张丹红/李晓辉20072007
复杂网络/科研合作网络/引文网络/情报学
文章选择复杂网络研究的科研合作网络和引文网络为切入点，探讨了它们与情报学三大经典定律的区别与联系，并从情报学的视角分析了复杂网络的性能指标有哪些情报学意义。
作者：L1情报资料工作张丹红/李晓辉20072007
复杂网络/科研合作网络/引文网络/情报学

网载 2013-09-10 21:18:03

[新一篇] 復雜網絡理論的情報學應用研究

[舊一篇] 復雜網絡研究及其意義