联结主义心理语言学——心理语言学研究的新方法

簡體傳統

    中图分类号：H0-05　　文献标识码：A　　文章编号：1002-2643(2003)05-0003-05
    　　1.0　引言
    心理语言学是与语言学、心理学、计算语言学、神经科学等学科相互交叉的边缘学科，其研究对象是人类语言的理解、产生和习得。心理语言学在考察语言使用的心理过程中从相关学科得到很多借鉴和启发。同时，相关学科研究的新进展又推动了心理语言学研究方法的改进。
    从上世纪50年代末至今，Chomsky的理论一直在语言学中占主导地位。该理论认为语言知识从根本上是一种心理机制，其根本是形式语法系统。在过去几十年中，Chomsky不断更新他对形式语法系统的描述，从最初的“转换生成语法”(TG)到“规则与参数”(principles and parameters)直至现在的“最简方案”(the minimalist program)，其间虽然做了不少改进，但终究不离其对规则的基本诉求。而大多数心理语言学家们对规则系统也深信不疑，认为只有规则系统才能有效地反映人脑的高级抽象活动，而这种认识是基于认知科学家的一个基本假设：人脑是处理符号系统(symbol system)的机器（李平，2002）。
    将人类大脑看作符号系统的观点起源于心理学的模块理论(modular theory)。Jerry Fodor(1983)对模块论作了系统、全面的描述。他提出，人脑的认知系统是由许多模块(module)组成的。这些模块各负其责，互相独立。根据模块论，语言处理是按照“语音→词汇→语法→语义”这样一个从低层面到高层面的严格的线形顺序展开的。在模块论的影响下，心理语言学家们的研究重点是对形式语法系统的规则的检验和改进。但是随着认知科学的迅猛发展和联结主义(connectionism)的重新崛起，联结主义开始注意验证心理语言学的数据。联结主义模型与心理语言学实验结果的结合导致了联结主义心理语言学(connectionist psycholinguistics)的诞生(Christiansen & Chater，2001：1)。
    　　2.0　联结主义的理论背景
    联结主义，或者“平行分布处理”(parallel distributed processing，简称PDP)，又称神经网络，源于人们尝试根据人脑的结构设计计算机模型(Chater & Christiansen，1999：235)。该思想最早来自19世纪的美国哲学家和心理学之父James。
    从20世纪40年代开始，认知学家们对联结主义进行了广泛的研究。McCulloch & Pitts(1943：115-133)提出了较早的有影响的神经功能形式神经元模型(黄秉宪，2000：215)。在50年代和60年代，Ashby、Minsky、Rosenblatt等根据该模型设计了各种各样的计算模式(schemes)。这些“自组”(self-orga-nizing)或学习机器与人脑的学习功能相一致。但是由于当时这些联结主义模型的模拟功能有限，所以在与符号系统模型的对抗中处于下风(Chater & Christiansen,1999:235)。
    进入上世纪80年代，以“平行分布加工”研究组(Rumelhart & the PDP Group，1986：216-271)为代表的联结主义神经网络研究再度崛起。他们提出的交互激活(interactive activation)理论在算法和认知模型及其应用方面都取得了令人满意的效果，标志着联结主义网络研究进入了一个新纪元。
    2001年，Christiansen和Chater(Christiansen & Chater,2001)合编的论文集首次使用了“联结主义心理语言学”这个术语，对该领域的研究进行了系统的归纳和总结，并对其发展前景做出了预测。
    　　3.0　联结主义网络的基本特征
    如上文所述，联结主义神经网络的提出源于认知学家对人脑结构和处理模式的模拟。该理论认为，人脑是由数量巨大的简单处理器（即神经元）构成的，这些神经元相互交织组成了一个复杂的网络。在处理信息时，不是单个的神经元单独起作用，而是网络中多个神经元互相合作、同时启动。它们传递的不是符号信息(symbolic message)，而是数值(numerical values)。这些数值输入被神经元映射为数值输出。联结主义神经网络正是模拟了大脑的这种特征：由大量的简单处理器（称作单元或节点）组成，节点相互交织成一个复杂的网络，它们同时启动对信息进行处理。
    联结主义网络一般由三个层次组成：输入层(input layer)、内隐层(hidden layer)和输出层(output layer)。输入层接受输入的表征（如汉字的字形），输出层提供输出应有的表征（如汉字的分类），而内隐层则存储网络所学习到的知识表征（如汉字在各个不同学习阶段的形体）（李平，2002）。
    联结主义网络中最具有代表性的是前馈网络(feed-forward network)。这种网络由三层构成，激活沿一个方向自下而上在网络中流动，从输入层开始，在输出层结束。每个单元的激活是由当前的输入（即输入的权重之和）决定的。每个单元的激活都处于0和1之间。当单元的输入为正无穷大(positive infinity)时，激活水平达到1；当输入为负无穷大(negative infinity)时，激活水平为0。图示如下：
    　　附图

    前馈网络示意图(Christiansen & Chater 2001：22)
    到目前为止，联结主义网络中最有影响的算法是“反馈学习法”（back-propagation，简称BP算法）。按照BP算法，网络每次学习输入与输出的关系时，同时也接受一个“指导信号”(teacher)。该指导信号是网络应该提供的正确的输出。如果网络所产生的输出信号与指导信号有差别，那么这个差别的大小计算为网络的误差率。误差率然后反馈至网络，使相关的单元与单元之间的权值(weight)得到改变。其结果使网络能最后正确产生所有的输出。而在这个调整的过程中，单元间的权值及内隐层单元的激活能够最有效地反映输出与输入之间的关系，从而有效地反映输入层单位间的内在关系(Christiansen & Chater，2001：22)。
    联结主义网络具有以下特点：
    1)学习(1earning)　联结主义网络的运行依靠的不是网络设计者的设计，而是可以从过去的经验中学习。所学内容即使未被明确“指示”，也能从训练数据中学会推广，所以具有自组织性。
    2)概括(generalization)　很少有知识可以通过机械记忆(by rote)而学到，但概括能力却恰恰是联结主义模型的重要特征。
    3)表征(representation)　因为联结主义网络能够学习，所以这些网络内部的节点不是由设计者设计的，而是根据任务的需要由网络自身设计的。联结主义研究的一个重要方面就是研制可以理解网络发展的编码，这些编码在决定网络的功能方面起关键作用。
    4)规则与例外(rules and exceptions)　传统的符号系统认为语言的“次规律”(quasi-regularities)可以用一组符号规则和规则的例外情况来描述，即使用不同的机制处理符合规则的情况和例外情况。而联结主义模型则使用单一的机制，既可以处理一般规则，也可以应对例外情况。
    (Chater & Christiansen,1999:237-238)
    　　4.0　联结主义心理语言学对语言处理的研究
    自从McClelland & Rumelhart等在上世纪80年代提出用于辨认视觉和口头单词的永久连接(hardwired)互动激活模型以来(Norris,1990：338)，联结主义在语言理解、产生和习得三个方面都不断提出新的模型，试图对语言使用的心理过程进行模拟并做出合理的解释。
    　　4.1　联结主义对阅读的研究
    阅读涉及非常复杂的认知心理过程，从低层面单词的辨认到高层面的句法、语义和语用的分析与常识的结合。联结主义模型对阅读的研究集中在两个方面：单词辨认和单词‘命名’(word naming)。
    　　4.1.1　“互动激活”模型
    McClelland & Rumelhart提出的“互动激活”模型是一个完全预先指定的(pre-specified)模型，没有学习功能。该模型由三个单元层构成，第一层的单元辨认特定的字母视觉特征，第二层的单元代表特定的字母，第三层的单元代表单词。在各层内部和层与层之间，代表不相容的事物状态的单元之间的相互联结是受到限制的。一个单元的激活是由它前面层次和当前层次的输入决定的。其处理过程是：来自视觉输入的自下而上的信息流通过字母单元的激活和来自单词单元的自上而下的信息流相结合。整个过程涉及重叠和交互作用，字母和单词辨认不是按前后阶段顺序发生，而是相互限制(Chater & Christiansen,1999：240)。
    这个模型主要证明了在单个字母感知过程中上下文的作用，即词优越效应(word-superiority effect)，可以解释如何在单词中消除模糊不清的字母(graded letters)的歧义。
    　　4.1.2　网识读模型
    近来，联结主义模型对单词的研究将重点转移到单词命名方面：了解单词的字型形式和他们的读音之间的关系。此类模型首推Sejnowski & Rosenberg的网识读模型(NETtalk)。该模型使用的是前馈而非互动结构。此网络中的单元也分成三层，但是激活从输入单元层开始，沿一个方向流动，在输出单元层结束，中间为内隐层。输入层代表语篇中连续的字母，输出层代表的是网络中间字母的提示的读音(suggested pronunciation)。
    NETtalk与互动激活模型的区别在于可以利用“反馈学习法”对它训练，使之从与正确读音有关的语篇中学习，以降低错误率。
    　　4.1.3　朗读模型
    第一个关于朗读的联结主义模型是Seidenberg & McClelland在1989年提出的(Chater & Christiansen,2001：245)。他们的模型是一个“前馈”网络，只有一个内隐层，把单词的完整书写形式作为输入，完整的语音形式作为输出。事实上，这个模型是一个理论上的“三角”阅读模型，字型(orthography)和音位(phonology)分别与语义相连。
    Seidenberg & McClelland的模型使用单一的机制处理英语语篇中管辖发音的规则和那些规则的例外情况，表明单路(single route)可以用于不规则单词和非词(non-words)的发音。但是这个模型受到很多批评：1)单路是否真能解释非词和例外单词的发音?Coltheart指出符号学习方法在非词识读方面做的更好；2)该模型在训练中使用了频率压缩(frequency compression)，如果使用原始频率的话，该模型可能根本无法学习那些出现频率极低的单词；3)在技术层面上，NETtalk只能处理单音节词。
    虽然最近几年McClelland等人尝试解决这些问题，但是尚未找到满意的答案。尽管如此，该模型为解释单词命名提供了新的思路，同时对诵读困难(dyslexia)做出了解释(Chater & Christiansen,1999：246—248)。
    　　4.1.4　分段模型
    人们认为，分段和辨认是同一过程的两个方面(Christiansen & Chater 2001：27)。为了验证不同的分段提示的作用，联结主义心理语言学家们提出了不同的模型。
    Cairns、Shillcock、Chater和Levy在1997年提出了一个以可预测性(predictability)为基础的分段模型。他们认为单词间的语言预测比单词内部更困难。经过对“简单回馈网络”(simple recurrent network，简称SRN)的训练，他们发现在当前输入材料的基础上，这个网络可以根据先前的和当前的特征束(bundle of features)推断下一个特征束。
    为了证明对分段多元的、部分的限制(multiple,partial constraints)产生更好的分段效果，Christiansen、Allen和Seidenberg在1998年对一个SRN进行了训练，结果发现该网络在单词分段方面运行良好，与婴儿分段过程类似，能够区分音位结构上(phonotacti-cally)合法的和不合法的新词，并根据英语音位结构限制分段错误。
    2000年，Christiansen、Conway和Curtin在未做任何调整的情况下用刚刚提到的受过训练的模型对最近收集到的婴儿数据进行了验证。其表现结果显示，该模型对消除不一致单词的音节方面效果更好(Christiansen & Chater，2001：27)。
    　　4.2　联结主义对句子处理的研究
    从上世纪60年代开始，模块论的句法分析是心理语言学研究句子处理的主要方法，包括对Chomsky的句法规则、表层和深层结构的研究，对句法分析器(parser)、Bever的感知策略、Kimball的句法分析七原则和Frazier的灌肠机理论的研究等(Carroll，2000：131—151)。
    80年代，联结主义对句子处理的早期研究也只是把符号结构直接引用到网络结构中，如Small、Cottrell和Shastri的联结主义分析法、Reilly对前指的联结主义解释、Fanty的不依赖上下文的语法分析器、Waltz和Pollack的互动句法分析模型等(Christiansen & Chater，200l：43)。
    但是联结主义的目标并非借用符号主义的分析方法，而是提供另外一套可以通过学习而得到改进的网络对句子进行分析。Elman(1991，1993)年通过训练SRN预测在一个小型的没有上下文的语法模型中生成的句子的下一个输入词，发现SRN可以习得语法规则，与人脑处理内嵌式结构相似。后来Christiansen等用更加复杂的语法对SRN进行训练，发现它可以学习这些复杂的语法规则。
    1997年，Christiansen等将一个动态处理器(dynamical processor)添加到SRN中，最终得到了一个最新的组引力访问模型(Visitation Set Gravitation，简称VSG)。该模型由两部分组成：一个类似SRN的网络和一个引力模块(gravitation module)。其突出特点是可以对结构和语义上不相容的句子进行区分，可以正确预测：1)分级词汇偏向的即刻灵敏度；2)提高的阅读时间和先前语篇与当前词的加法偏向冲突的大体联系；3)惯量效应(inertia effect)，即处理器解决阅读几个词的过程中句法偏向的冲突的趋势(Tabor & Tanenhaus，2001：180—204)。VSG模型为解决在句子处理中区分语义干扰和句法干扰提供了充足的解释。
    　　4.3　联结主义对言语产生的研究
    相对于语言理解，联结主义在言语产生方面所做的研究是非常有限的。研究语言产生的主要模型是Dell & Colleagues(1986)提出的扩展激活模型(spreading activation model Of retrieval)。该模型模拟的主要是单词的音位编码。它由按层级顺序排列的不同节点层组成，分别与下面这些语言激活单位对应：词素（词汇节点）、音节、韵脚和音群、音素和特征。不同的节点之间直进地相互联结，层与层之间没有横向联结，但是存在特殊的空成分节点和与音节相对应的节点音节位置编码。
    该模型的运行过程是：首先激活一个词汇节点（与高层面的音位、句法和语义处理相对应），然后激活在网络中逐步向下扩展。激活也会按反馈连接向上扩展。一段时间之后，最高层面的节点被选作开端(onset)、元音和结尾位置(soda slots)。利用这个模型，Dell可以解释像代替（如dog→log）、删减（如dog→og)和增加(如dog→drog)等言语失误。
    后来Dell et a1(1993)对原来的模型做了改进，新模型可以学会把词汇映射到恰当的连续音段上。这表明，连续偏向和相似可以解释原本归于独立的音位规则和框架的音位学的一些问题；此外，未来的言语产生模型必须将学习和分布表征结合起来，以解释整个词汇在音位言语失误中所起的作用。
    　　4.4　联结主义对语言习得的研究
    联结主义对语言习得的研究起步较晚，除了Rumelhart & McClelland的英语过去时态模型外，有代表性的网络模型是Miikkulainen(1993)的分布草案加工及情景记忆网络（distributed script processing and episodic memory network，简称DISCERN）和李平等的自组联结主义网络(self-organizing connectionist network)
    　　4.4.1 英语过去时态模型
    Rumelhart & McClelland(1986)提出的英语过去时态模型由三部分组成：一个固定的编码网络，一个带有可修正联结的模式连接器(a pattern-associator with modifiable connections)网络和一个竞争的解码约束网络(a competitive decoding-binding network)。他们使用此网络来模拟儿童的学习过程，发现该网络能产生“U—形学习效应”。儿童习得过去式分为三个阶段：在第一阶段，只会使用为数不多的动词的过去式，且主要是不规则动词；在第二阶段，开始使用大量动词的过去式，其中大部分是规则动词，而将规则泛化到不规则动词的过去式中，出现很多错误；在第三阶段，恢复使用不规则动词过去式的能力，并保留了规则动词变形(conjugation)的能力。他们的网络强调儿童学习过去式只有一种机制在起作用，通过改变模型的输入，可以用同一机制模拟英语过去时态习得的三个阶段。(Christiansen & Chater，2001：38)
    在该模型的基础上，Plunket & Marchman、Daugherty & Hare等用“前馈”网络对动词过去时态的习得进行了模拟，验证了Rumelhart & McClelland的假设，即人脑使用单一的、联结主义类型的机制习得英语过去式。(Christiansen & Chater，2001：39—42)。
    　　4.4.2　分布草案加工及情景记忆网络
    分布草案加工及情景记忆网络将多个网络连接起来，用以学习语音、语义及字型的关系。每个网图本身只表达语音、语义或字型，但图与图之间通过赫伯学习法(Hebbian learning)来联结，以模拟个语言层面可能产生的相互作用。该系统反映了资料统计规律的动态性，在人类记忆的计算模型和亚符号语言处理研究方面迈出了重要一步，说明联结主义能够胜任自然语言处理。
    　　4.4.3　自组联结主义网络
    李平等提出的自组联结主义网络属于非指导学习的神经网络，它相比传统的BP网络对语言习得有更大的心理现实性及生物有效性。在这种网络中，学习通常在二维平面图中进行，网图中的每个单元都能对一个或多个输入单位加以反射。随着学习的深入，单元间的权值不断调节，网络中的单元数及网图数目不断增加。这种逐步调整和增加的过程可以更适当地反映儿童语言学习的过程（李平，2002）。
    　　5.0　联结主义对心理语言学的影响
    对于联结主义模型在心理语言学研究领域的应用，传统的符号主义者一直持怀疑态度，其中原因之一是联结主义模型在处理自然语言方面选用的数据过于简单，因而无法完全模拟复杂的人脑处理语言的过程(Christiansen & Chater，2001：61)。尽管如此，联结主义对心理语言学研究的推动作用是不容怀疑的，具体体现为：1)联结主义模型为语言处理的几个领域提供了一批完全显性的、与心理学相关的计算模型；2)联结主义模型的可学习性使人们恢复了对语言学习机制的兴趣。应用联结主义模型学习句法结构的尝试对Chomsky坚持的内在信息中心论的语言观提出了挑战；3)联结主义模型对输入的统计特征的依赖引起了人们对统计因素在语言学习和处理中的地位的认真思考；4)联结主义掀起了关于计算机制运用规则的辩论(Christiansen & Chater，2001：12-13)。
    　　收稿日期：200山东外语教学济南3～7H1语言文字学李志2004200420世纪50年代以来，心理语言学的研究以符号方法为主。随着上世纪80年代重新崛起的联结主义与心理语言学研究成果的结合，心理语言学研究的新领域——联结主义心理语言学——应运而生。联结主义模型用新的方法对语言的理解、产生和习得进行了全方位的研究，掀起了心理语言学研究的新高潮。心理语言学/联结主义模型/联结主义心理语言学
    psycholinguistics/connectionism/connectionist psycholinguistics    山东大学东方考古研究中心，山东　济南市　250100


        译者单位：苏州大学外国语学Connectionist Psycholinguistics: A New Approach to Psycholinguistic Research
  LI Zhi-xueEver since the 1950s, the field of psyeholinguistic research has been dominated, to a great extent, by the symbolic approach. But the rapid development of connectionism in the 1980s and its close contact with psycholinguistic results led to the emergence of Connectionist Psycholinguistics, a new area of psycholinguistic research. Connectionists have been providing new and realistic models for this field of research, in terms of language comprehension, production and acquisition, which adds vigor and vitality to psycholinguistics.李志雪(1968-)，男，河北枣强人，副教授，在读博士生。研究方向：心理语目学和写作教学。　解放军外国语学院，河南洛阳　47100 作者：山东外语教学济南3～7H1语言文字学李志2004200420世纪50年代以来，心理语言学的研究以符号方法为主。随着上世纪80年代重新崛起的联结主义与心理语言学研究成果的结合，心理语言学研究的新领域——联结主义心理语言学——应运而生。联结主义模型用新的方法对语言的理解、产生和习得进行了全方位的研究，掀起了心理语言学研究的新高潮。心理语言学/联结主义模型/联结主义心理语言学
    psycholinguistics/connectionism/connectionist psycholinguistics    山东大学东方考古研究中心，山东　济南市　250100

网载 2013-09-10 21:37:58

[新一篇] 職業流動的性別差異及其成因　　——江蘇省第二期婦女地位調查數據分析

[舊一篇] 聯邦德國城市體系發展特點及其若干問題探討