以概率为基础的语言研究

来源:期刊VIP网所属分类:汉语言发布时间:2013-10-12浏览:

  一、语言事实与语言理论

  20世纪中叶以来,生成转换语法突破原来结构主义和行为主义的藩篱,掀起了语言学界的轩然大波,出现了众多语言理论异彩纷呈的局面。在语言学争论中,各种语言学派都列举语言事实作为其理论的支撑点。从现代语言学的传统来看,从描写主义、历史主义到结构主义,从语言习得、语言教学到语文改革,都注重收集语言数据,提倡经验主义。Chomsky(1957,1961)的理性主义则主张语言学家的任务是描写人的语言能力,外部语料(例如语料库)无法解释语言能力。理性主义所根据的语言事实是语言学家本身的母语知识(直觉、天性),由此可推导出UG(linguistic universals,语言共同性、语言共项)。Chomsky主要针对20世纪中叶以前以经验主义为基础的语法研究(例如Fries依赖美国政府非正式通讯档案来编写American English Grammar,1940),不无道理。但理性主义研究方法提出以来,语言理论层出不穷,而我们在沉迷于理论的解释时,却往往忽略了一个出发点:语言理论虽可解释语言事实,但语言事实本身并非语言理论的产物。语言事实和语言理论究竟谁是第一性的?如果我们承认语言事实是第一性的,那么根据哪些语言事实来提升语言理论?是语言研究者凭本人直觉所提供的语言事实,还是大多数语言使用者所提供的语言事实?郑锦全在谈到美国语言学研究现状时指出:“目前美国语言学界存在一个问题:理论泛滥,而缺少充分的语言材料,不够扎实”(张凤芝等2002:77)。

  语言学中理性主义的基石之一是语言能力/运用的两分法,自Saussure提出“语言”和“言语”的区别以来,赞成此说者不少。Chomsky强化了它们的区别,将之看成是泾渭分明。对此,不同的语言学家从不同的角度提出了相反的看法。从语篇研究的角度持相反意见的语言学家有:Pike,Hjelmslev,Firth,Halliday,van Dijk & Kintsch,Hartmann等人(见Beaugrande 1991)。社会语言学家(如Hymes 1972)、功能语法学派(如Halliday l973)、应用语言学家(如Widdowsonl984)、心理语言学家和语用学家更是毫不讳言,指出语言运用才是他们研究的对象。语用学家Mey(1993:5)指出,“语用学的恰当领域是Chomsky所说的语言运用”。心理语言学家Aitchison(1998:183-184)虽广泛地介绍了Chomsky的观点,却也觉得把语言能力和语言运用截然分开难以接受,认为“心理语言学家对语言运用和语言知识同样感兴趣;两者密切相关,任何人只注意其中一个因素,而忽略另一个因素,是很奇怪的”。

  内省式的语言研究方法也受到不少人的质疑。在语音学研究中,人们只能依赖自然观察的数据。语言习得研究难以采用内省式判断,研究者本人的语言直觉代替不了儿童的语言直觉(McEnery & Wilson 1996)。Chomsky(1964)自己也认为反对观察语言运用的看法并不适用于研究语言习得。内省式判断对自然观察方法的指责是言过其实。自然观察的数据的好处是有案可查、有目共睹,可以验证;而内省式的判断则是个人的行为,往往没有太大把握,容易陷入循环论证的怪圈。这实际上是科学研究中经常出现的客观知识和主观知识问题:是自然现象还是人为现象?是公众的观察还是个人的臆断?至于当初Chomsky对语料库的任意性偏态的指责,也不见得公允。Oakes(1998)指出,如果我们使用对数正态分布(lognormal distribution)的办法来描述语料分布,偏态就不会出现。值得注意的是Alien & Seidenberg(1999)的研究,他们认为,在整个生成语法历史中一直没有弄清楚语言能力和语言运用的关系,其实两者不能截然分开,他们使用了连接主义网络模型的方法来模拟语法性判断,说明语言运用也可以产生语言能力。

  应该说,生成语法学家致力于考察语言能力的同时,作为相反倾向的、主张尊重客观语言事实的经验主义传统并没有中断,而且在理论、方法论上也有很大进步。数据的基本特征是频数(frequency),表现为概率关系,这就导致以概率为基础的语言研究的蓬勃发展。Halliday(1991)认为,语言系统的概率是固有的。当然观察频数仅是一种手段,不是目的。其目的应该是观察问题和回答问题,从定量向定性发展(Aartsl999)。概率语言学、计算语言学、语料库语言学、心理语言学都是以频数和概率为基础的,它们体现了尊重语言事实的历史传统的重现光彩。

  二、概率语言学的提出

  语言研究的概率方法(Probabilistic Approach)由此出现。2001年美国语言学会首先在华盛顿召开了第一次语言学概率理论专题讨论会,其结果见Bob等(2003)的《概率语言学》。该书Jurafsky(2003)一文指出:“各式各样的证据表明语言是概率性的。概率在语言理解和产生方面,对意义提取、分解和生成起作用。概率在学习方面,对切分和概括起作用。概率在语音学和形态学方面,对可接受性判断和替换性起作用。概率在句法学和语义学方面,对范畴梯度化、句法合格与否的判断和解释起作用。概率在建立语言变化和差异模型中更起到关键作用。”现代语言学的基石是所谓“范畴主义的准则”(maxim of categoricity)。语言是一些定义清晰的、离散的范畴,数量不起什么作用。虽然真正的语言有很多变数、有梯度,但它仅是语言运用的产物。但是概率语言学的主张者认为,越来越多的证据表明,语言判断显示出连续统的特性,是一种明显的梯度行为。2003年在Atlanta召开的第二次概率语言学讨论会,深入讨论了怎样把概率语言学和当前语言学潮流结合起来。会议认为概率语言学和生成语言学似乎是对立的,其实也并行不悖:生成语言学的目的是获得语言现象分布的最终结果,而概率语言学则考虑较少为人探索的、有梯度的中间地带。只注意连续统的两端,会使一半语言现象得不到探索和解释。两者结合起来可以让语言学家去探索数据中那些不易为人觉察的、没有得到解释的微妙的型式,使语言学界超越那些显而易见的现象。“中间地带论”只是概率语言学的一种想法,生成语法学者是否也这样想,那是另一回事。

  计算语言学、语料库语言学、统计语言学也把频数作为它们研究的出发点。它们更直截了当地提出和理性主义相对立的经验主义,Sampson(2000)称之为经验语言学(empirical linguistics)。Manning &Schutze(1999)认为,从1960到1985之间,理性主义完全统治了语言学、心理学、人工智能和自然语言处理,但是原来在1920-1960年间盛行过的经验主义传统在1970-1989年之间有所复苏。经验主义也认为人的大脑生来就有认知能力,不过并没有理性主义所说的与语言组件有关的原则和程序。经验主义从信息论的角度出发,不赞成范畴化的原则,把语言现象分为合语法和不合语法。Colorless green ideas sleepfuriously虽然合乎语法,但实际上没有人那样说。还不如把语言事件的出现看成是概率性的行为,如把句子分为“经常出现”和“不经常出现”。所以一个学英语的学生写下这样的句子:In addition to this,she insisted that women were regarded as a differentexistence from man unfairly./I have an ache in the head.即算是合语法,操本族语者也听得懂,但却觉得他们自己不会这样说。Manning & Schutze(1999)认为,语言的非范畴化现象在语言变化中尤为明显。英语中的while曾经用作名词,表示“时间”(如take awhile),但后来却变为引导从句的补足语(While you were out...)。我们没有什么理由说它在1742年前是名词,以后则变为补足语。这是因为它的使用频数在不同的语言环境中有变化。从本质上看,认知和作为它的一部分的语言都是概率现象,概率论应是解释语言的理论核心。认知之所以是概率性现象,是因为世界充满了不确切性和不完整的信息。Chomsky(1957)反对根据语料库的话语来计算句子的概率,认为这样一来,合语法和不合语法的句子的概率都会很低,难以解释语言的能产性。Manning & Schutze(1999)认为这种看法只是针对那些对概率表征有偏见的人而言的。以tall(高)的认知表征而言,当我们看到一个堂堂七尺的男子汉,又第一次看到这样的高度时,我们才会叫他“高个子”,而不会把他看成非范畴化的男子。如果又看到一个只有四尺的男子,我们绝不会叫他为“高个子”。所以概率论的模型很容易表征这种规律性,而对未经检验的句子做出判断。它不会把未经判断的句子都看成一样。

  三、语料库语言学的兴起

  Svartvik(1996)指出,语料库正在成为主流,它不但提供了一种研究方法,而且提供了一种新的哲学思维方式,就像Leech(1992)所说的,“它是一种‘芝麻开门’,导致关于语言的新思维方式”。Sampson(2001)认为,由于语言运用存在一些别的因素而排斥它,也违反科学常理。例如加速使物体下落部分地受引力规律所控制,但其他的外部因素(例如空气阻力、气流运动)也会发生干扰。一个研究引力规律的物理学家不会因为有了这些外部因素,而放弃观察数据。他无非是把这些因素分离开来。Sampson(1992)指出,采用内省式方法想出来的句子和语料库所收集的句子相距甚远,不但是语料,就是内省式判断也存在任意性偏态。Chomsky认为有些句子不见于语料库,这实际上说明一个饶有趣味而又十分重要的问题:频数问题。人类并不太清楚某些词语或结构的频数是多少,用内省式方法更不能了解以频数为基础的数据。例如They‘re just trying to score brownie points with politicians./The boss is pleased-that‘s another brownie point.这两句话中有一句是来自真实的语料库,是哪一句呢?内省式判断会产生意见纷纭,通过语料库检索可了解到brownie points的频数是76,而brownie point的频数只有6。可见用作复数的情况多得多。

  从计算语言学的角度看,作为以规则为基础的人工智能派的对立面的概率派在20世纪80年代出现。Sampson(1987)指出,概率方法的特点有三:1)使用依赖语言统计特性的分析技术,而不是使用绝对的逻辑规则;2)焦点放在不受限制的语篇中的真实材料,而不是一些语言学家自己发明的例子;3)和这两点有关的是,由于算法需要而采用的对付真实的、而不是事先选择好的材料的统计学是强有力的。当时提出这种方法的是少数派,主要原因是受到生成转换语法的影响。概率方法在对语料库进行语法标注上取得了重大进展。Brown语料库问世后,Green与Rubin编制了以规则为基础的标注程序TAGGIT,准确率只有77-78%。英国Lancaster大学Garside(1987)等人用概率的方法根据LOB语料库所提供的133×133个标注过渡矩阵而编制的CLAW程序,标注的准确率达96-97%。CLAW不断更新,它的第四版吸收了以规则为基础的标注程序的优点,用来处理一亿词的BNC,其错误率是:1.15%,歧义率是3.75%。在高科技(计算机的普及,大硬盘、高内存的出现,扫描仪和光盘技术的发展)的推动下,语料的收集数量以一日千里之势增加,现在的语料库实际上已是机读语料库。20世纪60年代出现的Brown和LOB语料库只有100万词,而现在的LGSWE(Longman Spoken and Written English Corpus)已达4000万词,BNC(British National Corpus)已达1亿词(而且提供光盘版给人研究),而COBUILD语料库(Bank of English)则接近4亿词。Biber等人(1999)根据LGSWE而编著的Longman Grammar of Spoken and Written English,洋洋洒洒达1000多页,对各种英语使用现象的描写大都附以语料库的统计资料,令人耳目一新。由15个国家和地区的语料库专家联合开发的国际英语语料库(International Corpus ofEnglish,简称ICE),按照统一部署收集各个国家和地区的英语语料各100万词,亦接近完成。语料库语言学首先在欧洲兴起,而北美因为受到生成语法的影响,相对滞后,但后来也发展神速。Simpson &Swales(2001)指出:“美国具有迎头赶上的能量,已经得到很好的证实,就等于我们所见到的空间竞赛中后苏联人造卫星时代和最近10年的美国汽车工业一样。”美国宾州大学的语言数据联合体(Linguistic DataConsortium)长期致力于收集和散布各种语料;由心理学家MacWhinney主持的CHILDES专门收集说各种语言的儿童语料;密歇根大学开发的MICASE(Michigan Corpus of Academic Spoken English)专门收集大学生英语口语语料;美国考试服务公司的T2K-SWAL语料库(TOEFL2000Spoken and Written Academic Language Corpus)则是专门研究大学英语语体,保证TOEFL考试所测试的英语符合到美国大学就读的学生的需要。对英语的使用者和学习者来说,他们关心的不是理论语言学家坐在扶手椅上(Fillmore语)想出来的母语语言能力(哪些句子是可能的?哪些句子是不可能的?),而是哪些语言现象使用得较为普遍?哪些不那么普遍或较为不普遍?

  随着大型语料库的出现,在以语料库为基础的方法(corpus-basedapproach)之外,又出现丁受语料库驱动的方法(corpus-drivenapproach)。Tognini-Bonelli(2001)指出,以语料库为基础的方法是使用语料库的证据来解释、检验或说明语言理论或做语言描述。这些理论或描述是大型语料库出现前已经存在的,但是语言事实不够充分,语料库提供了收集大量、可靠数据的手段。Bob的自然语言处理研究、Quirk等人的《当代英语综合语法》、Halliday的功能语法学派都是使用这种方法。受语料库驱动的方法则不限于使用语料库来选择例证以支持某一种理论的陈述,而着眼于整个语料库的完整性,根据语料库所提供的证据来全面地描写语言。所以理论的陈述和语料库所提供的证据应该是一致的,它应该直接反映语料库的证据,根据频数分布和反复出现的型式来系统地导出语言范畴。作为这种方法的体现的是Sinclair 1987以来所从事的COBUILD工程(包括Collins Cobuild Dictionary和一系列丛书),Hunston & Francis(2000)的《型式语法》是体现这种方法的一本代表作。

  四、心理语言学的突破

  在20世纪50年代,受信息论影响,语言学和心理语言学的许多研究都使用了统计和概率的方法。但是60-80年代,这种方法销声匿迹了。到了90年代这种方法有了很大复苏,根据Jurafsky(2003)的统计,在2000年国际计算语言学协会年会上,有77%的论文都采用了语言和学习概率模型。关于语言理解,可从三个方面看概率的作用:(1)从心理词汇或语法的角度看,语言结构的提取是一种概率性行为:最有可能被提取的结构提取时间最短,花的力气最少。(2)解决歧义。可能性越大的解释越会被选中。概率在解决歧义时起了核心作用。(3)解决语言理解的加工难度。一些加工难度较大的句子都是概率很低的句子。同样的道理也适合于解释语言产生:概率高的句子被提取得快,如有多个被选的结构,概率就会起作用。在研究学习方面,语言学习结构的模型也是以概率和信息理论的模型为基础。概率论对心理语言学的最基本的启发是使用证据推导的结构模型:它提供了一种很容易理解的算法(例如贝叶斯(Bayes)模型),对证据进行组合和加权,在语言理解时选择最佳的解释,在语言产生时选择最佳结果。概率模型在心理语言学方面的应用广及语音、形态、词汇、句法、语篇处理等方面。

  频数在语言理解和语言产生中都起到关键的作用,但是频数必须和词语或句法结构有某种关系,才能发挥作用。高频词辨认时间比低频词短、需要较少的感觉输入、受邻近词的干扰也少。高频词的产生时间也短些,而低频词容易导致语音失误。在解决形态、句法和语义的歧义时,人们倾向于使用频率更高的词类、形态结构和语义。但是这种词汇语义/句法范畴的效应似乎并没有延伸到语言产生。复合词结构的频率在语言理解和语言产生中都有作用。常用的词组或成语提取得更快,在解决歧义时也用得更多。各种条件概率在语言理解和语言产生中都起作用。对具有不只一个句法次范畴的动词来说,最常用的次范畴框架最易于被用来解决歧义。对具有一种词类的单词来说,最常用的词类最容易被用作解决歧义。竞争模型(The Competition Model,MacWhinney et al.1984;MacWhinney & Bates 1989;MacWhinney,2001)是第一个处理句子的概率模型,它把语言习得看成是一个构建性的、受数据驱动的过程。这个过程并不依赖语言结构的共项,而是依赖认知过程的共项。这个模型强调词汇功能主义(句法型式受词项控制),把“形式”层面(表层形式、句子结构、韵律形式等)映射到“功能”(意义、意图)。因为输入是歧义的、有噪音的,句子处理器就必须以概率的方式依赖词语所提供的各种表层提示(cues)。提示效度(cue validity)把提示的概念形式化,而提示效度又可以理解为提示可用性(cue availability)和提示信度(cue reliability)的结合。从学习者的角度看,语言发展主要是学习和转移在起作用。

  以概率为基础的心理语言学不限于提出某种语言处理模型,还想进一步解决一些长期以来争论不休的理论(例如语言是否天生?)问题。这就是涌现论(emergentism)的提出。Bates等人(1998)认为这个问题可以得到解决,有三个原因:首先是理论物理学的非线形动力学的发展使我们认识到,按照一个维度所发生的少量变化可以导致复杂的非连续性的结果;其次是我们可能通过神经网络的模拟技术来解释一些简单的输入怎样导致复杂解决方案的产生;其三是发展神经生物学的突破,“今天神经生物学的成果对昨天的天生主义是坏消息,因为这些成果强调了皮层专门化的特别灵活的、依赖于活动的性质,并且支持对高级认知功能的发展的涌现主义解释”。涌现主义可以用来解释诸多语言现象,包括语音形式、形态变化、词汇结构、语言历史变化、皮钦语化(pidginization)和二语习得,而且可以作形式化处理,例如连接主义网络模型、动力学系统论、贝叶斯模型、优选论,等等,它们都是以概率为基础的。

  以概率为基础的语言处理模型在心理语言学中取得了统治的地位,竞争模型外,还有以制约为基础的模型(Constraint-based Models)、理性模型(Rational Models)、马尔可夫词汇范畴优先模型(Markov Modelsof Lexical Preference)、不考虑上下文随机语法(Stochastic Context-free Grammar)、贝叶斯信念网络(Bayesian Beliefs Networks)、语言产生概率模型(Probabilistic Modeling of Production)等等,限于篇幅,在此不再赘述。

  五、对我国语言学界的启发

  上面着重介绍了以概率为基础的语言研究方法,丝毫没有意思把它说成为一种主流的、唯一的研究方法,而只是想说明语言研究方法丰姿多采,必须结合我们自己的实际鼎新革故,吸收人家的先进东西,走我们自己的道路。

  1.理论语言学是我们的弱项,而生成转换语法以及其他语言理论模型在西方仍在不断发展。借鉴它们的理论和方法建立一套确实能够说明汉语的语言理论,是我国语言学家面临的一大挑战。我们的目标不限于考察汉语有些什么参数设置,还要进一步通过汉语来探讨UG。

  2.汉语语言学有其自身的传统,从小学(文字、音韵、训诂)到现代汉语研究都注重收集语言数据。胡朴安(1983)早在1937年就提出,“训诂学方法之新趋势,惟有甲骨文金文之考证与统计学之推测,二法而已”。他有感于“瑞典人柯罗倔论著左传真伪考[即高本汉(Karlgren),《左传真伪考》为陆侃如译,新月书店出版]用统计方法统计左传、论语、孟子中的助字,为考据学者辟一新门径”。他也统计了《论语》中的“君子”的频数(约六十有余),然后区分出孔子对君子之界说。胡朴安后,又有多少我国训诂学家使用了概率方法,笔者忝属外行,不敢妄言。但概率方法在某个意义上不仅是一种方法,而且是一种思想。事物的出现(包括语言的使用)都是一种概率行为,但是我们立论求证时却往往忽略这种特性,只注意收集有利于自己观点的正面证据,而把负面的证据置之不顾。在我国开展语言学研究,概率方法值得重视。

  3.实施以概率为基础的语言研究方法的一个基础工程是收集和建设语料库。这项工程已受到整个华语世界的重视,但力量分散,各自为政,甚至重复劳动。现在要考虑的是:(1)我国大陆、台湾、港澳地区都在组织人力建设现代汉语的语料库,应该强调统一力量,加强协作,像ICE那样制订统一的抽样方案、注释格式、文本格式,甚至编制统一的、兼容简繁体的检索工具乃至语料库工具,便于大家使用。(2)语料的收集和入库虽然牵涉大量人力物力,语料本身却是公共财富,应该向公众开放,如提供在线检索或语料光盘。(3)古汉语语料库的建立也应提到议事日程。我国许多经典著作和辞书都应电子化,便于检索。(4)汉语信息化和电子化的“拦路虎”是断词问题,大家都有不同的方案和处理方法,应集中力量,共谋良策。断词问题解决不了,语料就无从进行索引。可否考虑以“字”为单位,通过搭配字检索来解决词的问题?(5)统一和分散,齐头并进。既要考虑编制大型的语料库,也要考虑编制各种专业化的语料库。(6)建立语料库虽是一项基础研究,但其根本目的是对语言使用(包括汉语以及其他民族语言)进行客观的概率研究,因此必须大力训练掌握这种研究方法的人员。

  4.在汉语心理语言学方面,虽有一些零碎研究(如对母语习得、二语习得),但我国还处在创始阶段,任重道远。针对汉语使用而开展认知心理模型的研究还比较少,关键问题是汉语研究和认知心理学研究的结合问题。在西方有过两次结合:首先是语言学家和心理学家的结合,如1951年在美国Cornell大学召开的暑期研讨班、美国社会科学院的语言学和心理学委员会1953年在Indiana大学召开的学术讨论会,订出了所谓“心理语言学宪章”;其次是上世纪70年代以来心理语言学和认知心理学的合流(桂诗春2000)。这使语言学通过心理语言学的媒介成为认知科学的一个重要组成部分。

  5.以概率为基础的方法在二语习得研究中的影响更大,牵涉面更多,实用意义更大,是一个很重要的领域。笔者将另作专文讨论。

期刊VIP网,您身边的高端学术顾问

文章名称: 以概率为基础的语言研究

文章地址: http://www.qikanvip.com/hanyuyan/9400.html