汉字字频统计方法改进方法汉语言文学发表

来源:期刊VIP网所属分类:汉语言发布时间:2013-12-16浏览:

  摘要:字频指的是汉字的出现频率,即某个汉字在一定语料中使用(出现)的次数与样本总字数的比率。文章发表在《出版科学》上,是核心文学论文发表范文,供同行参考。

  关键词:汉字,统计方法

  一、汉字字频统计的概念

  在汉语汉字的语境下,汉字字频常常简称为字频,汉字字频是汉字使用的一个重要属性。冯志伟指出:“传统的文字学认为,汉字具有形、音、义三个要素,但是,汉字作为记录汉语的符号,它必须作为一种交际工具而存在,在交际过程中,有的汉字使用得多些,有的使用的少些,呈现出一定的统计规律性。因此,从使用的角度来看,汉字还具有第四个要素——字频。”

  对使用中的汉字进行字频统计,并按字频的高低排列汉字的顺序即可以得出汉字的频序,依据频序给汉字分级可以划分出汉字的频级,汉字的频级是对使用中的汉字进行分级的主要依据,对汉字规范、汉字教学及汉字信息处理有重要意义。汉字字频统计是汉字研究中的一项具有实用意义的重要工作。

  二、汉字字频统计的主要成果

  以往的汉字字频统计与研究取得了重要的研究成果,为汉字的研究与应用作出了重要的贡献。字频统计一般分综合字频统计及分类字频统计两类。其代表性成果主要有以下几项:

  现代汉字综合字频统计的主要成果有:1.《汉字频度表》,此表于1976年12月由“七四八”工程查频组完成。本次字频统计使用的语料时间范围为1973-1975年,语料内容包括科学技术、文学艺术、政治理论和新闻通讯四类,统计方式为手工操作。备选语料3亿多字次,选用语料2160多万字次,统计得出6376个字种。

  三、汉字字频统计存在的主要问题

  尽管汉字字频统计取得了诸多重要的研究成果,但是,由于受汉字自身的复杂性以及汉字信息处理技术的局限性等因素的影响,目前的汉字字频统计还存在很多问题,影响了字频统计的质量。其问题主要表现在以下几个方面:

  1.近些年来多数汉字字频统计依据的是电子语料库,这些电子语料库建库目标主要是为语言研究服务的,加之计算机字库收字的限制,在把纸质文本转换成电子文本的过程中未能保持文字使用的原始状态,影响到统计结果的客观性。比如,1956年1月28日国务院全体会议第23次会议通过了《关于公布〈汉字简化方案〉的决议》,1956年1月31日《人民日报》全文发表了国务院的《关于公布〈汉字简化方案〉的决议》和《汉字简化方案》

  《中国语言生活状况报告(2005)》中的《报纸、广播电视、网络用字总表》的统计单位近似于周有光的字形,繁简字、异体字、新旧字形均作为不同的统计单位进行统计。表中收录繁体字361个(15),异体字193个(16),旧字形47个(17)。统计单位的不明确、不统一,不仅影响到字频统计的科学性,也不利于统计结果的正确、有效使用。

  四、汉字字频统计的改进

  根据上述情况分析,我们认为必须加强字频统计的理论研究,完善统计原则,改进统计方法,提高字频统计的客观性和科学性。

  从规定的角度可以采纳周有光先生的界定,把字的单位划分为字种、字形两级。字的单位确定了,字频统计则可以根据不同的统计目的规定统计单位,可以以字型为统计单位统计型频,也可以以字样为单位统计样频,可以以字式为单位统计式频,可以以字种为单位统计种频。这样,不仅统计单位明确、清晰,而且每次特定的统计,统计单位统一、等质,便于统计数据的使用,以及不同统计数据的比较,使得字频统计的科学性得到保障。

  核心期刊发表须知:《出版科学》是经国家新闻出版总署批准,由湖北省新闻出版局主管、湖北省编辑学会主办、武汉大学信息管理学院承办的一份面向全国的出版专业学术期刊。

期刊VIP网,您身边的高端学术顾问

文章名称: 汉字字频统计方法改进方法汉语言文学发表

文章地址: http://www.qikanvip.com/hanyuyan/10805.html