进行评论

《汉字部件规范》使认知码具有更好的规范性

北京师范大学 何克抗

论著选摘

    为了保证祖国语言文字的纯洁和统一,使语文教育和计算机教育更好地结合,制订汉字输入编码方案时必须把规范性放在首要地位来考虑。认知码是由国家教委立项,专门为广大中小学生研制,同时也适合全社会使用的一种汉字输入编码方案。它属于形码方案, 其规范性应体现在以下两个方面:

____(1)应符合汉字构形规律和国家语委颁布的语言文字规范。

____(2)应符合识字教学规律和国家教委制订的《小学语文教学大纲》中有关识字教学的要求。

____部件也称字根或字元。在《汉字部件规范》中,"汉字部件"被定义为:由笔画组成的具有组配汉字功能的构字单位,简称"部件"。有关部件的规范是指部件如何选取与归并以及部件如何构字与拆分的规范。

____一、部件如何选取与归并

____在目前国内较流行的形码方案中,对部件数量的选取,少的取50个左右(如五十字元码和安徽声数码),中等的取100~200个(如王码150多个、郑码170个),多的取300个以上(如表形码和认知码)。对部件的选取原则也各不相同,如郑码部件中的90%选自《汉字统一部首表》,其余10%是惯用的组字构件;部首码全部部件选自《新华字典》中的189个部首。有的编码作者主张形码部件应由通用部首中的独体字、呈相交笔画的偏旁、简化偏旁以及通用字表中三笔画以内的字等四部分组成;还有的编码作者干脆根据自己处理重码的需要任意选取部件。由于过去国家语委并未制订汉字汉字部件规范,所以,当时要回答"形码部件应如何选取才符合规范?"这一问题是很困难甚至是不大可能的,这正是造成混乱局面的主要原因之一。《汉字部件规范》的颁布,使广大编码作者能有所依循,使这个问题有可能从根本上得到解决。

____《汉字部件规范》的4.1、4.2和4.3条款中对部件、主形部件、附形部件作了规定, 将560个独立使用的部件归并为393组,各组的第一个部件称主形部件,其后所列部件称附形部件。其中,附形部件中所包括部件的条件,实际上就是把560个独立使用部件归并为3 93组的归并条件。换句话说,《汉字部件规范》不仅允许对汉字部件进行归并,而且还明确地给出了归并条件。这就彻底解决了长期以来汉字编码界存在的一个有重大争议的问题——部件是否允许归并。

____对于这个问题,一种意见认为,每个独立使用的部件是绝不允许归并的。理由是一旦归并,就容易使用户(特别是中小学生用户)误认为被归并的部件(即附形部件)与主形部件完全相同,因而有可能对识字教学造成干扰。

____另一种意见则认为,把同源部件加以归并是汉字部件规范化的需要,有利于学生更好地理解部件和汉字的理据,因此,不仅有利于字形,而且有利于字义的识字教学。另外,归并以后不仅部件组数大大减少,而且结构紧凑,更有系统性,使部件组更易于记忆与掌握, 从而使编码易学性明显提高。至于附形部件与主形部件之间的相似性,只要在识字教学中稍加注意就不至于引起混淆。

____上述两种意见长期以来争论激烈,相持不下,各有各的道理。但多数语言文字专家还是认为后一种意见更可取些。《汉字部件规范》中上述条款的规定,等于对两种争议作了结论。

____认知码在设计中为了对末级部件(即基础部件)进行合理归并,提出了三条相似性归并原则,正好与《汉字部件规范》中的4.1、4.2和4.3条款不谋而合。而且认知码在归并之前的独立部件总数也达500多个,归并之后也是300多个。在认知码的500多个独立部件中 , 95%以上均与《汉字部件规范》中的《汉字基础部件表》相符合。最近,我们根据正式颁布的《汉字部件规范》,对认知码部件做了进一步的修改,使两者的符合率已达到100% 。这说明,不论是部件的选取还是归并,认知码在过去和现在都具有较好的规范性。除此以外,我们在全国18个省市的400多所试验学校(绝大部分是小学)进行了3年多的试验,试验证明,对部件进行合理归并可能对识字教学产生干扰的担心是完全不必要的。

____二、部件如何构字与拆分

____如何构字指部件的构字方式,也就是合体字的结构方式。为了分析合体字的结构,可以采用平面分析法或层次分析法。平面分析法是将合体字一次分析出其全部构字部件,如分析"灌"字,一次分析得出的全部构字部件为"氵、艹、口、口、亻、隹",其结构框图如图1所示。层次分析法是将合体字逐级予以拆分,依次分析到部件为止。仍以"灌"字为例 ,其分析过程可用图2的生成树表示。层次分析法通常不一定要分析到最低层次,而是根据实际需要分析到所需的层次。

图1

图2

____在《汉字部件规范》的5.2条款中有以下说明:

____给——拆分为"纟"、"合"(第一层,有理据拆分)

____合——拆分为"合"、"口"(第二层,有理据拆分)

____合——拆分为"人"、"一"(第三层,无理据拆分)

____暴——一次拆分为"日"、"廿","八"、"水"

____其中,对"给"字的拆分过程是采用层次分析法,对"暴"字的拆分过程则是采用平面分析法。《汉字部件规范》中明确规定,对合体字的结构可以有两种分析方法,至于实际使用哪一种,应视具体情况而定。

____在小学识字教学中,一般采用层次分析法,而且只分析到第一级。例如,在"音"字的教学中,老师把它拆成由"立"和"日"两个部件组成的上下结构;而在教"韵"字时,老师则把它拆成由"音"和"匀"两个部件组成的左右结构,这时,对"音"字并不再进行第二级拆分。

____而利用部件进行汉字编码时,为了取得足够的码长,应当采用平面分析法。但是为了确定取码的顺序,这时也要结合层次分析。至于编码过程中需要分析到哪个层次,则与形码部件的选取有关。例如,若取"音、匀"为部件,则对"韵"字编码时,可只拆分到第一级; 若取末级部件"立、日、勹、冫"为形码部件,则对"韵"字编码时需拆分至末级,而层次拆分的顺序即为部件取码的顺序。显然,该顺序取决于合体字的结构分类及书写笔顺。

____在小学语文识字教学中,通常把合体字的间架结构划分为八大类,各类结构的示例如下:

____(1)左右结构 如信、称、结。

____(2)左中右结构 如撤、衍、湖。

____(3)挟中结构 如乘、燕、赢。

____(4)上下结构 如家、早、霜。

____(5)上中下结构 如荧、黄、卓。

____(6)品字形结构 如品、晶、森。

____(7)全包围结构 如团、固、围。由于全包围结构和下面的左三包结构以及部分的右上包结构其部件拆分顺序与书写笔顺不完全一致,所以,习惯上认为,对于这两种结构,其部件取码顺序由部件的第一笔画决定,其余结构的部件取码顺序则和书写笔顺完全相同。

____(8)半包围结构 这种结构可进一步细分为以下6种结构:

____1上三包 内部件被外部件从上面三个方向包围,如向、凤、同;

____2下三包 内部件被外部件从下面三个方向包围,如凶、函、画;

____3左三包 如匪、匠、匹(部件取码顺序由部件的第一笔画决定);

____4左上包 如眉、病、尾;

____5左下包 如逃、建;

____6右上包 如可、氢、包。

____因此,合体字共有13种不同的间架结构。

____应当指出,在《汉字部件规范》颁布以前,关于如何确定编码部件的取码顺序,在汉字编码界存在着严重的分歧。有许多人坚持要严格按笔画书写顺序取码,以保证书写笔顺的规范性;另一部分人则坚持要按部件在汉字间架结构中的排列顺序取码,以保证汉字结构的规范性。应该说,这两种看法都有各自的道理。事实上,在合体字的13种间架结构中有 10种结构的笔画书写顺序与部件排列顺序是相同的(对于这10种结构来说,上述两种看法并无分歧),两者的差异只是在"全包围"、"左三包"和部分的"右上包"等三种结构。例如

____对于全包围的"团"字,第一种意见认为应拆成三个部件,其部件顺序(与书写笔顺一致 ,但将破坏汉字的全包围结构)为"冂、才、一";第二种意见认为应拆成两个部件,其部件顺序(与笔顺不一致,但符合全包围结构要求)为"囗、才"。

____左三包的"匠"字,第一种意见认为应拆成三个部件,其部件顺序(与笔顺一致,但要破坏左三包结构)为"一、斤、匚";第二种意见认为应拆成两个部件,其部件顺序(与笔顺不一致,但符合左三包结构要求)为"匚、斤"。

____右上包的"可"字,第一种意见认为应拆成三个部件,其部件顺序(与笔顺一致,但要破坏右上包结构)为"一、口、刂";第二种意见认为应拆成两个部件,其部件顺序(与笔顺不一致,但符合右上包结构要求)为"可、口"。

____现在,《汉字部件规范》中已明确规定,对于上述三种间架结构应按部件排列顺序而不按笔画书写顺序(即按第二种意见处理)。我们认为这是比较科学的,因为从汉字的结构看,在笔画、部件和成字三个层次中,部件的层次和重要性比笔画要高,因此当两者有冲突时,"就高不就低"就是必然的选择。《汉字部件规范》的这种处理无疑解决了汉字编码界长期以来的又一个有重大争议的问题。

____根据汉字结构规律,一个合体字中各部件之间的空间关系,若不考虑其相对位置,则只有"相离"、"相接"和"交重"三种关系。

____(1)相离关系 各部件之间彼此分离。如体、部、外、只、析。

____(2)相接关系 各部件之间彼此相接(但不相交)。如允、局、界、吊、市。

____(3)交重关系 部件之间有相交笔画或相重笔画(即存在公共笔画)。

____·相交笔画 如"束",部件"木"与"口"相交;"东",部件"七"与"小"相交;"夷",部件" 大"与"弓"相交;"果",部件"曰"与"木"相交。

____·相重笔画 "我","扌"与"戈"的横笔公共;"串","中"与"中"的竖笔公共。

____但是多数汉语文字学家认为,有"交重关系"的汉字应被视为独体字或不可拆分的末级部件,而不应看作是合体字。这种观点与我国目前小学语文教学大纲中有关识字教学的要求是一致的。"大纲"中要求通过识字教学应使学生掌握基本笔画、笔顺、汉字的间架结构,并能正确数出汉字的笔画数。如果允许部件之间有相交关系,则将使学生对汉字的间架结构产生错误概念(把独体字误认为合体字);如果允许部件之间有公共笔画,则将使学生不能正确数出汉字的笔画数,这两者均不符合教学大纲要求。因此,我们认为,把有"交重关系"的汉字视为独体字而不加以拆分是比较合理的,是符合小学语文教学大纲要求的。正是基于这些考虑,《汉字部件规范》中规定了关于部件拆分的规则。

____应当指出,目前许多形码方案正是在处理相交或有相重关系的部件上普遍存在随意拆分的不规范现象。换句话说,对有交重关系的汉字进行拆分是造成目前编码界混乱局面的另一个主要原因。因此,《汉字部件规范》中关于"交重不拆分"的规定对于结束汉字编码的混乱状况具有不可估量的重要意义。

Copyright.gif (2439 bytes)版权信息:

本主页版权所有:北京师范大学现代教育技术研究所;管理员信箱:ysq@elec.bnu.edu.cn;电话:010-62206922。要获取最佳浏览效果,请使用800*600分辨率模式。