汉字的特殊性和科学性——形义文字论 1—4_风闻
华民-2019-11-09 10:32
汉字的特殊性和科学性
——形义文字论 1-4
作者:夏国民
引言
文字是人类文明发展和进步的产物。汉字可谓华夏文明的主要载体和结晶,在华夏文明的创立、发展、继承和传播中都扮演着极其关键的角色。中华民族走向伟大复兴征途上的文化自信,在一定程度上取决于广大群众对未来汉字适应社会文化发展的信心。
汉字文化本来博大精深,但近三百年以来,我国语言文字学领域的很多观念一直被西方汉语观中的一些谬论所误导,从明朝末年开始,按拼音文字理论生搬硬套过来的相关说辞始终解释不了汉语汉字实际应用中的一些普遍现象,其中漠视汉字笔画的重要性,扭曲汉字的字、词概念,造成了严重的混沌状态,中外学习者们一直都被忽悠着,让很多人迷茫。随着我国综合实力和中华文化影响力的不断提升,正本清源,拨乱扶正,摒弃一些人云亦云的偏见,建立能够解释汉字文化普遍现象的自主性学说,以利汉字文化的正常蓬勃发展,很有必要。本文试图在这方面做一些探索,以期引起大家的关注和争鸣,希望聚集一些正能量。
一、文字名称
文字是人类记录语言和思想、进行信息交流最重要的工具。文字的三要素是音、形、义。三要素中,如果只有形,缺少音和意义,就只是单纯的符号,例如宋体汉字的笔画;如果只有音和意义,缺少形,则只能称之为语言,例如世界上一些还没有文字的语言;如果缺少意义,只有音和形,那也只是单纯的符号,例如汉语拼音字母。另外,非文字的图标虽然有形和意义,但缺少音,也不是文字。
人类感受信息的通道主要是眼睛(视觉)、耳朵(听觉)、鼻子(嗅觉)、舌头(味觉)、皮肤(触觉)神经(痛觉)等六种。在这些主要知觉系统之中,后三者嗅觉、味觉、痛觉只能感觉很有限的信号,基本上无法形成人与人之间的有效交流。触觉,分辨能力差,感知速度慢,交流效率太低[1]。因此,人类有效交流的知觉系统主要是建立在视觉和听觉之上。听觉对应的有效交流靠语言,视觉的有效交流主要是靠文字。
语言是通过声音的流变进行信息交流。文字是语言的物化,文字是有形的语言。但无论是文字还是语言,所要表达的意思都在其背后,交流必须意会。只不过是意思的交流方式不同,文字是通过视觉,语言是通过听觉。
所有文字都是通过一定的字符形态将背后承载的意思展现在人的眼前。
与其他文字比较,汉字的形态非常特别,由五类笔画构成。汉字的字义主要是靠字形来表示,即主要以形示义。
汉字始于象形,贯穿着意会,因义构形,字面上易于意会是汉字最突出的特性,后文将详细阐述。
汉字字面上的笔画与注音无关。一方面,现代汉字虽然都是单音节,但单独而言,很多字有几个音。例如,收录了8507个“头字”的第11版《新华字典》,多音字就有840个之多,差不多占总数的10%。汉字只是在构成词句后,才被确定为一字一音。
另一方面,汉语普通话大约只有1200个不同的音节(包括四种不同的声调),常用音节更少,而汉字多达数万,因此大部分的汉字都有同音字。
总的来说,尽管现代常用汉字只有3000多个,但一字多音和多字同音是常态。
最为特别的是,虽然几千年来念汉字、说汉语的方言千差万别,甚至相互之间完全听不懂,但并不影响人们对字义的理解,由此可见,单纯从字面上来说,汉字以音表意的成份很低。
综上所述,就其主要特性而言,主要以形示义的汉字,应该简称为形义文字。
除汉字外,其他现代文字基本上都是由字母组成,而且音和形是密不可分的,排列的字母其形态基本上就是注音。用字母记音,主要靠音位、音节的排列组合来表意,同一个概念可以用多种不同的字母文字来表示,其中很多单词就是直接拟声挪用,或者说字的意义主要是依附于音,即主要是以音表意,而以形表意的成份很低。因此,从本质上来看,就其主要特性而言,字母文字都应该属于音意文字。音意文字都俗称为拼音文字。
汉字的称谓主要有两个原因:一方面是楷书形成于东汉末期,至此汉字的演化已臻完善。虽然之前的隶书已完成了字的主体架构,而楷书最关键的是形体方正、笔形清晰、可作楷模,汉末及以后各代的公文字形都以楷书为主;另一方面,秦朝虽然用小篆统一了全国文字,并且迅速往隶书演变,已被下层官吏逐渐使用,但时间只有十几年,而汉朝前后一共存在了四百多年,隶书、楷书自然而然影响深远。汉字称谓因此沿袭。
因此可以说,包括先前的甲骨文、金文、小篆、隶书,后来的草书、行书,以及宋体、黑体等等各种形体的方块汉字,一脉相承的书体都属于形义文字。
当然,观察问题的角度不同,其观点很可能会不一样。如果单纯从形态上看,汉字因笔画交叉构成可以称为二维文字,字母文字因字母线性排列可以称为一维文字。
有一种观点将汉字称为表意文字,将字母文字称为表音文字。这种称谓也有一定的道理,但并不确切,似乎汉字字义都能展现在字面上,其实不然。实际上,字母文字的字面也有一些不是用来表音的字母,而且所有文字都有表意和表音功能。尤其值得注意的是,现在还有人固执地宣扬表意文字都是文字萌芽时期的产物,言下之意有不成熟之嫌。此说难以服人。
有必要郑重指出,如今如果仍正儿八经笼统地称现代汉字为象形文字是错误的,起码是一种偏见。从三千几百年前就业已成规模的甲骨文来看,汉字早就已经高度抽象化了。东汉时期收录了9353个汉字的《说文解字》里,注明象形或象什么形的字是264个,根据清代朱骏声《说文通训定声》的判定,里面的象形字有364个,综合来说,满打满算也只是总数的一个零头。对汉字而言,象形字充其量不过是个俗称而已。
特别是,二〇一〇年前后,复旦大学教授张学新带领的团队采用脑电技术进行的科学实验,其结果深刻地揭示了汉字的独特性,是比其它文字更为彻底的视觉文字,强有力地证明了中文与拼音文字存在本质区别。[2]
当然,如果别有用心地拿象形文字这个称谓来刻意贬低汉字落后,那就另当别论了,好像当今仍拿楔形文字称谓拼音文字一样荒唐。
总而言之,无论是纵向解释汉字三千多年的历史沿革,还是横向比较世界各国的拼音文字,形义文字的称谓,对于汉字应该是最为恰当的。
由于目前学习英文的人比较多,接下来的论述,音意文字主要以英文为例。
二、细节对比
音意文字的始祖是地中海东部两河流域古代苏美尔人创造的楔形文字,后来历经腓尼基人使用才逐渐演变为字母文字。
下图是十七至十八世纪欧洲学者们破解了的楔形文字,楔形符号的下方是音标。[3]

后来的字母文字在使用过程中继续不断演变,仅从下图字母“W”的发展演变过程就可见一斑。简洁的单个字母的定格,是各种音意文字发展中最重要的标志。(图片源自360图片)

形义文字的始祖是中国商代的甲骨文,后来逐渐演变为笔画清晰的楷书。楷书的出现和定型,是形义文字发展中最重要的标志。
下图是“月”字从“甲骨文——金文——小篆——隶书——楷书”的图示发展演变过程。

世界上各种文字发展到如今,如果从字的确切形态上来说,相对于音意文字又称为字母文字,形义文字则应该称为笔画文字。
一般来说,笔画是构成汉字字形不间断的一笔。从细节上看,笔画相当于汉字的零件,偏旁部首或字根相当于汉字的部件;字母相当于英文的零件,英文词根则相当于英文的部件。前面说过,形式上,汉字是由笔画二维交叉构成,英文是由字母线性排列组成,笔画对应字母,从根本上来说,它们就是两类完全不一样的符号,构字自然各有利弊。
英文字母是A、B、C、D、E、F、G、H、I、J、K、L、M、N、O、P、Q、R、S、T、U、V、W、X、Y、Z共26个。字母排列组合成单词,便于拼音,便于书写,但占用的空间较大或较长,而且形式上单词不便于按内容性质分类,或者说字面上完全看不见同类的共性。
不过,利弊有时候也很难说。例如,现阶段英文应用于手机数字键,ABC集中在2键上,DEF集中在3键上,GHI集中在4键上,JKL集中在5键上,MNO集中在6键上,PQRS集中在7键上,TUV集中在8键上,WXYZ集中在9键上,若要输入排位靠后的字母,需要重复按键三四次。但是,说简单也简单,不用挑选,也算不错。
现代汉字不同的笔画是33个,其中“折笔”就有25个,但总体上可以归类或简化分为“横、竖、撇、点、折”,即“一、丨、丿、丶、乙”所代表的5种,可以说,汉字的主要笔画是五种,具体简单而言就是:
(1)“提笔”归于“横笔一”,如“地”字的第三笔;
(2)“竖钩”归于“竖笔丨”,如“小”字的第一笔;
(3)“撇笔丿”独立,但有长短之别。
(4)“捺笔”和“往左的点”都归于“往右的点丶”,例如“林”字的最后一笔和“点”字底下的第一点;
(5)其它25个“折笔”都归于“折笔乙”。[4]
汉字的非折笔笔画是8个,如下图。

汉字的25个折笔笔画如下图:


汉字的笔画能够交叉,便于构形,便于意会,便于分类,形体紧凑,但书写较难,且字面上还看不见音的踪影。
汉字的五种笔画可以用数字代表,即横1(一)竖2(丨)撇3(丿)点4(丶)折5(乙)。如果将汉字拆分成笔画,分别用1、2、3、4、5代表,并按笔画顺序排列,可以用于查找或电脑输入汉字,但因重码多,效率较低。
有研究者统计过,常用的近三万个英文单词,平均一个单词的字母数是7.45个(221493÷29711=7.45)。[5]
笔者统计,中国大陆现在使用的2500个常用汉字的平均笔画是9.17个,如果包括1000个次常用字的3500个汉字平均笔画是9.74个。
更为有意思的是,据统计:
(1)英文的词根是200多个,这里仅举几个用汉文能简单对应的例子,比如,phag吃、polis城市、radic根、sen老、sol单独、soph智慧、sper希望、stell星、ton音、val强。
(2)《新华字典》所用的偏旁部首是200多个,例如,氵、忄、扌、亻、钅、纟、讠、阝、犭、礻、衤、饣、艹、宀、辶、廴。
(3)虽然我国大陆和台湾各自所发明和使用的主要形码汉字输入法不同,但字根却也都是200多个,例如,日、月、金、木、水、火、土、人、手、口、心、十、一、山、田、弓、了。
当然,英文的词根概念与汉字的字根概念是不一样的。
需要指出的是,在英文里,English word是英文单词的意思,但是,汉字的英文表达却不是Chinese word,或者说中国汉字不是Chinese word,而是西方人很早以前就约定或者规定的Chinese character [ˈkæriktə],character在这里是符号的意思,笔者认为,用Chinese character表示“中国汉字”,这个英文概念是错误的。
即使在英文的语境中解释,单个汉字完全具备单词的功能,怎么能说是符号呢?汉字笔画才是符号,与英文字母是同一个级别,这个级别层次较低,只有形没有义。由汉字笔画构成的汉字,跟英文字母组成的单词,是同一个级别,这个级别层次比较高,具备了义的功能,能表示一个完整的概念,这是不可否认的。因此,单个汉字也应该是word。当然,这是站在文字学角度的解释。
站在语言学的角度,如果认为在Chinese概念里包含了汉民族的所有语言,即包括了普通话、广东话、上海话、客家话等等所有类型的汉语,是涵盖最广的说法,则有其道理。但现代汉语的准确称谓应该是——标准普通话Mandarin[mænd(ə)rin],即中国大陆所用的官方语言。实际上,现在很多外国人在谈到或学习汉语时,往往会强调自己所说的是Mandarin,而不会简单地说Chinese。[6]
Word在英文中是一个多义词,单词的意思只是其一。如果word用在英文中的意思指的就是单词,English word翻译成中文的时候则无疑有字的意思。相比较而言,汉字的英文表达Chinese word比Chinese character更靠谱。实际上,英文Word对应着中文的字和词汇两个层面的意思,这是后话。
总之,到目前为止,汉字在英文中没有一个准确的概念词,不妨用hanzi暂且代之,如果这样,“中国汉字”翻译成英文“Chinese hanzi”,道理就顺畅了。这也说明,汉字是记录汉语的文字,不是符号。
三、字词定位
实际上,从以上分析中已经揭示出,早在三四千年前,形义文字与音意文字各自所走的发展道路就完全不同。因而中文与英文是两种根本不同的文字体系,二者在各个方面不可能一一对应,这一点有必要先说明。
本节主要强调的是形义文字的字和词汇定位问题,质疑过去在西方文字观影响下人们对字与词汇的认识问题。
就现代中国民众的普遍常识而言,汉语的字与词是两个不同的概念,在文章中更容易辨别。所谓字,就是单独一个字表意;所谓词汇,就是主要由两三个字合起来表意。绝大部分字与词在文章中都能一目了然分得开,只是到高一层级的词与句子上才有些模糊。例如,“狗”是字,“狗子”是词,“狗腿子”这个俗语就有点说不清了,到底是“狗子的腿”还是“坏人的帮凶”需要联系上下文才能准确判断。
从中文的角度看,英文是字词一体,含混不清,英文的字与词甚至短句很多都区分不开,因而在很早以前,先人们在翻译时,实在是不得以,只能笼统地称一串规定的字母为单词。牛—cow,马—horse,猪—pig,狗—dog,这在中文里是字,英文是单词。医生—doctor,世界—world,这在中文里是词,英文也是单词。牛的—bovine,马的—equine,猪的—porcine,狗的—canine,这在中文里算是短句了,英文还是单词。不过,“单词”概念也正好掩盖了亦字亦词的模糊。
中文辞典是为字和词汇提供音韵、意思解释、例句、用法等等的工具书。其中,中文字典以收字为主,也收词汇;中文词典以收词汇为主,也收字。在西方文字中没有字典的概念,只有单词词典。
人们常用的计算机办公软件Microsoft Word(微软公司的文字处理器应用程序)里面的字数统计,包含汉字和英文之和,汉字是按字计数,英文是按单词计数,标点符号也计数。英文单词的记数方法是每隔一空格计为一个字。这算得上是在计算机时代为两类文字找到的一个结合点。
但在计算机的其它应用领域内,一个字母算一个字符,一个汉字被统一算作两个字符,后者虽然是省略着将就,但也未尝不可。
构成汉字字形的要素是笔画及其位置关系。例如,只、叭。构成不同汉字的细微差别还有笔画的长短等。例如,工、土、士。特殊的,常用汉字里只有一个笔画的汉字是两个:一、乙。实际上,一二级汉字里有六个单笔画字,其中有三个是生避字。它们的读音(汉语拼音)分别是:
(1)一,yī;
(2)丨,gǔn(与滚同音,但人们习惯用别称shù竖);
(3)丿,piě;
(4)丶,zhǔ(与主同音,但人们习惯用别称diǎn点);
(5)乙,yǐ;
(6)〇,líng(现在已编入汉字字典)。
〇是个特殊字,字义是数的空位,规定只能与数目字在一起用,例如,二〇一九年。它是汉字中唯一的一个基本上按原形吸收的外来字。人们习惯于称其为阿拉伯数字,其实它来源于古印度。
只有一个字母的常用英文单词也是两个:A、I 。但是另外还有5个发音跟单个字母一样的单词:b—bee 蜜蜂;c—see看见,c—sea大海;r—are 是;t—tea 茶。
近代以来,汉字的字词定位问题一直被西方语言文字观所主导,很多单个汉字被解释为一个词已经成了一种普遍现象。不仅散布于有关教科书中,就是字典也是如此,似乎到处都充满着逻辑悖论。
(1)说汉字是符号。难道总数以十万八万计的汉字都是符号?难怪被母语只有二三十个字母符号的很多外国人吐槽说汉字难学。这是误导学习者的一个主要谬论。
(2)说词是在句子里能自由运用的最小的语言单位。这也无异于妄言汉字不能单独使用。
(3)说“人”、“跑”、“甜”这些都是词,又说汉字是符号,这是十足的自相矛盾的“词等于符号”奇谈怪论。
(4)说词组是两个或两个以上的词的组合,又叫短语。难道两个汉字不能组成词组?
(5)说形容字“大、广……”等是单音形容词。这无疑是食洋不化,扭曲了汉字的类别名称。
(6)说某某汉字是单音副词、介词、助词、虚词、……。
总之,以上这些都是生搬硬套西方音意文字理论概念,往完全不同的形义文字上套,字、词扭曲成了普遍现象,在现代汉语文献中早已泛滥成灾。这种现象应该改变,也必须改变,音意文字的混沌不清,不应任其继续扰乱形义文字自然生成的良好生态。
汉字在根基上,具备消化吸收新概念的天然通道,中文层次分明,而且具有逻辑性。在中文体系中,1、字是最基本的表意单位;2、词和词组主要由双字构成和组成,它们是复合表意单位;3、词汇则包含着词和词组。
任何文字如果不能适应社会发展的要求就会被历史无情地淘汰。汉字几千年来历经磨砺,能经受外来文化的不断冲撞和考验,尤其是梵文的冲击,一直兼收并蓄自成体系,文字理论理应以自己为主,中华子孙完全不应该妄自菲薄。
2200多年前秦始皇征服六国,秦朝一统天下虽然生存了只不过十五年时间,为什么短期内就能够统一文字?主要是有两个方面的原因:一是因为各国原来使用的都是源于商朝甲骨文和金文的形义文字,并且已经具备了深厚的华夏文化底蕴,这是基础,在大一统的体制下才能够顺利完成文字统一;二是社会文化发展的必然要求,在甲骨文中,一个“子”字就有19种不同的形态,一个“合”字也有10种不同的形态[7],经过一千几百年的发展,尤其是历经了五百多年的春秋战国时期,字形更加五花八门,统一文字是大势所趋,也是当时的人心所向。
秦代以后的汉字文化,经历过外来文化很大的补充和丰富,古代主要是佛教文化的溶入,近现代则是西方先进科学技术文化的充实。汉字文化一直能够博采众长蓬勃发展,自有其深刻的道理,后文将陆续揭示。
四、造字
文字的产生是基于人类的逻辑思维,任何一个概念都应该有比较清楚的内涵和外延。创造单字用来指称自然现象,在字义上汉字和英文没有区别,只是形和音不同,例如,日sun,月moon,树tree。
但是,在汉字里,字是基本表意单位,造字就是创造基本表意单位。尽管有的汉字在漫长的使用过程中,被赋予了几层意思,即多义,但是,进入词句后相关概念立刻就会被锁定,并没有改变字是基本表意单位这一根本性质。
在基本表意单位这个层面,汉字经过几千年的积累,逐渐形成了强大的义基,并因此具有其它文字无法比拟的优势。在这方面,英文与汉字不同,英文只有形态的基本单位morpheme,它是指单词里有意义的最小符号单位[8],有一种观点称它为词素,另有一种观点称它为语素。总的来说,英文没有、也不可能有庞大的基本表意单位。这是音意文字的先天条件不足即音节数量有限决定了的。
甲骨文初创于象形,古人总结的六书:象形、指事、会意、形声、假借、转注,囊括了所有汉字的造字方法。这些方法的共同点,主要就是用线条构造一些视觉图形来代表事物,用特定的形态来表达意义。例如“山,水,明”。
对六书的理解在本质上都需要意会,明白这一点很重要,初学时就不必拘泥于细分汉字的来源。即使如“人、大”这样典型的象形字,人立正后稍息——叉开双腿就是个“人”字,再伸开双手就是个“大”字,也要意会(尽管古时候的解释跟这不同)。再如,所谓的指事字“上”和“下”,认真意会了“通横的上或下”各有物体,“上、下”二字也就认识了。每一个懵懂少年最初认识汉字时,首先都要学会解决意会的问题。
现代汉字体系中的大多数汉字,是由偏旁部首和造该字之前就已存在的字拼构而成的所谓形声字,因而比较容易分类和理解它们的意义。例如,河、湖、洪、港、湾。左边的偏旁水是共性,右边的所谓声旁部分被看成“个性”,共性加“个性”就能够表示不同的概念。尽管“声旁部分”的说法有点牵强,但有助于人们对新字的理解或意会。形声字中的偏旁一般是该字的本质,另一部分实际上是挪用的一个原声壳。例如:湖,属水,字义是指陆地上围着的大片水域,左边的“三点水”是概念的主要部分。这里右边挪用的“胡”,只是利用原形和原音,以便与其它同类字相区别。“湖”的意义相对于“胡”是新概念。
更进一步比较:胡,属肉,字义在古代是指兽类下巴后方下垂的肉,右边的“月”是概念的主要部分。这里左边挪来的“古”,也只是利用原形和拟音,以便与其它同类字相区别。“胡”的意义相对于“古”曾经也是新概念。
几千年来,汉字不断推陈出新,从而适应、满足着社会文化发展的要求。
二十世纪甲骨文出土后,总共收藏了大约14万片,单字总数约4500个,目前可认者约1700字。1985年容庚的《金文编》修订第四版,采用的铭文数是3902件,收单字总数 3772个,可识的2420字收入正文,未确定的1352字编在附录。[9]
东汉许慎的《说文解字》共收字9353个。曹魏时李登的《声类》收字11520个。南梁顾野王的《玉篇》收字22721个。唐朝时颜真卿的《韵海镜源》收字26911个。宋朝时丁度等所著的《集韵》收字53525个。清朝张玉书等所著的《康熙字典》收字47035个。当代《汉语大字典》第一版收字54678个。[10]
根据早些年编的《甲骨文字典》统计,已经破解的有1628个不同的字形。根据笔者粗略统计,如果减去同义不同形的763个,实际上只有885个字意义不同,其中传承下来进入现代常用汉字的有622个,而且只有60个左右大致是当初的样子。
以上数据可以说明,在汉字文化发展漫长的历史长河里,真可谓大浪淘沙,真正历久弥新、鲜活到今天,能够经常在大众眼前出现的几千个汉字都是“金子”。
尽管近现代科学技术快速发展,相对来说,新造的字却很少。比如,《元素周期表》中的元素名称大部分都是近代创造的,其它的则很少看见,造字早已不再是一般汉字使用者的事情。
2015年出版的第二版《汉语大字典》收录了85568个汉字,其中绝大多数字都已经被边缘化了,或者说大多数人并不认识它们。就连一本八千多头字的第11版《新华字典》,里面有一半的字,当今多数人并不认识。当然,这里所说的认识,是指在不查字典的情况下,看到一个字的形,就能读出它的音,并能大概说出它的义。
根据《现代汉语常用字频度表》中的说明,认识前1000字,就能认识一般文章中91.92%的汉字;认识前2000字,就能认识一般文章中98.39%的汉字;认识前3000字,就能认识一般文章中99.63%的汉字。现代日语中也有1945个常用汉字。由此可见,常用汉字的表义功能非常强大。
现代汉字最常用的前10个字依次是:的、一、是、了、不、在、有、人、上、这。
音意文字本来就是记录语音的工具,语言中最古老的表意单位都是单音节的,但单音节的数目对人来说,有生理和心理上的局限性,只有把单音节组合起来,构造成多音节,才能表达丰富的概念。多音节的单词是不容易雷同的,只要把听到的单音节和多音节用对应的字母符号按顺序写下来,就可以记录口语,形成音意文字。音意文字实际上是用视觉符号对听觉信号进行转写。[11]
所有古老文字和现代文字都有一至十这10个字。比如,一one,二two,三three,四four,五five,六six,七seven,八eight,九nine,十ten。由此也可以对比一下,汉字读音简洁但注音看不见,而英文读音明了但冗长。
尤其值得称道的是,汉字自甲骨文开始到现在,常用的“一二三四五六七八九十”这十个字,基本上没有颠覆性的变化,只是在演变过程中对“四、七、十”这三个字作了点小的调整。[12]
(上篇完,敬请期待中、下篇。)
