【作者】冯志伟

作者介绍:冯志伟教授,中国语文现代化学会副会长,现在国家教育部语言文字应用研究所工作。


  我非常赞同米阿仑的文章《加个空格好不好?谈谈词界对中文信息处理的重要性》。他提出了汉语书面语进一步改革的一个重要的问题:加空格表示词界。这是汉语书面语改革的继续和发展,为了适应汉语信息处理的需要,我双手赞成进行这样的改革。

  有的人可能会提出这样的疑问:汉语书面语现有的这种形式,我们用得好好的,为什么要多此一举呢?其实,汉语书面语的形式,在很多年以前并不是现在这样的形式。几十年之前,汉语书面语是竖排右起的,没有使用新式标点符号,也没有使用阿拉伯数字,更没有使用表示阴性第三人称的“她”字。汉语书面语是经过了改革之后,才有了今天这样的面貌的。所以,加空格表示词界,只不过是汉语书面语改革的进一步发展,绝不是标新立异、耸人听闻之说。

  在本文中,我想回顾一下我国书面语形式改革的历史,以便说明,加空格表示词界,实际上正是汉语书面语形式改革的继续,是汉语书面语形式改革的进一步深化。

  我国早在在白话文运动中,对汉语的书面形式也进行了改革,主要是:中文横排的确立,新式标点符号的运用,阿拉伯数字的采用,“她”字的创造。

1.中文横排的确立:汉语书面语本来是右起竖排的,这样的书写格式使用了几千年。1892年出版的卢戆章的《一目了然初阶》一书中,开始使用横排,有55篇横刻的汉字与切音字的对照读物。1904年出版的严复写的《英文汉诂》是中国第一本完全横排的书,而且从左起横排,开横排风气之先。接着,1906年出版的朱文熊的《江苏新字母》一书,也是全部采用横排,该书“文字自左横读至右”。1915年1月,留美学生组织的中国科学社在上海创刊《科学》杂志采用横排,“以便插写算学物理及化学诸方式”。

  当时提出左起横排的理由,主要有如下几点:

○ 汉字没有自右而左书写的字,所有的汉字都是从左边开始书写的,左起横排跟汉字的书写方向正好一致。
○ 科学书籍中的公式都是左起横排的,左起横排跟数理化的公式书写方式一致。
○ 如果中文的文章中引用外国的人名、地名,外国人名、地名也都是左起横排的,如果右起竖排,排印和阅读都不方便。

  1917年,钱玄同在《新青年》第三卷第三期上著文指出:“人目系左右相并,而非上下相重,试立室中,横视左右,颇为省力,若纵视上下,则一俯一仰,颇为费力。以此例彼,知看横行易于直行。且右手写字,必自左至右,均无论汉文、西文,一字笔势,罕有自右至左者。然则汉文右行,其法实拙。若从西文写法,自左至右,横迤而出,则无一不便”。他进一步从理论上论述了横排的优点。1919年11月出版的《新青年》第六卷第六期上开了“中文改用横行的讨论”专栏,进一步申述左起横排的优点。有人说,如果中文的排印“自右而左,所以写到第二行的时候,手腕就碰到第一行;要是遇到不容易吸墨的纸,都要印到手腕上了”,如果改为自左而右书写,“则可免此病”。有人根据生理学的基本原理,具体分析了人体眼球的构造以及阅读时眼球运动的情况,指出眼睛“左右容易看,上下看困难”,因此断定“横读容易,直读困难”。

  五四运动以后有一个时期,很多书刊都采用横排。例如,“创造社”的文艺作品,鲁迅的《两地书》,大部分科学著作和进步的社会科学书籍,还有一些的剧本和诗集,都采用左起横排。但后来由于国粹势力的抬头,指责横排“大逆不道”,是像螃蟹一样横行的“蟹行文字”,直排又卷土重来,甚嚣尘上。横排的推行步履维艰。

  新中国建立后,1950年4月,曹伯韩发表了《我们主张采用横排的版式》的文章,提倡横排。1952年2月5日在中国文字改革研究委员会的成立大会上,郭沫若提出了中文“必须自左而右地横行”的建议,他说:“就生理现象说,眼睛的视界横看比直看要宽得多。根据实验,眼睛直着向上能看到55度,向下能看到65度,共120度。横看向外能看到90度,向内能看到60度,两眼相加就是300度;除去里面的50度是重复的以外,可看到250度。横的视野比直着宽一倍以上。这样可以知道,文字横行是能减少目力的损耗的。”由于学者们的提倡和政府的支持,横排的推行有了进一步的发展。据统计,1954年第三季度,全国出版的书籍共2603种,其中横排1193种,竖排1410种,几乎是平分秋色。1955年元旦,《光明日报》改为横排出版,在《为本报改为横排告读者》中说:“我们认为现代中国报刊书籍的排版方式,应该跟着现代文化的发展和它的需要而改变,应该跟着人们生活习惯的改变而改变。中国文字的横排横写,是发展趋势。”1955年10月,教育部和中国文字改革委员会在北京召开的全国文字改革会议上作出决议:“建议中华人民共和国文化部和有关部门进一步推广报纸、杂志、图书的横排。建议国家机关、部队、学校、人民团体推广公文函件的横排横写”。这样,从1956年1月1日开始,我国的《人民日报》和地方报纸一律改为横排。此后,除了古籍之外,各种出版物都改成了横排。

2.新式标点符号的运用:早在甲骨文时代,我国就有了标点符号的萌芽。甲骨文中采用两个短横作为重文符号和合文符号,可以说是我国最古的标点符号。可是,大多数的文章没有标点,称为“白文”,阅读起来十分困难。汉代开始使用“句读”,语意已完的叫做“句”,语气未完而须停顿的叫做“读”,“句”和“读”分别用圈号和点号来表示,称之为旧式标点。由于旧式标点不完备,古书读起来虽较之“白文”容易一些,但仍然是很困难的,在读古书时,如何断句成为一种特殊的技术。在《古文断句口诀》中说:“古文断句莫畏难,熟读精思是关键”,“章法结构全理解,方可断句加标点”。由此可见句读之困难。随着白话文运动的开展,文章和句子越来越复杂,旧式标点已显得不够用,因此,有些学者开始创造新的标点符号,以补充旧式标点之不足,其形状是光怪陆离、多种多样的,难以掌握,因此,有的学者主张采用西方的标点符号。

  1904年出版的《英文汉诂》(严复著)首先使用西方的标点符号,这是我国最早使用西方标点符号的汉语著作。1918年,陈望道在《教育潮》杂志上发表《标点之革新》一文,介绍西方的10种标点符号,他反对自行创造新的标点,他说:“造之者一人,而欲人之从之者万人。苟非无可易者,其事最为难能。势将或为寂无影响,或致异说纷纭而已。数年以来,音标问题异形百出,定之如何其艰,盖即此理。”因此,他主张,“制定新式,不如采用西制”,“余则从旁取西标者”。他认为,采用西式标点“既系从众,为一部分国民之所习惯,而其形有定,定约成俗,又最简捷,必不致如事创造者之异形百出,转以利民众者而困民众也”,同时,他还说,西式标点“便于书写,美于观览”,“万国通行”。后来,他又发表《新式标点的用法》,继续宣传新式标点,他说,“西式标点是各个时代造出来的……,不是一时造出来的;是各国(不论英、德、法、意、俄、日)通用的,不是一国专用的”,“就是一种万国通行的记号”。这种采用西式标点的主张,成为了当时的主导思想。也就在1918年,《新青年》从第四卷开始使用新式标点符号。

  1919年国语统一筹备会通过了《请颁行新式标点符号议案》,议案中指出:“本案所主张的标点符号大致是采用西洋最通行的符号,另外斟酌中国文字的需要,变通一二种,并加入一两种。这些符号可总名为‘新式标点符号'。”新式标点符号共12种:句号、点号、分号、冒号、问号、惊叹号、引号、破折号、删节号、夹注号、私名号、书名号。至于中国旧有的一个句号和读号,“本案把这两种符号的用法也仔细分别出来,另叫做‘旧式标点符号'附在后幅,备学者参考采用。”

  这套新式标点符号,于1920年由北洋政府正式颁布。公布的当年,商务印书馆出版《中等学校用白话文范》4册,全部使用新式标点符号。1928年,上海出版了采用新式标点符号的《史纪》《红楼梦》,开古籍新式标点之先河。1933年7月,行政院命令所属部门年内公文要采用标点符号,并颁发《简单标点办法》,在公文中推行新式标点。

  1951年9月26日,中央人民政府出版总署公布了《标点符号用法》,与1920年的《新式标点符号》相比较,增加了顿号和着重号,共14种:句号、逗号、顿号、分号、冒号、问号、感叹号、引号、括号、破折号、省略号、着重号、专名号、书名号。1951年10月5日,中央人民政府政务院下达了《关于学习标点符号用法的指示》,要求各机关、通讯社、出版社、各级学校学习《标点符号用法》,并要求各机关“指定固定的文字秘书,各编辑部指定专职的文字编辑,专司订正一切稿件中文字混乱和标点混乱之责”。

  1990年,国家语言文字工作委员会和新闻出版总署发出《关于修订发布<标点符号用法>的联合通知》,公布了经过修订的《标点符号用法》。新公布的《标点符号用法》中说,“1951年9月,中央人民政府出版总署公布了《标点符号用法》,同年10月政务院下达指示,要求全国遵照使用。十多年来,文字的书写排印已由直行改为横行,标点符号用法也有某些发展变化,因此需要进行修订。”“修订的主要内容主要有以下几方面:原列14种符号,现为16种,增加了连接号和间隔号;简化了说明;更换了例句;针对书写排印改为横行,某些说法也作了相应的改动。”这16种标点符号是:句号、问号、叹号、逗号、顿号、分号、冒号、引号、括号、破折号、省略号、着重号、连接号、间隔号、书名号、专名号。

  这样,新式的标点符号在我国书面出版物中逐渐完善起来。从“白文”到旧式标点,从旧式标点到新式标点,汉语的书面形式越来越便于阅读。

3.阿拉伯数字的采用:我国最早提出在书面语言中使用阿拉伯数字的是朱文熊,他在1906年出版的《江苏新字母》一书中,提出该书的数目字一律用阿拉伯数字如1234567890。1908年,刘孟扬在他的《中国音标字书》中,专列设一个章节《文内带数目字写法》讲述书面语中阿拉伯数字的写法,作出了比较完整的规定。五四运动时期,钱玄同在《新青年》上发表了给陈独秀的一封信,信中提出改革应用文大纲十三件事的第十件,就是改用阿拉伯数字。他说:“数目字可改用‘亚拉伯'码号,用算式写,省‘万'‘千'‘百'‘十'诸字。如说文五百四十部,广韵二百有六韵,注音字母三十有九,可作为540,206,39也。此法既便书写,且醒眉目”。陈独秀公开表示赞同,他在复信中明确表示:“先生所说的应用文改革十三样,弟样样赞成。”但是,由于当时汉语书面语没有实现横排,再加上保守派的强烈反对,阿拉伯数字难以普遍使用。

  自从50年代我国书刊改用横排之后,阿拉伯数字的使用才逐渐推广开来。不过,也有用汉字表示数字的,数字使用十分混乱。1956年,国务院草拟了一个《关于在公文、电报和机关刊物中采用阿拉伯数码的试行办法》,并于10月23日,发出了《关于国家机关的公文、电报和机关刊物横排横写以后采用阿拉伯数码的通知》。同年,有关新闻部门也发出了《报纸横排数字用法的规定》。根据这个规定,《人民日报》等报纸从1957年开始逐步使用阿拉伯数字。1980年,《人民日报》制定了《关于数目字改排阿拉伯数字的规定》,“决定从1980年7月1日起,先将年、月、日、百分比、数目字、科技术语和机器型号的数目字改用阿拉伯数字。”1981年,国务院办公厅又拟定了《国家行政机关公文处理暂行办法》,规定草拟公文时,“公文编号、统计表、计划表、序号、专用术语和其他必须用阿拉伯数码者”,应该使用阿拉伯数字。1982年国家标准总局批准于1982年1月1日实施的《标准化工作导则编号标准的一般规定》中明确指出:“标准中的数值一般应采用阿拉伯数字”,带计量单位的数字,“必须用阿拉伯数字书写”。

  上述关于阿拉伯数字使用的各种规定都只是局限于机关工作、报纸和标准化的部门,但是,从全国出版物的总体情况来看,目前的出版物在涉及数字(如时间、长度、重量、面积、容积和其他量值)时,使用汉字和阿拉伯数字还没有统一的体例,情况比较混乱。为了纠正在出版物中数字使用的混乱现象,进一步普及阿拉伯数字数字的在出版物中的使用,促进语言文字的规范化,1987年1月1日,国家语言文字工作委员会、国家出版局、国家标准局、国家计量局、国务院办公厅秘书局、中宣部新闻局、中宣部出版局等7个单位联合发出通知,公布《关于出版物上数字用法的试行规定》,提倡“凡是可以使用阿拉伯数字而且又很得体的地方,特别是当表示的数目比较精确时,均应使用阿拉伯数字”,还分别规定了应当使用阿拉伯数字数字的两种主要情况和应当使用汉字的两种主要情况,并具体规定:“引文标注中版次、卷次、页码。除古籍应与所据版本一致外,一般均应使用阿拉伯数字”,“横排标题涉及数字时,可以根据版面实际需要和可能灵活处理”,“提倡横排,确需竖排时,文中所涉及的数字除必须保留的阿拉伯数字外,应一律用汉字”,“遇有特殊情况,可以灵活变通”。这个规定正在普遍试用中。

  在汉语书面文本的改革方面,还做了一些字词方面的改进工作,这主要是“她”字的创造。

4.“她”字的创造:英文中的第三人称代词是分阳性、阴性和中性的(he, she, it),翻译为汉语时难以区别。早在五四运动之前,刘半农就提出了创造“她”字的主张,但是这个意见没有公开发表出来,只是跟周作人私下谈过。1918年8月15日《新青年》第5卷第2期发表周作人的翻译小说《改革》,译者在说明中写道:“中国第三人称代名词没有性的分别,很觉不便。半农想造一个‘她'字,和‘他'字并用,这原是极好的。”这样才把刘半农的主张公之于世。1920年,刘半农在英国伦敦写了《她字问题》的文章,明确表示,“把‘她'字假定为第三位的阴性代词”,“第三位除‘她’之外,应当再取一个‘它’字,以代无生物”。他的这些主张引起了热烈的讨论,有人赞成,有人反对,有人提出用“伊”字不用“她”字,有人主张在“他”右下角加一个小号的“女”字来代替“她”,有人主张“他、她、它”应在读音上有所区别。但是,经过实践的考验,最后确定下来的用法是:“他”表示第三人称阳性,“她”表示第三人称阴性,“它”表示无生物,在读音上不区别,以便与语言保持一致。这种用法逐渐推广开来,最后在汉语书面语中得到了承认。其实,“她”字在古代早已有之,最早见于《玉篇》,并非凭空捏造,只不过是刘半农古为今用而已。鲁迅先生对于刘半农在书面语形式改革方面的成绩曾给以高度评价。他在《忆刘半农君》中说:“我已经忘记了怎么和他初次会面,以及他怎么能到了北京。他到北京,恐怕是在《新青年》投稿之后,由蔡孑民先生和陈独秀先生去请来的,到了之后,当然更是《新青年》里的一个战士。他活泼,勇敢,很打了几次大仗。譬如罢,答王敬轩的双簧信,‘她’字和‘它’字的创造,就都是的。这两件,现在看起来,自然琐屑得很,但那是十多年前,单是提倡新式标点,就会有一大群人‘如丧考妣’,恨不得‘食肉寝皮’的时候,所以确实是‘大仗’。现在的二十左右的青年,大约很少有人知道三十年前,单是剪下辫子就会坐牢或杀头的了。然而这曾经是事实。”

  从上所述可以看出,汉语书面语形式的改革是我国语言本体规划的重要方面,上述四个方面的改革已经取得了很好的效果。但是,上述改革都没有考虑到信息时代对语言文字的新要求。面对信息时代的需要,还需要加空格表示词界。

  汉语书面语是不分词的,词与词之间没有空白,而计算机检索、分析和处理中文的书面语,几乎都是要以词为单位的。这种没有词的界线的文本,计算机处理起来,首先就要花很多工夫来分词,找出词与词之间的界线,这往往要花费大量的人力和时间,而效果并不理想。目前计算机逐渐普及,几乎所有在计算机上工作的中国人都要用计算机来处理中文的书面语,分词的花费与日俱增。如果汉语的书面语能够像西方语言的书面语那样分词书写,将给计算机的中文信息处理带来巨大的好处,也将给国家和社会节省巨大的开支。

  词的界限是计算机处理语言的一个非常重要的因素,如果不知道书面文本中单词的界限,所有高层次的信息处理工作(如自动句法分析,自动语义分析)都将寸步难行,因而诸如文献自动检索、机器翻译、自然语言理解等工作都将遇到难以克服的困难。可惜,目前许多人对于这个问题的迫切性和重要性认识不足。虽然词是语言中客观存在的现实,可是,在我国的传统语文学中,字和词的界限一直是不清楚的,某些学者甚至只知道有字而不知道有词,读古书时的句读技能成了一种神秘而高深的学问,除了饱学之士,很少有人能做到百发百中,其原因在于,在我国传统语言学中,始终没有建立起词的概念。只是到了二十世纪初年,在现代语言学的影响下,研究汉语的学者才建立起了词的概念,章士钊在1907年的《中等国文典》中首先指出“律字以为词,规词以成句”,认为词是由字组成的,句子是由词组成的。这是我国语言学发展过程中认识上的一个飞跃。这种认识上的飞跃,促进了我国语言学的发展。可惜,在汉语的书面文本上,语言学中已经建立起来的这种词的概念,并没有在形式上体现出来,这种情况已经远远赶不上中文信息处理的发展的需要。

  在信息技术迅速发展的今天,中文书面语的分词书写,已经是一件刻不容缓的事情了。每一个关心汉语书面语的改革的志士仁人都应当认真考虑这个问题。我们已经采用了左起横排,我们已经采用了新式标点,我们已经采用了阿拉伯数字,我们已经大胆地创造了“她”字,西方语言的书面语的这些长处我们中国人都一个一个地吸收了。为什么我们就不能再进一步,在书面语中实行分词连写,像西方语言的书面语那样,给汉语的书面语以词界标志呢?勇敢地迈出这更加重要的一步,汉语的书面语必定会在信息时代大展宏图。

  目前,中文信息处理界正在研究汉语书面文本的自动分词问题,试图通过计算机来自动地找出汉语书面语中的词界。要进行计算机自动分词,需要在计算机上建立一个完备的、机器可读的汉语词表,并采用最大匹配的算法,把汉语文本中的语言片段同汉语词表中的单词进行匹配,再配合其他的各种切分技巧,就可以把淹没在中文文本中的单词找出来,从而实现计算机自动分词。其中最感困难的问题是歧义切分字段的处理和未登录词(如人名、地名)的识别,目前还没有很有效的解决办法。1995年12月国家科委组织了863智能计算机专题自动分词的评测,

  我被聘请为这个评测组的成员,国内有几个系统参加。开放测试条件下的评测结果并不理想。分词精度最高为89.4%,歧义切分字段处理的正确率最高为78%,未登录词识别的正确率,人名最高为58%,地名最高为65%。1998年3月,国家科委又搞了一次自动分词评测,结果与前一次差不多。这说明,汉字文本的自动分词,离真正的实用还有很大的距离。在这样的情况下,如果汉语的书面语能采用空格来表示词界,实在是功德无量的大好事。