女书字符集与ISO/UCS国际编码

 

清华大学  赵丽明 

 

女书是很久以来流传在湖南江永县东北部上江圩镇,以及毗邻的道县田广洞村等潇水流域村落的一种妇女专用文字。女书是目前世界上唯一的一套系统的女性专用文字。在当地“一语二文”,男人用男字(方块汉字),女人用女字。

女书字符为斜体,是方块汉字在传播中的一种变异形态。女书是一种音符字音节表音文字,既区别于日本假名字母音节文字,也区别于汉字的语素音节文字。经过我们穷尽性统计比较,女书用不到四百个字符,就可以基本完整记录当地汉语湘南方言土话,是一套成熟的汉语方言文字。客观上是汉字系文字由表意向表音的演变历程链条中的一个环节,具有重要的文字学、语言学、人类学、文学、民族学、民俗学等价值。目前女书进入后女书时代。

所谓编码,是以固定的顺序排列字符,并以此做为记录、存贮、传递、交换的统一内部特征,这个字符排列顺序被称为“编码”。字符编码是字库组织的依据,也是文字信息处理的基础。ISO/ UCS是国际标准ISO/IEC 10646通用字符集《信息技术 通用多八位编码字符集》(Universal Character Set) (国家标准编号是GB 13000)的简称。 

    ISO/IEC 10646标准由国际标准化组织ISO颁布,用来实现全球所有文种的统一编码。该标准被广泛应用于电子化地表示、传输、交换、处理、储存、输入及显现世界上各种语言的书面形式以及附加符号。国际标准 ISO/IEC 10646 定义了通用字符集 (Universal Character SetUCS),是所有其他字符集标准的一个超集。 

成立于19844月的ISO/IEC JTC1/SC2/WG2是字符编码的国际标准化组织。由来自世界各国的语言学家和信息技术专家组成的这个工作组,针对各国文字、符号进行ISO/ UCS统一性编码工作的具体指导、严格审订。ISO/IEC 10646力图对全世界所有文字统一编码,解决多文种统一处理的问题。

最基本的中文信息技术的国际标准化工作,主要包括中文(含中国各少数民族文字和古文字)编码字符集、中文字型标准化等内容。目前我国参与并在中文方面居于主导地位的国际标准有ISO/IEC 10646《信息技术通用多八位编码字符集(UCS)》。

自上世纪90年代以来,中国政府有关部门在汉字国际化标准化同时,十分重视中国少数民族、古文字等国内的编码字符集研制工作。此项工作旨在国际标准化领域维护我国少数民族权益,树立起我国尊重并积极维护少数民族权益的国际形象,并在国内增进了各民族间的感情,加强民族团结,维护国家统一。少数民族文字信息处理标准化及检测系统的建设具有重大经济效益的社会效益。与其他项目相比,政治意义大于经济利益,对国家统一、民族团结、边疆稳定具有特殊作用。

目前国际标准ISO/IEC 10646中的我国少数民族文字已经有:朝鲜文(~1993)、蒙古文(包括满文、锡伯文、托忒文和阿礼嘎礼文1998)、维吾尔、哈萨克、柯尔克孜文(阿拉伯文系统)(1980s~)、汉字注音(1980s~)、藏文(1997)、彝文(包括音节和部首,1998)、傣文(包括德宏傣文和西双版纳傣文2003)、国际音标补充(2003)八思巴文(2005)、维吾尔文用的拉丁拼写字符(2005)等。

2008年4月第52次会议为例,中国多种字符国际编码方案有:IRG(汉字编码工作组)、CJK统一汉字及扩充、西双版纳老傣文(Tai Tham)编码方案将第二轮投票、西双版纳新傣文(New Tai Lue)编码方案修订、古代维吾尔文(Old Turkic)编码方案进入投票、老傈僳文(Lisu)编码方案进入投票、女书(Nushu)编码方案进入投票、西夏文(Tangut)编码方案进入投票、传统彝文编码方案草案提交。其他还有老苗文、东巴文、哥巴文等。

至于ISO/UCS女书国际编码,是在前期文献整理与研究工作基础上,国家信息产业部电子工业标准化研究所、中国社科院语言所、清华大学计算机学院、清华大学中文系以及中国女书研究会、江永地方政府共同努力下,研制撰写提交女书ISO/UCS国际编码提案Proposal for encoding Nüshu in the SMP of the UCS(包括补充提案),在2007年9月ISO/IEC JTC1/SC2 /WG2#51会议经过严谨苛刻的讨论、答辩,取得评委们的认可肯定、支持,取得初步成果(还需要补充与美国人写的书映射等)。并于20084ISO/IEC JTC1/SC2 /WG2#52会议决议女书修订提案正式被接受,并进入投票阶段。提案这么快被接受进入投票,被专家称之“神速”,在UCS申请历史上是比较罕见的。

其实,早在2001年国际标准ISO/IEC 10646工作组已经在该标准框架中为女书预留了编码空间。而且后来我们在会议上得知,美国已出版有关专著,这本书已经整理出490个女书单字。就是说,如果我们不及时提出申请提案,很可能会被外国人提出。由于实际情况的掌握以及文献所限,很可能提案有较大出入,但如果我们仅仅作为修订质疑者,会造成很大被动。因此,我们很庆幸及时主动提交提案。这里有个文化主权问题。中国文字由外国人提出,我们只能质疑、修订,附议、同意。这方面我们是有过教训的。

我们更加庆幸的是,我们前期做了大量扎实艰苦的文字基本情况研究与资料准备工作。包括对特定文种的使用情况调查、字形(glyph)、字音、字义的确认、分类、甄别、选择,以及信息处理所需的字型(font)的研制等工作。同时,我们基于清华大学的科技背景,进行了编码方案研制。包括对国际标准ISO/IEC 10646编码规则的研究、特定文种依此规则的编码方案研究与可实现性的实际验证。当然,女书字符集与ISO/UCS国际编码还需要不断完善,进一步研究解决异体字、女书电子词典等问题。

近三年来女书研究相关成果有:《中国女书合集》(五卷本) 中华书局 2005;《女书用字比较》 知识产权出版社 2006;《中国女书》多媒体光盘清华与浸会大学合作20071(以上已被美国国会图书馆收藏);《女书读本》湖南人民出版社出版2008乡土教材(配合当地传承文化遗产)等。近三年以来的相关论文有《女书基本字与字源考》2004中国社科院女书国际研讨会发表,刊《女书用字比较》知识产权出版社2006 ;《女书文本文献的抢救与整理》2004中国历史文献年会发表,刊《历史文献研究》2005;《<女书用字比较>的学术价值》2004中国社科院女书国际研讨会发表,刊《女书的历史与现状――解析女书的新视点》中国社会科学出版社2005;《女书文字孤岛现象简析》2004中国社会语言学国际研讨会发表,刊《中国社会语言学》(澳门)20051期;《东方女权抗争的女书模式-兼与自梳女、惠安女的比较研究》,刊《中国女性的过去、现在与未来》北京大学出版社2005;《太平天国女书铜币考》刊《语言理论与实践》商务印书馆2005;《失传与失真——从女书的濒危与重生看文化遗产的保护与传承》刊《社会科学报》2007第六期,人民大学书报资料中心D423《妇女研究》20075全文转载。

20多年来,我们从原始资料的发掘、田野调查、资料收集、抢救解读、整理研究,到穷尽性统计比较,乃至“字位”理论的建树、实现ISO/UCS国际编码、文化遗产保护等,经过、实践了全部学术过程。清华掌握的女书资料占全部90%以上,并取得一批严谨的成果(部分被美国国会图书馆收藏),如《中国女书集成》(1992,收430篇)→《中国女书合集》(2005,收640) →《女书用字比较》(2006,22万字五列逐字统计比较)→《女书基本字与字源考》(2004、2006、2008)→女书ISO/UCS国际编码、女书电子词典等数字化建设(2007、2008),逐步深入,水到渠成。

女书是你们清华的一个学术品牌。”“你们做了非常有意义的重要工作。” 我们经常受到中国社科院侯精一、黄雪贞、张振兴、李蓝、聂鸿音等专家的支持、鼓励。

感谢清华学生对女书的贡献。你们的工作可以作为其他文种国际编码的借鉴和示范。” 

ISO/IEC JTC 1/SC 2/WG 2/IRG评委、美国加州伯克利大学语言学家Deborah Anderson予以充分肯定。

我在中文标准化方面工作了十几年,接触了很多内地的学者。您所提供的关于女书标准化的资料是所有中文标准化的提案里最全面的,也是最‘神速’的。” ISO/IEC JTC 1/SC 2/WG 2/IRG评委、汉字编码召集人、香港理工大学计算机系副系主任陆勤博士更鼓励我们继续做好女书编码工作。

在近日召开的中国民族古文字学术研讨会上,中国女书研究会介绍了关于女书字符集与ISO/UCS国际编码在短时间内得到认可,进入投票阶段的经验,提出中国丰富的民族古文字资源要在国际规范下操作,科学整理,主动提交申报提案,保护文化主权。

另外,在这次会上还发表了清华大学SRT水书小组完成的清华大学馆藏10本水书解读(四行,50万字)与初步研究成果(12篇论文与调查报告,近20万字)。

 



2008年10月23日

 

参见《汉字文化圈中表意至表音的文字链—东亚三种女性文字的启示》《计算机时代的汉语与汉字研究》罗振声 袁毓林主编,清华大学出版社,1996

 


更多相关图文:

1. 社科报动态:女书申请国际编码

2. 国际编码女书最后定本


地址:北京市海淀区清华大学清华园胜因院26号电话:010-62799509邮箱:924405036@qq.com