中日韩统一表意文字
中日韩统一表意文字(英语:CJK Unified Ideographs),也称统汉字(Unihan),目的是要把分别来自中文、日文、韩文、越文中,本质相同、形状一样或稍异的表意文字(主要为汉字,但也有仿汉字如方块壮字、日本国字、韩国独有汉字、越南的喃字)于ISO 10646及Unicode标准内赋予相同编码。越南文后来加入此计划,所以亦有 CJKV (中日韩越统一表意文字)的称呼。Unicode亦开始收录越汉字——喃字。 [b]版本[/b][table][tr][td]ISO 10646 版本[/td][td]Unicode 版本[/td][td]新增[/td][td]置放平面[/td][td]字数[/td][td]累计字数[/td][/tr][tr][td=1,2]1993[/td][td=1,2]1.0[/td][td]中日韩统一表意文字[/td][td]基本多文种平面(BMP, Basic Multilingual Plane)[/td][td]20,902[/td][td=1,2]20,914[/td][/tr][tr][td]位于“相容表意文字区”中但实则独一的汉字(U+FA0E, U+FA0F, U+FA11, U+FA13, U+FA14, U+FA1F, U+FA21, U+FA23, U+FA24, U+FA27, U+FA28 及 U+FA29)[1]
[/td][td]基本多文种平面[/td][td]12[/td][/tr][tr][td]2000[/td][td]3.0[/td][td]中日韩统一表意文字扩展A区[/td][td]基本多文种平面[/td][td]6,582[/td][td]27,496[/td][/tr][tr][td]2001[/td][td]3.1[/td][td]中日韩统一表意文字扩展B区[/td][td]第二辅助平面(SIP, Supplementary Ideographic Plane)[/td][td]42,711[/td][td]70,207[/td][/tr][tr][td]2003第一修订版[/td][td]4.1[/td][td]HKSCS-2004 和 GB 18030-2000 中仍未加入 ISO 10646 的汉字(分别为 U+9FA6-U+9FB3, U+9FB4-U+9FBB)[/td][td]基本多文种平面[/td][td]22[/td][td]70,229[/td][/tr][tr][td]2003第四修订版[/td][td]5.1[/td][td]7个日语汉字(U+9FBC-U+9FC2),U+4039 拆分为 U+4039 和 U+9FC3[/td][td]基本多文种平面[/td][td]8[/td][td]70,237[/td][/tr][tr][td=1,2]2003第五修订版[2](预计)[/td][td=1,2]5.2(预计)[/td][td]中日韩统一表意文字扩展C区[/td][td]第二辅助平面(预计)[/td][td]4,149[/td][td=1,2]74,388[/td][/tr][/table] [b]历史[/b]
于1990年代初ISO 10646制订时,来自台湾的代表提出相同形式的中日韩汉字给以统一编码(Unify, ISO术语称为认同),可以大量节省编码空间,获其他代表接纳。 [b]字源[/b]
最初期的统一汉字(20,902字)字源来自以下字集:
中国大陆的G源 G0:GB 2312-80:6,763字
[list][*]G1:GB 12345-90:2,352字(含58个香港字和92个吏读字,不包括和GB 2312重复的字)[*]G3:GB 7589-87 繁体字:7,237字[*]G5:GB 7590-87 繁体字:7,039字[*]G7:现代汉语通用字表:642(G0, 1, 3, 5, 8未包括的字)[*]G8:GB 8565-89:290字(G0, 1, 3, 5未包括的字)[/list]
台湾的T源 T1:CNS 11643-1986 第一字面:5,401+9字(含9个计量用汉字)
[list][*]T2:CNS 11643-1986 第二字面:7,650字[*]TE:CNS 11643-1986 第十四字面:6,319+239+10(含239个CCCII特字和10个XCCS特字[/list]
日本的J源
[list][*]J0:JIS X 0208-90:6,335+1字[*]J1:JIS X 0212-90:5,801字[/list]
韩国的K源
[list][*]K0:KS C 5601-87:4,888字(含268个重见字)[*]K1:KS C 5657-91:2,856字[/list]
以上的来源字集会实施[b]字源分离原则[/b]。
另外还有:EACC的ANSI Z39.64-1989、Big5、CCCII第一面、GB 12052-89、JEF、中国大陆电报码、台湾电报码、Xerox Chinese等字集来源。 [b]扩展A区[/b]
扩展A区包含有6,582个新的汉字,位置在 U+3400—U+4DB5。这6千多个汉字分别从以下字典或字集中取得:
中国大陆
[list][*]GE:GB 16500-95[*]GS:新加坡汉字[/list]
台湾
[list][*]T3:CNS 11643-1992 第三字面(原本为CNS 11643-1986第十四字面)新加入字符[*]T4:CNS 11643-1992 第四字面[*]T5:CNS 11643-1992 第五字面[*]T6:CNS 11643-1992 第六字面[*]T7:CNS 11643-1992 第七字面[*]TF:CNS 11643-1992 第十五字面[/list]
日本
[list][*]JA: Unified Japanese IT Vendors Contemporary Ideographs, 1993[/list]
韩国
[list][*]K2:PKS C 5700-1:1994[*]K3:PKS C 5700-2:1994[/list]
越南
[list][*]V0:TCVN 5773:1993[*]V1:TCVN 6056:1995[/list] [b]扩展B区[/b]
扩展B区包含有42,711个新的汉字,位置在 U+20000—U+2A6D6。根据IRG N777号文件,这四万多个汉字分别从以下字典或字集中取得:
[list][*]《康熙字典》中出现的18,486个未收录汉字(包括一个在补遗篇出现的汉字);[*]《汉语大字典》中出现的28,914个未收录汉字;[*]《辞源》中出现的66个未收录汉字;[*]《辞海》中出现的247个未收录汉字;[*]《汉语大词典》中出现的553个未收录汉字;[*]《中国大百科全书》中出现的86个未收录汉字;[*]北大方正排版系统中出现的65个未收录汉字;[*]《四库全书》中出现的522个未收录汉字;[*]香港增补字符集中出现的1,081个未收录汉字;[*]日本工业标准的JIS X 0213第3平面及第4平面的302个未收录汉字;[*]韩国 PKS 5700-3:1998 中出现的166个未收录汉字;[*]北朝鲜 KPS 9566-97 和 KPS 10721-2000 国家标准所收录的5,642个汉字;[*]台湾 CNS 11643 的第4至7和15平面所收录的30,177个汉字;[*]越南 TCVN、VHN 01:1998 和 VHN 02:1998 所收录的4,232个字喃;[/list]
这堆汉字中重复的汉字有不少,所以经过整理之后,实际总数只有42,711个汉字。
另外,在 U+2F800—U+2FA1D 的位置,放了542个来自台湾的兼容汉字。 [b]Unicode 4.1汉字[/b]
为使 Unicode 向下兼容 GB 18030 和香港增补字符集(HKSCS)的所有汉字,而扩展C区又迟迟未能出笼,在 Unicode 4.1 版中引进了14个香港增补字符集的用字和8个 GB 18030 用字。该22字被编于 U+9FA6—U+9FBB 的位置。
另外,在 U+FA70—U+FAD9 的位置,放了106个来自北朝鲜的兼容汉字。
[b]Unicode 5.1汉字[/b]
在2008年4月推出的 Unicode 5.1 版本,收录7个由日本 Adobe 公司递交的个日语汉字(U+9FBC-U+9FC2)[2],和目字旁加㚒(大字加两个入字,就如陕西省的陝字换上目字旁)的字 U+9FC3。本来 Unicode 3.0 收录了目字旁加夾(大字加两个人字)字的“䀹”(U+4039),目字旁加㚒字的字,与“䀹”无论在意义和发音均不相同,故 Andrew West 和 John Jenkins 申请追加此字[3]。
[b]扩展C区[/b]
按计划,中日韩统一表意文字扩展C区将收录4,149个汉字,包括来自中国大陆、澳门、台湾、日本、越南等尚未被编码的汉字。这些汉字预计会收录在下一版的 Unicode 版本中,位置在 U+2A6E0—U+2B734。根据IRG N1266号文件(另见 N3270),这四千多个汉字分别从以下字典或字集中取得:
中国大陆
[list][*]《中国大百科全书》[*]北大方正排版系统[*]《汉语大字典》[*]《汉语大词典》[*]《古代汉语词典》[*]商务印书馆用字[*]《现代汉语词典》[*]《辞海》[*]《康熙字典》及补遗[*]中国测绘科学研究院用字[*]《汉语方言大辞典》[*]殷周金文集成引得[/list]
澳门
[list][*]澳门资讯系统字集[/list]
台湾
[list][*]CNS 11643-1992 第12字面[*]CNS 11643-1992 第13字面[*]CNS 11643-1992 第14字面[/list]
日本
[list][*]日本国字集(Japanese KOKUJI Collection)[/list]
韩国
[list][*]韩国 IRG 汉字集第5版(Korean IRG Hanja Character Set 5th Edition: 2001)[/list]
北朝鲜
[list][*]KPS 10721:2003[/list]
越南
[list][*]喃字词典(Từ điển chữ Nôm), 阮光红(Nguyễn Quang Hồng), 2006[*]Từ điển chữ Nôm Tày, Hoàng Triều Ân, 2003[*]Bảng tra chữ Nôm miền Nam, Vũ Văn Kính, 1994[/list]
UTC来源
[list][*]ABC Chinese-English Dictionary, John DeFrancis(德范克), et al., eds., 2nd edition. (1998) Honolulu: University of Hawaii Press[*]耶稣基督后期圣徒教会香港分会用字[*]Mathews' Chinese-English Dictionary, Robert H. Mathews (1975) Cambridge; Harvard University Press[*]宋本《广韵》[*]《中国鸟类系统检索》,郑作新等(2000),北京,科学出版社[*]段玉裁《说文解字注》[/list] [b]字源分离原则[/b]
字源分离原则(Source Separation Rule)是整理中日韩统一表意文字的基础。
由于CJK各地字型多有微妙的差异,如“户”字的第一笔,台湾作撇“戶”、香港及中国大陆作点“户”、日本作横“戸”,这种程度的差异,理想上是整并为一个字为佳。然而,从之前各种受挫之文字整并计划的经验得知,整合字集与现行通用字集(Big5或国标码)等无法一一对应,是推行整合字集的最大阻碍。
例如,日本的JIS标准同时收录了“剣”字与“劍”字,原本JIS文件里这两个字可以并存,但采用整合字集后反而变成同一个字,会造成使用上的困扰。而且,如果将多个不同地区字形合并会影响阅读者,令使用者不习惯并非以往所见字至;更有可能引致阅读者因习惯而书写不属于自己地区的字形(或地区性的异体字)、学习错误的字形。于是,字源分离原则因而诞生。
而在不同地区而有不同写法的部首,如“⻌(中)、⻍(港台旧字体)、辶(港台)”、“⺾(新字体)、卝䒑(旧字体)”、“⺥(中)、爫(港台)”等就会交由字体处理,例如使用依中国汉字标准《印刷通用汉字字形表》的字体下(如中易宋体、微软雅黑体)便会出现“⻌、⺥”;使用港台字体标准字体下(如微软正黑体,但非旧版细明体)就会出现“辶、爫”等字形。大大解决了因地区而异之部首写法。
字源分离原则是指,在上述所列出之各种字源里,若有任何字集同时收了两种以上的文字字形,则在Unicode中日韩统一表意文字中,也同时收录这些字。这样一来,现行的各种原有字集与Unicode汉字可以一一对应。
由于Unicode中日韩统一表意文字的主要诉求,就是能大幅减少Unicode收录汉字字数,同时尊重各地的习惯字形。但字源分离原则则破坏了“只对字,而不对字形”编码之原则,亦遭受不少批评。 长知识了.
页:
[1]