【fwd】聂受立:汉字你知多少?

abloz 2010-03-17
2010-03-17

#

from: http://hi.baidu.com/%BD%F0%C9%DF%BF%F1%CE%E8/blog/item/6a5f41088c5f6a960a7b82d8.html

**
**

一.** 从古老的甲骨文到今天的汉字,汉字一共有多少个呢?** 近年来一直致力于古文字研究的郑州大学博 士生导师王蕴智先生说,他们最新的研究成果表明,商代文字字头已有4100多个,能和今天的字联系起来、仍然“活着”的字有1250多个。中国历来重视编 写出版字书,最早的字书是东汉许慎编撰的《说文解字》,共收汉字9353个,《说文解字》的出现,使汉字书写有了统一的标准和规范。宋代丁度等编纂的《广 韵》,收字达53525个,是古代收汉字最多的字典,清代张玉书奉诏编纂的《康熙字典》,收字达47035个,辛亥革命后,欧阳溥存等编的《中华大字 典》,收入汉字达到48000多个。近年来出版的《汉语大字典》,共收录汉字56000多字,是迄今为止收录汉字最多的字典,堪称当今汉语字典的“世界之 最”


** 二.你知道有多少使用汉字的国家吗?**

除中国使用汉字外,过去使用过或现在仍然在使用汉字的国家有越南、日本、朝鲜、韩国。

越南在公元第一世纪传入汉字。13世纪创造了越南形声字,叫做“字喃”。“字喃”一直与汉字平行使用。19世纪起采用拉丁化新文字。1945年,越南民主共和国成立,用新文字扫除文盲。随着扫盲工作的开展,新文字在越南普及了。

[ 转自铁血社区 http://bbs.tiexue.net/ ]

日本在公元第三世纪传入汉字。不久,日本把汉字当成记音的字母来记录日本语言。后来又把记音字母的汉字笔画简化,创造出 “假名”。到了第七世纪,就出现了汉字夹用“假名”的日文。现在汉字在日文中,只是当作“定型字”来使用,如果有写不出的汉字,也可以直接写假名。一般的 日本人使用的日文,是以假名为主,夹用一部分汉字。汉字曾被限制在1850个,叫做“当用汉字”,另有92个汉字,作为“人名特用字”。1981年3月, 日本国语审议会向文部省申报了所拟订的《常用汉字表》,共有1945字,代替了《当用汉字表》,并于1981年10月公布施行。

朝鲜在公元第二世纪传入汉字,使用汉字约有一千七八百年。1444年,朝鲜颁布推行《训民正音》(李朝世宗皇帝颁布朝鲜 拼音文字时使用的名称),采用汉字笔画式字母,叫“正音字”(即谚文),夹在汉字中间使用。1948年,朝鲜民主主义人民共和国成立,废除了汉字,采用纯 谚文的拼音文字。它的书写单位为字母拼成的方块形式音节。

韩国现在还在使用汉字和韩字(即谚文)的混合体文字,文教部曾经颁布过供大中学校使用的1800个“新订通用汉字”和供一般文字生活使用的1300个“常用汉字”。民间往来的书面语,则因人而异,或用混合体文字,或用纯拼音文字(韩字)。


三.你知道计算机世界的汉字有多少? 最近在互联网上引起的简繁体字之争,引起了IT人对汉字的兴趣。如果从IT人角度来看看这些有趣的方块字,你会发现计算机世界的汉字,比现实中的简繁体还要复杂百倍。

甚么是GB 2312?
GB 2312(或GB 2312-80)是由中国国家标准总局发布的一个中国国家标准的简体汉字字符集,并从1981年5月1日开始实施。全名为《信息交换用汉字编码字符集‧基本集》,又称为GB0。

GB 2312标准共收录6763个汉字,其中一级汉字3755个,二级汉字3008个;同时,GB 2312也收录了682其它字母。GB 2312基本上已可应付计算机处理汉字的需要,覆盖99.75%的使用频率。

甚么是GBK?
基于GB 2312不能处理一些人名、古汉语等罕用字,后来出现了GBK及GB 18030汉字字符集。GBK(Chinese Internal Code Specification)全名为汉字内码扩展规范。

在1993年,Unicode 1.1版本面市,收录了中国、台湾、日本及韩国通用字符集的汉字,总共有2万902个。中文计算机开发商,于是利用了GB 2312未用的编码空间,收录了所有出现在Unicode 1.1及GB 13000.1-93之中的汉字,制定了GBK编码。

根据西方资料,GBK最初是由微软对GB2312的扩展,最初出现于Windows 95简体中文版中,由于Windows在中国广泛被使用,中国国家有关部门将其作为技术规范,但并非中国国家正式标准。

甚么是BIG5?
Big5,又称为大五码或五大码,是使用繁体中文社群中最常用的计算机汉字字符集标准,共收录1万3053个汉字,其中有2字为重复编码。Big5是在 1984年由台湾信息工业策进会和5家(宏碁、神通、佳佳、零壹及大众)共同推动中文计算机文化的公司所共同创立,故称五大码或大五码。

**甚么是GB 18030?
** 中国政府为了解决邮政,户籍整理等领域用字的迫切需要,于2000年实行了一个新的汉字编码的国家标准《汉字编码字符集-基本集的扩充》GB 18030-2000,共收录汉字2万7484个,并强制所有在中国售卖的计算机产品,必须支持这个新的国家标准。

甚么是Unicode?
Unicode(统一码、万国码、单一码)是一种由国际组织设计在计算机上使用的字符编码,能容纳全世界语言文字的编码方案,还可满足跨语言、跨平台进行 文本转换、处理的要求。1990年开始研发,1994年正式公布。最新版本的Unicode是2005年3月31日推出的Unicode 4.1.0。另外,5.0Beta版已于2005年12月12日推出,供会员测试评价至今年5月9日为止。

甚么是UTF?
UTF是Unicode Translation Format的简称,是为了在不同的系统平台上转换Unicode格式,常见的有:UTF-8、UTF-7、UTF-16、UTF-32等。

聂受立 2007.10.25


如非注明转载, 均为原创. 本站遵循知识共享CC协议,转载请注明来源