【fwd】聂受立：汉字你知多少? - 瀚海星空

2010-03-17

from： http://hi.baidu.com/%BD%F0%C9%DF%BF%F1%CE%E8/blog/item/6a5f41088c5f6a960a7b82d8.html

**
**

一.** 从古老的甲骨文到今天的汉字，汉字一共有多少个呢？** 近年来一直致力于古文字研究的郑州大学博士生导师王蕴智先生说，他们最新的研究成果表明，商代文字字头已有４１００多个，能和今天的字联系起来、仍然“活着”的字有１２５０多个。中国历来重视编写出版字书，最早的字书是东汉许慎编撰的《说文解字》，共收汉字９３５３个，《说文解字》的出现，使汉字书写有了统一的标准和规范。宋代丁度等编纂的《广韵》，收字达５３５２５个，是古代收汉字最多的字典，清代张玉书奉诏编纂的《康熙字典》，收字达４７０３５个，辛亥革命后，欧阳溥存等编的《中华大字典》，收入汉字达到４８０００多个。近年来出版的《汉语大字典》，共收录汉字５６０００多字，是迄今为止收录汉字最多的字典，堪称当今汉语字典的“世界之最”

** 二.你知道有多少使用汉字的国家吗？**

除中国使用汉字外，过去使用过或现在仍然在使用汉字的国家有越南、日本、朝鲜、韩国。

越南在公元第一世纪传入汉字。13世纪创造了越南形声字，叫做“字喃”。“字喃”一直与汉字平行使用。19世纪起采用拉丁化新文字。1945年，越南民主共和国成立，用新文字扫除文盲。随着扫盲工作的开展，新文字在越南普及了。

[ 转自铁血社区 http://bbs.tiexue.net/ ]

日本在公元第三世纪传入汉字。不久，日本把汉字当成记音的字母来记录日本语言。后来又把记音字母的汉字笔画简化，创造出 “假名”。到了第七世纪，就出现了汉字夹用“假名”的日文。现在汉字在日文中，只是当作“定型字”来使用，如果有写不出的汉字，也可以直接写假名。一般的日本人使用的日文，是以假名为主，夹用一部分汉字。汉字曾被限制在1850个，叫做“当用汉字”，另有92个汉字，作为“人名特用字”。1981年3月，日本国语审议会向文部省申报了所拟订的《常用汉字表》，共有1945字，代替了《当用汉字表》，并于1981年10月公布施行。

朝鲜在公元第二世纪传入汉字，使用汉字约有一千七八百年。1444年，朝鲜颁布推行《训民正音》（李朝世宗皇帝颁布朝鲜拼音文字时使用的名称），采用汉字笔画式字母，叫“正音字”（即谚文），夹在汉字中间使用。1948年，朝鲜民主主义人民共和国成立，废除了汉字，采用纯谚文的拼音文字。它的书写单位为字母拼成的方块形式音节。

韩国现在还在使用汉字和韩字（即谚文）的混合体文字，文教部曾经颁布过供大中学校使用的1800个“新订通用汉字”和供一般文字生活使用的1300个“常用汉字”。民间往来的书面语，则因人而异，或用混合体文字，或用纯拼音文字（韩字）。

三.你知道计算机世界的汉字有多少？ 最近在互联网上引起的简繁体字之争，引起了IT人对汉字的兴趣。如果从IT人角度来看看这些有趣的方块字，你会发现计算机世界的汉字，比现实中的简繁体还要复杂百倍。

甚么是GB 2312？
GB 2312（或GB 2312-80）是由中国国家标准总局发布的一个中国国家标准的简体汉字字符集，并从1981年5月1日开始实施。全名为《信息交换用汉字编码字符集‧基本集》，又称为GB0。

GB 2312标准共收录6763个汉字，其中一级汉字3755个，二级汉字3008个；同时，GB 2312也收录了682其它字母。GB 2312基本上已可应付计算机处理汉字的需要，覆盖99.75%的使用频率。

甚么是GBK？
基于GB 2312不能处理一些人名、古汉语等罕用字，后来出现了GBK及GB 18030汉字字符集。GBK（Chinese Internal Code Specification）全名为汉字内码扩展规范。

在1993年，Unicode 1.1版本面市，收录了中国、台湾、日本及韩国通用字符集的汉字，总共有2万902个。中文计算机开发商，于是利用了GB 2312未用的编码空间，收录了所有出现在Unicode 1.1及GB 13000.1-93之中的汉字，制定了GBK编码。

根据西方资料，GBK最初是由微软对GB2312的扩展，最初出现于Windows 95简体中文版中，由于Windows在中国广泛被使用，中国国家有关部门将其作为技术规范，但并非中国国家正式标准。

甚么是BIG5？
Big5，又称为大五码或五大码，是使用繁体中文社群中最常用的计算机汉字字符集标准，共收录1万3053个汉字，其中有2字为重复编码。Big5是在 1984年由台湾信息工业策进会和5家（宏碁、神通、佳佳、零壹及大众）共同推动中文计算机文化的公司所共同创立，故称五大码或大五码。

**甚么是GB 18030？
** 中国政府为了解决邮政，户籍整理等领域用字的迫切需要，于2000年实行了一个新的汉字编码的国家标准《汉字编码字符集-基本集的扩充》GB 18030-2000，共收录汉字2万7484个，并强制所有在中国售卖的计算机产品，必须支持这个新的国家标准。

甚么是Unicode？
Unicode（统一码、万国码、单一码）是一种由国际组织设计在计算机上使用的字符编码，能容纳全世界语言文字的编码方案，还可满足跨语言、跨平台进行文本转换、处理的要求。1990年开始研发，1994年正式公布。最新版本的Unicode是2005年3月31日推出的Unicode 4.1.0。另外，5.0Beta版已于2005年12月12日推出，供会员测试评价至今年5月9日为止。

甚么是UTF？
UTF是Unicode Translation Format的简称，是为了在不同的系统平台上转换Unicode格式，常见的有：UTF-8、UTF-7、UTF-16、UTF-32等。

聂受立 2007.10.25

如非注明转载, 均为原创. 本站遵循知识共享CC协议,转载请注明来源

FEATURED TAGS

css vc6 http automake linux make makefile voip 乱码 awk flash vista vi vim javascript pietty putty ssh posix subversion svn windows 删除编译多线程 wxwidgets ie ubuntu 开源 c python bash 备份性能 scp 汉字 log ruby 中文 bug msn nginx php shell wordpress mqueue android eclipse java mac ios html5 js mysql protobuf apache hadoop install iocp twisted centos mapreduce hbase thrift tutorial hive erlang lucene hdfs sqoop utf8 filter 草原 yarn ganglia 恢复 scrapy django fsimage flume tail flume-ng mining scala go kafka gradle cassandra baas spring postgres maven mybatis mongodb https nodejs 镜像心理学机器学习 Keras theano anaconda docker spark akka-http json 群论区块链加密抽象代数离散对数同余欧拉函数扩展欧几里德算法 ES6 node-inspect debug win10 vscode 挖矿

FEATURED TAGS

FRIENDS