用python3.0 和vim配合检查文件中文的编码 - 瀚海星空

2009-02-04

周海汉 /文 2009.2.3

打开一个中文文件，不清楚其中文编码到底是什么格式。python源程序文件头可能指定是utf8，而实际编码却是gbk。不一致的编码在python源码中，可能在执行时得到错误的结果。一种解决办法是查看二进制，但汉字的二进制到底对应什么编码呢？

python3.0内部缺省编码为utf-8。

vim的vimrc里面增加两行：

set fenc=utf-8
set fileencodings=utf-8,cp936,big5,euc-jp,euc-kr,latin1,ucs-bom

这样，文件保存缺省的为utf-8编码。

在.vimrc中设置fenc以处理中文文件名。设置fileencoding=utf-8,gbk,…等让vim 7.0以上自动判别文件内码。如果不设置的话，在linux下打开gb2312内码的文件会显示乱码。设置后系统会自动判断内码。

set enc=cp936 这是gvim界面显示的编码，windows下用cp936,linux下用utf8，最好不要设，系统自己判断。

对新打开的已经存在的文件，如果不确定一个文件是否是utf8还是gbk，用vim打开文件，看到中文，再在命令模式下执行
:%!xxd
看到相应的二进制。假如文本中有“你好”，会在左边对应位置看到你好的十六进制表示。
打开python3.0,在命令行下将文本中的特定字“你好”进行二进制转码。

view plain copy to clipboard print ?

a=’你好’
b=a.encode(‘utf8’)
b
b’xe4xbdxa0xe5xa5xbd’
c=a.encode(‘gbk’)
c
b’xc4xe3xbaxc3’

a=’你好’ »> b=a.encode(‘utf8’) »> b b’xe4xbdxa0xe5xa5xbd’ »> c=a.encode(‘gbk’) »> c b’xc4xe3xbaxc3’
可以看到，对中文“你好”的二进制，utf8是
0xe4ba0 0xe5a5bd
而对gbk，gb2312，cp936，gb18030，则二进制是：
0xc4e3 0xbac3
与vim中二进制一比较，就看出文本中是什么编码了。
知道编码后，再用
:%!xxd -r
命令将十六进制转为普通的文本，保存。
对已经存在的文本，linux下可以用iconv将其转码。

如非注明转载, 均为原创. 本站遵循知识共享CC协议,转载请注明来源

FEATURED TAGS

css vc6 http automake linux make makefile voip 乱码 awk flash vista vi vim javascript pietty putty ssh posix subversion svn windows 删除编译多线程 wxwidgets ie ubuntu 开源 c python bash 备份性能 scp 汉字 log ruby 中文 bug msn nginx php shell wordpress mqueue android eclipse java mac ios html5 js mysql protobuf apache hadoop install iocp twisted centos mapreduce hbase thrift tutorial hive erlang lucene hdfs sqoop utf8 filter 草原 yarn ganglia 恢复 scrapy django fsimage flume tail flume-ng mining scala go kafka gradle cassandra baas spring postgres maven mybatis mongodb https nodejs 镜像心理学机器学习 Keras theano anaconda docker spark akka-http json 群论区块链加密抽象代数离散对数同余欧拉函数扩展欧几里德算法 ES6 node-inspect debug win10 vscode 挖矿

FEATURED TAGS

FRIENDS