<!----><!----> <!---->
Python2.x 中,没有字节的概念(Python3中出新了bytes),只有两种字符串:表示 str 和 unicode 。使用引号定义字符串时,默认定义成一个str字符串。加前缀u表示这是一个Unicode字符串。
可以把 str 的单位看做一个字节,把 unicode 的单位看作一个字符。在交互命令界面下
>>> t = '你好' >>> t '\xc4\xe3\xba\xc3' >>> t[0] '\xc4' >>> print t[0] >>> t = u'你好' >>> t u'\u4f60\u597d' >>> t[0] u'\u4f60' >>> print t[0] 你 >>>
所以处理中文时最好使用Unicode字符串,可以对每个汉字进行处理。
还要注意,上面把'你好'作为str表示时,它的值是
'\xc4\xe3\xba\xc3'
这其实是汉字你好的gb编码,因为我用的windows xp系统的默认编码是gbk,所以在控制台里输入的汉字也是gbk编码的。
Python提供了encode()和decode()这两个方法供我们进行编码转换。由于Python内部是Unicode表示的,所以这两个方法都和Unicode有关。
s.decode()是把str字符串s解码成Unicode字符串,注意如果s不是str字符串(那么它就是Unicode字符串),调用这个方法可能 会出错。使用这个函数,你要指定s的编码方式,比如我要把上面的’你好‘转换成Unicode编码,需要这样
>>> '你好'.decode('gbk') u'\u4f60\u597d' >>>
结果返回一个Unicode表示的’你好‘
s.encode()把Unicode字符串编码成另外一种编码的ascii字符串。s这时候必须是一个Unicode字符串,否则可能 出错。
>>> u'你好'.encode('gbk') '\xc4\xe3\xba\xc3' >>>
结果返回一个str字符串表示的’你好‘。
利用encode和decode就可以实现任意编码之间转换。
代码文件中的字符串默认是和代码文件本身的编码一致。文件test.py,编码为gbk
#-*-coding:gbk-*- t = '你好' x = u'你好'
那么t的编码是gbk,而x的编码是Unicode,x的编码与文件编码无关。