编码标准汇总

1. ASCII(American Standard Code for Information Interchange)​

  • 简介​:最早的字符编码标准之一,由美国国家标准协会(ANSI)制定,主要用于英语字符。
  • 编码范围​:
    • 7位编码(共128个字符),包括:
      • 控制字符(如换行、回车等)
      • 可打印字符(大写字母A-Z、小写字母a-z、数字0-9、标点符号等)
  • 缺点​:
    • 仅支持英语,无法表示其他语言的字符(如中文、日文、阿拉伯文等)。
  • 应用​:
    • 早期计算机系统、电子邮件、网络协议(如HTTP头部)等仍依赖ASCII兼容性。

2. ISO-8859(Latin-1 等)​

  • 简介​:国际标准化组织(ISO)制定的扩展ASCII编码,用于支持欧洲语言。
  • 常见变种​:
    • ISO-8859-1(Latin-1)​​:支持西欧语言(如法语、德语、西班牙语等)。
    • ISO-8859-2(Latin-2)​​:支持中欧语言(如波兰语、匈牙利语等)。
    • ISO-8859-5(Cyrillic)​​:支持西里尔字母(如俄语、乌克兰语等)。
    • ISO-8859-6(Arabic)​​:支持阿拉伯语。
    • ISO-8859-7(Greek)​​:支持希腊语。
    • ISO-8859-8(Hebrew)​​:支持希伯来语。
  • 缺点​:
    • 每个变种只能支持一种语言或语系,无法同时表示多种语言。
    • 不支持亚洲语言(如中文、日文、韩文)。
  • 应用​:
    • 早期欧洲计算机系统、网页(部分旧网站仍使用ISO-8859-1)。

3. GB2312 / GBK / GB18030(中文编码)​

  • 简介​:中国制定的汉字编码标准,用于支持简体中文。
  • GB2312​:
    • 1980年发布,支持6,763个汉字和682个符号。
    • 采用双字节编码(每个汉字占2字节)。
  • GBK​:
    • 1995年发布,扩展GB2312,支持21,886个汉字(包括繁体字)。
  • GB18030​:
    • 2000年发布,进一步扩展,支持所有Unicode汉字(包括少数民族文字)。
    • 采用变长编码(1字节、2字节或4字节)。
  • 应用​:
    • 中文Windows系统、中文网页、中文文档(如.doc、.txt)。

4. Big5(繁体中文编码)​

  • 简介​:台湾、香港等地使用的繁体中文编码标准。
  • 特点​:
    • 1984年发布,支持13,053个汉字和符号。
    • 采用双字节编码(类似GB2312)。
  • 缺点​:
    • 与GB2312不兼容,导致简繁体转换问题。
  • 应用​:
    • 台湾、香港的中文系统、旧版繁体网页。

5. Shift_JIS(日文编码)​

  • 简介​:日本使用的日文编码标准。
  • 特点​:
    • 1983年发布,支持日文汉字(Kanji)、平假名、片假名和符号。
    • 采用变长编码(1字节或2字节)。
  • 缺点​:
    • 与Unicode不完全兼容,可能导致乱码。
  • 应用​:
    • 日文Windows系统、日文网页、日文游戏。

6. EUC-KR(韩文编码)​

  • 简介​:韩国使用的韩文编码标准。
  • 特点​:
    • 1992年发布,支持韩文字符(Hangul)和符号。
    • 采用双字节编码(类似GB2312)。
  • 缺点​:
    • 与Unicode不完全兼容。
  • 应用​:
    • 韩文Windows系统、韩文网页。

7. KOI8-R / KOI8-U(俄语编码)​

  • 简介​:苏联/俄罗斯使用的西里尔字母编码。
  • KOI8-R​:用于俄语。
  • KOI8-U​:用于乌克兰语。
  • 特点​:
    • 采用单字节编码(类似ASCII扩展)。
  • 应用​:
    • 早期俄语计算机系统、电子邮件。

8. Unicode(UTF-8、UTF-16、UTF-32)​

  • 简介​:全球统一的字符编码标准,支持所有语言文字。
  • UTF-8​:
    • 变长编码(1~4字节),兼容ASCII。
    • 互联网和现代软件的首选编码。
  • UTF-16​:
    • 变长编码(2或4字节),用于Windows内部处理。
  • UTF-32​:
    • 固定4字节编码,简单但占用空间大。
  • 应用​:
    • 现代操作系统、网页、数据库、编程语言(如Python 3默认UTF-8)。

9. 其他编码

  • Baudot Code​:早期的电报编码(5位)。
  • EBCDIC​:IBM大型机使用的编码(8位,主要用于旧系统)。
  • Windows-1252​:Windows扩展ASCII(类似ISO-8859-1,但略有不同)。

总结对比

编码标准 支持语言 字节长度 主要应用
ASCII 英语 1字节 早期计算机、网络协议
ISO-8859 欧洲语言 1字节 旧版欧洲网页
GB2312/GBK/GB18030 简体中文 1~4字节 中文Windows、网页
Big5 繁体中文 2字节 台湾、香港系统
Shift_JIS 日文 1~2字节 日文系统、游戏
EUC-KR 韩文 2字节 韩文系统
KOI8-R/KOI8-U 俄语 1字节 俄语系统
Unicode (UTF-8/16/32) 全球所有语言 1~4字节 现代计算机、互联网

为什么Unicode(UTF-8)成为主流?​

  1. 全球兼容性​:支持所有语言文字。
  2. 兼容ASCII​:纯ASCII文本在UTF-8中无需转换。
  3. 节省空间​:英文文本仍用1字节存储,中文等用2~4字节。
  4. 互联网标准​:HTTP、HTML、JSON等均默认使用UTF-8。

你可能感兴趣的:(其他,python)