[oeasy]python0133_[趣味拓展]好玩的unicode字符_另类字符_上下颠倒英文字符
另类字符
回忆上次内容
- 上次再次输出了大红心♥
- 原来的编码叫做 ascii️
\u
这种新的编码方式叫unicode
- 包括了 中日韩字符集等 各书写系统的字符集
- 除了这些常规字符之外
颠倒字符
![[oeasy]python0133_[趣味拓展]好玩的unicode字符_另类字符_上下颠倒英文字符_第1张图片](http://img.e-com-net.com/image/info8/8a5172a0b7da46c580390262edbd2cec.jpg)
- 这个网站可以把文字上下颠倒
- https://www.upsidedowntext.com/
- 这些颠倒字符的编码多少呢?
- 自己试试
尝试
![[oeasy]python0133_[趣味拓展]好玩的unicode字符_另类字符_上下颠倒英文字符_第2张图片](http://img.e-com-net.com/image/info8/38aa7c4e26fc4cb3b4ac496333f229ce.jpg)
- 序号还是比较靠前的
- 应该是一些拉丁字符
- 类似的还有带圈圈的英文字符
带圈字符
- https://www.bubbleballtext.com/
![[oeasy]python0133_[趣味拓展]好玩的unicode字符_另类字符_上下颠倒英文字符_第3张图片](http://img.e-com-net.com/image/info8/7e0bbaa6bdb54fb49b5112981399a8e8.jpg)
继续探索
- unicode 其实有个委员会
- 各种大厂都在里面指定标准
- 我们也可以访问 unicode.org
- 具体的编码字符都可以在里面找
![[oeasy]python0133_[趣味拓展]好玩的unicode字符_另类字符_上下颠倒英文字符_第4张图片](http://img.e-com-net.com/image/info8/f0b713901d8c487bb1d9a51c4806d973.jpg)
炼金术师的符号
![[oeasy]python0133_[趣味拓展]好玩的unicode字符_另类字符_上下颠倒英文字符_第5张图片](http://img.e-com-net.com/image/info8/22db181b061e42f4bb207299b401e9a5.jpg)
- https://www.zifu123.cn/unicode/Alchemical/index.htm
古代字符编码
- 埃及圣书体
- https://www.zifu123.cn/unicode/Egyptian_Hieroglyphs/index.htm
- 腓尼基楔形文字
- https://www.zifu123.cn/unicode/Early_Dynastic_Cuneiform/index.htm
![[oeasy]python0133_[趣味拓展]好玩的unicode字符_另类字符_上下颠倒英文字符_第6张图片](http://img.e-com-net.com/image/info8/2ef15cb56bf74018800f59e121e033c7.jpg)
拉丁字符之路
![[oeasy]python0133_[趣味拓展]好玩的unicode字符_另类字符_上下颠倒英文字符_第7张图片](http://img.e-com-net.com/image/info8/c0852eb36b7d4f4685180fa2aa813044.jpg)
时间相关
- 这个编码可以解决
等宽
的问题
- 而且还有汉字
- 目前大多数字体支持
- ㋀㋁㋂㋃㋄㋅㋆㋇㋈㋉㋊㋋
- ㏠㏡㏢㏣㏤㏥㏦㏧㏨㏩㏪㏫㏬㏭㏮㏯㏰㏱㏲㏳㏴㏵㏶㏷㏸㏹㏺㏻㏼㏽㏾
- ㍘㍙㍚㍛㍜㍝㍞㍟㍠㍡㍢㍣㍤㍥㍦㍧㍨㍩㍪㍫㍬㍭㍮㍯㍰
货币相关
![[oeasy]python0133_[趣味拓展]好玩的unicode字符_另类字符_上下颠倒英文字符_第8张图片](http://img.e-com-net.com/image/info8/bb25a2546c0749148f0126c0c7129913.jpg)
音乐相关
![[oeasy]python0133_[趣味拓展]好玩的unicode字符_另类字符_上下颠倒英文字符_第9张图片](http://img.e-com-net.com/image/info8/3c8dd41bfcb74f498b183c61ad7f9b44.jpg)
中文字符
![[oeasy]python0133_[趣味拓展]好玩的unicode字符_另类字符_上下颠倒英文字符_第10张图片](http://img.e-com-net.com/image/info8/a19b2161fc7f43788d05a364a98043dc.jpg)
![[oeasy]python0133_[趣味拓展]好玩的unicode字符_另类字符_上下颠倒英文字符_第11张图片](http://img.e-com-net.com/image/info8/77a1fac32fdb41a09204d4a55ca7ea46.jpg)
亚文化
![[oeasy]python0133_[趣味拓展]好玩的unicode字符_另类字符_上下颠倒英文字符_第12张图片](http://img.e-com-net.com/image/info8/9bcaa8e4291042d79d6e3ca18b30b70c.jpg)
- 不知道这些参与 unicode 编码规则制定的大公司在想些什么?
扑克编码
![[oeasy]python0133_[趣味拓展]好玩的unicode字符_另类字符_上下颠倒英文字符_第13张图片](http://img.e-com-net.com/image/info8/b47e0b790d934176ace24f5e6fd2ce2f.jpg)
- 我们以前介绍过黑红梅方的编码
- 配合数字可以做出扑克效果
- 这个编码直接就是牌
- C 是骑士牌(knight card)
- 我们一般都是 54 张牌
- 目前大多数字符库还不支持 unicode 这个编码段的部分
- 支持了之后就可以直接字符打牌了
国际象棋
![[oeasy]python0133_[趣味拓展]好玩的unicode字符_另类字符_上下颠倒英文字符_第14张图片](http://img.e-com-net.com/image/info8/a81b8625a9904ab99e5ef568fe6559e7.jpg)
麻将
- 中式麻将牌在这里
- 以后用户名也许可以用麻将字符了
- 不过目前多数字库还不支持
![[oeasy]python0133_[趣味拓展]好玩的unicode字符_另类字符_上下颠倒英文字符_第15张图片](http://img.e-com-net.com/image/info8/925578be5b9d421795ee543b41b40b7d.jpg)
各种符号
![[oeasy]python0133_[趣味拓展]好玩的unicode字符_另类字符_上下颠倒英文字符_第16张图片](http://img.e-com-net.com/image/info8/5043a643bf744a929d08c9c45a177cef.jpg)
新的符号
![[oeasy]python0133_[趣味拓展]好玩的unicode字符_另类字符_上下颠倒英文字符_第17张图片](http://img.e-com-net.com/image/info8/fdec23c154b746bd84c23cf1a0506efd.jpg)
![[oeasy]python0133_[趣味拓展]好玩的unicode字符_另类字符_上下颠倒英文字符_第18张图片](http://img.e-com-net.com/image/info8/61fef95c54a741d8943e7a5d9367b66c.jpg)
- 各种杂项费用还是很多的甚至包含 emoji
- 这些新增的字符除了好玩之外
- 也会对于我们产生影响
- 其实我们也有这种符号
五岳真形图
- 也许有一天unicode中会出现五岳的符号
- 还有一些同型不同序号的字
易混淆文字
![[oeasy]python0133_[趣味拓展]好玩的unicode字符_另类字符_上下颠倒英文字符_第19张图片](http://img.e-com-net.com/image/info8/81a5e7c8d9a14fc6833278bb13275aa5.jpg)
- 这两个文字非常相像但却是两个不同的字符
- 第1个是常用的
- 第2个是1999年更新中新加进去的康熙部首
![[oeasy]python0133_[趣味拓展]好玩的unicode字符_另类字符_上下颠倒英文字符_第20张图片](http://img.e-com-net.com/image/info8/df42a20081fa4a80a2d6c3ba08cae7f7.jpg)
阴阳话题
![[oeasy]python0133_[趣味拓展]好玩的unicode字符_另类字符_上下颠倒英文字符_第21张图片](http://img.e-com-net.com/image/info8/3dba6bdb04c746ad8fecc77187d31c17.jpg)
部首
![[oeasy]python0133_[趣味拓展]好玩的unicode字符_另类字符_上下颠倒英文字符_第22张图片](http://img.e-com-net.com/image/info8/52d00c2a23cc4cc4b6bfd4daaaf111bb.jpg)
- 康熙部首
- 扩展部首
- 如果当前系统不认识这个字符
- 怎么办呢?
不识别
- 但是如果发送过来的字符
- 在当前的系统中没有对应的字符
- 应该怎么办呢?
![[oeasy]python0133_[趣味拓展]好玩的unicode字符_另类字符_上下颠倒英文字符_第23张图片](http://img.e-com-net.com/image/info8/f6a74d4ba7134ffda39f1b88e6572778.jpg)
�
- 发过来一个不认识的字符
- 机器就傻了
- 因为不知道如何表现
- 于是他会用一个问号对应的字符进行替换
- U+FFFD �
- 这个字符本应该是 unicode 中的字符
- 但如果硬要用 gbk 解码会如何呢?
乱解码
- � 对应 utf-16 编码 0xFFFD
- 转化为 utf-8 对应 0xEF 0xBF 0xBD
- 但是如果这个编码用 gbk 解码的话
- 就会出现锟斤拷
- 锟(0xEFBF)
- 斤(0xBDEF)
- 拷(0xBFBD)
![[oeasy]python0133_[趣味拓展]好玩的unicode字符_另类字符_上下颠倒英文字符_第24张图片](http://img.e-com-net.com/image/info8/7095f280d9124039a05b521919782cdd.jpg)
- 锟斤拷会出现在各种地方
- 甚至有个笑话
- 烫烫烫又是怎么回事
烫烫烫和屯屯屯
- 0xcc 正好是
- x86指令集中 中断(int 3)指令
- 起到保护作用
- 在分配内存的时候
- 栈内存默认初始数值为 0xcc
- 0xcccc 用使用 bgk 的终端来表示刚好就是
烫
- 未初始化的栈空间用 0xcc 填充

- 而未初始化的堆空间用 0xcd 填充
- 所以 0xcdcd 用 gbk 来解释的话,就是
屯
![[oeasy]python0133_[趣味拓展]好玩的unicode字符_另类字符_上下颠倒英文字符_第25张图片](http://img.e-com-net.com/image/info8/4f45561f6fc74d9fa9c5975ac39f6e8c.jpg)
拼音标号
- https://www.zalgotextgenerator.com/
![[oeasy]python0133_[趣味拓展]好玩的unicode字符_另类字符_上下颠倒英文字符_第26张图片](http://img.e-com-net.com/image/info8/ac0060166dd247fdafdc70d1ad7d9fa7.jpg)
中文字符集进化
- unicode 如果 2 个字节总共 16 位
- 16 位最多 65536 各字符
- 想要把全世界的字符都编码是不现实的
- 光是中文就超了好几次
![[oeasy]python0133_[趣味拓展]好玩的unicode字符_另类字符_上下颠倒英文字符_第27张图片](http://img.e-com-net.com/image/info8/828808f06fd44b259ad3f09f8000c2af.jpg)
- 如果使用 3 字节编码就大大增加了存储和带宽的压力
- 那到底应该怎么办呢?
- 到底应该按照 1 字节、2 字节还是 3 字节进行读取呢?
总结
-
unicode 里面有各种字体
- 扑克
- 国际象棋
- 麻将
- 偏旁部首
- 各种好玩的编码
- 字符编码就是这样一步步发展过来的
-
但是有个问题
- 拜这个字
- 在字节中应该是b"\x62\xdc"两个字节
![[oeasy]python0133_[趣味拓展]好玩的unicode字符_另类字符_上下颠倒英文字符_第28张图片](http://img.e-com-net.com/image/info8/4ae57fa6e747434c800adbada84fdf0c.jpg)
![[oeasy]python0133_[趣味拓展]好玩的unicode字符_另类字符_上下颠倒英文字符_第29张图片](http://img.e-com-net.com/image/info8/1f1ef8b61c114dd0941086fb434672f6.jpg)
-
我们下次再说!
-
蓝桥->https://www.lanqiao.cn/courses/3584
-
github->https://github.com/overmind1980/oeasy-python-tutorial
-
gitee->https://gitee.com/overmind1980/oeasypython