Python如何进行Unicode编码实战应用?
- 内容介绍
- 文章标签
- 相关推荐
本文共计2476个文字,预计阅读时间需要10分钟。
文章目录
1.各种编码的简要发展史
2.Python Unicode 实战
2.1 操作单个字符
2.1.1 判断单个字符所属类型
2.1.2 判断单个字符是否属于中文
文章目录
- 1. 各种编码的简要发展史
- 2. Python Unicode实战
- 2.1 操作单个字符
- 2.1.1 判断单个字符所属类型
- 2.1.2 判断单个字符是否属于中文
- 2.1.3 判断是否是空白符
- 2.1.4 判断是否是控制符
- 2.1.5 是否为标点符号
- 2.2 字符串处理
- 2.2.1 将文本转换成Unicode
- 2.2.2 清理文本中的无效字符
- 2.2.3 清理文本中的重音符号
- 2.2.4 将字符串中的文本和标点符号进行划分
- 2.2.5 对文本进行分词
首先说明一下,本文代码以Python3版本为主(暂时不考虑和Python2的代码兼容)。
1. 各种编码的简要发展史
最早的ASCII使用8位二进制(字节)来对字符进行编码,其中8位二进制可以表示2^8=256个字符。
本文共计2476个文字,预计阅读时间需要10分钟。
文章目录
1.各种编码的简要发展史
2.Python Unicode 实战
2.1 操作单个字符
2.1.1 判断单个字符所属类型
2.1.2 判断单个字符是否属于中文
文章目录
- 1. 各种编码的简要发展史
- 2. Python Unicode实战
- 2.1 操作单个字符
- 2.1.1 判断单个字符所属类型
- 2.1.2 判断单个字符是否属于中文
- 2.1.3 判断是否是空白符
- 2.1.4 判断是否是控制符
- 2.1.5 是否为标点符号
- 2.2 字符串处理
- 2.2.1 将文本转换成Unicode
- 2.2.2 清理文本中的无效字符
- 2.2.3 清理文本中的重音符号
- 2.2.4 将字符串中的文本和标点符号进行划分
- 2.2.5 对文本进行分词
首先说明一下,本文代码以Python3版本为主(暂时不考虑和Python2的代码兼容)。
1. 各种编码的简要发展史
最早的ASCII使用8位二进制(字节)来对字符进行编码,其中8位二进制可以表示2^8=256个字符。

