Python中如何正确处理字符串u'汉字'的编码问题？

2026-05-21 15:320阅读0评论SEO基础

本文共计941个文字，预计阅读时间需要4分钟。

中文编码问题是中文程序员经常遇到的大问题，在Python中也是如此。那么，应该如何理解和解决Python的编码问题呢？

Python内部使用的是Unicode编码，而外部则可能需要面对各种奇奇怪怪的编码。

中文编码问题是用中文的程序员经常头大的问题，在python下也是如此，那么应该怎么理解和解决python的编码问题呢？

python内部使用的是unicode编码，而外部却要面对千奇百怪的各种编码，比如作为中国程序经常要面对的gbk，gb2312，utf8等，那这些编码是怎么转换成内部的unicode呢？

首先我们先看一下源代码文件中使用字符串的情况。源代码文件作为文本文件就必然是以某种编码形式存储代码的，python默认会认为源代码文件是asci编码，比如说代码中有一个变量赋值：

s1=’a’
print s1

python认为这个’a'就是一个asci编码的字符。在仅仅使用英文字符的情况下一切正常，但是如果用了中文，比如：

s1=’哈’
print s1

这个代码文件被执行时就会出错，就是编码出了问题。python默认将代码文件内容当作asci编码处理，但asci编码中不存在中文，因此抛出异常。

解决问题之道就是要让python知道文件中使用的是什么编码形式，对于中文，可以用的常见编码有utf-8，gbk和gb2312等。