Python如何处理打印不合法的文件名问题?
- 内容介绍
- 文章标签
- 相关推荐
本文共计1045个文字,预计阅读时间需要5分钟。
问题:你的程序获取了一个目录中的文件名列表,但在尝试打印文件名时程序崩溃,出现了UnicodeEncodeError异常,并显示了一条奇怪的消息——surrogates not allowed。
解决方案:当打印包含特殊字符的文件名时,可能会遇到编码问题。这通常是因为文件名包含了无法直接编码的Unicode字符。以下是一些可能的解决方法:
1. 使用不同的编码方式:尝试使用不同的编码方式来打印文件名,例如使用`utf-8`编码。 python import sys
files=['文件名包含特殊字符.txt'] for file in files: print(file.encode('utf-8').decode('latin1'))
2. 过滤文件名中的特殊字符:如果文件名中的特殊字符不是必需的,可以考虑移除它们。 python import re
files=['文件名包含特殊字符.txt'] filtered_files=[re.sub(r'[^\w\s-]', '', file) for file in files] for file in filtered_files: print(file)
3. 使用Python 3的默认编码:Python 3使用UTF-8作为默认编码,这通常可以避免编码问题。 python files=['文件名包含特殊字符.txt'] for file in files: print(file)
4. 检查文件系统编码:确保文件系统使用UTF-8编码,这有助于避免编码问题。 python import locale
locale.setlocale(locale.LC_ALL, 'en_US.UTF-8') files=['文件名包含特殊字符.txt'] for file in files: print(file)
选择合适的解决方案取决于你的具体情况和需求。
问题
你的程序获取了一个目录中的文件名列表,但是当它试着去打印文件名的时候程序崩溃, 出现了 UnicodeEncodeError 异常和一条奇怪的消息—— surrogates not allowed 。
解决方案
当打印未知的文件名时,使用下面的方法可以避免这样的错误:
def bad_filename(filename): return repr(filename)[1:-1] try: print(filename) except UnicodeEncodeError: print(bad_filename(filename))
如果你有代码需要操作文件名或者将文件名传递给 open() 这样的函数,一切都能正常工作。 只有当你想要输出文件名时才会碰到些麻烦(比如打印输出到屏幕或日志文件等)。 特别的,当你想打印上面的文件名列表时,你的程序就会崩溃:
>>> for name in files: ... print(name) ... spam.py Traceback (most recent call last): File "<stdin>", line 2, in <module> UnicodeEncodeError: 'utf-8' codec can't encode character '\udce4' in position 1: surrogates not allowed >>>
>>> for name in files: ... try: ... print(name) ... except UnicodeEncodeError: ... print(bad_filename(name)) ... spam.py b\udce4d.txt foo.txt >>>
在 bad_filename() 函数中怎样处置取决于你自己。 另外一个选择就是通过某种方式重新编码,示例如下:
def bad_filename(filename): temp = filename.encode(sys.getfilesystemencoding(), errors='surrogateescape') return temp.decode('latin-1')
译者注:
surrogateescape:
这种是Python在绝大部分面向OS的API中所使用的错误处理器,
它能以一种优雅的方式处理由操作系统提供的数据的编码问题。
在解码出错时会将出错字节存储到一个很少被使用到的Unicode编码范围内。
在编码时将那些隐藏值又还原回原先解码失败的字节序列。
它不仅对于OS API非常有用,也能很容易的处理其他情况下的编码错误。
使用这个版本产生的输出如下:
>>> for name in files: ... try: ... print(name) ... except UnicodeEncodeError: ... print(bad_filename(name)) ... spam.py bäd.txt foo.txt >>>
这一小节主题可能会被大部分读者所忽略。但是如果你在编写依赖文件名和文件系统的关键任务程序时, 就必须得考虑到这个。否则你可能会在某个周末被叫到办公室去调试一些令人费解的错误。
以上就是Python打印不合法的文件名的详细内容,更多关于Python 打印文件名的资料请关注易盾网络其它相关文章!
本文共计1045个文字,预计阅读时间需要5分钟。
问题:你的程序获取了一个目录中的文件名列表,但在尝试打印文件名时程序崩溃,出现了UnicodeEncodeError异常,并显示了一条奇怪的消息——surrogates not allowed。
解决方案:当打印包含特殊字符的文件名时,可能会遇到编码问题。这通常是因为文件名包含了无法直接编码的Unicode字符。以下是一些可能的解决方法:
1. 使用不同的编码方式:尝试使用不同的编码方式来打印文件名,例如使用`utf-8`编码。 python import sys
files=['文件名包含特殊字符.txt'] for file in files: print(file.encode('utf-8').decode('latin1'))
2. 过滤文件名中的特殊字符:如果文件名中的特殊字符不是必需的,可以考虑移除它们。 python import re
files=['文件名包含特殊字符.txt'] filtered_files=[re.sub(r'[^\w\s-]', '', file) for file in files] for file in filtered_files: print(file)
3. 使用Python 3的默认编码:Python 3使用UTF-8作为默认编码,这通常可以避免编码问题。 python files=['文件名包含特殊字符.txt'] for file in files: print(file)
4. 检查文件系统编码:确保文件系统使用UTF-8编码,这有助于避免编码问题。 python import locale
locale.setlocale(locale.LC_ALL, 'en_US.UTF-8') files=['文件名包含特殊字符.txt'] for file in files: print(file)
选择合适的解决方案取决于你的具体情况和需求。
问题
你的程序获取了一个目录中的文件名列表,但是当它试着去打印文件名的时候程序崩溃, 出现了 UnicodeEncodeError 异常和一条奇怪的消息—— surrogates not allowed 。
解决方案
当打印未知的文件名时,使用下面的方法可以避免这样的错误:
def bad_filename(filename): return repr(filename)[1:-1] try: print(filename) except UnicodeEncodeError: print(bad_filename(filename))
如果你有代码需要操作文件名或者将文件名传递给 open() 这样的函数,一切都能正常工作。 只有当你想要输出文件名时才会碰到些麻烦(比如打印输出到屏幕或日志文件等)。 特别的,当你想打印上面的文件名列表时,你的程序就会崩溃:
>>> for name in files: ... print(name) ... spam.py Traceback (most recent call last): File "<stdin>", line 2, in <module> UnicodeEncodeError: 'utf-8' codec can't encode character '\udce4' in position 1: surrogates not allowed >>>
>>> for name in files: ... try: ... print(name) ... except UnicodeEncodeError: ... print(bad_filename(name)) ... spam.py b\udce4d.txt foo.txt >>>
在 bad_filename() 函数中怎样处置取决于你自己。 另外一个选择就是通过某种方式重新编码,示例如下:
def bad_filename(filename): temp = filename.encode(sys.getfilesystemencoding(), errors='surrogateescape') return temp.decode('latin-1')
译者注:
surrogateescape:
这种是Python在绝大部分面向OS的API中所使用的错误处理器,
它能以一种优雅的方式处理由操作系统提供的数据的编码问题。
在解码出错时会将出错字节存储到一个很少被使用到的Unicode编码范围内。
在编码时将那些隐藏值又还原回原先解码失败的字节序列。
它不仅对于OS API非常有用,也能很容易的处理其他情况下的编码错误。
使用这个版本产生的输出如下:
>>> for name in files: ... try: ... print(name) ... except UnicodeEncodeError: ... print(bad_filename(name)) ... spam.py bäd.txt foo.txt >>>
这一小节主题可能会被大部分读者所忽略。但是如果你在编写依赖文件名和文件系统的关键任务程序时, 就必须得考虑到这个。否则你可能会在某个周末被叫到办公室去调试一些令人费解的错误。
以上就是Python打印不合法的文件名的详细内容,更多关于Python 打印文件名的资料请关注易盾网络其它相关文章!

