如何解决Python中RawString与open文件newline换行符冲突问题?

2026-04-30 17:431阅读0评论SEO基础
  • 内容介绍
  • 文章标签
  • 相关推荐

本文共计2127个文字,预计阅读时间需要9分钟。

如何解决Python中RawString与open文件newline换行符冲突问题?

目录 + 背景 + 思路 + 遇到的问题 + 思考过程 + Raw String + 若字符串未转义,那么 + Raw String 跟普通 String 完全一致 + 注意:单个字符的引号问题 + 开发 + 正则替换的问题 + open 文件的 newline 参数

目录
  • 背景
  • 思路
  • 遇到的问题
  • 思考过程
  • Raw String
    • 如果字符串没转义字符,那么 Raw String 跟普通 String 完全一致
    • 误区:注意单个字符的引号问题
    • 启发
  • 正则替换的问题
    • open 文件的 newline 参数

      背景

      一次工作中,我需要完成某个文件的字符串替换。

      需求是这样的:文件A有个占位符,需要利用Python3,把占位符替换成文件B的内容。文件都不大,可以一次性读到内存处理。

      我想,这不是简单的open read replace write就搞定了嘛?

      结果,还真有点麻烦!

      思路

      • 全量读取文件A,保存到变量templace
      • 全量读取文件B,保存到变量text
      • 利用python的re.sub实现正则替换,保存到新变量result
      • 把变量result内容写入文件A

      with open('A', encoding='utf8') as f: template = f.read() with open('B', encoding='utf8') as f: text = f.read() result = re.sub(r'占位标识符', text, template, 1) with open('A', 'w', encoding='utf8') as f: f.write(result)

      遇到的问题

      文件B内有换行符,也有字符串\n,按上文的方式处理后,所有的字符串\n都变成了换行符!

      举个例子,template是我是:{}(其中{}就是占位符),text是下面的文本:

      哈哈 哈哈\n哈哈

      替换后,如下图所示:

      可以看到,当我打印re.sub结果时,所有的\n都变成了换行符,字符串\n消失了!

      这的确令人烦躁,本来五分钟可以搞定,结果要花多余的时间处理这个问题。如果你学会了本文,以后都不用再去费脑筋了~

      思考过程

      一开始遇到这个问题,是在写入文件后发现的,所以并没定位的这么准确,当时跟换行符相关的,我怀疑了以下方面:

      • 字符串定义没有使用 Raw String(例如r'xxx'这种方式)。
      • 正则替换出了问题。
      • 写入文件时,newline参数导致。

      如果我们能把这3个问题全都弄清楚,以后定位就非常快了!

      Raw String

      Python中,如果字符串常量的定义前加了个r,就表示 Raw String 原始字符串。

      Raw String 特点在于,字符串常量里的\将不具有转义作用,它仅仅代表它自己。

      例如,你定义个普通字符串"\n",这个字符串长度其实是1,它只包含了1个换行符,对应的 ASCII 是10。

      如果你定义了原始字符串"\n",这个字符串长度就是2,它包含了字符\和字符n

      如果字符串没转义字符,那么 Raw String 跟普通 String 完全一致

      转义字符有这些:

      也就是说r'\haha''\haha'是完全一致的,因为\h不是转义字符,所以这种情况下,没必要加r

      误区:注意单个字符的引号问题

      有一个令人疑惑的点:理论上讲,r'\'应该就是'\\',但是当你使用r'\'时,Python会报错。

      这是因为Python在编译时,读取字符串时,如果字符串以单引号开头,遇到\'后,不论你是不是Raw String,都会继续认为是字符串,不会把'当作结束符。估计是一个历史遗留问题。我们只能接受现实。

      如何证明呢?你给字符后面加个空格,发现它们是相等的:r'\ ''\\ '。但是单独的字符r'\'就报错了。

      但是这种情况只有r'\'r"\"才会发生,如果字符串长度为2,是没问题的,例如r"\\"可以被合法定义。

      启发

      定义字符串时,如果你是这么定义:"哈哈\n哈哈",那么这个字符串长度是5,包含了1个换行符。

      如果你是这么定义:r"哈哈\n哈哈",那么这个字符串长度是6,不包含换行符,包含字符\n

      同样,当你写入文件时,如果是f.write('\n'),就表明写入了换行符,但如果是f.write(r'\n'),就表明写入了字符串"\n"

      正则替换的问题

      这是导致本文问题的根本原因。使用re.sub时,所有的字符串r"\n"都被当作了换行符。

      怎么办呢?

      只要我们替换前,把原始文件对应的字符串的r"\n"都改为r"\\n",手动多加了一次转义符,那么re.sub时,就不会把r"\n"当作一个整体改成换行符了,反而会把r"\\"当作一个整体,替换为字符\。这样r"\n"字符串就保留下来了!当然,其它转义字符,也统统保留下来了。这就是正确的解法了。

      如何解决Python中RawString与open文件newline换行符冲突问题?

      open 文件的 newline 参数

      with open(filename, 'r', newline=None) as f: f.read()

      这个主要是因为不同操作系统的换行符不同,所以有了这个参数。Windows 是 CRLF 即 \r\n,Unix 是 LF 即\n,旧版 Macintosh 是 CR 即\r

      通常情况下,我们不需要加这个参数,Python 会自动为我们做这些事情:

      • 读取文件时,自动把文本中的各种换行符统一转换为"\n"
      • 写入文件时,根据当前的操作系统,自动把"\n"转换为对应的换行符,通过os.linesep可以查看当前操作系统换行符。

      当然,你也可以主动设置 newline 参数:

      • 读取文件时,如果 newline 是空字符串'',则Python不会做任何自动转换,读到什么就是什么。
      • 读取文件时,如果 newline 是非空字符串,则Python会把换行符转化为这个非空字符串,例如你可以指定为'\r''\r\n'或其它。
      • 写入文件时,如果 newline 是空字符串'',则Python不会做任何自动转换,现在换行符是什么,就写入什么。
      • 写入文件时,如果 newline 是非空字符串,则Python会把\n转化为这个非空字符串,例如你可以指定为'\r''\r\n'或其它。

      注意,newline 参数只对文本文件有效,如果是二进制读写,newline 是无用的。

      其实,大部分时候我们无需关注这个 newline 参数。

      以上就是Python RawString与open文件的newline换行符遇坑解决的详细内容,更多关于Python RawString open文件 newline换行符的资料请关注自由互联其它相关文章!

      标签:N

      本文共计2127个文字,预计阅读时间需要9分钟。

      如何解决Python中RawString与open文件newline换行符冲突问题?

      目录 + 背景 + 思路 + 遇到的问题 + 思考过程 + Raw String + 若字符串未转义,那么 + Raw String 跟普通 String 完全一致 + 注意:单个字符的引号问题 + 开发 + 正则替换的问题 + open 文件的 newline 参数

      目录
      • 背景
      • 思路
      • 遇到的问题
      • 思考过程
      • Raw String
        • 如果字符串没转义字符,那么 Raw String 跟普通 String 完全一致
        • 误区:注意单个字符的引号问题
        • 启发
      • 正则替换的问题
        • open 文件的 newline 参数

          背景

          一次工作中,我需要完成某个文件的字符串替换。

          需求是这样的:文件A有个占位符,需要利用Python3,把占位符替换成文件B的内容。文件都不大,可以一次性读到内存处理。

          我想,这不是简单的open read replace write就搞定了嘛?

          结果,还真有点麻烦!

          思路

          • 全量读取文件A,保存到变量templace
          • 全量读取文件B,保存到变量text
          • 利用python的re.sub实现正则替换,保存到新变量result
          • 把变量result内容写入文件A

          with open('A', encoding='utf8') as f: template = f.read() with open('B', encoding='utf8') as f: text = f.read() result = re.sub(r'占位标识符', text, template, 1) with open('A', 'w', encoding='utf8') as f: f.write(result)

          遇到的问题

          文件B内有换行符,也有字符串\n,按上文的方式处理后,所有的字符串\n都变成了换行符!

          举个例子,template是我是:{}(其中{}就是占位符),text是下面的文本:

          哈哈 哈哈\n哈哈

          替换后,如下图所示:

          可以看到,当我打印re.sub结果时,所有的\n都变成了换行符,字符串\n消失了!

          这的确令人烦躁,本来五分钟可以搞定,结果要花多余的时间处理这个问题。如果你学会了本文,以后都不用再去费脑筋了~

          思考过程

          一开始遇到这个问题,是在写入文件后发现的,所以并没定位的这么准确,当时跟换行符相关的,我怀疑了以下方面:

          • 字符串定义没有使用 Raw String(例如r'xxx'这种方式)。
          • 正则替换出了问题。
          • 写入文件时,newline参数导致。

          如果我们能把这3个问题全都弄清楚,以后定位就非常快了!

          Raw String

          Python中,如果字符串常量的定义前加了个r,就表示 Raw String 原始字符串。

          Raw String 特点在于,字符串常量里的\将不具有转义作用,它仅仅代表它自己。

          例如,你定义个普通字符串"\n",这个字符串长度其实是1,它只包含了1个换行符,对应的 ASCII 是10。

          如果你定义了原始字符串"\n",这个字符串长度就是2,它包含了字符\和字符n

          如果字符串没转义字符,那么 Raw String 跟普通 String 完全一致

          转义字符有这些:

          也就是说r'\haha''\haha'是完全一致的,因为\h不是转义字符,所以这种情况下,没必要加r

          误区:注意单个字符的引号问题

          有一个令人疑惑的点:理论上讲,r'\'应该就是'\\',但是当你使用r'\'时,Python会报错。

          这是因为Python在编译时,读取字符串时,如果字符串以单引号开头,遇到\'后,不论你是不是Raw String,都会继续认为是字符串,不会把'当作结束符。估计是一个历史遗留问题。我们只能接受现实。

          如何证明呢?你给字符后面加个空格,发现它们是相等的:r'\ ''\\ '。但是单独的字符r'\'就报错了。

          但是这种情况只有r'\'r"\"才会发生,如果字符串长度为2,是没问题的,例如r"\\"可以被合法定义。

          启发

          定义字符串时,如果你是这么定义:"哈哈\n哈哈",那么这个字符串长度是5,包含了1个换行符。

          如果你是这么定义:r"哈哈\n哈哈",那么这个字符串长度是6,不包含换行符,包含字符\n

          同样,当你写入文件时,如果是f.write('\n'),就表明写入了换行符,但如果是f.write(r'\n'),就表明写入了字符串"\n"

          正则替换的问题

          这是导致本文问题的根本原因。使用re.sub时,所有的字符串r"\n"都被当作了换行符。

          怎么办呢?

          只要我们替换前,把原始文件对应的字符串的r"\n"都改为r"\\n",手动多加了一次转义符,那么re.sub时,就不会把r"\n"当作一个整体改成换行符了,反而会把r"\\"当作一个整体,替换为字符\。这样r"\n"字符串就保留下来了!当然,其它转义字符,也统统保留下来了。这就是正确的解法了。

          如何解决Python中RawString与open文件newline换行符冲突问题?

          open 文件的 newline 参数

          with open(filename, 'r', newline=None) as f: f.read()

          这个主要是因为不同操作系统的换行符不同,所以有了这个参数。Windows 是 CRLF 即 \r\n,Unix 是 LF 即\n,旧版 Macintosh 是 CR 即\r

          通常情况下,我们不需要加这个参数,Python 会自动为我们做这些事情:

          • 读取文件时,自动把文本中的各种换行符统一转换为"\n"
          • 写入文件时,根据当前的操作系统,自动把"\n"转换为对应的换行符,通过os.linesep可以查看当前操作系统换行符。

          当然,你也可以主动设置 newline 参数:

          • 读取文件时,如果 newline 是空字符串'',则Python不会做任何自动转换,读到什么就是什么。
          • 读取文件时,如果 newline 是非空字符串,则Python会把换行符转化为这个非空字符串,例如你可以指定为'\r''\r\n'或其它。
          • 写入文件时,如果 newline 是空字符串'',则Python不会做任何自动转换,现在换行符是什么,就写入什么。
          • 写入文件时,如果 newline 是非空字符串,则Python会把\n转化为这个非空字符串,例如你可以指定为'\r''\r\n'或其它。

          注意,newline 参数只对文本文件有效,如果是二进制读写,newline 是无用的。

          其实,大部分时候我们无需关注这个 newline 参数。

          以上就是Python RawString与open文件的newline换行符遇坑解决的详细内容,更多关于Python RawString open文件 newline换行符的资料请关注自由互联其它相关文章!

          标签:N