如何使用 Python 教程精确提取 HTML 片段中的纯文本？

2026-04-29 12:464阅读0评论SEO问题

内容介绍
文章标签
相关推荐

本文共计1315个文字，预计阅读时间需要6分钟。

✅ 推荐方案一：使用正则表达式（轻量、快速、适合结构稳定场景）

当 HTML 结构高度一致（如目标文本始终位于 > 之后、< 之前，且不含特殊字符或嵌套标签），正则表达式是最简高效的提取方式：

import re # 假设 raw_html_list 是你从解析器中获得的字符串列表（注意：不是 BeautifulSoup 对象，而是 str） raw_html_list = [ '<div class="dnevnik-lesson__task"><i class="dnevnik-lesson-icon"></i>INEEDTHISTEXT\n\n\n </div>', '<div class="dnevnik-lesson__task"><i class="dnevnik-lesson-icon"></i>INEEDTHISTEXT\n\n\n <div class="dnevnik-lesson__attach">...</div></div>', # ... 更多类似项 ] # 合并为单个字符串便于统一处理（或对每个元素单独处理） full_html = "".join(raw_html_list) # 提取所有满足「>后紧跟字母数字+空格/换行，然后是<」的文本块 texts = re.findall(r">([a-zA-Z0-9_]+)\s*<", full_html) # 输出去重后以空格连接的字符串（符合你期望的 "INEEDTHISTEXT INEEDTHISTEXT" 格式） result = " ".join(texts) print(result) # → "INEEDTHISTEXT INEEDTHISTEXT INEEDTHISTEXT ..."

⚠️ 注意事项：

正则 r">([a-zA-Z0-9_]+)\s*<" 假设目标文本仅含字母、数字、下划线；若含中文、空格、标点（如 "测试题 1"），需改用 r">([^<]+?)\s*<" 并配合 .strip()；
若文本中存在未闭合标签或 JS 注入内容，正则可能误匹配——此时必须升级为 HTML 解析器；
re.findall() 返回的是 list[str]，可直接用于后续处理（如去重、过滤、写入 CSV）。

✅ 推荐方案二：使用 BeautifulSoup（健壮、语义化、生产环境首选）

对于真实爬虫项目，HTML 结构常有微小差异（如换行位置变化、属性顺序不同、动态插入内容），强烈建议使用专业的 HTML 解析库：

立即学习“Python免费学习笔记（深入）”；

from bs4 import BeautifulSoup # 确保已安装：pip install beautifulsoup4 html_list = raw_html_list # 同上，你的原始字符串列表 extracted_texts = [] for html_str in html_list: soup = BeautifulSoup(html_str, "html.parser") # 定位目标 div，获取其全部文本，再去除图标标签的干扰 div = soup.find("div", class_="dnevnik-lesson__task") if div: # 移除所有 <i> 标签（避免其空内容影响） for icon in div.select("i.dnevnik-lesson-icon"): icon.decompose() # 提取纯文本并清理首尾空白与多余换行 text = div.get_text(strip=True) if text: # 过滤空结果 extracted_texts.append(text) result = " ".join(extracted_texts) print(result)

? 优势说明：

自动处理编码、嵌套、不规范闭合标签；
get_text(strip=True) 智能合并相邻空白，比手动 replace("\n", "").strip() 更可靠；
支持 CSS 选择器（如 div.select(".dnevnik-lesson__attach")）灵活排除干扰区块；
可链式操作：div.find_next_sibling("div", class_="dnevnik-lesson__attach").decompose() 直接移除附件部分。

? 总结与选型建议

场景	推荐方法	理由
快速调试、样本结构绝对固定、无中文/特殊符号	正则 re.findall(r">([^<]+?)\s*<", html)	开销低、代码短、见效快
教育平台、政务系统等结构较规范但偶有变化	BeautifulSoup + get_text(strip=True)	鲁棒性强、维护成本低、易于扩展（如同时提取附件链接）
高并发、超大规模解析（百万级页面）	lxml.html（性能优于 BeautifulSoup）	速度更快，API 类似，需额外学习

最后提醒：永远不要对原始 HTML 字符串做盲目 replace() 或切片——那不是解析，是碰运气。真正的网页数据提取，始于对 DOM 结构的理解，成于选择合适的工具链。

标签：Python html

本文共计1315个文字，预计阅读时间需要6分钟。

✅ 推荐方案一：使用正则表达式（轻量、快速、适合结构稳定场景）

当 HTML 结构高度一致（如目标文本始终位于 > 之后、< 之前，且不含特殊字符或嵌套标签），正则表达式是最简高效的提取方式：

⚠️ 注意事项：

正则 r">([a-zA-Z0-9_]+)\s*<" 假设目标文本仅含字母、数字、下划线；若含中文、空格、标点（如 "测试题 1"），需改用 r">([^<]+?)\s*<" 并配合 .strip()；
若文本中存在未闭合标签或 JS 注入内容，正则可能误匹配——此时必须升级为 HTML 解析器；
re.findall() 返回的是 list[str]，可直接用于后续处理（如去重、过滤、写入 CSV）。

✅ 推荐方案二：使用 BeautifulSoup（健壮、语义化、生产环境首选）

对于真实爬虫项目，HTML 结构常有微小差异（如换行位置变化、属性顺序不同、动态插入内容），强烈建议使用专业的 HTML 解析库：

立即学习“Python免费学习笔记（深入）”；

? 优势说明：

自动处理编码、嵌套、不规范闭合标签；
get_text(strip=True) 智能合并相邻空白，比手动 replace("\n", "").strip() 更可靠；
支持 CSS 选择器（如 div.select(".dnevnik-lesson__attach")）灵活排除干扰区块；
可链式操作：div.find_next_sibling("div", class_="dnevnik-lesson__attach").decompose() 直接移除附件部分。

? 总结与选型建议

场景	推荐方法	理由
快速调试、样本结构绝对固定、无中文/特殊符号	正则 re.findall(r">([^<]+?)\s*<", html)	开销低、代码短、见效快
教育平台、政务系统等结构较规范但偶有变化	BeautifulSoup + get_text(strip=True)	鲁棒性强、维护成本低、易于扩展（如同时提取附件链接）
高并发、超大规模解析（百万级页面）	lxml.html（性能优于 BeautifulSoup）	速度更快，API 类似，需额外学习

标签：Python html

✅ 推荐方案一：使用正则表达式（轻量、快速、适合结构稳定场景）

✅ 推荐方案二：使用 BeautifulSoup（健壮、语义化、生产环境首选）

? 总结与选型建议

相关推荐

✅ 推荐方案一：使用正则表达式（轻量、快速、适合结构稳定场景）

✅ 推荐方案二：使用 BeautifulSoup（健壮、语义化、生产环境首选）

? 总结与选型建议

相关推荐