如何使用Python批量下载XML文件中所有图片链接指向的资源?
- 内容介绍
- 相关推荐
本文共计991个文字,预计阅读时间需要4分钟。
Python 的 `xml.etree.ElementTree` 库可以方便地处理XML文件,适用于解析和构建结构清晰的大量XML数据(如RSS、sitemap、自定义配置文件等)。关键在于如何准确地定位到图片链接——通常隐藏在 `src`、`href` 或 `xlink:href` 属性中,或者自定义标签中。
常见错误是直接搜 img 标签:XML 里根本没这个 HTML 标签,硬写 tree.findall('.//img') 会返回空列表。得先看原始 XML 长什么样,再决定 XPath 表达式。
- 用
tree.findall('.//*[@src]')找所有带src属性的元素,再取.get('src') - 如果链接在命名空间里(比如 SVG 中的
xlink:href),必须声明命名空间:namespaces={'xlink': 'http://www.w3.org/1999/xlink'},然后用'.//xlink:href'配合find() - 避免用
text提取链接:很多 XML 把 URL 放在属性里,不是标签文本内容
过滤和清洗提取出的链接,避开相对路径和无效协议
XML 里混着 ./images/logo.png、data:image/png;base64,...、mailto:xxx 很常见。不处理就直接丢给下载器,要么 404,要么报错。
重点不是“全量提取”,而是“只留能 requests.get() 的 HTTP/HTTPS 绝对 URL”。
立即学习“Python免费学习笔记(深入)”;
- 用
urllib.parse.urlparse(url)检查scheme是否为'http'或'https' - 相对路径要补全:如果 XML 文件有已知 base URL(比如
https://example.com/feed.xml),用urllib.parse.urljoin(base_url, relative_url) - 跳过空值、
javascript:、tel:、data:开头的字符串——它们不是可下载的图片资源
用 requests 下载并保存图片,注意响应头和文件扩展名
拿到链接不等于能下成功。有些服务返回 Content-Type: image/jpeg 但后缀是 .png;有些返回 200 却是 HTML 登录页(反爬);还有些大图需要加 User-Agent。
- 务必检查
response.status_code == 200,非 200 直接跳过或记录日志 - 从
response.headers.get('Content-Type')推断真实类型(如image/webp),比靠 URL 后缀更可靠 - 用
os.path.splitext(url)[1]取后缀风险高:URL 可能无后缀(https://i.example.com/123),此时应 fallback 到response.headers.get('Content-Type')映射成.jpg、.webp等 - 下载前确保目标目录存在:
os.makedirs(save_dir, exist_ok=True)
批量下载时控制并发和错误容忍,别让一个失败卡死全部
几十个链接串行下载太慢,但开 100 个线程又容易被封或触发连接池耗尽。关键是“稳”,不是“快”。
- 用
concurrent.futures.ThreadPoolExecutor(max_workers=5)控制并发数,5 是多数网站能承受又不触发风控的平衡点 - 每个下载任务必须包在
try/except里:requests.exceptions.RequestException和OSError(磁盘满、权限不足)都要捕获 - 失败链接记进一个列表,最后统一打印,别吞掉错误静默跳过
- 两次请求之间加
time.sleep(0.1)(可选):对无反爬的小站没必要,但对 WordPress RSS 或某些 CMS 输出的 XML,轻度节流能显著降低 429
本文共计991个文字,预计阅读时间需要4分钟。
Python 的 `xml.etree.ElementTree` 库可以方便地处理XML文件,适用于解析和构建结构清晰的大量XML数据(如RSS、sitemap、自定义配置文件等)。关键在于如何准确地定位到图片链接——通常隐藏在 `src`、`href` 或 `xlink:href` 属性中,或者自定义标签中。
常见错误是直接搜 img 标签:XML 里根本没这个 HTML 标签,硬写 tree.findall('.//img') 会返回空列表。得先看原始 XML 长什么样,再决定 XPath 表达式。
- 用
tree.findall('.//*[@src]')找所有带src属性的元素,再取.get('src') - 如果链接在命名空间里(比如 SVG 中的
xlink:href),必须声明命名空间:namespaces={'xlink': 'http://www.w3.org/1999/xlink'},然后用'.//xlink:href'配合find() - 避免用
text提取链接:很多 XML 把 URL 放在属性里,不是标签文本内容
过滤和清洗提取出的链接,避开相对路径和无效协议
XML 里混着 ./images/logo.png、data:image/png;base64,...、mailto:xxx 很常见。不处理就直接丢给下载器,要么 404,要么报错。
重点不是“全量提取”,而是“只留能 requests.get() 的 HTTP/HTTPS 绝对 URL”。
立即学习“Python免费学习笔记(深入)”;
- 用
urllib.parse.urlparse(url)检查scheme是否为'http'或'https' - 相对路径要补全:如果 XML 文件有已知 base URL(比如
https://example.com/feed.xml),用urllib.parse.urljoin(base_url, relative_url) - 跳过空值、
javascript:、tel:、data:开头的字符串——它们不是可下载的图片资源
用 requests 下载并保存图片,注意响应头和文件扩展名
拿到链接不等于能下成功。有些服务返回 Content-Type: image/jpeg 但后缀是 .png;有些返回 200 却是 HTML 登录页(反爬);还有些大图需要加 User-Agent。
- 务必检查
response.status_code == 200,非 200 直接跳过或记录日志 - 从
response.headers.get('Content-Type')推断真实类型(如image/webp),比靠 URL 后缀更可靠 - 用
os.path.splitext(url)[1]取后缀风险高:URL 可能无后缀(https://i.example.com/123),此时应 fallback 到response.headers.get('Content-Type')映射成.jpg、.webp等 - 下载前确保目标目录存在:
os.makedirs(save_dir, exist_ok=True)
批量下载时控制并发和错误容忍,别让一个失败卡死全部
几十个链接串行下载太慢,但开 100 个线程又容易被封或触发连接池耗尽。关键是“稳”,不是“快”。
- 用
concurrent.futures.ThreadPoolExecutor(max_workers=5)控制并发数,5 是多数网站能承受又不触发风控的平衡点 - 每个下载任务必须包在
try/except里:requests.exceptions.RequestException和OSError(磁盘满、权限不足)都要捕获 - 失败链接记进一个列表,最后统一打印,别吞掉错误静默跳过
- 两次请求之间加
time.sleep(0.1)(可选):对无反爬的小站没必要,但对 WordPress RSS 或某些 CMS 输出的 XML,轻度节流能显著降低 429

