如何用Python高效合并多个PDF文档?
- 内容介绍
- 文章标签
- 相关推荐
本文共计381个文字,预计阅读时间需要2分钟。
今天需要整理一份资料,需要将多个PDF合并为一个,WPS等软件自然有这个功能,但一般都需收费。虽然网上有很多网站,但资料上传到别人的网站,最终还是觉得不太可靠。
今天需要整理一份资料,需要把多个pdf合并为一个,wps这些软件自然是有这个功能,但一般都是收费的,百度上也有很多网站,但资料上传到别人的网站,始终觉得还是不太可靠,故自己搜索了一下使用python来处理pdf文件,故此分享这个方法
python处理pdf需要用到一个PyPDF2的库,故首先安装这个第三方库
安装这些第三方库推荐使用国内的源,比如清华、豆瓣、百度、华为等
pip install PyPDF2 -i pypi.tuna.tsinghua.edu.cn/simple然后根据这个库处理pdf
import osfrom PyPDF2 import PdfFileMerger
target_path = r'pdf' ## pdf目录文件
pdf_lst = [f for f in os.listdir(target_path) if f.endswith('.pdf')]
pdf_lst = [os.path.join(target_path, filename) for filename in pdf_lst]
file_merger = PdfFileMerger()
for pdf in pdf_lst:
file_merger.append(pdf,import_bookmarks=False) # 合并pdf文件
file_merger.write(r"合并文件.pdf")
注意一下:
合并的时候,pdf_lst 是根据文件的名称来排序生成,如果对于pdf文件合成顺序有要求,建议吧文件按照期望的合成顺序编号1 2 3这样,方便一些
比如像下面这种
在当前目录就生成好了对应的文件
本文共计381个文字,预计阅读时间需要2分钟。
今天需要整理一份资料,需要将多个PDF合并为一个,WPS等软件自然有这个功能,但一般都需收费。虽然网上有很多网站,但资料上传到别人的网站,最终还是觉得不太可靠。
今天需要整理一份资料,需要把多个pdf合并为一个,wps这些软件自然是有这个功能,但一般都是收费的,百度上也有很多网站,但资料上传到别人的网站,始终觉得还是不太可靠,故自己搜索了一下使用python来处理pdf文件,故此分享这个方法
python处理pdf需要用到一个PyPDF2的库,故首先安装这个第三方库
安装这些第三方库推荐使用国内的源,比如清华、豆瓣、百度、华为等
pip install PyPDF2 -i pypi.tuna.tsinghua.edu.cn/simple然后根据这个库处理pdf
import osfrom PyPDF2 import PdfFileMerger
target_path = r'pdf' ## pdf目录文件
pdf_lst = [f for f in os.listdir(target_path) if f.endswith('.pdf')]
pdf_lst = [os.path.join(target_path, filename) for filename in pdf_lst]
file_merger = PdfFileMerger()
for pdf in pdf_lst:
file_merger.append(pdf,import_bookmarks=False) # 合并pdf文件
file_merger.write(r"合并文件.pdf")
注意一下:
合并的时候,pdf_lst 是根据文件的名称来排序生成,如果对于pdf文件合成顺序有要求,建议吧文件按照期望的合成顺序编号1 2 3这样,方便一些
比如像下面这种
在当前目录就生成好了对应的文件

