RetainPDF:PDF 保留排版翻译工具
- 内容介绍
- 文章标签
- 相关推荐
本帖使用社区公益推广,符合推广要求。我申明并遵循社区要求的以下内容:
- 我的项目是免费使用的,无收费(变相收费、赞助)部分: 是
- 我的帖子已经打上 公益推广 标签: 是
- 我的项目属于个人项目,与公司或商业机构无关: 是
- 我的项目不存在QQ、TG等群组引流: 是
- 我的项目不存在非运营必要的网站引流: 是
- 我的项目不存在为他人推广、AFF: 是
- 我的项目无关联的商业项目: 是
- 我的站点存在登录,并已接入 LINUX DO Connect: 否
- 我帖子内的项目介绍,AI生成、润色内容部分已截图发出: 是
- 以上选择我承诺是永久有效的,接受社区和佬友监督: 是
以下为项目介绍正文内容,AI生成、润色内容已使用截图方式发出
GitHub - wxyhgk/retain-pdf: 在保留版面、公式与结构的前提下进行 PDF 翻译,适用于科研与技术文档
在保留版面、公式与结构的前提下进行 PDF 翻译,适用于科研与技术文档
开源社区做保留排版的项目不少,但是都围绕可复制,可编辑的 PDF,以及行内公式不复杂的场景.
RetainPDF 从一开始就是要解决各类 PDF 的保留排版翻译问题,尤其是图片型/扫描版 PDF,以及行内公式的渲染问题.
在保留排版翻译这个领域,正面硬刚闭源模型,并且在一些场景下做得更好,比如翻译后的 PDF 体积、整体速度和字体大小控制。
此外本项目是前后端分离、OCR、翻译、排版与交付打通的全栈项目,整体结构尽量解耦,既能直接使用,也方便后续开发者继续扩展、替换模块和二次开发。
简单对比:
| 项目 | 扫描型 PDF | 复杂行内公式 | 代码不误翻 | 表格控制 | 自定义翻译策略 | 排版保留 | PDF 压缩优化 | API 自动化 |
|---|---|---|---|---|---|---|---|---|
| PDFMathTranslate | 弱 | 弱 | 一般 | 一般 | ||||
| PolyglotPDF | 弱 | 弱 | 一般 | 一般 | ||||
| Doc2X | 中 | 弱 | 强 | 弱 | 不开放 | |||
| RetainPDF | 可开关 | 可按规则配置 | 强 | 持续优化 |
2. 效果展示
均为有复杂数学公式和复杂排版的页面
2.1 sci论文
image 11920×1258 877 KB
image 21920×1070 366 KB
2.2 扫描版 PDF
image 31920×934 221 KB
17751965887431920×1002 413 KB
2.3 图书
image 41920×1207 328 KB
image 51920×1008 277 KB
image 61920×1065 374 KB
3. 未来开放的功能
3.1 图书管功能
image1920×982 175 KB
3.2 高精度保留排版
突破现有 ocr 局限,实现更高精度保留排版功能
3.3 Rag 系统翻译和…
网友解答:--【壹】--:
没法换key吗?
--【贰】--:
纯图片的pdf可以翻译吗
--【叁】--:
厉害,谢谢大佬的分享
--【肆】--:
感谢分享
--【伍】--:
確實啊!
--【陆】--:
牛逼,大佬
--【柒】--:
Mark
--【捌】--:
社区内有类似的项目:PDF2zh,是否参考过呢。功能几乎一样的
--【玖】--:
支持,不错的工具,有时间试一下
--【拾】--:
感谢佬分享
--【拾壹】--:
前排支持
--【拾贰】--:
神了,大佬
--【拾叁】--:
和PDF2zh,doc2x有什么区别呢
--【拾肆】--:
目前在用 PDF2zh,RetainPDF 是否有相对比较有特色的功能呢
--【拾伍】--:
没有参考过他的,他这个只能搞简单的 pdf,行内公式复杂和扫描版 pdf 都会出问题
--【拾陆】--:
感谢大佬!
--【拾柒】--:
请问windows版能做成便携版吗?
--【拾捌】--:
pdf2zh可以翻译纯图片的pdf吗
--【拾玖】--:
已star
本帖使用社区公益推广,符合推广要求。我申明并遵循社区要求的以下内容:
- 我的项目是免费使用的,无收费(变相收费、赞助)部分: 是
- 我的帖子已经打上 公益推广 标签: 是
- 我的项目属于个人项目,与公司或商业机构无关: 是
- 我的项目不存在QQ、TG等群组引流: 是
- 我的项目不存在非运营必要的网站引流: 是
- 我的项目不存在为他人推广、AFF: 是
- 我的项目无关联的商业项目: 是
- 我的站点存在登录,并已接入 LINUX DO Connect: 否
- 我帖子内的项目介绍,AI生成、润色内容部分已截图发出: 是
- 以上选择我承诺是永久有效的,接受社区和佬友监督: 是
以下为项目介绍正文内容,AI生成、润色内容已使用截图方式发出
GitHub - wxyhgk/retain-pdf: 在保留版面、公式与结构的前提下进行 PDF 翻译,适用于科研与技术文档
在保留版面、公式与结构的前提下进行 PDF 翻译,适用于科研与技术文档
开源社区做保留排版的项目不少,但是都围绕可复制,可编辑的 PDF,以及行内公式不复杂的场景.
RetainPDF 从一开始就是要解决各类 PDF 的保留排版翻译问题,尤其是图片型/扫描版 PDF,以及行内公式的渲染问题.
在保留排版翻译这个领域,正面硬刚闭源模型,并且在一些场景下做得更好,比如翻译后的 PDF 体积、整体速度和字体大小控制。
此外本项目是前后端分离、OCR、翻译、排版与交付打通的全栈项目,整体结构尽量解耦,既能直接使用,也方便后续开发者继续扩展、替换模块和二次开发。
简单对比:
| 项目 | 扫描型 PDF | 复杂行内公式 | 代码不误翻 | 表格控制 | 自定义翻译策略 | 排版保留 | PDF 压缩优化 | API 自动化 |
|---|---|---|---|---|---|---|---|---|
| PDFMathTranslate | 弱 | 弱 | 一般 | 一般 | ||||
| PolyglotPDF | 弱 | 弱 | 一般 | 一般 | ||||
| Doc2X | 中 | 弱 | 强 | 弱 | 不开放 | |||
| RetainPDF | 可开关 | 可按规则配置 | 强 | 持续优化 |
2. 效果展示
均为有复杂数学公式和复杂排版的页面
2.1 sci论文
image 11920×1258 877 KB
image 21920×1070 366 KB
2.2 扫描版 PDF
image 31920×934 221 KB
17751965887431920×1002 413 KB
2.3 图书
image 41920×1207 328 KB
image 51920×1008 277 KB
image 61920×1065 374 KB
3. 未来开放的功能
3.1 图书管功能
image1920×982 175 KB
3.2 高精度保留排版
突破现有 ocr 局限,实现更高精度保留排版功能
3.3 Rag 系统翻译和…
网友解答:--【壹】--:
没法换key吗?
--【贰】--:
纯图片的pdf可以翻译吗
--【叁】--:
厉害,谢谢大佬的分享
--【肆】--:
感谢分享
--【伍】--:
確實啊!
--【陆】--:
牛逼,大佬
--【柒】--:
Mark
--【捌】--:
社区内有类似的项目:PDF2zh,是否参考过呢。功能几乎一样的
--【玖】--:
支持,不错的工具,有时间试一下
--【拾】--:
感谢佬分享
--【拾壹】--:
前排支持
--【拾贰】--:
神了,大佬
--【拾叁】--:
和PDF2zh,doc2x有什么区别呢
--【拾肆】--:
目前在用 PDF2zh,RetainPDF 是否有相对比较有特色的功能呢
--【拾伍】--:
没有参考过他的,他这个只能搞简单的 pdf,行内公式复杂和扫描版 pdf 都会出问题
--【拾陆】--:
感谢大佬!
--【拾柒】--:
请问windows版能做成便携版吗?
--【拾捌】--:
pdf2zh可以翻译纯图片的pdf吗
--【拾玖】--:
已star

