RetainPDF:PDF 保留排版翻译工具

2026-04-13 12:061阅读0评论SEO资讯
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

本帖使用社区公益推广,符合推广要求。我申明并遵循社区要求的以下内容:

  • 我的项目是免费使用的,无收费(变相收费、赞助)部分:
  • 我的帖子已经打上 公益推广 标签:
  • 我的项目属于个人项目,与公司或商业机构无关:
  • 我的项目不存在QQ、TG等群组引流:
  • 我的项目不存在非运营必要的网站引流:
  • 我的项目不存在为他人推广、AFF:
  • 我的项目无关联的商业项目:
  • 我的站点存在登录,并已接入 LINUX DO Connect:
  • 我帖子内的项目介绍,AI生成、润色内容部分已截图发出:
  • 以上选择我承诺是永久有效的,接受社区和佬友监督:

以下为项目介绍正文内容,AI生成、润色内容已使用截图方式发出


github.com

GitHub - wxyhgk/retain-pdf: 在保留版面、公式与结构的前提下进行 PDF 翻译,适用于科研与技术文档

在保留版面、公式与结构的前提下进行 PDF 翻译,适用于科研与技术文档

开源社区做保留排版的项目不少,但是都围绕可复制,可编辑的 PDF,以及行内公式不复杂的场景.

RetainPDF 从一开始就是要解决各类 PDF 的保留排版翻译问题,尤其是图片型/扫描版 PDF,以及行内公式的渲染问题.

在保留排版翻译这个领域,正面硬刚闭源模型,并且在一些场景下做得更好,比如翻译后的 PDF 体积、整体速度和字体大小控制。

此外本项目是前后端分离、OCR、翻译、排版与交付打通的全栈项目,整体结构尽量解耦,既能直接使用,也方便后续开发者继续扩展、替换模块和二次开发。

简单对比:

项目 扫描型 PDF 复杂行内公式 代码不误翻 表格控制 自定义翻译策略 排版保留 PDF 压缩优化 API 自动化
PDFMathTranslate 一般 一般
PolyglotPDF 一般 一般
Doc2X 不开放
RetainPDF 可开关 可按规则配置 持续优化

2. 效果展示

均为有复杂数学公式和复杂排版的页面

2.1 sci论文

image 11920×1258 877 KB

image 21920×1070 366 KB

2.2 扫描版 PDF

image 31920×934 221 KB

17751965887431920×1002 413 KB

2.3 图书

image 41920×1207 328 KB

image 51920×1008 277 KB

image 61920×1065 374 KB

3. 未来开放的功能

3.1 图书管功能

image1920×982 175 KB

3.2 高精度保留排版

突破现有 ocr 局限,实现更高精度保留排版功能

3.3 Rag 系统翻译和…

网友解答:
--【壹】--:

没法换key吗?


--【贰】--:

纯图片的pdf可以翻译吗


--【叁】--:

厉害,谢谢大佬的分享


--【肆】--:

感谢分享


--【伍】--:

確實啊!


--【陆】--:

牛逼,大佬


--【柒】--:

Mark


--【捌】--:

社区内有类似的项目:PDF2zh,是否参考过呢。功能几乎一样的


--【玖】--:

支持,不错的工具,有时间试一下


--【拾】--:

感谢佬分享


--【拾壹】--:

前排支持


--【拾贰】--:

神了,大佬


--【拾叁】--:

和PDF2zh,doc2x有什么区别呢


--【拾肆】--:

目前在用 PDF2zh,RetainPDF 是否有相对比较有特色的功能呢


--【拾伍】--:

没有参考过他的,他这个只能搞简单的 pdf,行内公式复杂和扫描版 pdf 都会出问题


--【拾陆】--:

感谢大佬!


--【拾柒】--:

请问windows版能做成便携版吗?


--【拾捌】--:

pdf2zh可以翻译纯图片的pdf吗


--【拾玖】--:

已star