【文献翻译】关于文献翻译的思考以及简单的工作流程
- 内容介绍
- 文章标签
- 相关推荐
这两天一直在思考怎么将PDF英文文献翻译成好理解、好阅读、好查阅的中文形式,研究了一下将整个流程整理一下。
总体流程
对于一个PDF,直接对译为中文PDF在很多时候是不合适的,主要问题在于中英文表述相同意义下的字数不同,以及对公式处理不佳。考虑这一点,找到一个合适的中间格式来转可能更好。
显然markdown完美符合这个中间格式的要求,换句话说我们第一步就要将PDF转成markdown,然后因为markdown纯文本的格式,直接按段落分丢给LLM翻译就行了
而且markdown本身就有极佳的可读性,也可以借助mdbook等SSG工具转换成网页从而在各个端都能访问阅读
用流程图描述就是这样
graph LR
Start[原始 PDF 文件] --> CoreProcess
subgraph CoreProcess [核心处理流程]
direction LR
Step1[PDF 转换为 Markdown]
Step2[按段落分割纯文本,调用 LLM 进行翻译]
Result[中文 Markdown 文件]
Step1 --> Step2 --> Result
end
CoreProcess --> Final[生成网页, 实现多端访问]
PDF 2 MD
那么第一问题来了,怎么将PDF转换为md
考虑到公式、表格、图片三个要素的存在,转换方式一定是要完美保持这三个东西的,这个可以借助一些专门的OCR模型来做
我试了好几个,最后选择的是MonkeyOCR,相较于Deepseek OCR、PaddleVL OCR等几个模型,这个主要的好处是不费劲,速度和效果和Deepseek OCR差不多,比PaddleVL OCR好配置。
这两天一直在思考怎么将PDF英文文献翻译成好理解、好阅读、好查阅的中文形式,研究了一下将整个流程整理一下。
总体流程
对于一个PDF,直接对译为中文PDF在很多时候是不合适的,主要问题在于中英文表述相同意义下的字数不同,以及对公式处理不佳。考虑这一点,找到一个合适的中间格式来转可能更好。
显然markdown完美符合这个中间格式的要求,换句话说我们第一步就要将PDF转成markdown,然后因为markdown纯文本的格式,直接按段落分丢给LLM翻译就行了
而且markdown本身就有极佳的可读性,也可以借助mdbook等SSG工具转换成网页从而在各个端都能访问阅读
用流程图描述就是这样
graph LR
Start[原始 PDF 文件] --> CoreProcess
subgraph CoreProcess [核心处理流程]
direction LR
Step1[PDF 转换为 Markdown]
Step2[按段落分割纯文本,调用 LLM 进行翻译]
Result[中文 Markdown 文件]
Step1 --> Step2 --> Result
end
CoreProcess --> Final[生成网页, 实现多端访问]
PDF 2 MD
那么第一问题来了,怎么将PDF转换为md
考虑到公式、表格、图片三个要素的存在,转换方式一定是要完美保持这三个东西的,这个可以借助一些专门的OCR模型来做
我试了好几个,最后选择的是MonkeyOCR,相较于Deepseek OCR、PaddleVL OCR等几个模型,这个主要的好处是不费劲,速度和效果和Deepseek OCR差不多,比PaddleVL OCR好配置。

