记一次使用agent在一小时内完整调研上百篇文献的工作流

2026-04-11 10:390阅读0评论SEO问题

问题描述：

用 AI 处理三十卷期刊文献综述的工程实践

老板节前扔过来三十卷期刊，时间跨度从 1990 年到现在，每卷约十几篇文献，节后要汇报某一特定主题在这几十年间的发展脉络。面对这种人力难以企及的工作量，只能借助 AI 辅助筛选和梳理。但真正动手之前，有两个硬问题必须先解决。

上下文长度

一次性把所有文献塞进去显然行不通。单纯依靠上下文工程（比如在 system prompt 里约束每轮清空上下文）也很不稳定——经过我的测试，哪怕只是串行读取，进行几轮之后 agent 就会忘掉之前的约束。状态必须外置。

加密 PDF 的识别质量

这批期刊全是加密 PDF，既无法直接提取文本，又普遍采用双栏排版。AI 对双栏布局的识别本来就不稳定，遇到表格或多图交叉引用时幻觉尤其严重。直接扔给网页版 GPT 测试，结果很不理想。

第一步用 MinerU 将三十卷期刊批量转换为标准 Markdown 格式。MinerU 能够正确处理双栏布局，将阅读顺序还原为线性文本，同时保留表格结构，这直接消除了识别质量问题，也让后续所有 AI 处理都面对干净的纯文本。

MinerU 转换 └─ 第一轮：逐卷建立索引表（每篇文章的主题、关键词、相关度） └─ 第二轮：按研究方向归类，筛出相关文章 └─ Codex (1M 上下文) 分方向文件夹逐一总结归纳

第一轮以文章为最小单位，提取题目、摘要、研究方向，生成一张结构化索引表，同时过滤掉与目标主题无关的文章。

第二轮根据索引表，按需要调研的几个子方向分别归类，每个方向单独建一个文件夹，只放相关文章的 Markdown 文件。

问题描述：

上下文长度

加密 PDF 的识别质量

第一轮以文章为最小单位，提取题目、摘要、研究方向，生成一张结构化索引表，同时过滤掉与目标主题无关的文章。

第二轮根据索引表，按需要调研的几个子方向分别归类，每个方向单独建一个文件夹，只放相关文章的 Markdown 文件。