记一次使用agent在一小时内完整调研上百篇文献的工作流

2026-04-11 10:390阅读0评论SEO问题
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

用 AI 处理三十卷期刊文献综述的工程实践

老板节前扔过来三十卷期刊,时间跨度从 1990 年到现在,每卷约十几篇文献,节后要汇报某一特定主题在这几十年间的发展脉络。面对这种人力难以企及的工作量,只能借助 AI 辅助筛选和梳理。但真正动手之前,有两个硬问题必须先解决。

两个核心难点

上下文长度

一次性把所有文献塞进去显然行不通。单纯依靠上下文工程(比如在 system prompt 里约束每轮清空上下文)也很不稳定——经过我的测试,哪怕只是串行读取,进行几轮之后 agent 就会忘掉之前的约束。状态必须外置。

加密 PDF 的识别质量

这批期刊全是加密 PDF,既无法直接提取文本,又普遍采用双栏排版。AI 对双栏布局的识别本来就不稳定,遇到表格或多图交叉引用时幻觉尤其严重。直接扔给网页版 GPT 测试,结果很不理想。

预处理:MinerU 转换 Markdown

第一步用 MinerU 将三十卷期刊批量转换为标准 Markdown 格式。MinerU 能够正确处理双栏布局,将阅读顺序还原为线性文本,同时保留表格结构,这直接消除了识别质量问题,也让后续所有 AI 处理都面对干净的纯文本。

整体流程

MinerU 转换 └─ 第一轮:逐卷建立索引表(每篇文章的主题、关键词、相关度) └─ 第二轮:按研究方向归类,筛出相关文章 └─ Codex (1M 上下文) 分方向文件夹逐一总结归纳

第一轮以文章为最小单位,提取题目、摘要、研究方向,生成一张结构化索引表,同时过滤掉与目标主题无关的文章。

第二轮根据索引表,按需要调研的几个子方向分别归类,每个方向单独建一个文件夹,只放相关文章的 Markdown 文件。

阅读全文
标签:人工智能
问题描述:

用 AI 处理三十卷期刊文献综述的工程实践

老板节前扔过来三十卷期刊,时间跨度从 1990 年到现在,每卷约十几篇文献,节后要汇报某一特定主题在这几十年间的发展脉络。面对这种人力难以企及的工作量,只能借助 AI 辅助筛选和梳理。但真正动手之前,有两个硬问题必须先解决。

两个核心难点

上下文长度

一次性把所有文献塞进去显然行不通。单纯依靠上下文工程(比如在 system prompt 里约束每轮清空上下文)也很不稳定——经过我的测试,哪怕只是串行读取,进行几轮之后 agent 就会忘掉之前的约束。状态必须外置。

加密 PDF 的识别质量

这批期刊全是加密 PDF,既无法直接提取文本,又普遍采用双栏排版。AI 对双栏布局的识别本来就不稳定,遇到表格或多图交叉引用时幻觉尤其严重。直接扔给网页版 GPT 测试,结果很不理想。

预处理:MinerU 转换 Markdown

第一步用 MinerU 将三十卷期刊批量转换为标准 Markdown 格式。MinerU 能够正确处理双栏布局,将阅读顺序还原为线性文本,同时保留表格结构,这直接消除了识别质量问题,也让后续所有 AI 处理都面对干净的纯文本。

整体流程

MinerU 转换 └─ 第一轮:逐卷建立索引表(每篇文章的主题、关键词、相关度) └─ 第二轮:按研究方向归类,筛出相关文章 └─ Codex (1M 上下文) 分方向文件夹逐一总结归纳

第一轮以文章为最小单位,提取题目、摘要、研究方向,生成一张结构化索引表,同时过滤掉与目标主题无关的文章。

第二轮根据索引表,按需要调研的几个子方向分别归类,每个方向单独建一个文件夹,只放相关文章的 Markdown 文件。

阅读全文
标签:人工智能