写作、训练、回灌——端到端AI驱动的学术论文生成系统
- 内容介绍
- 文章标签
- 相关推荐
如果您认可这个项目点点 star 或者 fork 自己仓库(star 为我助力 fork 可能被原作者 DMCA强制下架哈哈哈我删除了好多AI生成内容必须标注规则)
说在前面的话:
[!danger]
关于内容代码的写作还需要大家自己去调整,举个例子我在做YOLO26n + PLC 边缘端模型,你不可能全自动接管那就是 FASR 的 Agent,我是没钱买 token 也没啥时间开发这么大的产品。我的实验为例:
|阶段|做了什么|mAP|趋势|
|Phase 0-1|原版 YOLO26n,最简单的设置|0.847|最高|
|Phase 2|加 P2+BiFPN + NWD + 更强增强|0.813|下降了|
|Phase 3|疯狂调 NWD 参数|0.764|更差了|
|Phase 5 原方案|激进策略(lr↑ box↑ 增强↑ patience=0)|0.71|崩了|
|T1-fix|回退到 Phase B 参数,只去掉 NWD|0.813|恢复稳定|
这也就是说为什么不做智能体大量的修改?我还是交给我自己来做,我不喜欢黑盒的东西。 同时我也要看到我的实验是怎么迭代的,包括如果使用全自动迭代Agent消耗的量太大。
前几天在刷新闻的时候看到了全自动科研:FARS 这个产品。人家做的是智能体,为什么我没有根据这个价格去做呢? 200多小时写作100篇论文、烧光114亿Token,一般人玩不起。。。还要租 gpu 显卡
image1920×1200 280 KB
image1268×962 144 KB
但是仔细阅读官网之后大概率不会开源,并且后面也会收费使用,可能是订阅制。看到站里面今天有人在问这个问题
佬友们,我最近在思考一个问题。 怎么使用 Claude Code、Codex、Gemini 这些大模型工具,形成一个比较完整的闭环,帮助科研小白发出自己的第一篇论文。 目前想的思路是这样的: 自动读取最新论文,提炼方向和空白点; 基于论文生成一个可实验的 idea; 让大模型自己写代码、跑实验、看结果、改方案; 不断迭代,直到做出一个效果不错的东西。 我比较想讨论的是: 这个流程现在…
于是自己在看了很多项目之后,最终选择了一个效果比较好项目,同时兼容性也强的产品自己进行了二杆,然后加入了不少去AI味道的指令,然后也添加了自动在云端操作同步的一些功能。主要是更符合中国宝宝的体质,然后生成的时候把AI味道会更低一些,我引用了些专门的提示词,我自己常用的一套提示词,如果有感兴趣的也可以看下面的原文件我也同步放上来。然后最主要的是每一次跑代码的时候,我发现上传下载太麻烦,我就放到了我的项目里边,当然如果你会使用 codex 或者是 cc 那更好,关于这种云端工程师的这种身份,你自己写一个prompt 或者 skill 我就不多讲了,反正都可以实现实在不行问豆包。
以下内容必看不看吃大亏
[!tip]
写论文的时候一个中国版的模型都不要用!!!别问为什么?模型推荐去看我readme直接默认都是最新版本!不要问型号了自己试试你的专业和我也不一样
由于我引用了别人的文件,然后同时根据AI生成制度的几个规章制度,还有开源协议,我在文章tex和协议里面都写了关于内容有AI生成的内容自己删了就行。。。。
GitHub - QJHWC/PaperForge: End-to-end AI-powered academic paper writing...
End-to-end AI-powered academic paper writing system — from idea generation and literature search to experiment execution, result backfill, and LaTeX paper compilation. Supports multi-LLM routing, SSH remote training, incremental sync, and anti-AI-detection writing style.
网友解答:--【壹】--:
前排支持 赞一个
--【贰】--:
我靠,这么快的?果然 AI 时代 demo 才是沟通货币么?
--【叁】--:
大二学生看不懂,似乎目前咱也用不上,但是看着好牛逼,加个标签先
--【肆】--:
错误,执行力=生产力
--【伍】--:
好奇心 = 生产力?佬你是真有时间啊。。。
--【陆】--:
前排支持
--【柒】--:
别急马上开发多agents我研究到一个文章《How we built our multi -agent research system 》
--【捌】--:
已 star,感谢分享!
--【玖】--:
Athropic实测显示多Agent系统性能比单Agent高90.2%。其通过主Agent统筹、Subagent分工执行的循环模式解决单Agent的注意力稀释等问题,还介绍了应对系统失忆等挑战的解法,核心是专业分工协作。
--【拾】--:
可以生成大部分专业的论文还是特定专业的呢
--【拾壹】--:
感谢分享
--【拾贰】--:
学术圈要大变了
--【拾叁】--:
牛逼的佬
--【拾肆】--:
哇,前排支持
--【拾伍】--:
感谢大佬 !
--【拾陆】--:
你说的那个我考虑了,看来看去 1 是没太好的项目(都不开源) 2 是开发太智能的系统不是一般人担负得起的 token 量,同时开发难度也不是一个人做到的,太难了 总的来说,我认为训练还是得靠自己,因为AI对于各种参数的理解也不到位,还是你自己有根据训练来看,他唯一能做的就是上传下载时候的自动化文中写的一样可以用skill。包括我个人还是不太信任龙虾一类的这些产品黑盒机制我不喜欢不可控,所以我认为唯一能做的就是在写论文的时候,我们不需要再频繁的复制粘贴,可以做到流程的自动化。
--【拾柒】--:
果然是好东西
--【拾捌】--:
最近也在思考这个问题。
大概思路如下:
- 整体架构应该是manager-worker模式,1对多。manager进程常驻,根据需要拉取启动worker进程。
- manager掌管研报搜索、读取、分类、按照数据获取难度、方法实现难度、参数调优复杂度进行初步分类;设立好优先级;安排研报复现计划;向worker指派任务,汇总workers的工作,产出统计性结果。记录缺失的数据,与研报数据结论的gap,收获等等。
- workers负责研报中主要算法的实现,负责数据提取、代码编写、执行、按照特定的文件结构组织文件、代码、运行结果的生产与记录,并按照manager与worker的约定,告知任务进度,pending原因等。
- 管理员看板。了解manager和worker在做什么、已经做了什么、在哪个报告的哪个进度,有没有闲着。目前各个研报实现后的主要结论是什么,目前缺什么资源(主要是数据资源,参考文献资源等)。
话说这就是赛博血汗工厂的构建。
--【拾玖】--:
感谢分享
如果您认可这个项目点点 star 或者 fork 自己仓库(star 为我助力 fork 可能被原作者 DMCA强制下架哈哈哈我删除了好多AI生成内容必须标注规则)
说在前面的话:
[!danger]
关于内容代码的写作还需要大家自己去调整,举个例子我在做YOLO26n + PLC 边缘端模型,你不可能全自动接管那就是 FASR 的 Agent,我是没钱买 token 也没啥时间开发这么大的产品。我的实验为例:
|阶段|做了什么|mAP|趋势|
|Phase 0-1|原版 YOLO26n,最简单的设置|0.847|最高|
|Phase 2|加 P2+BiFPN + NWD + 更强增强|0.813|下降了|
|Phase 3|疯狂调 NWD 参数|0.764|更差了|
|Phase 5 原方案|激进策略(lr↑ box↑ 增强↑ patience=0)|0.71|崩了|
|T1-fix|回退到 Phase B 参数,只去掉 NWD|0.813|恢复稳定|
这也就是说为什么不做智能体大量的修改?我还是交给我自己来做,我不喜欢黑盒的东西。 同时我也要看到我的实验是怎么迭代的,包括如果使用全自动迭代Agent消耗的量太大。
前几天在刷新闻的时候看到了全自动科研:FARS 这个产品。人家做的是智能体,为什么我没有根据这个价格去做呢? 200多小时写作100篇论文、烧光114亿Token,一般人玩不起。。。还要租 gpu 显卡
image1920×1200 280 KB
image1268×962 144 KB
但是仔细阅读官网之后大概率不会开源,并且后面也会收费使用,可能是订阅制。看到站里面今天有人在问这个问题
佬友们,我最近在思考一个问题。 怎么使用 Claude Code、Codex、Gemini 这些大模型工具,形成一个比较完整的闭环,帮助科研小白发出自己的第一篇论文。 目前想的思路是这样的: 自动读取最新论文,提炼方向和空白点; 基于论文生成一个可实验的 idea; 让大模型自己写代码、跑实验、看结果、改方案; 不断迭代,直到做出一个效果不错的东西。 我比较想讨论的是: 这个流程现在…
于是自己在看了很多项目之后,最终选择了一个效果比较好项目,同时兼容性也强的产品自己进行了二杆,然后加入了不少去AI味道的指令,然后也添加了自动在云端操作同步的一些功能。主要是更符合中国宝宝的体质,然后生成的时候把AI味道会更低一些,我引用了些专门的提示词,我自己常用的一套提示词,如果有感兴趣的也可以看下面的原文件我也同步放上来。然后最主要的是每一次跑代码的时候,我发现上传下载太麻烦,我就放到了我的项目里边,当然如果你会使用 codex 或者是 cc 那更好,关于这种云端工程师的这种身份,你自己写一个prompt 或者 skill 我就不多讲了,反正都可以实现实在不行问豆包。
以下内容必看不看吃大亏
[!tip]
写论文的时候一个中国版的模型都不要用!!!别问为什么?模型推荐去看我readme直接默认都是最新版本!不要问型号了自己试试你的专业和我也不一样
由于我引用了别人的文件,然后同时根据AI生成制度的几个规章制度,还有开源协议,我在文章tex和协议里面都写了关于内容有AI生成的内容自己删了就行。。。。
GitHub - QJHWC/PaperForge: End-to-end AI-powered academic paper writing...
End-to-end AI-powered academic paper writing system — from idea generation and literature search to experiment execution, result backfill, and LaTeX paper compilation. Supports multi-LLM routing, SSH remote training, incremental sync, and anti-AI-detection writing style.
网友解答:--【壹】--:
前排支持 赞一个
--【贰】--:
我靠,这么快的?果然 AI 时代 demo 才是沟通货币么?
--【叁】--:
大二学生看不懂,似乎目前咱也用不上,但是看着好牛逼,加个标签先
--【肆】--:
错误,执行力=生产力
--【伍】--:
好奇心 = 生产力?佬你是真有时间啊。。。
--【陆】--:
前排支持
--【柒】--:
别急马上开发多agents我研究到一个文章《How we built our multi -agent research system 》
--【捌】--:
已 star,感谢分享!
--【玖】--:
Athropic实测显示多Agent系统性能比单Agent高90.2%。其通过主Agent统筹、Subagent分工执行的循环模式解决单Agent的注意力稀释等问题,还介绍了应对系统失忆等挑战的解法,核心是专业分工协作。
--【拾】--:
可以生成大部分专业的论文还是特定专业的呢
--【拾壹】--:
感谢分享
--【拾贰】--:
学术圈要大变了
--【拾叁】--:
牛逼的佬
--【拾肆】--:
哇,前排支持
--【拾伍】--:
感谢大佬 !
--【拾陆】--:
你说的那个我考虑了,看来看去 1 是没太好的项目(都不开源) 2 是开发太智能的系统不是一般人担负得起的 token 量,同时开发难度也不是一个人做到的,太难了 总的来说,我认为训练还是得靠自己,因为AI对于各种参数的理解也不到位,还是你自己有根据训练来看,他唯一能做的就是上传下载时候的自动化文中写的一样可以用skill。包括我个人还是不太信任龙虾一类的这些产品黑盒机制我不喜欢不可控,所以我认为唯一能做的就是在写论文的时候,我们不需要再频繁的复制粘贴,可以做到流程的自动化。
--【拾柒】--:
果然是好东西
--【拾捌】--:
最近也在思考这个问题。
大概思路如下:
- 整体架构应该是manager-worker模式,1对多。manager进程常驻,根据需要拉取启动worker进程。
- manager掌管研报搜索、读取、分类、按照数据获取难度、方法实现难度、参数调优复杂度进行初步分类;设立好优先级;安排研报复现计划;向worker指派任务,汇总workers的工作,产出统计性结果。记录缺失的数据,与研报数据结论的gap,收获等等。
- workers负责研报中主要算法的实现,负责数据提取、代码编写、执行、按照特定的文件结构组织文件、代码、运行结果的生产与记录,并按照manager与worker的约定,告知任务进度,pending原因等。
- 管理员看板。了解manager和worker在做什么、已经做了什么、在哪个报告的哪个进度,有没有闲着。目前各个研报实现后的主要结论是什么,目前缺什么资源(主要是数据资源,参考文献资源等)。
话说这就是赛博血汗工厂的构建。
--【拾玖】--:
感谢分享

