LLM & Agent 每日论文阅读计划-D1
- 内容介绍
- 文章标签
- 相关推荐
LLM & Agent 每日论文阅读计划-D1
碎碎念
各位佬友好,我是一个学计算机视觉的研究生。最近LLM/Agent的发展势头迅猛,我作为一个不学无术的炼丹术士深深感到有被淘汰的风险,同时也看到AI时代的机遇。遂决定自学LLM和Agent开发相关内容,先从每天阅读相关论文做起,计划每天阅读个一篇左右,由claude opus推荐论文和辅助理解,包括各家LLM厂商发的学术论文、技术报告等等。我知道站里大佬很多,因此打算把笔记都发到站里,欢迎各位佬友监督和指点。
[!note] P.S.
我一直认为能把一个很深奥的知识讲的很浅显易懂才证明你完全理解掌握了这个知识,因此我会狠狠拷打claude核心内容用尽可能简单的方式总结一遍。因此如果有对深度学习了解比较少的佬友也可以停下来看看,希望我能让你理解我想说的是什么。如果你觉得我讲的不清楚也随时欢迎在帖子里提问指出~!
今日阅读论文
- 标题:DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model
- 作者单位:DeepSeek
- 链接:https://arxiv.org/pdf/2412.19437
- 发表venue:arxiv
- 年份:2024.5
TL;DR
DeepSeek最先被大家所熟知应该是25年1月R1模型的发布。在其之前发布的V2和V3模型往往鲜为人知。
LLM & Agent 每日论文阅读计划-D1
碎碎念
各位佬友好,我是一个学计算机视觉的研究生。最近LLM/Agent的发展势头迅猛,我作为一个不学无术的炼丹术士深深感到有被淘汰的风险,同时也看到AI时代的机遇。遂决定自学LLM和Agent开发相关内容,先从每天阅读相关论文做起,计划每天阅读个一篇左右,由claude opus推荐论文和辅助理解,包括各家LLM厂商发的学术论文、技术报告等等。我知道站里大佬很多,因此打算把笔记都发到站里,欢迎各位佬友监督和指点。
[!note] P.S.
我一直认为能把一个很深奥的知识讲的很浅显易懂才证明你完全理解掌握了这个知识,因此我会狠狠拷打claude核心内容用尽可能简单的方式总结一遍。因此如果有对深度学习了解比较少的佬友也可以停下来看看,希望我能让你理解我想说的是什么。如果你觉得我讲的不清楚也随时欢迎在帖子里提问指出~!
今日阅读论文
- 标题:DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model
- 作者单位:DeepSeek
- 链接:https://arxiv.org/pdf/2412.19437
- 发表venue:arxiv
- 年份:2024.5
TL;DR
DeepSeek最先被大家所熟知应该是25年1月R1模型的发布。在其之前发布的V2和V3模型往往鲜为人知。

