LLM & Agent 每日论文阅读计划-D2
- 内容介绍
- 文章标签
- 相关推荐
LLM & Agent 每日论文阅读计划-D2
碎碎念
今天来补昨天看DeepSeekV2论文留下的其中之一个坑:旋转位置编码(Rotary Position Embedding,RoPE),话说这个不应该叫旋转位置嵌入吗?由于原文涉及到致死量的数学公式,今天花了大量时间拷打claude进行公式理解。(╯-_-)╯╧╧ 方便起见我只阅读了博客。细节阅读部分还是有很多数学公式,因此如果不想看公式的话就看TL;DR,细节阅读的开头结尾和我的感悟就行´͈ ᵕ `͈
今日阅读论文
- 标题:ROFORMER: ENHANCED TRANSFORMER WITH ROTARY POSITION EMBEDDING
- 作者单位:苏剑林,追一科技
- 链接:arxiv | 博客
- 发表venue:arxiv
- 年份:2021.4
ps:苏剑林苏神是月之暗面(KIMI AI)的研究员和知名中文 NLP 技术博主,最广为人知的贡献是提出了旋转位置编码 RoPE——目前几乎所有主流大模型(LLaMA、Qwen、DeepSeek、Kimi 等)都采用的位置编码方法。苏神本人也是我的学习目标之一,可惜我的数学实在是太拉了,但凡我有苏神一半的数学水平。。他有个非常知名的博客网页:科学空间
TL;DR
旋转位置编码就是用绝对位置编码的方式实现相对位置编码的效果。从而同时获得绝对位置编码的简单实现和对线性注意力的适配性,以及相对位置编码的更好的性能。
LLM & Agent 每日论文阅读计划-D2
碎碎念
今天来补昨天看DeepSeekV2论文留下的其中之一个坑:旋转位置编码(Rotary Position Embedding,RoPE),话说这个不应该叫旋转位置嵌入吗?由于原文涉及到致死量的数学公式,今天花了大量时间拷打claude进行公式理解。(╯-_-)╯╧╧ 方便起见我只阅读了博客。细节阅读部分还是有很多数学公式,因此如果不想看公式的话就看TL;DR,细节阅读的开头结尾和我的感悟就行´͈ ᵕ `͈
今日阅读论文
- 标题:ROFORMER: ENHANCED TRANSFORMER WITH ROTARY POSITION EMBEDDING
- 作者单位:苏剑林,追一科技
- 链接:arxiv | 博客
- 发表venue:arxiv
- 年份:2021.4
ps:苏剑林苏神是月之暗面(KIMI AI)的研究员和知名中文 NLP 技术博主,最广为人知的贡献是提出了旋转位置编码 RoPE——目前几乎所有主流大模型(LLaMA、Qwen、DeepSeek、Kimi 等)都采用的位置编码方法。苏神本人也是我的学习目标之一,可惜我的数学实在是太拉了,但凡我有苏神一半的数学水平。。他有个非常知名的博客网页:科学空间
TL;DR
旋转位置编码就是用绝对位置编码的方式实现相对位置编码的效果。从而同时获得绝对位置编码的简单实现和对线性注意力的适配性,以及相对位置编码的更好的性能。

