LLM & Agent 每日论文阅读计划-D2

2026-04-11 10:500阅读0评论SEO基础
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

LLM & Agent 每日论文阅读计划-D2


碎碎念

今天来补昨天看DeepSeekV2论文留下的其中之一个坑:旋转位置编码(Rotary Position Embedding,RoPE),话说这个不应该叫旋转位置嵌入吗?由于原文涉及到致死量的数学公式,今天花了大量时间拷打claude进行公式理解。(╯-_-)╯╧╧ 方便起见我只阅读了博客。细节阅读部分还是有很多数学公式,因此如果不想看公式的话就看TL;DR,细节阅读的开头结尾和我的感悟就行´͈ ᵕ `͈


今日阅读论文

  • 标题:ROFORMER: ENHANCED TRANSFORMER WITH ROTARY POSITION EMBEDDING
  • 作者单位:苏剑林,追一科技
  • 链接:arxiv | 博客
  • 发表venue:arxiv
  • 年份:2021.4

ps:苏剑林苏神是月之暗面(KIMI AI)的研究员和知名中文 NLP 技术博主,最广为人知的贡献是提出了旋转位置编码 RoPE——目前几乎所有主流大模型(LLaMA、Qwen、DeepSeek、Kimi 等)都采用的位置编码方法。苏神本人也是我的学习目标之一,可惜我的数学实在是太拉了,但凡我有苏神一半的数学水平。。他有个非常知名的博客网页:科学空间


TL;DR

旋转位置编码就是用绝对位置编码的方式实现相对位置编码的效果。从而同时获得绝对位置编码的简单实现和对线性注意力的适配性,以及相对位置编码的更好的性能。

阅读全文
问题描述:

LLM & Agent 每日论文阅读计划-D2


碎碎念

今天来补昨天看DeepSeekV2论文留下的其中之一个坑:旋转位置编码(Rotary Position Embedding,RoPE),话说这个不应该叫旋转位置嵌入吗?由于原文涉及到致死量的数学公式,今天花了大量时间拷打claude进行公式理解。(╯-_-)╯╧╧ 方便起见我只阅读了博客。细节阅读部分还是有很多数学公式,因此如果不想看公式的话就看TL;DR,细节阅读的开头结尾和我的感悟就行´͈ ᵕ `͈


今日阅读论文

  • 标题:ROFORMER: ENHANCED TRANSFORMER WITH ROTARY POSITION EMBEDDING
  • 作者单位:苏剑林,追一科技
  • 链接:arxiv | 博客
  • 发表venue:arxiv
  • 年份:2021.4

ps:苏剑林苏神是月之暗面(KIMI AI)的研究员和知名中文 NLP 技术博主,最广为人知的贡献是提出了旋转位置编码 RoPE——目前几乎所有主流大模型(LLaMA、Qwen、DeepSeek、Kimi 等)都采用的位置编码方法。苏神本人也是我的学习目标之一,可惜我的数学实在是太拉了,但凡我有苏神一半的数学水平。。他有个非常知名的博客网页:科学空间


TL;DR

旋转位置编码就是用绝对位置编码的方式实现相对位置编码的效果。从而同时获得绝对位置编码的简单实现和对线性注意力的适配性,以及相对位置编码的更好的性能。

阅读全文