Intel Arc Alchemist架构(A770A750)运行Qwen 3.5并支持多模态之二

2026-04-11 14:470阅读0评论SEO资源
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

继续上周的开源推广项目的记录,本篇不涉及推广内容,基本算是技术路线描述、性能统计和一点碎碎念,因此需要获取原项目的直接移步下面帖子里的Github链接即可

项目起始:
https://linux.do/t/topic/1829505

开源地址

Intel Arc Alchemist架构(A770 / A750)运行Qwen 3.5并支持多模态 开发调优
本帖使用社区开源推广,符合推广要求。我申明并遵循社区要求的以下内容: 我的帖子已经打上 开源推广 标签: 是 我的开源项目完整开源,无未开源部分: 是 我的开源项目已链接认可 LINUX DO 社区: 是 我帖子内的项目介绍,AI生成、润色内容部分已截图发出: 是 以上选择我承诺是永久有效的,接受社区和佬友监督: 是 以下为项目介绍正文内容,AI生成、润色内容已使用截图方式发出 继续昨天的…

周末主要做的工作就是写基于Pytorch 的 XPU 自定义算子。

只支持 XPU,限定了 query/key/value/z 同 dtype,支持 float16、bfloat16、float32。但内部把 beta、g、norm_weight 和递推状态统一提升到 float32 来算,状态张量 working_state 也统一 float32,这是为了数值稳定做出的妥协,降级的话总是遇到乱码问题。

对每个 head 的输出做 RMSNorm,再乘 norm_weight,最后乘 silu(z) 门控。

Qwen3GatedDeltaNet.forward 先做投影和 depthwise conv,得到 query/key/value/z/beta/g,再把它们一次性交给 fused op。

阅读全文
问题描述:

继续上周的开源推广项目的记录,本篇不涉及推广内容,基本算是技术路线描述、性能统计和一点碎碎念,因此需要获取原项目的直接移步下面帖子里的Github链接即可

项目起始:
https://linux.do/t/topic/1829505

开源地址

Intel Arc Alchemist架构(A770 / A750)运行Qwen 3.5并支持多模态 开发调优
本帖使用社区开源推广,符合推广要求。我申明并遵循社区要求的以下内容: 我的帖子已经打上 开源推广 标签: 是 我的开源项目完整开源,无未开源部分: 是 我的开源项目已链接认可 LINUX DO 社区: 是 我帖子内的项目介绍,AI生成、润色内容部分已截图发出: 是 以上选择我承诺是永久有效的,接受社区和佬友监督: 是 以下为项目介绍正文内容,AI生成、润色内容已使用截图方式发出 继续昨天的…

周末主要做的工作就是写基于Pytorch 的 XPU 自定义算子。

只支持 XPU,限定了 query/key/value/z 同 dtype,支持 float16、bfloat16、float32。但内部把 beta、g、norm_weight 和递推状态统一提升到 float32 来算,状态张量 working_state 也统一 float32,这是为了数值稳定做出的妥协,降级的话总是遇到乱码问题。

对每个 head 的输出做 RMSNorm,再乘 norm_weight,最后乘 silu(z) 门控。

Qwen3GatedDeltaNet.forward 先做投影和 depthwise conv,得到 query/key/value/z/beta/g,再把它们一次性交给 fused op。

阅读全文