Intel Arc Alchemist架构（A770A750）运行Qwen 3.5并支持多模态

2026-04-13 12:211阅读0评论SEO资讯

内容介绍
文章标签
相关推荐

问题描述：

本帖使用社区开源推广，符合推广要求。我申明并遵循社区要求的以下内容：

我的帖子已经打上开源推广标签： 是
我的开源项目完整开源，无未开源部分： 是
我的开源项目已链接认可 LINUX DO 社区： 是
我帖子内的项目介绍，AI生成、润色内容部分已截图发出： 是
以上选择我承诺是永久有效的，接受社区和佬友监督： 是

以下为项目介绍正文内容，AI生成、润色内容已使用截图方式发出

继续昨天的帖子
https://linux.do/t/topic/1829505

先放实测。

支持思维链输出，添加参数 “–reasoning-format deepseek” 即参考deepseek思维链格式添加完整包裹。

项目添加了自动计算机制，不需要显式指定上下文，在触及显存OOM之前输出最大长度。

载入内存时将权重量化到int4再丢入GPU，提升效率。

支持Qwen3.5的多模态。

anna-serve --model-dir D:\Projects\Anna\models\Jackrong\Qwen3___5-9B-Claude-4___6-Opus-Reasoning-Distilled-v2 \ --model-name qwen3.5 \ --device xpu \ --dtype bf16 \ --weight-quant int4 \ --offload-vision \ --min-free-memory-mib 256 \ --reserve-memory-mib 128 \ --max-estimated-usage-ratio 0.95 \ --generation-memory-safety-factor 1.25

image1054×220 13.6 KB

image1623×324 18.9 KB

Output 11 tokens/s

众所周知Qwen3.5总是过度思考，同样，参照了vLLM的方式，传入
"chat_template_kwargs": {"enable_thinking": false } 来禁用思考

anna-serve --model-dir D:\Projects\Anna\models\Jackrong\Qwen3___5-9B-Claude-4___6-Opus-Reasoning-Distilled-v2 \ --model-name qwen3.5 \ --device xpu \ --dtype bf16 \ --weight-quant int4 \ --offload-vision \ --disable-thinking \ --reasoning-format deepseek \ --min-free-memory-mib 256 \ --reserve-memory-mib 128 \ --max-estimated-usage-ratio 0.95 \ --generation-memory-safety-factor 1.25

image733×285 16.9 KB

Output 11 tokens/s

看起来还能优化

那就增加直接走语言模型的文本快路径，跳过多模态包装层的额外对齐和位置逻辑，引擎侧会在没有 pixel_values / pixel_values_videos 时自动切到这个分支

image731×273 15.3 KB

Output 19 tokens/s

继续优化，降低首字延迟

双倍的加载时间，减少了1/3的首字延时，但受限于显存仍需要先从内存搬运

image732×479 20 KB

Output 12 tokens/s

资源占用情况

image795×565 24.1 KB

项目地址

github.com

GitHub - funkpopo/Anna

通过在 GitHub 上创建帐户来为 funkpopo/Anna 开发做出贡献。

网友解答：

--【壹】--：

买不起N卡是这样的

--【贰】--：

停在8509版本了。因为后面的版本几个驱动测试过LOW帧有问题。估计是对B卡的优化，A卡被放生了

--【叁】--：

在用哪个版本的驱动呢

--【肆】--：

太棒了家里的 770 可以干活了

--【伍】--：

二奶机也在用，不过不敢追新，三角洲卡死

--【陆】--：

这个是真强！

--【柒】--：

你好强！

--【捌】--：

没办法，除非我去手搓XM，但是技术水平和工作量能把我压死

--【玖】--：

感谢鼓励

--【拾】--：

强强！

--【拾壹】--：

可用试一下Qwen3.5-9B-UD-Q4_K_XL 这个模型，养虾也基本满足。

--【拾贰】--：

本帖使用社区开源推广，符合推广要求。我申明并遵循社区要求的以下内容：

我的帖子已经打上开源推广标签： 是
我的开源项目完整开源，无未开源部分： 是
我的开源项目已链接认可 LINUX DO 社区： 是
我帖子内的项目介绍，AI生成、润色内容部分已截图发出： 是
以上选择我承诺是永久有效的，接受社区和佬友监督： 是

以下为项目介绍正文内容，AI生成、润色内容已使用截图方式发出

继续昨天的帖子
https://linux.do/t/topic/1829505

先放实测。

支持思维链输出，添加参数 “–reasoning-format deepseek” 即参考deepseek思维链格式添加完整包裹。

项目添加了自动计算机制，不需要显式指定上下文，在触及显存OOM之前输出最大长度。

载入内存时将权重量化到int4再丢入GPU，提升效率。

支持Qwen3.5的多模态。

image1054×220 13.6 KB

image1623×324 18.9 KB

Output 11 tokens/s

众所周知Qwen3.5总是过度思考，同样，参照了vLLM的方式，传入
"chat_template_kwargs": {"enable_thinking": false } 来禁用思考

anna-serve --model-dir D:\Projects\Anna\models\Jackrong\Qwen3___5-9B-Claude-4___6-Opus-Reasoning-Distilled-v2 \ --model-name qwen3.5 \ --device xpu \ --dtype bf16 \ --weight-quant int4 \ --offload-vision \ --disable-thinking \ --reasoning-format deepseek \ --min-free-memory-mib 256 \ --reserve-memory-mib 128 \ --max-estimated-usage-ratio 0.95 \ --generation-memory-safety-factor 1.25

image733×285 16.9 KB

Output 11 tokens/s

看起来还能优化

那就增加直接走语言模型的文本快路径，跳过多模态包装层的额外对齐和位置逻辑，引擎侧会在没有 pixel_values / pixel_values_videos 时自动切到这个分支

image731×273 15.3 KB

Output 19 tokens/s

继续优化，降低首字延迟

双倍的加载时间，减少了1/3的首字延时，但受限于显存仍需要先从内存搬运

image732×479 20 KB

Output 12 tokens/s

资源占用情况

image795×565 24.1 KB

项目地址

github.com

GitHub - funkpopo/Anna

通过在 GitHub 上创建帐户来为 funkpopo/Anna 开发做出贡献。

网友解答：

--【壹】--：

买不起N卡是这样的

--【贰】--：

停在8509版本了。因为后面的版本几个驱动测试过LOW帧有问题。估计是对B卡的优化，A卡被放生了

--【叁】--：

在用哪个版本的驱动呢

--【肆】--：

太棒了家里的 770 可以干活了

--【伍】--：

二奶机也在用，不过不敢追新，三角洲卡死

--【陆】--：

这个是真强！

--【柒】--：

你好强！

--【捌】--：

没办法，除非我去手搓XM，但是技术水平和工作量能把我压死

--【玖】--：

感谢鼓励

--【拾】--：

强强！

--【拾壹】--：

可用试一下Qwen3.5-9B-UD-Q4_K_XL 这个模型，养虾也基本满足。

--【拾贰】--：

本帖使用社区开源推广，符合推广要求。我申明并遵循社区要求的以下内容：

看起来还能优化

继续优化，降低首字延迟

资源占用情况

项目地址

GitHub - funkpopo/Anna

相关推荐

本帖使用社区开源推广，符合推广要求。我申明并遵循社区要求的以下内容：

看起来还能优化

继续优化，降低首字延迟

资源占用情况

项目地址

GitHub - funkpopo/Anna

相关推荐