Intel Arc Alchemist架构(A770A750)运行Qwen 3.5并支持多模态
- 内容介绍
- 文章标签
- 相关推荐
本帖使用社区开源推广,符合推广要求。我申明并遵循社区要求的以下内容:
- 我的帖子已经打上 开源推广 标签: 是
- 我的开源项目完整开源,无未开源部分: 是
- 我的开源项目已链接认可 LINUX DO 社区: 是
- 我帖子内的项目介绍,AI生成、润色内容部分已截图发出: 是
- 以上选择我承诺是永久有效的,接受社区和佬友监督: 是
以下为项目介绍正文内容,AI生成、润色内容已使用截图方式发出
继续昨天的帖子
https://linux.do/t/topic/1829505
先放实测。
支持思维链输出,添加参数 “–reasoning-format deepseek” 即参考deepseek思维链格式添加完整包裹。
项目添加了自动计算机制,不需要显式指定上下文,在触及显存OOM之前输出最大长度。
载入内存时将权重量化到int4再丢入GPU,提升效率。
支持Qwen3.5的多模态。
anna-serve
--model-dir D:\Projects\Anna\models\Jackrong\Qwen3___5-9B-Claude-4___6-Opus-Reasoning-Distilled-v2 \
--model-name qwen3.5 \
--device xpu \
--dtype bf16 \
--weight-quant int4 \
--offload-vision \
--min-free-memory-mib 256 \
--reserve-memory-mib 128 \
--max-estimated-usage-ratio 0.95 \
--generation-memory-safety-factor 1.25
image1054×220 13.6 KB
image1623×324 18.9 KB
Output 11 tokens/s
众所周知Qwen3.5总是过度思考,同样,参照了vLLM的方式,传入
"chat_template_kwargs": {"enable_thinking": false } 来禁用思考
anna-serve
--model-dir D:\Projects\Anna\models\Jackrong\Qwen3___5-9B-Claude-4___6-Opus-Reasoning-Distilled-v2 \
--model-name qwen3.5 \
--device xpu \
--dtype bf16 \
--weight-quant int4 \
--offload-vision \
--disable-thinking \
--reasoning-format deepseek \
--min-free-memory-mib 256 \
--reserve-memory-mib 128 \
--max-estimated-usage-ratio 0.95 \
--generation-memory-safety-factor 1.25
image733×285 16.9 KB
Output 11 tokens/s
看起来还能优化
那就增加直接走语言模型的文本快路径,跳过多模态包装层的额外对齐和位置逻辑,引擎侧会在没有 pixel_values / pixel_values_videos 时自动切到这个分支
image731×273 15.3 KB
Output 19 tokens/s
继续优化,降低首字延迟
双倍的加载时间,减少了1/3的首字延时,但受限于显存仍需要先从内存搬运
image732×479 20 KB
Output 12 tokens/s
资源占用情况
image795×565 24.1 KB
项目地址
GitHub - funkpopo/Anna
通过在 GitHub 上创建帐户来为 funkpopo/Anna 开发做出贡献。
网友解答:--【壹】--:
买不起N卡是这样的
--【贰】--:
停在8509版本了。因为后面的版本几个驱动测试过LOW帧有问题。估计是对B卡的优化,A卡被放生了
--【叁】--:
在用哪个版本的驱动呢
--【肆】--:
太棒了 家里的 770 可以干活了
--【伍】--:
二奶机也在用,不过不敢追新,三角洲卡死
--【陆】--:
这个是真强!
--【柒】--:
你好强!
--【捌】--:
没办法,除非我去手搓XM,但是技术水平和工作量能把我压死
--【玖】--:
感谢鼓励
--【拾】--:
强强!
--【拾壹】--:
可用试一下Qwen3.5-9B-UD-Q4_K_XL 这个模型,养虾也基本满足。
--【拾贰】--:
最新的
因为这卡买来主要是打游戏
--【拾叁】--:
是第三!我们有救了
--【拾肆】--:
我突然想起来还没有写tool call调用呢…
--【拾伍】--:
好慢好慢
--【拾陆】--:
你是真爱intel啊
--【拾柒】--:
佬友好强啊
--【拾捌】--:
好像几个版本之前就已经针对性修复了
三角洲之前应该是有CPU调度的BUG
新版本A系吃上4倍帧生成还是挺香的,延迟基本没有
--【拾玖】--:
小黄佬比我强太多!
本帖使用社区开源推广,符合推广要求。我申明并遵循社区要求的以下内容:
- 我的帖子已经打上 开源推广 标签: 是
- 我的开源项目完整开源,无未开源部分: 是
- 我的开源项目已链接认可 LINUX DO 社区: 是
- 我帖子内的项目介绍,AI生成、润色内容部分已截图发出: 是
- 以上选择我承诺是永久有效的,接受社区和佬友监督: 是
以下为项目介绍正文内容,AI生成、润色内容已使用截图方式发出
继续昨天的帖子
https://linux.do/t/topic/1829505
先放实测。
支持思维链输出,添加参数 “–reasoning-format deepseek” 即参考deepseek思维链格式添加完整包裹。
项目添加了自动计算机制,不需要显式指定上下文,在触及显存OOM之前输出最大长度。
载入内存时将权重量化到int4再丢入GPU,提升效率。
支持Qwen3.5的多模态。
anna-serve
--model-dir D:\Projects\Anna\models\Jackrong\Qwen3___5-9B-Claude-4___6-Opus-Reasoning-Distilled-v2 \
--model-name qwen3.5 \
--device xpu \
--dtype bf16 \
--weight-quant int4 \
--offload-vision \
--min-free-memory-mib 256 \
--reserve-memory-mib 128 \
--max-estimated-usage-ratio 0.95 \
--generation-memory-safety-factor 1.25
image1054×220 13.6 KB
image1623×324 18.9 KB
Output 11 tokens/s
众所周知Qwen3.5总是过度思考,同样,参照了vLLM的方式,传入
"chat_template_kwargs": {"enable_thinking": false } 来禁用思考
anna-serve
--model-dir D:\Projects\Anna\models\Jackrong\Qwen3___5-9B-Claude-4___6-Opus-Reasoning-Distilled-v2 \
--model-name qwen3.5 \
--device xpu \
--dtype bf16 \
--weight-quant int4 \
--offload-vision \
--disable-thinking \
--reasoning-format deepseek \
--min-free-memory-mib 256 \
--reserve-memory-mib 128 \
--max-estimated-usage-ratio 0.95 \
--generation-memory-safety-factor 1.25
image733×285 16.9 KB
Output 11 tokens/s
看起来还能优化
那就增加直接走语言模型的文本快路径,跳过多模态包装层的额外对齐和位置逻辑,引擎侧会在没有 pixel_values / pixel_values_videos 时自动切到这个分支
image731×273 15.3 KB
Output 19 tokens/s
继续优化,降低首字延迟
双倍的加载时间,减少了1/3的首字延时,但受限于显存仍需要先从内存搬运
image732×479 20 KB
Output 12 tokens/s
资源占用情况
image795×565 24.1 KB
项目地址
GitHub - funkpopo/Anna
通过在 GitHub 上创建帐户来为 funkpopo/Anna 开发做出贡献。
网友解答:--【壹】--:
买不起N卡是这样的
--【贰】--:
停在8509版本了。因为后面的版本几个驱动测试过LOW帧有问题。估计是对B卡的优化,A卡被放生了
--【叁】--:
在用哪个版本的驱动呢
--【肆】--:
太棒了 家里的 770 可以干活了
--【伍】--:
二奶机也在用,不过不敢追新,三角洲卡死
--【陆】--:
这个是真强!
--【柒】--:
你好强!
--【捌】--:
没办法,除非我去手搓XM,但是技术水平和工作量能把我压死
--【玖】--:
感谢鼓励
--【拾】--:
强强!
--【拾壹】--:
可用试一下Qwen3.5-9B-UD-Q4_K_XL 这个模型,养虾也基本满足。
--【拾贰】--:
最新的
因为这卡买来主要是打游戏
--【拾叁】--:
是第三!我们有救了
--【拾肆】--:
我突然想起来还没有写tool call调用呢…
--【拾伍】--:
好慢好慢
--【拾陆】--:
你是真爱intel啊
--【拾柒】--:
佬友好强啊
--【拾捌】--:
好像几个版本之前就已经针对性修复了
三角洲之前应该是有CPU调度的BUG
新版本A系吃上4倍帧生成还是挺香的,延迟基本没有
--【拾玖】--:
小黄佬比我强太多!

