Intel Arc Alchemist架构(A770A750)运行Qwen 3.5并支持多模态

2026-04-13 12:211阅读0评论SEO资讯
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

本帖使用社区开源推广,符合推广要求。我申明并遵循社区要求的以下内容:

  • 我的帖子已经打上 开源推广 标签:
  • 我的开源项目完整开源,无未开源部分:
  • 我的开源项目已链接认可 LINUX DO 社区:
  • 我帖子内的项目介绍,AI生成、润色内容部分已截图发出:
  • 以上选择我承诺是永久有效的,接受社区和佬友监督:

以下为项目介绍正文内容,AI生成、润色内容已使用截图方式发出


继续昨天的帖子
https://linux.do/t/topic/1829505

先放实测。

支持思维链输出,添加参数 “–reasoning-format deepseek” 即参考deepseek思维链格式添加完整包裹。

项目添加了自动计算机制,不需要显式指定上下文,在触及显存OOM之前输出最大长度。

载入内存时将权重量化到int4再丢入GPU,提升效率。

支持Qwen3.5的多模态。

anna-serve --model-dir D:\Projects\Anna\models\Jackrong\Qwen3___5-9B-Claude-4___6-Opus-Reasoning-Distilled-v2 \ --model-name qwen3.5 \ --device xpu \ --dtype bf16 \ --weight-quant int4 \ --offload-vision \ --min-free-memory-mib 256 \ --reserve-memory-mib 128 \ --max-estimated-usage-ratio 0.95 \ --generation-memory-safety-factor 1.25

image1054×220 13.6 KB

image1623×324 18.9 KB

Output 11 tokens/s


众所周知Qwen3.5总是过度思考,同样,参照了vLLM的方式,传入
"chat_template_kwargs": {"enable_thinking": false } 来禁用思考

anna-serve --model-dir D:\Projects\Anna\models\Jackrong\Qwen3___5-9B-Claude-4___6-Opus-Reasoning-Distilled-v2 \ --model-name qwen3.5 \ --device xpu \ --dtype bf16 \ --weight-quant int4 \ --offload-vision \ --disable-thinking \ --reasoning-format deepseek \ --min-free-memory-mib 256 \ --reserve-memory-mib 128 \ --max-estimated-usage-ratio 0.95 \ --generation-memory-safety-factor 1.25

image733×285 16.9 KB

Output 11 tokens/s

看起来还能优化

那就增加直接走语言模型的文本快路径,跳过多模态包装层的额外对齐和位置逻辑,引擎侧会在没有 pixel_values / pixel_values_videos 时自动切到这个分支

image731×273 15.3 KB

Output 19 tokens/s

继续优化,降低首字延迟

双倍的加载时间,减少了1/3的首字延时,但受限于显存仍需要先从内存搬运

image732×479 20 KB

Output 12 tokens/s

资源占用情况

image795×565 24.1 KB


项目地址

github.com

GitHub - funkpopo/Anna

通过在 GitHub 上创建帐户来为 funkpopo/Anna 开发做出贡献。

网友解答:
--【壹】--:

买不起N卡是这样的


--【贰】--:

停在8509版本了。因为后面的版本几个驱动测试过LOW帧有问题。估计是对B卡的优化,A卡被放生了


--【叁】--:

在用哪个版本的驱动呢


--【肆】--:

太棒了 家里的 770 可以干活了


--【伍】--:

二奶机也在用,不过不敢追新,三角洲卡死


--【陆】--:

这个是真强!


--【柒】--:

你好强!


--【捌】--:

没办法,除非我去手搓XM,但是技术水平和工作量能把我压死


--【玖】--:


感谢鼓励


--【拾】--:

强强!


--【拾壹】--:

可用试一下Qwen3.5-9B-UD-Q4_K_XL 这个模型,养虾也基本满足。


--【拾贰】--:

最新的

因为这卡买来主要是打游戏


--【拾叁】--:

是第三!我们有救了


--【拾肆】--:

我突然想起来还没有写tool call调用呢…


--【拾伍】--:

好慢好慢


--【拾陆】--:

你是真爱intel啊


--【拾柒】--:

佬友好强啊


--【拾捌】--:

好像几个版本之前就已经针对性修复了

三角洲之前应该是有CPU调度的BUG

新版本A系吃上4倍帧生成还是挺香的,延迟基本没有


--【拾玖】--:

小黄佬比我强太多!