2080ti 11g本地部署qwen 3.6 35b a3b,128k 上下文,67tps

2026-04-29 09:233阅读0评论SEO问题
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

我是windows上llama.cpp部署的,先看效果图。

image1099×1203 68.6 KB

这里面,我用的模型是 unsloth 量化的 Qwen3.6-35B-A3B-UD-IQ1_M 模型。

得益于其超强的量化,整个模型可以完美装在 2080ti 11g 显存里面,用 q4 量化上下文可以跑到128k 的上下文。

单并发 67 tps 的速度,如果2-4并发最多可以翻倍tps。


模型性能

跑在 pi-coding-agent 里面绰绰有余,

我让他复现了一个自动证明系统,要求如下

image1191×851 37.9 KB

最后也是保质保量完成了,而且自己跑通了测试流程。

为什么不用qwen 3.6 27B

我下载了qwen 3.6 27B 比较小的量化版本,可以全部跑在显存里面,但是上下文只有32k而且tps只有22左右,而且我接入 pi-coding-agent 里面还发生了死循环,感觉不太可用,虽然网上说 27B 版本很牛,但是我还是觉得moe版本的更好。

有什么用

本地部署可以搞一些隐私数据,其他我觉得真的不如薅点免费或者低价的api。

接入openclaw应该是能玩的,但是电费成本算下来不一定打得过低价api。

不过在二手1200元左右淘到的2080ti上跑起来agent还是很有成就感的

简单的 benchmark

用了 GitHub - stevibe/BenchLocal: Test LLMs on real tasks. Compare models side-by-side. · GitHub 这个来做测试。跑的是其中这个 DataExtract-15 benchmark。

对比模型找了好久,感觉不是很能找到主流的更弱的模型。

注意,这个 Qwen3.6-35B-A3B-UD-IQ1_M 是超级量化版本,不代表 Qwen 该模型满血水平。

Model Total Clean Extraction Noisy and Informal Multi-Entity Implicit and Missing Complex Documents
GLM Model 91 97 86 92 90 91
DeepSeek V4 Flash Free 90 95 84 92 85 97
Step 3.5 Flash 83 95 57 82 97 84
Local qwen 81 85 69 84 84 78

注: deepseek用的zenmux api,然后Step用的魔搭api,然后glm是学校本地部署的,我猜是4.7模型。

结论 :勉勉强强能打step 3.5 flash,也是没出乎意料垫底了。

碎碎念(如果你也想部署)

  1. 想清楚自己想要什么,如果load一点模型到内存里面,会减至少一半tps,但是上下文更多,能跑的模型更好。
  2. 具体运行代码 \llama-server.exe -m "C:\Users\……\Qwen3.6-35B-A3B-UD-IQ1_M.gguf" -c 131072 -ngl 99 --parallel 1 --flash-attn on --cache-type-k q4_0 --cache-type-v q4_0 -b 512 -ub 64 --port 8080 --host 0.0.0.0 ,这是没加载识图模型的版本,qwen该模型支持识图,但是显存开销会变大。
  3. pi-coding-agent 很轻便,很好用,适合本地模型。
网友解答:
--【壹】--:

我用2080ti魔改22g版本测了一下,发现不能全部放进显存的话,输出会异常的慢。我显存+内存+虚拟化内存都用上的情况下,速度基本相当于没有。。笑死


--【贰】--:

可以使用--cpu-moe 只把Moe模型的激活部分放入显存可以极大的减少显存要求


--【叁】--:

佬测试没测试 谷歌的gm 如果能测试等着你的结果


--【肆】--:

我是单卡的q4+turboquant 256k,使用量大概是显存12660MiB 内存22756MiB,两张显卡应该是够了


--【伍】--:

佬。请教一下我在本机部署了Gemma 4 E4B Ollama 但是无论如何都无法执行命令,都是只能聊天,另外部署的qwen的qwen3:14b 也这样,佬有无遇到过呢
image1890×1126 509 KB


--【陆】--:

还是11G的2080ti吗?tps能到多少?


--【柒】--:

已经压缩到极限了,否则的话塞不进2080ti,现阶段还是玩具水平


--【捌】--:

如果放一部分到内存的话,tps会下降到35左右,大概是减半的水平。

主要是现在内存涨价,我配的是ddr4 8gx2


--【玖】--:

我感觉本地部署,尤其是这个显存才这么点,最适合就是向量模型了


--【拾】--:

用-ncmoe 可以放一部分到内存,一部分到显存,再加上turboquant优化可以到256k


--【拾壹】--:

gemma 的满血模型,用gemini官方api调用的,成绩如下

Gemma 4 31B IT (总分: 86)

  • Clean Extraction: 97
  • Noisy and Informal: 79
  • Multi-Entity: 89
  • Implicit and Missing: 84
  • Complex Documents: 82

Gemma 4 26B A4B IT (总分: 80)

  • Clean Extraction: 97
  • Noisy and Informal: 50
  • Multi-Entity: 85
  • Implicit and Missing: 89
  • Complex Documents: 80

--【拾贰】--:

IQ1_M会不会太低了,内存够的话试下精度更高的


--【拾叁】--:

我测了一下,pro就不测了,不是同一个比较范围的,2.5flash比较垃圾, 3.1 Flash Lite Preview 还行

Gemini 3.1 Flash Lite Preview (总分: 88)

  • Clean Extraction: 97
  • Noisy and Informal: 89
  • Multi-Entity: 92
  • Implicit and Missing: 84
  • Complex Documents: 78

Gemini 2.5 Flash (总分: 70)

  • Clean Extraction: 78
  • Noisy and Informal: 82
  • Multi-Entity: 67
  • Implicit and Missing: 50
  • Complex Documents: 73

--【拾肆】--:

q1的模型,能说中文话就算成功,这玩意精度下降太多,如果比喻bf16到q8的量化是脑和叶切除术,你这玩意q1的量化,跟把大脑全切了没什么区别


--【拾伍】--:

问一下我的电脑也是2080ti的22G魔改,跑35B需要两张2080ti 22g,就是如果两张这个显卡的情况下内存给他配多大的合适的佬友们目前是16*2 d5


--【拾陆】--:

现在我在等内存降价
我这3060 12g 加上16g内存,要不模型不行。
要不模型跑不了


--【拾柒】--:

那没办法了 我试了下Q4_K_P的
图片1182×438 24.4 KB

问题描述:

我是windows上llama.cpp部署的,先看效果图。

image1099×1203 68.6 KB

这里面,我用的模型是 unsloth 量化的 Qwen3.6-35B-A3B-UD-IQ1_M 模型。

得益于其超强的量化,整个模型可以完美装在 2080ti 11g 显存里面,用 q4 量化上下文可以跑到128k 的上下文。

单并发 67 tps 的速度,如果2-4并发最多可以翻倍tps。


模型性能

跑在 pi-coding-agent 里面绰绰有余,

我让他复现了一个自动证明系统,要求如下

image1191×851 37.9 KB

最后也是保质保量完成了,而且自己跑通了测试流程。

为什么不用qwen 3.6 27B

我下载了qwen 3.6 27B 比较小的量化版本,可以全部跑在显存里面,但是上下文只有32k而且tps只有22左右,而且我接入 pi-coding-agent 里面还发生了死循环,感觉不太可用,虽然网上说 27B 版本很牛,但是我还是觉得moe版本的更好。

有什么用

本地部署可以搞一些隐私数据,其他我觉得真的不如薅点免费或者低价的api。

接入openclaw应该是能玩的,但是电费成本算下来不一定打得过低价api。

不过在二手1200元左右淘到的2080ti上跑起来agent还是很有成就感的

简单的 benchmark

用了 GitHub - stevibe/BenchLocal: Test LLMs on real tasks. Compare models side-by-side. · GitHub 这个来做测试。跑的是其中这个 DataExtract-15 benchmark。

对比模型找了好久,感觉不是很能找到主流的更弱的模型。

注意,这个 Qwen3.6-35B-A3B-UD-IQ1_M 是超级量化版本,不代表 Qwen 该模型满血水平。

Model Total Clean Extraction Noisy and Informal Multi-Entity Implicit and Missing Complex Documents
GLM Model 91 97 86 92 90 91
DeepSeek V4 Flash Free 90 95 84 92 85 97
Step 3.5 Flash 83 95 57 82 97 84
Local qwen 81 85 69 84 84 78

注: deepseek用的zenmux api,然后Step用的魔搭api,然后glm是学校本地部署的,我猜是4.7模型。

结论 :勉勉强强能打step 3.5 flash,也是没出乎意料垫底了。

碎碎念(如果你也想部署)

  1. 想清楚自己想要什么,如果load一点模型到内存里面,会减至少一半tps,但是上下文更多,能跑的模型更好。
  2. 具体运行代码 \llama-server.exe -m "C:\Users\……\Qwen3.6-35B-A3B-UD-IQ1_M.gguf" -c 131072 -ngl 99 --parallel 1 --flash-attn on --cache-type-k q4_0 --cache-type-v q4_0 -b 512 -ub 64 --port 8080 --host 0.0.0.0 ,这是没加载识图模型的版本,qwen该模型支持识图,但是显存开销会变大。
  3. pi-coding-agent 很轻便,很好用,适合本地模型。
网友解答:
--【壹】--:

我用2080ti魔改22g版本测了一下,发现不能全部放进显存的话,输出会异常的慢。我显存+内存+虚拟化内存都用上的情况下,速度基本相当于没有。。笑死


--【贰】--:

可以使用--cpu-moe 只把Moe模型的激活部分放入显存可以极大的减少显存要求


--【叁】--:

佬测试没测试 谷歌的gm 如果能测试等着你的结果


--【肆】--:

我是单卡的q4+turboquant 256k,使用量大概是显存12660MiB 内存22756MiB,两张显卡应该是够了


--【伍】--:

佬。请教一下我在本机部署了Gemma 4 E4B Ollama 但是无论如何都无法执行命令,都是只能聊天,另外部署的qwen的qwen3:14b 也这样,佬有无遇到过呢
image1890×1126 509 KB


--【陆】--:

还是11G的2080ti吗?tps能到多少?


--【柒】--:

已经压缩到极限了,否则的话塞不进2080ti,现阶段还是玩具水平


--【捌】--:

如果放一部分到内存的话,tps会下降到35左右,大概是减半的水平。

主要是现在内存涨价,我配的是ddr4 8gx2


--【玖】--:

我感觉本地部署,尤其是这个显存才这么点,最适合就是向量模型了


--【拾】--:

用-ncmoe 可以放一部分到内存,一部分到显存,再加上turboquant优化可以到256k


--【拾壹】--:

gemma 的满血模型,用gemini官方api调用的,成绩如下

Gemma 4 31B IT (总分: 86)

  • Clean Extraction: 97
  • Noisy and Informal: 79
  • Multi-Entity: 89
  • Implicit and Missing: 84
  • Complex Documents: 82

Gemma 4 26B A4B IT (总分: 80)

  • Clean Extraction: 97
  • Noisy and Informal: 50
  • Multi-Entity: 85
  • Implicit and Missing: 89
  • Complex Documents: 80

--【拾贰】--:

IQ1_M会不会太低了,内存够的话试下精度更高的


--【拾叁】--:

我测了一下,pro就不测了,不是同一个比较范围的,2.5flash比较垃圾, 3.1 Flash Lite Preview 还行

Gemini 3.1 Flash Lite Preview (总分: 88)

  • Clean Extraction: 97
  • Noisy and Informal: 89
  • Multi-Entity: 92
  • Implicit and Missing: 84
  • Complex Documents: 78

Gemini 2.5 Flash (总分: 70)

  • Clean Extraction: 78
  • Noisy and Informal: 82
  • Multi-Entity: 67
  • Implicit and Missing: 50
  • Complex Documents: 73

--【拾肆】--:

q1的模型,能说中文话就算成功,这玩意精度下降太多,如果比喻bf16到q8的量化是脑和叶切除术,你这玩意q1的量化,跟把大脑全切了没什么区别


--【拾伍】--:

问一下我的电脑也是2080ti的22G魔改,跑35B需要两张2080ti 22g,就是如果两张这个显卡的情况下内存给他配多大的合适的佬友们目前是16*2 d5


--【拾陆】--:

现在我在等内存降价
我这3060 12g 加上16g内存,要不模型不行。
要不模型跑不了


--【拾柒】--:

那没办法了 我试了下Q4_K_P的
图片1182×438 24.4 KB