2080ti 11g本地部署qwen 3.6 35b a3b，128k 上下文，67tps

2026-04-29 09:232阅读0评论SEO问题

内容介绍
文章标签
相关推荐

问题描述：

我是windows上llama.cpp部署的，先看效果图。

image1099×1203 68.6 KB

这里面，我用的模型是 unsloth 量化的 Qwen3.6-35B-A3B-UD-IQ1_M 模型。

得益于其超强的量化，整个模型可以完美装在 2080ti 11g 显存里面，用 q4 量化上下文可以跑到128k 的上下文。

单并发 67 tps 的速度，如果2-4并发最多可以翻倍tps。

模型性能

跑在 pi-coding-agent 里面绰绰有余，

我让他复现了一个自动证明系统，要求如下

image1191×851 37.9 KB

最后也是保质保量完成了，而且自己跑通了测试流程。

为什么不用qwen 3.6 27B

我下载了qwen 3.6 27B 比较小的量化版本，可以全部跑在显存里面，但是上下文只有32k而且tps只有22左右，而且我接入 pi-coding-agent 里面还发生了死循环，感觉不太可用，虽然网上说 27B 版本很牛，但是我还是觉得moe版本的更好。

有什么用

本地部署可以搞一些隐私数据，其他我觉得真的不如薅点免费或者低价的api。

接入openclaw应该是能玩的，但是电费成本算下来不一定打得过低价api。

~~不过在二手1200元左右淘到的2080ti上跑起来agent还是很有成就感的~~

简单的 benchmark

用了 GitHub - stevibe/BenchLocal: Test LLMs on real tasks. Compare models side-by-side. · GitHub 这个来做测试。跑的是其中这个 DataExtract-15 benchmark。

阅读全文

标签：人工智能本地部署

问题描述：

我是windows上llama.cpp部署的，先看效果图。

image1099×1203 68.6 KB

这里面，我用的模型是 unsloth 量化的 Qwen3.6-35B-A3B-UD-IQ1_M 模型。

得益于其超强的量化，整个模型可以完美装在 2080ti 11g 显存里面，用 q4 量化上下文可以跑到128k 的上下文。

单并发 67 tps 的速度，如果2-4并发最多可以翻倍tps。

模型性能

跑在 pi-coding-agent 里面绰绰有余，

我让他复现了一个自动证明系统，要求如下

image1191×851 37.9 KB

最后也是保质保量完成了，而且自己跑通了测试流程。

为什么不用qwen 3.6 27B

有什么用

本地部署可以搞一些隐私数据，其他我觉得真的不如薅点免费或者低价的api。

接入openclaw应该是能玩的，但是电费成本算下来不一定打得过低价api。

~~不过在二手1200元左右淘到的2080ti上跑起来agent还是很有成就感的~~

简单的 benchmark

用了 GitHub - stevibe/BenchLocal: Test LLMs on real tasks. Compare models side-by-side. · GitHub 这个来做测试。跑的是其中这个 DataExtract-15 benchmark。

阅读全文

标签：人工智能本地部署

模型性能

为什么不用qwen 3.6 27B

有什么用

简单的 benchmark

相关推荐

模型性能

为什么不用qwen 3.6 27B

有什么用

简单的 benchmark

相关推荐