为什么模型 gemma4:26b 这以这么快. 比qwen3.5:27b 快近8倍.

2026-04-11 08:231阅读0评论SEO基础

内容介绍
文章标签
相关推荐

问题描述：

image692×285 8.86 KB
如图
image659×387 11 KB

网友解答：

--【壹】--：

是这样的，qwen3.5内部用了全新的自制mamba内核，所以如果你是直接ollama拉取的话，它内部预编译的包不支持就会非常慢。解决方法也很简单，更新一下ollama后端，或者手动编译llama.cpp速度就上来了。
我之前没更新llama.cpp版本的时候也是qwen只能跑10t/s，更新之后大概能跑50t/s，至于为什么还是没有gemma快，毕竟是新内核，慢一点也正常。

--【贰】--：

不是万不得已，一般不用这个把，到处都有超级模型的羊毛薅，你用这个模型有点自找麻烦。

--【叁】--：

27b是不是超显存了，模型有部分放到了内存上

--【肆】--：

佬正棒麻烦问下电脑是什么配置？
（我也想试下）

--【伍】--： jackeylxi:

时候首字符输出很慢，持续输出内容很

26b质量如何，基本能用吗？现在感觉还是好的模型好用，gpt-5.4太好用了。可惜没钱，何时token自由。

--【陆】--：

佬们，我用ollama部署了26B，GPU是3090，我感觉默认上下文很短呀，怎么怎么调呀

--【柒】--：

了解一下MoE模型和Dense模型的区别

还有就是Qwen3.5系列似乎都有过度思考的问题，token budget都花在thinking上了（隔壁localLlama好像有人反应过）

--【捌】--： gentoothebest:

有就是Qwen3.5系列似乎都有过度思考的问题，token budget都花在thinking上了（隔壁localLlama好像有人反应过）

gemma4:26 和 qwen3.5:35b 都是MoE 也是快很多倍,没有超显存.

--【玖】--：

moe模型对比致密模型要比激活参数，要比也是qwen3.5-35B，都是moe

--【拾】--：

我用的时候首字符输出很慢，持续输出内容很快

--【拾壹】--：

qwen3.5-35b 也很慢,
image669×257 8.16 KB

--【拾贰】--：

用的什么显卡?我的macmini只能30t/s

--【拾叁】--：

请问设备是什么呀想知道实际体验好不好能不能用在酒馆里

--【拾肆】--：

控制变量再测一下呢，还是不太严格，就一个测试二字测不了吞吐吧

--【拾伍】--：

只能说能用,提示词要折腾才得.也是没token才试这玩意.

--【拾陆】--：

用的什么显卡? 显卡用的是 GTX3090ti

标签：人工智能