为什么模型 gemma4:26b 这以这么快. 比qwen3.5:27b 快近8倍.

2026-04-11 08:231阅读0评论SEO基础
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

image692×285 8.86 KB
如图
image659×387 11 KB

网友解答:
--【壹】--:

是这样的,qwen3.5内部用了全新的自制mamba内核,所以如果你是直接ollama拉取的话,它内部预编译的包不支持就会非常慢。解决方法也很简单,更新一下ollama后端,或者手动编译llama.cpp速度就上来了。
我之前没更新llama.cpp版本的时候也是qwen只能跑10t/s,更新之后大概能跑50t/s,至于为什么还是没有gemma快,毕竟是新内核,慢一点也正常。


--【贰】--:

不是万不得已,一般不用这个把,到处都有超级模型的羊毛薅,你用这个模型有点自找麻烦。


--【叁】--:

27b是不是超显存了,模型有部分放到了内存上


--【肆】--:

佬正棒 麻烦问下电脑是什么配置?
(我也想试下)


--【伍】--: jackeylxi:

时候首字符输出很慢,持续输出内容很

26b质量如何,基本能用吗?现在感觉还是好的模型好用,gpt-5.4太好用了。可惜没钱,何时token自由。


--【陆】--:

佬们,我用ollama部署了26B,GPU是3090,我感觉默认上下文很短呀,怎么怎么调呀


--【柒】--:

了解一下MoE模型和Dense模型的区别

还有就是Qwen3.5系列似乎都有过度思考的问题,token budget都花在thinking上了(隔壁localLlama好像有人反应过)


--【捌】--: gentoothebest:

有就是Qwen3.5系列似乎都有过度思考的问题,token budget都花在thinking上了(隔壁localLlama好像有人反应过)

gemma4:26 和 qwen3.5:35b 都是MoE 也是快很多倍,没有超显存.


--【玖】--:

moe模型对比致密模型要比激活参数,要比也是qwen3.5-35B,都是moe


--【拾】--:

我用的时候首字符输出很慢,持续输出内容很快


--【拾壹】--:

qwen3.5-35b 也很慢,
image669×257 8.16 KB


--【拾贰】--:

用的什么显卡?我的macmini只能30t/s


--【拾叁】--:

请问设备是什么呀 想知道实际体验好不好 能不能用在酒馆里


--【拾肆】--:

控制变量再测一下呢,还是不太严格,就一个测试二字测不了吞吐吧


--【拾伍】--:

只能说能用,提示词要折腾才得.也是没token才试这玩意.


--【拾陆】--:

用的什么显卡? 显卡用的是 GTX3090ti

标签:人工智能
问题描述:

image692×285 8.86 KB
如图
image659×387 11 KB

网友解答:
--【壹】--:

是这样的,qwen3.5内部用了全新的自制mamba内核,所以如果你是直接ollama拉取的话,它内部预编译的包不支持就会非常慢。解决方法也很简单,更新一下ollama后端,或者手动编译llama.cpp速度就上来了。
我之前没更新llama.cpp版本的时候也是qwen只能跑10t/s,更新之后大概能跑50t/s,至于为什么还是没有gemma快,毕竟是新内核,慢一点也正常。


--【贰】--:

不是万不得已,一般不用这个把,到处都有超级模型的羊毛薅,你用这个模型有点自找麻烦。


--【叁】--:

27b是不是超显存了,模型有部分放到了内存上


--【肆】--:

佬正棒 麻烦问下电脑是什么配置?
(我也想试下)


--【伍】--: jackeylxi:

时候首字符输出很慢,持续输出内容很

26b质量如何,基本能用吗?现在感觉还是好的模型好用,gpt-5.4太好用了。可惜没钱,何时token自由。


--【陆】--:

佬们,我用ollama部署了26B,GPU是3090,我感觉默认上下文很短呀,怎么怎么调呀


--【柒】--:

了解一下MoE模型和Dense模型的区别

还有就是Qwen3.5系列似乎都有过度思考的问题,token budget都花在thinking上了(隔壁localLlama好像有人反应过)


--【捌】--: gentoothebest:

有就是Qwen3.5系列似乎都有过度思考的问题,token budget都花在thinking上了(隔壁localLlama好像有人反应过)

gemma4:26 和 qwen3.5:35b 都是MoE 也是快很多倍,没有超显存.


--【玖】--:

moe模型对比致密模型要比激活参数,要比也是qwen3.5-35B,都是moe


--【拾】--:

我用的时候首字符输出很慢,持续输出内容很快


--【拾壹】--:

qwen3.5-35b 也很慢,
image669×257 8.16 KB


--【拾贰】--:

用的什么显卡?我的macmini只能30t/s


--【拾叁】--:

请问设备是什么呀 想知道实际体验好不好 能不能用在酒馆里


--【拾肆】--:

控制变量再测一下呢,还是不太严格,就一个测试二字测不了吞吐吧


--【拾伍】--:

只能说能用,提示词要折腾才得.也是没token才试这玩意.


--【拾陆】--:

用的什么显卡? 显卡用的是 GTX3090ti

标签:人工智能