为什么模型 gemma4:26b 这以这么快. 比qwen3.5:27b 快近8倍.
- 内容介绍
- 文章标签
- 相关推荐
image692×285 8.86 KB
如图
image659×387 11 KB
--【壹】--:
是这样的,qwen3.5内部用了全新的自制mamba内核,所以如果你是直接ollama拉取的话,它内部预编译的包不支持就会非常慢。解决方法也很简单,更新一下ollama后端,或者手动编译llama.cpp速度就上来了。
我之前没更新llama.cpp版本的时候也是qwen只能跑10t/s,更新之后大概能跑50t/s,至于为什么还是没有gemma快,毕竟是新内核,慢一点也正常。
--【贰】--:
不是万不得已,一般不用这个把,到处都有超级模型的羊毛薅,你用这个模型有点自找麻烦。
--【叁】--:
27b是不是超显存了,模型有部分放到了内存上
--【肆】--:
佬正棒 麻烦问下电脑是什么配置?
(我也想试下)
--【伍】--: jackeylxi:
时候首字符输出很慢,持续输出内容很
26b质量如何,基本能用吗?现在感觉还是好的模型好用,gpt-5.4太好用了。可惜没钱,何时token自由。
--【陆】--:
佬们,我用ollama部署了26B,GPU是3090,我感觉默认上下文很短呀,怎么怎么调呀
--【柒】--:
了解一下MoE模型和Dense模型的区别
还有就是Qwen3.5系列似乎都有过度思考的问题,token budget都花在thinking上了(隔壁localLlama好像有人反应过)
--【捌】--: gentoothebest:
有就是Qwen3.5系列似乎都有过度思考的问题,token budget都花在thinking上了(隔壁localLlama好像有人反应过)
gemma4:26 和 qwen3.5:35b 都是MoE 也是快很多倍,没有超显存.
--【玖】--:
moe模型对比致密模型要比激活参数,要比也是qwen3.5-35B,都是moe
--【拾】--:
我用的时候首字符输出很慢,持续输出内容很快
--【拾壹】--:
qwen3.5-35b 也很慢,
image669×257 8.16 KB
--【拾贰】--:
用的什么显卡?我的macmini只能30t/s
--【拾叁】--:
请问设备是什么呀 想知道实际体验好不好 能不能用在酒馆里
--【拾肆】--:
控制变量再测一下呢,还是不太严格,就一个测试二字测不了吞吐吧
--【拾伍】--:
只能说能用,提示词要折腾才得.也是没token才试这玩意.
--【拾陆】--:
用的什么显卡? 显卡用的是 GTX3090ti
image692×285 8.86 KB
如图
image659×387 11 KB
--【壹】--:
是这样的,qwen3.5内部用了全新的自制mamba内核,所以如果你是直接ollama拉取的话,它内部预编译的包不支持就会非常慢。解决方法也很简单,更新一下ollama后端,或者手动编译llama.cpp速度就上来了。
我之前没更新llama.cpp版本的时候也是qwen只能跑10t/s,更新之后大概能跑50t/s,至于为什么还是没有gemma快,毕竟是新内核,慢一点也正常。
--【贰】--:
不是万不得已,一般不用这个把,到处都有超级模型的羊毛薅,你用这个模型有点自找麻烦。
--【叁】--:
27b是不是超显存了,模型有部分放到了内存上
--【肆】--:
佬正棒 麻烦问下电脑是什么配置?
(我也想试下)
--【伍】--: jackeylxi:
时候首字符输出很慢,持续输出内容很
26b质量如何,基本能用吗?现在感觉还是好的模型好用,gpt-5.4太好用了。可惜没钱,何时token自由。
--【陆】--:
佬们,我用ollama部署了26B,GPU是3090,我感觉默认上下文很短呀,怎么怎么调呀
--【柒】--:
了解一下MoE模型和Dense模型的区别
还有就是Qwen3.5系列似乎都有过度思考的问题,token budget都花在thinking上了(隔壁localLlama好像有人反应过)
--【捌】--: gentoothebest:
有就是Qwen3.5系列似乎都有过度思考的问题,token budget都花在thinking上了(隔壁localLlama好像有人反应过)
gemma4:26 和 qwen3.5:35b 都是MoE 也是快很多倍,没有超显存.
--【玖】--:
moe模型对比致密模型要比激活参数,要比也是qwen3.5-35B,都是moe
--【拾】--:
我用的时候首字符输出很慢,持续输出内容很快
--【拾壹】--:
qwen3.5-35b 也很慢,
image669×257 8.16 KB
--【拾贰】--:
用的什么显卡?我的macmini只能30t/s
--【拾叁】--:
请问设备是什么呀 想知道实际体验好不好 能不能用在酒馆里
--【拾肆】--:
控制变量再测一下呢,还是不太严格,就一个测试二字测不了吞吐吧
--【拾伍】--:
只能说能用,提示词要折腾才得.也是没token才试这玩意.
--【拾陆】--:
用的什么显卡? 显卡用的是 GTX3090ti

