为什么模型 gemma4:26b 这以这么快. 比qwen3.5:27b 快近8倍.
- 内容介绍
- 文章标签
- 相关推荐
image692×285 8.86 KB
如图
image659×387 11 KB
--【壹】--:
是这样的,qwen3.5内部用了全新的自制mamba内核,所以如果你是直接ollama拉取的话,它内部预编译的包不支持就会非常慢。解决方法也很简单,更新一下ollama后端,或者手动编译llama.cpp速度就上来了。
我之前没更新llama.cpp版本的时候也是qwen只能跑10t/s,更新之后大概能跑50t/s,至于为什么还是没有gemma快,毕竟是新内核,慢一点也正常。
--【贰】--:
不是万不得已,一般不用这个把,到处都有超级模型的羊毛薅,你用这个模型有点自找麻烦。
--【叁】--:
27b是不是超显存了,模型有部分放到了内存上
--【肆】--:
佬正棒 麻烦问下电脑是什么配置?
(我也想试下)
--【伍】--: jackeylxi:
时候首字符输出很慢,持续输出内容很
26b质量如何,基本能用吗?现在感觉还是好的模型好用,gpt-5.4太好用了。可惜没钱,何时token自由。
image692×285 8.86 KB
如图
image659×387 11 KB
--【壹】--:
是这样的,qwen3.5内部用了全新的自制mamba内核,所以如果你是直接ollama拉取的话,它内部预编译的包不支持就会非常慢。解决方法也很简单,更新一下ollama后端,或者手动编译llama.cpp速度就上来了。
我之前没更新llama.cpp版本的时候也是qwen只能跑10t/s,更新之后大概能跑50t/s,至于为什么还是没有gemma快,毕竟是新内核,慢一点也正常。
--【贰】--:
不是万不得已,一般不用这个把,到处都有超级模型的羊毛薅,你用这个模型有点自找麻烦。
--【叁】--:
27b是不是超显存了,模型有部分放到了内存上
--【肆】--:
佬正棒 麻烦问下电脑是什么配置?
(我也想试下)
--【伍】--: jackeylxi:
时候首字符输出很慢,持续输出内容很
26b质量如何,基本能用吗?现在感觉还是好的模型好用,gpt-5.4太好用了。可惜没钱,何时token自由。

