gemma4:31b 本地测试

2026-04-11 08:271阅读0评论SEO基础
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

拿公司的 a100 80g 进行了满血测试,31b 可以吃到 70g 左右
image1676×728 142 KB
速度一般般,不复杂的上下文可行
image1620×578 48.3 KB
用到 claude code 中几乎不可用,时间太久了。
不过在本地能使用这么强大的多模态开源模型,感觉很牛了。

大家把 gemma4 用在哪些地方呢?

网友解答:
--【壹】--:

中文比qwen3.5 9b差一点点。 E4B的。 本机只能用来做些小场景的东西了。


--【贰】--:

我现在正在用公司8张A100 80g做测试


--【叁】--:

目前看是哦,上下文太长了,看来满血要本地顺畅使用还是有点难度的


--【肆】--:

感觉用下来不如qwen 只能玩玩 据说大家都用E4B E2B小版本弄盒子里玩


--【伍】--:

Gemma-4-31B 和 Qwen3.5-27B 旗鼓相当,还是继续在跑 Qwen3.5-27B


--【陆】--:

马克,听说中文能力一般不如qwen,佬友有对比吗


--【柒】--: huangcheche:

claude code

claude code 中的系统提示词把缓存吃掉了,所有耗时很久的


--【捌】--:

4eb和qwen3.5 9b我用来帮我做新闻提炼,信息总结之类的,27、31什么的太大的跑不动


--【玖】--:

E4B 在手机里玩玩,多模态能力还是不错的,ocr啥的


--【拾】--:

5090+96G RAM,昨天本地部署试了一下
256k全上下文的话 kvcache只能放在ram里面 上下文一长速度就降到3-5token/s了。估计128k上下文勉强能用下,日常对话的话用个32k,64k上下文还是可以的


--【拾壹】--:

!!!速度如何啊,这不得嘎嘎快,我用单卡多人使用后感觉就有点降智了,会降级到内存使用,因为显存爆了

标签:人工智能
问题描述:

拿公司的 a100 80g 进行了满血测试,31b 可以吃到 70g 左右
image1676×728 142 KB
速度一般般,不复杂的上下文可行
image1620×578 48.3 KB
用到 claude code 中几乎不可用,时间太久了。
不过在本地能使用这么强大的多模态开源模型,感觉很牛了。

大家把 gemma4 用在哪些地方呢?

网友解答:
--【壹】--:

中文比qwen3.5 9b差一点点。 E4B的。 本机只能用来做些小场景的东西了。


--【贰】--:

我现在正在用公司8张A100 80g做测试


--【叁】--:

目前看是哦,上下文太长了,看来满血要本地顺畅使用还是有点难度的


--【肆】--:

感觉用下来不如qwen 只能玩玩 据说大家都用E4B E2B小版本弄盒子里玩


--【伍】--:

Gemma-4-31B 和 Qwen3.5-27B 旗鼓相当,还是继续在跑 Qwen3.5-27B


--【陆】--:

马克,听说中文能力一般不如qwen,佬友有对比吗


--【柒】--: huangcheche:

claude code

claude code 中的系统提示词把缓存吃掉了,所有耗时很久的


--【捌】--:

4eb和qwen3.5 9b我用来帮我做新闻提炼,信息总结之类的,27、31什么的太大的跑不动


--【玖】--:

E4B 在手机里玩玩,多模态能力还是不错的,ocr啥的


--【拾】--:

5090+96G RAM,昨天本地部署试了一下
256k全上下文的话 kvcache只能放在ram里面 上下文一长速度就降到3-5token/s了。估计128k上下文勉强能用下,日常对话的话用个32k,64k上下文还是可以的


--【拾壹】--:

!!!速度如何啊,这不得嘎嘎快,我用单卡多人使用后感觉就有点降智了,会降级到内存使用,因为显存爆了

标签:人工智能