有人用过 Gemini 3.1 Pro 做 coding agent 吗?和 GPTClaude国产模型对比如何?
- 内容介绍
- 相关推荐
最近在看 Gemini 3.1 Pro,但对官方 benchmark 有点不太信任,想问问大家真实使用体验。
主要关心它作为 coding agent 的表现,比如这些场景:
- 日常 Q&A / 查资料
- 方案设计 / 架构思考
- 任务拆解 / 规划
- 实际写代码
- debug / 修 bug
- code review
有没有人长期用过?和 GPT(比如 5.x)、Claude(Sonnet / Opus 4.x),或者一些国产模型比起来怎么样?
更关心实际“好不好用”,而不是跑分数据
欢迎分享具体案例~
--【壹】--:
排面跑分挺高的,做agent还是算了,也就是上下文无限,但是还是容易出现幻觉
--【贰】--:
这么夸张吗?能具体说说哪里幻觉比较严重吗?
--【叁】--:
从没见过如此自信的ai,幻觉极其严重,不推荐。
--【肆】--:
单论世界知识和单轮推理,Gemini Pro还可以;不过它的滑动注意力+幻觉+过度自信,呃,真能agent吗
--【伍】--:
强&好用, 但前提是你得用API,gemini plan的智力只有满血40%
--【陆】--:
编程可能不太推荐,比如知识广度还可以。建议多测试下
--【柒】--:
问了gemini,他说他自己是和hermes搭配使用最佳实践且排名第一的大模型…然而我还是用了5.4
--【捌】--:
查资料聊天回答问题还是不错的,写代码感觉不太行,注意力太差了并且幻觉严重
最近在看 Gemini 3.1 Pro,但对官方 benchmark 有点不太信任,想问问大家真实使用体验。
主要关心它作为 coding agent 的表现,比如这些场景:
- 日常 Q&A / 查资料
- 方案设计 / 架构思考
- 任务拆解 / 规划
- 实际写代码
- debug / 修 bug
- code review
有没有人长期用过?和 GPT(比如 5.x)、Claude(Sonnet / Opus 4.x),或者一些国产模型比起来怎么样?
更关心实际“好不好用”,而不是跑分数据
欢迎分享具体案例~
--【壹】--:
排面跑分挺高的,做agent还是算了,也就是上下文无限,但是还是容易出现幻觉
--【贰】--:
这么夸张吗?能具体说说哪里幻觉比较严重吗?
--【叁】--:
从没见过如此自信的ai,幻觉极其严重,不推荐。
--【肆】--:
单论世界知识和单轮推理,Gemini Pro还可以;不过它的滑动注意力+幻觉+过度自信,呃,真能agent吗
--【伍】--:
强&好用, 但前提是你得用API,gemini plan的智力只有满血40%
--【陆】--:
编程可能不太推荐,比如知识广度还可以。建议多测试下
--【柒】--:
问了gemini,他说他自己是和hermes搭配使用最佳实践且排名第一的大模型…然而我还是用了5.4
--【捌】--:
查资料聊天回答问题还是不错的,写代码感觉不太行,注意力太差了并且幻觉严重

