有人用过 Gemini 3.1 Pro 做 coding agent 吗?和 GPTClaude国产模型对比如何?

2026-04-29 10:041阅读0评论SEO问题
  • 内容介绍
  • 相关推荐
问题描述:

最近在看 Gemini 3.1 Pro,但对官方 benchmark 有点不太信任,想问问大家真实使用体验。

主要关心它作为 coding agent 的表现,比如这些场景:

  • 日常 Q&A / 查资料
  • 方案设计 / 架构思考
  • 任务拆解 / 规划
  • 实际写代码
  • debug / 修 bug
  • code review

有没有人长期用过?和 GPT(比如 5.x)、Claude(Sonnet / Opus 4.x),或者一些国产模型比起来怎么样?

更关心实际“好不好用”,而不是跑分数据
欢迎分享具体案例~

网友解答:
--【壹】--:

排面跑分挺高的,做agent还是算了,也就是上下文无限,但是还是容易出现幻觉


--【贰】--:

这么夸张吗?能具体说说哪里幻觉比较严重吗?


--【叁】--:

从没见过如此自信的ai,幻觉极其严重,不推荐。


--【肆】--:

单论世界知识和单轮推理,Gemini Pro还可以;不过它的滑动注意力+幻觉+过度自信,呃,真能agent吗


--【伍】--:

强&好用, 但前提是你得用API,gemini plan的智力只有满血40%


--【陆】--:

编程可能不太推荐,比如知识广度还可以。建议多测试下


--【柒】--:

问了gemini,他说他自己是和hermes搭配使用最佳实践且排名第一的大模型…然而我还是用了5.4


--【捌】--:

查资料聊天回答问题还是不错的,写代码感觉不太行,注意力太差了并且幻觉严重

问题描述:

最近在看 Gemini 3.1 Pro,但对官方 benchmark 有点不太信任,想问问大家真实使用体验。

主要关心它作为 coding agent 的表现,比如这些场景:

  • 日常 Q&A / 查资料
  • 方案设计 / 架构思考
  • 任务拆解 / 规划
  • 实际写代码
  • debug / 修 bug
  • code review

有没有人长期用过?和 GPT(比如 5.x)、Claude(Sonnet / Opus 4.x),或者一些国产模型比起来怎么样?

更关心实际“好不好用”,而不是跑分数据
欢迎分享具体案例~

网友解答:
--【壹】--:

排面跑分挺高的,做agent还是算了,也就是上下文无限,但是还是容易出现幻觉


--【贰】--:

这么夸张吗?能具体说说哪里幻觉比较严重吗?


--【叁】--:

从没见过如此自信的ai,幻觉极其严重,不推荐。


--【肆】--:

单论世界知识和单轮推理,Gemini Pro还可以;不过它的滑动注意力+幻觉+过度自信,呃,真能agent吗


--【伍】--:

强&好用, 但前提是你得用API,gemini plan的智力只有满血40%


--【陆】--:

编程可能不太推荐,比如知识广度还可以。建议多测试下


--【柒】--:

问了gemini,他说他自己是和hermes搭配使用最佳实践且排名第一的大模型…然而我还是用了5.4


--【捌】--:

查资料聊天回答问题还是不错的,写代码感觉不太行,注意力太差了并且幻觉严重