codex拉闸后试用了一下glm5.....

2026-04-11 13:041阅读0评论SEO资源

内容介绍
文章标签
相关推荐

问题描述：

最近一直在优化一个多平台下载器的项目，web端、ios端都做了，算是我第一个vibe coding的项目吧，主要就是给我自己方便下点抖音小视频的，ios的deeplink也做了，基本就是抖音分享页里面点一下app跳转拉起页面自动解析再选画质下载就行了，专为我这样的懒人服务了。

这一套就只有最开始一个前后端架子是用的cc+minimax2.5搭的，发现国模拉垮的很就换5.3codex和后面的gpt5.4做主力开发了，全程一行代码也没敲（我自己虽然是干java的，但这个项目的技术栈命中我的就只有个mysql），就把控一下项目总体方向和当个牛马测试员，下面贴几张图大概看看。

这是首页，解析我就没截了1920×833 147 KB

个人中心1920×833 109 KB

后台3840×1658 427 KB

ios端首页1179×2556 220 KB

抖音分享页点击唤起1179×2556 219 KB
解析后的下载页1179×2556 342 KB
登录辅助786×1188 109 KB

跑题了，重点来了，今天codex拉闸了没得蹬的，想着薅一个佬友放出来的阿里codingplan试试glm5现在还能不能用了，如果能有gpt5.4八成功力也成了，就让他真实项目里跑一跑帮我改一下ios端用户页的ui，那个布局太丑了让他重新调整一下。

skill就用的gstack的这一套，跑了一遍autoplan就发现不对了，如果是gpt的话跑一轮基本就直接过了，也不会review出什么问题，glm5我直接跑了三轮最后还是有点问题，我懒得搞了直接先让他执行了。

但是glm5第一点就是话太少，话少其实不算优点，它说的少你对它制定的plan理解程度就会偏低。
第二点就是速度太快，这个明显就是推理强度不够了，属于是硬伤，哪怕我已经开了high effort了，明显就是做的快想的少。
第三点就是出现了中英文随机切换的情况，做的plan里面中英文混杂在一起几乎达到了各占50%，这是gpt没有出现过的。
第四点就是一次改不到位，有明显的bug，布局设计的也蛮丑的，让他改第二次，改完还是有bug，我直接放弃了删分支了，这次测试真是又验证了一遍我一个月前用国内版trae的结论，纯是一大坨。编程能力真的是隔着一条河了，真是没招了，还得想办法搞gpt的订阅了

最后补一下项目代码量，我觉得也不是什么小工具了，可以当个真实案例验证了
image642×1164 94.7 KB

网友解答：

--【壹】--：

思考太少了，工程能力跟gpt还是比不了的，思考少逻辑就肯定差一截了，我怀疑这个思考只有中等强度，对比gpt的超高真是没法比，可能比其他的国模要强吧，我也没怎么对比过，但还是没有意义，生产级别的也就opus和gpt了，我这个项目代码总的12万行，我觉得还是可以作为真实案例验证的，小工具那种几千行代码的就算了

--【贰】--：

差距还是挺大的

--【叁】--： WReck:

glm5

glm5 用下来，就是sonnet 4.5 的残血模样，逻辑不错，其他都不行，codex还是要全面一些，如果token够，上一些superpowers之类的插件，效果也不赖

--【肆】--：

那妥了，本来还想试试glm的

--【伍】--：

用网友的词吃完细粮再体验就是喇嗓子

--【陆】--：

国产的这几个，我只觉得适合在你完全了解需求的情况下，亲自分解需求让他写代码片段自己拼起来。只要提示词越宽泛或者需要实现的内容越多，能力容易断崖式下降的。比起5.4、Opus 4.6相对简单很多的提示词就能基本完成任务真的差的有点远。

--【柒】--：

整体感觉下来，可能还是思考太短了？

--【捌】--：

看来还是有差距啊，跑分≠真实能力

--【玖】--：

要是跑分有用的话，“XX”早就王朝了

--【拾】--：

思考少是一方面了，那也不是他想这么少的，一些基础能力都会限制他的推理吧，还是总体能力没有突破

--【拾壹】--：

这都不用想的。。早就都说是排行榜特调了

--【拾贰】--：

是这样的

--【拾叁】--：

skill在哪获取啊，我自己找了一堆，用起来效果不好

--【拾肆】--：

跑分没输过，实际没赢过

--【拾伍】--：

我晚上也试了下，一言难尽，他自己写的一个js，半天都一堆错。

--【拾陆】--：

跑分≠能力。不过话说手机都有特调了，这些模型厂家会不会根据测试集、甚至针对到测试的用户进行特调。？

--【拾柒】--：

skill现在来看我个人觉得还是找配套的比较好，skill多了容易打架，你的模型就会被拽过去拽过来的，比如制定plan类的技能你装了两三个，那么你让他做优化方案的时候就会开始随机选了，不能保证最终质量，同样的需求你做几遍因为skill调用的不同结果也不同了。我之前用的superpowers的那一套，现在把那一套卸了，换成gstack这套了。这两套各有优点吧，前者主要是适合小白了，你说的自然语言大概率就会被brainstorm识别到，直接进入它的一套流程里面，但gstack就是工程化了，要手动分步骤调用了。

--【拾捌】--：

谢谢解毒，看来差距还不小

--【拾玖】--：

国内的这些小工具得了（都不一定能一次性写好，试过很多遍了，基本都这样），搞这种稍微大点的工程直接歇菜！

标签：人工智能