codex拉闸后试用了一下glm5.....
- 内容介绍
- 文章标签
- 相关推荐
最近一直在优化一个多平台下载器的项目,web端、ios端都做了,算是我第一个vibe coding的项目吧 ,主要就是给我自己方便下点抖音小视频的,ios的deeplink也做了,基本就是抖音分享页里面点一下app跳转拉起页面自动解析再选画质下载就行了,专为我这样的懒人服务了。
这一套就只有最开始一个前后端架子是用的cc+minimax2.5搭的,发现国模拉垮的很就换5.3codex和后面的gpt5.4做主力开发了,全程一行代码也没敲(我自己虽然是干java的,但这个项目的技术栈命中我的就只有个mysql),就把控一下项目总体方向和当个牛马测试员,下面贴几张图大概看看。
这是首页,解析我就没截了1920×833 147 KB
个人中心1920×833 109 KB
后台3840×1658 427 KB
ios端首页1179×2556 220 KB
抖音分享页点击唤起1179×2556 219 KB
解析后的下载页1179×2556 342 KB
登录辅助786×1188 109 KB
跑题了,重点来了,今天codex拉闸了没得蹬的,想着薅一个佬友放出来的阿里codingplan试试glm5现在还能不能用了,如果能有gpt5.4八成功力也成了,就让他真实项目里跑一跑帮我改一下ios端用户页的ui,那个布局太丑了让他重新调整一下。
skill就用的gstack的这一套,跑了一遍autoplan就发现不对了,如果是gpt的话跑一轮基本就直接过了,也不会review出什么问题,glm5我直接跑了三轮最后还是有点问题,我懒得搞了直接先让他执行了。
但是glm5第一点就是话太少,话少其实不算优点,它说的少你对它制定的plan理解程度就会偏低。
第二点就是速度太快,这个明显就是推理强度不够了,属于是硬伤,哪怕我已经开了high effort了,明显就是做的快想的少。
第三点就是出现了中英文随机切换的情况,做的plan里面中英文混杂在一起几乎达到了各占50%,这是gpt没有出现过的。
第四点就是一次改不到位,有明显的bug,布局设计的也蛮丑的,让他改第二次,改完还是有bug,我直接放弃了删分支了,这次测试真是又验证了一遍我一个月前用国内版trae的结论,纯是一大坨。编程能力真的是隔着一条河了,真是没招了,还得想办法搞gpt的订阅了
最后补一下项目代码量,我觉得也不是什么小工具了,可以当个真实案例验证了
image642×1164 94.7 KB
--【壹】--:
思考太少了,工程能力跟gpt还是比不了的,思考少逻辑就肯定差一截了,我怀疑这个思考只有中等强度,对比gpt的超高真是没法比,可能比其他的国模要强吧,我也没怎么对比过,但还是没有意义,生产级别的也就opus和gpt了,我这个项目代码总的12万行,我觉得还是可以作为真实案例验证的,小工具那种几千行代码的就算了
--【贰】--:
差距还是挺大的
--【叁】--: WReck:
glm5
glm5 用下来,就是sonnet 4.5 的残血模样,逻辑不错,其他都不行,codex还是要全面一些,如果token够,上一些superpowers之类的插件,效果也不赖
--【肆】--:
那妥了,本来还想试试glm的
--【伍】--:
用网友的词 吃完细粮 再体验就是 喇嗓子
--【陆】--:
国产的这几个,我只觉得适合在你完全了解需求的情况下,亲自分解需求让他写代码片段自己拼起来。只要提示词越宽泛或者需要实现的内容越多,能力容易断崖式下降的。比起5.4、Opus 4.6相对简单很多的提示词就能基本完成任务真的差的有点远。
--【柒】--:
整体感觉下来,可能还是思考太短了?
--【捌】--:
看来还是有差距啊,跑分≠真实能力
--【玖】--:
要是跑分有用的话,“XX”早就王朝了
--【拾】--:
思考少是一方面了,那也不是他想这么少的,一些基础能力都会限制他的推理吧,还是总体能力没有突破
--【拾壹】--:
这都不用想的。。早就都说是排行榜特调了
--【拾贰】--:
是这样的
--【拾叁】--:
skill在哪获取啊,我自己找了一堆,用起来效果不好
--【拾肆】--:
跑分没输过,实际没赢过
--【拾伍】--:
我晚上也试了下,一言难尽,他自己写的一个js,半天都一堆错。
--【拾陆】--:
跑分≠能力。不过话说手机都有特调了,这些模型厂家会不会根据测试集、甚至针对到测试的用户进行特调。?
--【拾柒】--:
skill现在来看我个人觉得还是找配套的比较好,skill多了容易打架,你的模型就会被拽过去拽过来的,比如制定plan类的技能你装了两三个,那么你让他做优化方案的时候就会开始随机选了,不能保证最终质量,同样的需求你做几遍因为skill调用的不同结果也不同了。我之前用的superpowers的那一套,现在把那一套卸了,换成gstack这套了。这两套各有优点吧,前者主要是适合小白了,你说的自然语言大概率就会被brainstorm识别到,直接进入它的一套流程里面,但gstack就是工程化了,要手动分步骤调用了。
--【拾捌】--:
谢谢解毒,看来差距还不小
--【拾玖】--:
国内的这些小工具得了(都不一定能一次性写好,试过很多遍了,基本都这样),搞这种稍微大点的工程直接歇菜!
最近一直在优化一个多平台下载器的项目,web端、ios端都做了,算是我第一个vibe coding的项目吧 ,主要就是给我自己方便下点抖音小视频的,ios的deeplink也做了,基本就是抖音分享页里面点一下app跳转拉起页面自动解析再选画质下载就行了,专为我这样的懒人服务了。
这一套就只有最开始一个前后端架子是用的cc+minimax2.5搭的,发现国模拉垮的很就换5.3codex和后面的gpt5.4做主力开发了,全程一行代码也没敲(我自己虽然是干java的,但这个项目的技术栈命中我的就只有个mysql),就把控一下项目总体方向和当个牛马测试员,下面贴几张图大概看看。
这是首页,解析我就没截了1920×833 147 KB
个人中心1920×833 109 KB
后台3840×1658 427 KB
ios端首页1179×2556 220 KB
抖音分享页点击唤起1179×2556 219 KB
解析后的下载页1179×2556 342 KB
登录辅助786×1188 109 KB
跑题了,重点来了,今天codex拉闸了没得蹬的,想着薅一个佬友放出来的阿里codingplan试试glm5现在还能不能用了,如果能有gpt5.4八成功力也成了,就让他真实项目里跑一跑帮我改一下ios端用户页的ui,那个布局太丑了让他重新调整一下。
skill就用的gstack的这一套,跑了一遍autoplan就发现不对了,如果是gpt的话跑一轮基本就直接过了,也不会review出什么问题,glm5我直接跑了三轮最后还是有点问题,我懒得搞了直接先让他执行了。
但是glm5第一点就是话太少,话少其实不算优点,它说的少你对它制定的plan理解程度就会偏低。
第二点就是速度太快,这个明显就是推理强度不够了,属于是硬伤,哪怕我已经开了high effort了,明显就是做的快想的少。
第三点就是出现了中英文随机切换的情况,做的plan里面中英文混杂在一起几乎达到了各占50%,这是gpt没有出现过的。
第四点就是一次改不到位,有明显的bug,布局设计的也蛮丑的,让他改第二次,改完还是有bug,我直接放弃了删分支了,这次测试真是又验证了一遍我一个月前用国内版trae的结论,纯是一大坨。编程能力真的是隔着一条河了,真是没招了,还得想办法搞gpt的订阅了
最后补一下项目代码量,我觉得也不是什么小工具了,可以当个真实案例验证了
image642×1164 94.7 KB
--【壹】--:
思考太少了,工程能力跟gpt还是比不了的,思考少逻辑就肯定差一截了,我怀疑这个思考只有中等强度,对比gpt的超高真是没法比,可能比其他的国模要强吧,我也没怎么对比过,但还是没有意义,生产级别的也就opus和gpt了,我这个项目代码总的12万行,我觉得还是可以作为真实案例验证的,小工具那种几千行代码的就算了
--【贰】--:
差距还是挺大的
--【叁】--: WReck:
glm5
glm5 用下来,就是sonnet 4.5 的残血模样,逻辑不错,其他都不行,codex还是要全面一些,如果token够,上一些superpowers之类的插件,效果也不赖
--【肆】--:
那妥了,本来还想试试glm的
--【伍】--:
用网友的词 吃完细粮 再体验就是 喇嗓子
--【陆】--:
国产的这几个,我只觉得适合在你完全了解需求的情况下,亲自分解需求让他写代码片段自己拼起来。只要提示词越宽泛或者需要实现的内容越多,能力容易断崖式下降的。比起5.4、Opus 4.6相对简单很多的提示词就能基本完成任务真的差的有点远。
--【柒】--:
整体感觉下来,可能还是思考太短了?
--【捌】--:
看来还是有差距啊,跑分≠真实能力
--【玖】--:
要是跑分有用的话,“XX”早就王朝了
--【拾】--:
思考少是一方面了,那也不是他想这么少的,一些基础能力都会限制他的推理吧,还是总体能力没有突破
--【拾壹】--:
这都不用想的。。早就都说是排行榜特调了
--【拾贰】--:
是这样的
--【拾叁】--:
skill在哪获取啊,我自己找了一堆,用起来效果不好
--【拾肆】--:
跑分没输过,实际没赢过
--【拾伍】--:
我晚上也试了下,一言难尽,他自己写的一个js,半天都一堆错。
--【拾陆】--:
跑分≠能力。不过话说手机都有特调了,这些模型厂家会不会根据测试集、甚至针对到测试的用户进行特调。?
--【拾柒】--:
skill现在来看我个人觉得还是找配套的比较好,skill多了容易打架,你的模型就会被拽过去拽过来的,比如制定plan类的技能你装了两三个,那么你让他做优化方案的时候就会开始随机选了,不能保证最终质量,同样的需求你做几遍因为skill调用的不同结果也不同了。我之前用的superpowers的那一套,现在把那一套卸了,换成gstack这套了。这两套各有优点吧,前者主要是适合小白了,你说的自然语言大概率就会被brainstorm识别到,直接进入它的一套流程里面,但gstack就是工程化了,要手动分步骤调用了。
--【拾捌】--:
谢谢解毒,看来差距还不小
--【拾玖】--:
国内的这些小工具得了(都不一定能一次性写好,试过很多遍了,基本都这样),搞这种稍微大点的工程直接歇菜!

