deepseek-v4 flash coding 小测试,对比glm5
- 内容介绍
- 文章标签
- 相关推荐
首先我用的是 kilo code vscode 扩展,不过由于deepseek-v4 才出来,kilo code还不支持 deepseek-v4的reasoning_content
会报下面这个错误:
The reasoning_content in the thinking mode must be passed back to the API.
我 fork 了一份 kilo code 自己修改适配了一下。
从昨天开始,我使用GLM 开发我的一个输入法的一个比较复杂的功能,和GLM5 智斗了一个晚上加今天的一个早上,直接把我的 bailian coding 干没了,都没给我实现出来,这个功能还是比较难的。刚好看到deepseek-v4 看到出来了,正好可以给我接力一下。于是基于修复完kilo code 的错误后,带着deepseek-v4 做开发这个功能,我用的是flash 版本。经过1个多小时的coding,终于做出来了。
开始的时候, 思维链直接思考了接近10分钟,不过,好在功能实现完全没问题,不像glm5一直捣乱,有时候还回归原来的bug。还有不知道为什么 flash 模型的思考会变全英文。
至于 deepseek v4 pro 模型我没有试,因为其实常用的还是 flash,毕竟它出活快呀。
17:00
惊艳到我了,这么复杂的一个功能,竟然完成了,就是有点费 token。。。
花了我6块钱,一共用了2484万token,命中2344万token,输出17.9万token。
当然glm从昨天到中午,花的肯定不止2484万token了。只是按token计费真心疼钱呀。。。。
image509×460 23 KB
设置为low了,思考过程还是很长,这太费钱了
网友解答:--【壹】--:
我今天用 deepseek-v4-pro 来 review 代码,感觉并不聪明,没有问题的代码他非要说有问题
--【贰】--:
对于测试也是,很多人都是一套prompt,是最公平的,但可能对某些模型这不是最好的,它关注的点不一样,答案就差很远了
--【叁】--:
事实上,这么多个模型使用下来,和提示词有比较大的关系,如果大模型能理解你的问题,那他解决起来是比较容易的,如果不理解的话,就感觉像弱智一样。GLM5就是这个问题,所以我每次回复都会看他的推理是否理解了我的描述。
这个是比较关键的。
--【肆】--: kor1:
用GLM 开发我的一个输入法的一个比较复杂的功能,和GLM5 智斗了一个晚上加今天的一个早上,直接把我的 bailian coding 干没了,都没给我实现出来,这个功能还是比较难的。刚好看到deepseek-v4 看到出来了,正好可以给我接力一下。于是基于修复完kilo code 的错误后,带着deepseek-v4 做开发这个功能,我用的是flash 版本。经过1个多小时的coding,终于做出来了。
能提供一下使用了多少token,以及实际产生多少费用吗。佬
--【伍】--:
800万token, 2.5元。。目前flash 最大的问题是思考的有点长。
未命中9万token
命中799万token
输出2万token
--【陆】--:
肯定的,毕竟每家的数据集比例、成分,训练情况是不一样的。
首先我用的是 kilo code vscode 扩展,不过由于deepseek-v4 才出来,kilo code还不支持 deepseek-v4的reasoning_content
会报下面这个错误:
The reasoning_content in the thinking mode must be passed back to the API.
我 fork 了一份 kilo code 自己修改适配了一下。
从昨天开始,我使用GLM 开发我的一个输入法的一个比较复杂的功能,和GLM5 智斗了一个晚上加今天的一个早上,直接把我的 bailian coding 干没了,都没给我实现出来,这个功能还是比较难的。刚好看到deepseek-v4 看到出来了,正好可以给我接力一下。于是基于修复完kilo code 的错误后,带着deepseek-v4 做开发这个功能,我用的是flash 版本。经过1个多小时的coding,终于做出来了。
开始的时候, 思维链直接思考了接近10分钟,不过,好在功能实现完全没问题,不像glm5一直捣乱,有时候还回归原来的bug。还有不知道为什么 flash 模型的思考会变全英文。
至于 deepseek v4 pro 模型我没有试,因为其实常用的还是 flash,毕竟它出活快呀。
17:00
惊艳到我了,这么复杂的一个功能,竟然完成了,就是有点费 token。。。
花了我6块钱,一共用了2484万token,命中2344万token,输出17.9万token。
当然glm从昨天到中午,花的肯定不止2484万token了。只是按token计费真心疼钱呀。。。。
image509×460 23 KB
设置为low了,思考过程还是很长,这太费钱了
网友解答:--【壹】--:
我今天用 deepseek-v4-pro 来 review 代码,感觉并不聪明,没有问题的代码他非要说有问题
--【贰】--:
对于测试也是,很多人都是一套prompt,是最公平的,但可能对某些模型这不是最好的,它关注的点不一样,答案就差很远了
--【叁】--:
事实上,这么多个模型使用下来,和提示词有比较大的关系,如果大模型能理解你的问题,那他解决起来是比较容易的,如果不理解的话,就感觉像弱智一样。GLM5就是这个问题,所以我每次回复都会看他的推理是否理解了我的描述。
这个是比较关键的。
--【肆】--: kor1:
用GLM 开发我的一个输入法的一个比较复杂的功能,和GLM5 智斗了一个晚上加今天的一个早上,直接把我的 bailian coding 干没了,都没给我实现出来,这个功能还是比较难的。刚好看到deepseek-v4 看到出来了,正好可以给我接力一下。于是基于修复完kilo code 的错误后,带着deepseek-v4 做开发这个功能,我用的是flash 版本。经过1个多小时的coding,终于做出来了。
能提供一下使用了多少token,以及实际产生多少费用吗。佬
--【伍】--:
800万token, 2.5元。。目前flash 最大的问题是思考的有点长。
未命中9万token
命中799万token
输出2万token
--【陆】--:
肯定的,毕竟每家的数据集比例、成分,训练情况是不一样的。

