测试deepseek 给我测笑了
- 内容介绍
- 文章标签
- 相关推荐
先说现在的结论:至少ds真没说大话 也没搞什么预训练 或者说对什么测试过拟合
而且现在结果非常不稳定,自己看吧
测试均在cc中使用deepseek 官方api测试
deepseek v4 pro 开启max
image1351×104 44.3 KB
image1420×218 41.6 KB
这是我见过最疯狂的答案
image1389×401 83.7 KB
这也挺疯狂的
image1389×400 94 KB
还有答对到就差最后一步的
但是你不要觉得他答不对
image1377×387 84.5 KB
拉煤题
image1348×328 68.5 KB
我现在的想法就是 支持国模 好吧 既然 充了钱了 那就用 说下半年会便宜 那就下半年再充
不能再测这些东西了,我将跑一个之前做出来过的具体项目来测试一下其能力
网友解答:--【壹】--:
image993×464 59.6 KB
来看看kimi的,为了不被惩罚故意改低分
--【贰】--:
别的先不说,给情绪价值这块是拉满了,国模总能在意想不到的地方逗大伙一笑
--【叁】--:
这个问题本来就没啥意思啊 也不能叫通过不通过的吧 就是单纯的测试一下逻辑能力 所以我最后说了
dkjsiogu:不能再测这些东西了,我将跑一个之前做出来过的具体项目来测试一下其能力
--【肆】--: dkjsiogu:
前端有点抽卡,我也不搞前端 没兴趣
cc客户端不是会给不是自己的模型加料吗,以前爆出来的
--【伍】--:
也是给孩子妈写死了 这byd豆包 也挺疯狂
--【陆】--:
我服了,我也没想到这个问题的关键是红绿色盲加出轨,原来我不如ai
--【柒】--:
那就很厉害了,国产化你要想想得多费劲0.0
--【捌】--:
没关系,大伙现在没几个比ai厉害的了
--【玖】--: dkjsiogu:
还有答对到就差最后一步的
最后一步是什么?我感觉已经答完了,这个是正确答案吧?
--【拾】--:
我觉得还是有点意义的,看看kimi的回答就知道了
--【拾壹】--:
感觉能用,买的上用的出去,v4这波感觉已经很可以了,充了钱当前排支持,后面降价的时候花出去
--【拾贰】--:
目前来看,v4应该和glm-5.1差不多的水平,只是在国产化上做得比较好。
--【拾叁】--:
我之前也使用这个女儿改分数的问题 测试DS,测试没有通过,然后被人说这个问题没有意义,emmm
--【拾肆】--:
网页版试了十几次,这个问题不太稳,要抽卡,思考时间从20到100多不等,大概只有一半能回答正确。
--【拾伍】--:
v4厉害在他那个上下文测试的含金量很高 但是我懒得测了 而且那个测试的结果可信度也很高 也就是说
deepseekv4
“注意力惊人”
他的1m上下文的含金量很高
前端有点抽卡,我也不搞前端 没兴趣
coding能力我还没测,但是应该是 不能说强 但是能用的地步
--【拾陆】--:
image820×825 31.6 KB
豆包回答的,根本说不通。
image1224×4199 471 KB
元宝回答的,还说的通。
--【拾柒】--:
image1074×567 39.5 KB
image1402×990 89.6 KB
image1269×730 53.1 KB
挺稳定的 随便对啊
--【拾捌】--:
逛了好多看下来,这种逻辑题反而是flash比pro更强,疑似pro思考过度自己容易想多
先说现在的结论:至少ds真没说大话 也没搞什么预训练 或者说对什么测试过拟合
而且现在结果非常不稳定,自己看吧
测试均在cc中使用deepseek 官方api测试
deepseek v4 pro 开启max
image1351×104 44.3 KB
image1420×218 41.6 KB
这是我见过最疯狂的答案
image1389×401 83.7 KB
这也挺疯狂的
image1389×400 94 KB
还有答对到就差最后一步的
但是你不要觉得他答不对
image1377×387 84.5 KB
拉煤题
image1348×328 68.5 KB
我现在的想法就是 支持国模 好吧 既然 充了钱了 那就用 说下半年会便宜 那就下半年再充
不能再测这些东西了,我将跑一个之前做出来过的具体项目来测试一下其能力
网友解答:--【壹】--:
image993×464 59.6 KB
来看看kimi的,为了不被惩罚故意改低分
--【贰】--:
别的先不说,给情绪价值这块是拉满了,国模总能在意想不到的地方逗大伙一笑
--【叁】--:
这个问题本来就没啥意思啊 也不能叫通过不通过的吧 就是单纯的测试一下逻辑能力 所以我最后说了
dkjsiogu:不能再测这些东西了,我将跑一个之前做出来过的具体项目来测试一下其能力
--【肆】--: dkjsiogu:
前端有点抽卡,我也不搞前端 没兴趣
cc客户端不是会给不是自己的模型加料吗,以前爆出来的
--【伍】--:
也是给孩子妈写死了 这byd豆包 也挺疯狂
--【陆】--:
我服了,我也没想到这个问题的关键是红绿色盲加出轨,原来我不如ai
--【柒】--:
那就很厉害了,国产化你要想想得多费劲0.0
--【捌】--:
没关系,大伙现在没几个比ai厉害的了
--【玖】--: dkjsiogu:
还有答对到就差最后一步的
最后一步是什么?我感觉已经答完了,这个是正确答案吧?
--【拾】--:
我觉得还是有点意义的,看看kimi的回答就知道了
--【拾壹】--:
感觉能用,买的上用的出去,v4这波感觉已经很可以了,充了钱当前排支持,后面降价的时候花出去
--【拾贰】--:
目前来看,v4应该和glm-5.1差不多的水平,只是在国产化上做得比较好。
--【拾叁】--:
我之前也使用这个女儿改分数的问题 测试DS,测试没有通过,然后被人说这个问题没有意义,emmm
--【拾肆】--:
网页版试了十几次,这个问题不太稳,要抽卡,思考时间从20到100多不等,大概只有一半能回答正确。
--【拾伍】--:
v4厉害在他那个上下文测试的含金量很高 但是我懒得测了 而且那个测试的结果可信度也很高 也就是说
deepseekv4
“注意力惊人”
他的1m上下文的含金量很高
前端有点抽卡,我也不搞前端 没兴趣
coding能力我还没测,但是应该是 不能说强 但是能用的地步
--【拾陆】--:
image820×825 31.6 KB
豆包回答的,根本说不通。
image1224×4199 471 KB
元宝回答的,还说的通。
--【拾柒】--:
image1074×567 39.5 KB
image1402×990 89.6 KB
image1269×730 53.1 KB
挺稳定的 随便对啊
--【拾捌】--:
逛了好多看下来,这种逻辑题反而是flash比pro更强,疑似pro思考过度自己容易想多

