测试deepseek 给我测笑了

2026-04-29 09:502阅读0评论SEO问题
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

先说现在的结论:至少ds真没说大话 也没搞什么预训练 或者说对什么测试过拟合

而且现在结果非常不稳定,自己看吧

测试均在cc中使用deepseek 官方api测试

deepseek v4 pro 开启max

image1351×104 44.3 KB

image1420×218 41.6 KB

这是我见过最疯狂的答案

image1389×401 83.7 KB

这也挺疯狂的

image1389×400 94 KB

还有答对到就差最后一步的

但是你不要觉得他答不对

image1377×387 84.5 KB

拉煤题

image1348×328 68.5 KB

我现在的想法就是 支持国模 好吧 既然 充了钱了 那就用 说下半年会便宜 那就下半年再充

不能再测这些东西了,我将跑一个之前做出来过的具体项目来测试一下其能力

网友解答:
--【壹】--:

image993×464 59.6 KB

来看看kimi的,为了不被惩罚故意改低分


--【贰】--:

别的先不说,给情绪价值这块是拉满了,国模总能在意想不到的地方逗大伙一笑


--【叁】--:

这个问题本来就没啥意思啊 也不能叫通过不通过的吧 就是单纯的测试一下逻辑能力 所以我最后说了

dkjsiogu:

不能再测这些东西了,我将跑一个之前做出来过的具体项目来测试一下其能力


--【肆】--: dkjsiogu:

前端有点抽卡,我也不搞前端 没兴趣

cc客户端不是会给不是自己的模型加料吗,以前爆出来的


--【伍】--:

也是给孩子妈写死了 这byd豆包 也挺疯狂


--【陆】--:

我服了,我也没想到这个问题的关键是红绿色盲加出轨,原来我不如ai


--【柒】--:

那就很厉害了,国产化你要想想得多费劲0.0


--【捌】--:

没关系,大伙现在没几个比ai厉害的了


--【玖】--: dkjsiogu:

还有答对到就差最后一步的

最后一步是什么?我感觉已经答完了,这个是正确答案吧?


--【拾】--:

我觉得还是有点意义的,看看kimi的回答就知道了


--【拾壹】--:

感觉能用,买的上用的出去,v4这波感觉已经很可以了,充了钱当前排支持,后面降价的时候花出去


--【拾贰】--:

目前来看,v4应该和glm-5.1差不多的水平,只是在国产化上做得比较好。


--【拾叁】--:

我之前也使用这个女儿改分数的问题 测试DS,测试没有通过,然后被人说这个问题没有意义,emmm


--【拾肆】--:

网页版试了十几次,这个问题不太稳,要抽卡,思考时间从20到100多不等,大概只有一半能回答正确。


--【拾伍】--:

v4厉害在他那个上下文测试的含金量很高 但是我懒得测了 而且那个测试的结果可信度也很高 也就是说

deepseekv4

“注意力惊人”

他的1m上下文的含金量很高

前端有点抽卡,我也不搞前端 没兴趣

coding能力我还没测,但是应该是 不能说强 但是能用的地步


--【拾陆】--:

image820×825 31.6 KB
豆包回答的,根本说不通。

image1224×4199 471 KB
元宝回答的,还说的通。


--【拾柒】--:

image1074×567 39.5 KB
image1402×990 89.6 KB
image1269×730 53.1 KB
挺稳定的 随便对啊


--【拾捌】--:

逛了好多看下来,这种逻辑题反而是flash比pro更强,疑似pro思考过度自己容易想多

标签:人工智能
问题描述:

先说现在的结论:至少ds真没说大话 也没搞什么预训练 或者说对什么测试过拟合

而且现在结果非常不稳定,自己看吧

测试均在cc中使用deepseek 官方api测试

deepseek v4 pro 开启max

image1351×104 44.3 KB

image1420×218 41.6 KB

这是我见过最疯狂的答案

image1389×401 83.7 KB

这也挺疯狂的

image1389×400 94 KB

还有答对到就差最后一步的

但是你不要觉得他答不对

image1377×387 84.5 KB

拉煤题

image1348×328 68.5 KB

我现在的想法就是 支持国模 好吧 既然 充了钱了 那就用 说下半年会便宜 那就下半年再充

不能再测这些东西了,我将跑一个之前做出来过的具体项目来测试一下其能力

网友解答:
--【壹】--:

image993×464 59.6 KB

来看看kimi的,为了不被惩罚故意改低分


--【贰】--:

别的先不说,给情绪价值这块是拉满了,国模总能在意想不到的地方逗大伙一笑


--【叁】--:

这个问题本来就没啥意思啊 也不能叫通过不通过的吧 就是单纯的测试一下逻辑能力 所以我最后说了

dkjsiogu:

不能再测这些东西了,我将跑一个之前做出来过的具体项目来测试一下其能力


--【肆】--: dkjsiogu:

前端有点抽卡,我也不搞前端 没兴趣

cc客户端不是会给不是自己的模型加料吗,以前爆出来的


--【伍】--:

也是给孩子妈写死了 这byd豆包 也挺疯狂


--【陆】--:

我服了,我也没想到这个问题的关键是红绿色盲加出轨,原来我不如ai


--【柒】--:

那就很厉害了,国产化你要想想得多费劲0.0


--【捌】--:

没关系,大伙现在没几个比ai厉害的了


--【玖】--: dkjsiogu:

还有答对到就差最后一步的

最后一步是什么?我感觉已经答完了,这个是正确答案吧?


--【拾】--:

我觉得还是有点意义的,看看kimi的回答就知道了


--【拾壹】--:

感觉能用,买的上用的出去,v4这波感觉已经很可以了,充了钱当前排支持,后面降价的时候花出去


--【拾贰】--:

目前来看,v4应该和glm-5.1差不多的水平,只是在国产化上做得比较好。


--【拾叁】--:

我之前也使用这个女儿改分数的问题 测试DS,测试没有通过,然后被人说这个问题没有意义,emmm


--【拾肆】--:

网页版试了十几次,这个问题不太稳,要抽卡,思考时间从20到100多不等,大概只有一半能回答正确。


--【拾伍】--:

v4厉害在他那个上下文测试的含金量很高 但是我懒得测了 而且那个测试的结果可信度也很高 也就是说

deepseekv4

“注意力惊人”

他的1m上下文的含金量很高

前端有点抽卡,我也不搞前端 没兴趣

coding能力我还没测,但是应该是 不能说强 但是能用的地步


--【拾陆】--:

image820×825 31.6 KB
豆包回答的,根本说不通。

image1224×4199 471 KB
元宝回答的,还说的通。


--【拾柒】--:

image1074×567 39.5 KB
image1402×990 89.6 KB
image1269×730 53.1 KB
挺稳定的 随便对啊


--【拾捌】--:

逛了好多看下来,这种逻辑题反而是flash比pro更强,疑似pro思考过度自己容易想多

标签:人工智能