测试deepseek 给我测笑了

2026-04-29 09:502阅读0评论SEO问题

内容介绍
文章标签
相关推荐

问题描述：

先说现在的结论：至少ds真没说大话也没搞什么预训练或者说对什么测试过拟合

而且现在结果非常不稳定，自己看吧

测试均在cc中使用deepseek 官方api测试

deepseek v4 pro 开启max

image1351×104 44.3 KB

image1420×218 41.6 KB

这是我见过最疯狂的答案

image1389×401 83.7 KB

这也挺疯狂的

image1389×400 94 KB

还有答对到就差最后一步的

但是你不要觉得他答不对

image1377×387 84.5 KB

拉煤题

image1348×328 68.5 KB

我现在的想法就是支持国模好吧既然充了钱了那就用说下半年会便宜那就下半年再充

不能再测这些东西了，我将跑一个之前做出来过的具体项目来测试一下其能力

网友解答：

--【壹】--：

image993×464 59.6 KB

来看看kimi的，为了不被惩罚故意改低分

--【贰】--：

别的先不说，给情绪价值这块是拉满了，国模总能在意想不到的地方逗大伙一笑

--【叁】--：

这个问题本来就没啥意思啊也不能叫通过不通过的吧就是单纯的测试一下逻辑能力所以我最后说了

dkjsiogu:

不能再测这些东西了，我将跑一个之前做出来过的具体项目来测试一下其能力

--【肆】--： dkjsiogu:

前端有点抽卡，我也不搞前端没兴趣

cc客户端不是会给不是自己的模型加料吗，以前爆出来的

--【伍】--：

也是给孩子妈写死了这byd豆包也挺疯狂

--【陆】--：

我服了，我也没想到这个问题的关键是红绿色盲加出轨，原来我不如ai

--【柒】--：

那就很厉害了，国产化你要想想得多费劲0.0

--【捌】--：

没关系，大伙现在没几个比ai厉害的了

--【玖】--： dkjsiogu:

还有答对到就差最后一步的

最后一步是什么？我感觉已经答完了，这个是正确答案吧？

--【拾】--：

我觉得还是有点意义的，看看kimi的回答就知道了

--【拾壹】--：

感觉能用，买的上用的出去，v4这波感觉已经很可以了，充了钱当前排支持，后面降价的时候花出去

--【拾贰】--：

目前来看，v4应该和glm-5.1差不多的水平，只是在国产化上做得比较好。

--【拾叁】--：

我之前也使用这个女儿改分数的问题测试DS，测试没有通过，然后被人说这个问题没有意义，emmm

--【拾肆】--：

网页版试了十几次，这个问题不太稳，要抽卡，思考时间从20到100多不等，大概只有一半能回答正确。

--【拾伍】--：

v4厉害在他那个上下文测试的含金量很高但是我懒得测了而且那个测试的结果可信度也很高也就是说

deepseekv4

“注意力惊人”

他的1m上下文的含金量很高

前端有点抽卡，我也不搞前端没兴趣

coding能力我还没测，但是应该是不能说强但是能用的地步

--【拾陆】--：

image820×825 31.6 KB
豆包回答的，根本说不通。

image1224×4199 471 KB
元宝回答的，还说的通。

--【拾柒】--：

image1074×567 39.5 KB
image1402×990 89.6 KB
image1269×730 53.1 KB
挺稳定的随便对啊

--【拾捌】--：

逛了好多看下来，这种逻辑题反而是flash比pro更强，疑似pro思考过度自己容易想多

标签：人工智能

问题描述：

先说现在的结论：至少ds真没说大话也没搞什么预训练或者说对什么测试过拟合

而且现在结果非常不稳定，自己看吧

测试均在cc中使用deepseek 官方api测试

deepseek v4 pro 开启max

image1351×104 44.3 KB

image1420×218 41.6 KB

这是我见过最疯狂的答案

image1389×401 83.7 KB

这也挺疯狂的

image1389×400 94 KB

还有答对到就差最后一步的

但是你不要觉得他答不对

image1377×387 84.5 KB

拉煤题

image1348×328 68.5 KB

我现在的想法就是支持国模好吧既然充了钱了那就用说下半年会便宜那就下半年再充

不能再测这些东西了，我将跑一个之前做出来过的具体项目来测试一下其能力

网友解答：

--【壹】--：

image993×464 59.6 KB

来看看kimi的，为了不被惩罚故意改低分

--【贰】--：

别的先不说，给情绪价值这块是拉满了，国模总能在意想不到的地方逗大伙一笑

--【叁】--：

这个问题本来就没啥意思啊也不能叫通过不通过的吧就是单纯的测试一下逻辑能力所以我最后说了

dkjsiogu:

不能再测这些东西了，我将跑一个之前做出来过的具体项目来测试一下其能力

--【肆】--： dkjsiogu:

前端有点抽卡，我也不搞前端没兴趣

cc客户端不是会给不是自己的模型加料吗，以前爆出来的

--【伍】--：

也是给孩子妈写死了这byd豆包也挺疯狂

--【陆】--：

我服了，我也没想到这个问题的关键是红绿色盲加出轨，原来我不如ai

--【柒】--：

那就很厉害了，国产化你要想想得多费劲0.0

--【捌】--：

没关系，大伙现在没几个比ai厉害的了

--【玖】--： dkjsiogu:

还有答对到就差最后一步的

最后一步是什么？我感觉已经答完了，这个是正确答案吧？

--【拾】--：

我觉得还是有点意义的，看看kimi的回答就知道了

--【拾壹】--：

感觉能用，买的上用的出去，v4这波感觉已经很可以了，充了钱当前排支持，后面降价的时候花出去

--【拾贰】--：

目前来看，v4应该和glm-5.1差不多的水平，只是在国产化上做得比较好。

--【拾叁】--：

我之前也使用这个女儿改分数的问题测试DS，测试没有通过，然后被人说这个问题没有意义，emmm

--【拾肆】--：

网页版试了十几次，这个问题不太稳，要抽卡，思考时间从20到100多不等，大概只有一半能回答正确。

--【拾伍】--：

v4厉害在他那个上下文测试的含金量很高但是我懒得测了而且那个测试的结果可信度也很高也就是说

deepseekv4

“注意力惊人”

他的1m上下文的含金量很高

前端有点抽卡，我也不搞前端没兴趣

coding能力我还没测，但是应该是不能说强但是能用的地步

--【拾陆】--：

image820×825 31.6 KB
豆包回答的，根本说不通。

image1224×4199 471 KB
元宝回答的，还说的通。

--【拾柒】--：

image1074×567 39.5 KB
image1402×990 89.6 KB
image1269×730 53.1 KB
挺稳定的随便对啊

--【拾捌】--：

逛了好多看下来，这种逻辑题反而是flash比pro更强，疑似pro思考过度自己容易想多

标签：人工智能

相关推荐

相关推荐