似乎魔搭部署的Deepseek幻觉更少、思考不循环,捞针更强?
- 内容介绍
- 文章标签
- 相关推荐
思维链没官网那么长
捞针不循环
PixPin2026-04-2502-28-54747×577 34.5 KB
PixPin2026-04-2502-30-03910×393 36 KB
PixPin2026-04-2502-27-51958×882 213 KB
起码开玩笑还会标明
PixPin2026-04-2502-29-22760×741 91.5 KB
--【壹】--:
这么强,还是得有卡啊,拿融资后做大做强
--【贰】--:
together部署的deepseek-v4-pro感觉也比官方强,神奇
--【叁】--:
如果这个模型是英伟达训练的,拿到华为上效果变差是华为算子问题,如果是华为训练,算子有问题的前提下训练出来的模型,拿到英伟达上效果也不会变好啊,模型都训崩了
--【肆】--:
是不是 魔搭的默认思考开的 max,网页的好像思考是 mini 吧
--【伍】--:
可能是华为卡的某些算子/精度仍然有问题?
--【陆】--:
这个模型只是推理在华为卡上,训练依旧用的英伟达
--【柒】--:
难道魔搭部署了非量化版本吗,还是两个都是量化版本,只是魔搭部署更厉害
--【捌】--:
你用的是啥聊天app?我用chatbox感觉好像不太行
--【玖】--:
可能这就是英伟达不降反增的原因?????
--【拾】--:
什么离谱提示词ww
gpt这辈子不敢开这玩笑w
--【拾壹】--:
魔塔的glm5.1也超长思维,比我在其他地方找的渠道思维长多了,效果也不错。搞几个魔塔号基本够我用了。
思维链没官网那么长
捞针不循环
PixPin2026-04-2502-28-54747×577 34.5 KB
PixPin2026-04-2502-30-03910×393 36 KB
PixPin2026-04-2502-27-51958×882 213 KB
起码开玩笑还会标明
PixPin2026-04-2502-29-22760×741 91.5 KB
--【壹】--:
这么强,还是得有卡啊,拿融资后做大做强
--【贰】--:
together部署的deepseek-v4-pro感觉也比官方强,神奇
--【叁】--:
如果这个模型是英伟达训练的,拿到华为上效果变差是华为算子问题,如果是华为训练,算子有问题的前提下训练出来的模型,拿到英伟达上效果也不会变好啊,模型都训崩了
--【肆】--:
是不是 魔搭的默认思考开的 max,网页的好像思考是 mini 吧
--【伍】--:
可能是华为卡的某些算子/精度仍然有问题?
--【陆】--:
这个模型只是推理在华为卡上,训练依旧用的英伟达
--【柒】--:
难道魔搭部署了非量化版本吗,还是两个都是量化版本,只是魔搭部署更厉害
--【捌】--:
你用的是啥聊天app?我用chatbox感觉好像不太行
--【玖】--:
可能这就是英伟达不降反增的原因?????
--【拾】--:
什么离谱提示词ww
gpt这辈子不敢开这玩笑w
--【拾壹】--:
魔塔的glm5.1也超长思维,比我在其他地方找的渠道思维长多了,效果也不错。搞几个魔塔号基本够我用了。

