到底国产模型行不行
- 内容介绍
- 文章标签
- 相关推荐
怎么有人说是屎,有人说好
有人跟gpt和claude等国外模型横向评测过吗,能用于生产环境吗
--【壹】--:
用用就知道了,有的时候觉得不行,突然解决了一个问题,有的时候觉得又行了,又被蠢得血压飙升
--【贰】--:
属于跑分能打过,实际用下来差距还是很大的
--【叁】--:
还行吧,只能说价格比较便宜了,用起来其实还可以
--【肆】--:
Claude 的一个好处是对 Prompt 的鲁棒性更好,不需要特别认真的写 Prompt 模型就能表现出比较好的结果。GLM-5.1 这些不太能领会 Prompt 中的潜含意思,比如下面这个经典的测试问题,国模 一般都是算29(就是没有分两种形状拿),如果你强调拿的时候可以摸出来不同形状,分形状拿,就比较容易算出21来。
在一个黑色的袋子里放有三种口味的糖果,每种糖果有两种不同的形状(圆形和五角星形,不同的形状靠手感可以分辨)。现已知不同口味的糖和不同形状的数量统计如下表。参赛者需要在活动前决定摸出的糖果数目,那么,最少取出多少个糖果才能保证手中同时拥有不同形状的苹果味和桃子味的糖?(同时手中有圆形苹果味匹配五角星桃子味糖果,或者有圆形桃子味匹配五角星苹果味糖果都满足要求)
苹果味 桃子味 西瓜味
圆形 7 9 8
五角星形 7 6 4
放到 Coding 这种就是有些 Prompt Claude 实现的功能就是完善的,但是 国模 可能就缺一些边缘条件。
--【伍】--:
个人使用下来,qwen3.5-plus和minimax2.5不太行,豆包也不行
--【陆】--:
还行,700b 的不是随便一个公司就能部署了
--【柒】--:
我觉得跟场景复杂度相关把,不那么复杂的任务它快能用。
怎么有人说是屎,有人说好
有人跟gpt和claude等国外模型横向评测过吗,能用于生产环境吗
--【壹】--:
用用就知道了,有的时候觉得不行,突然解决了一个问题,有的时候觉得又行了,又被蠢得血压飙升
--【贰】--:
属于跑分能打过,实际用下来差距还是很大的
--【叁】--:
还行吧,只能说价格比较便宜了,用起来其实还可以
--【肆】--:
Claude 的一个好处是对 Prompt 的鲁棒性更好,不需要特别认真的写 Prompt 模型就能表现出比较好的结果。GLM-5.1 这些不太能领会 Prompt 中的潜含意思,比如下面这个经典的测试问题,国模 一般都是算29(就是没有分两种形状拿),如果你强调拿的时候可以摸出来不同形状,分形状拿,就比较容易算出21来。
在一个黑色的袋子里放有三种口味的糖果,每种糖果有两种不同的形状(圆形和五角星形,不同的形状靠手感可以分辨)。现已知不同口味的糖和不同形状的数量统计如下表。参赛者需要在活动前决定摸出的糖果数目,那么,最少取出多少个糖果才能保证手中同时拥有不同形状的苹果味和桃子味的糖?(同时手中有圆形苹果味匹配五角星桃子味糖果,或者有圆形桃子味匹配五角星苹果味糖果都满足要求)
苹果味 桃子味 西瓜味
圆形 7 9 8
五角星形 7 6 4
放到 Coding 这种就是有些 Prompt Claude 实现的功能就是完善的,但是 国模 可能就缺一些边缘条件。
--【伍】--:
个人使用下来,qwen3.5-plus和minimax2.5不太行,豆包也不行
--【陆】--:
还行,700b 的不是随便一个公司就能部署了
--【柒】--:
我觉得跟场景复杂度相关把,不那么复杂的任务它快能用。

