斯坦福伯克利新研究:标价便宜的模型可能实际使用成本更高,选模型不能只看单价

2026-04-11 12:580阅读0评论SEO教程
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

因为是和选择模型相关所以还是放在这个板块里了。

刷到一篇近期斯坦福/伯克利/CMU/微软研究院的研究,其中测试了8种推理模型在9个任务上的表现,结果是在大约22%的模型对的比较里,标价低的模型实际使用成本更高。比如Gemini 3 flash标价比GPT 5.2便宜78%,但它的实际使用成本却高出22%。

image1601×965 159 KB

论文里分析的是单轮对话使用成本,这里会出现价格反转的原因是不同模型做推理消耗的token数不同,看起来便宜的模型有时候可能会消耗更多token做推理,这完全是隐藏消耗。甚至论文里还发现有些模型用同一个prompt多次发出请求,推理token的消耗可能相差9.7倍,所以实际的开销只靠一次测试也很难估计。

其实论文有一些其他视角没有提到,就是单价便宜的模型可能因为太笨,反而需要更多的对话轮数才能干活,但是单价贵的强模型可能一轮就能完事。多轮对话里每一轮的请求都会带上之前先前对话所有的输入输出一起作为prompt发出去,轮数一多,先前的对话就会被三番五次地重复发出去,这里还可能带着推理token,如果对话中途停顿的时间一久,cache一失效,再带上写cache的消耗,开销就非常大了。

总而言之,选模型得在自己的实际任务上测试实际开销,不能一味选便宜模型,单价贵的模型反而可能开销更低。

(其实还有一层:单价低的模型要是干不了活可能既影响心情又浪费时间)

论文链接: The Price Reversal Phenomenon: When Cheaper Reasoning Models End Up Costing More | Abstract

网友解答:
--【壹】--:

Grok搜索引擎都能把token输出拉满的,也是离谱到家了。

阅读全文
标签:人工智能
问题描述:

因为是和选择模型相关所以还是放在这个板块里了。

刷到一篇近期斯坦福/伯克利/CMU/微软研究院的研究,其中测试了8种推理模型在9个任务上的表现,结果是在大约22%的模型对的比较里,标价低的模型实际使用成本更高。比如Gemini 3 flash标价比GPT 5.2便宜78%,但它的实际使用成本却高出22%。

image1601×965 159 KB

论文里分析的是单轮对话使用成本,这里会出现价格反转的原因是不同模型做推理消耗的token数不同,看起来便宜的模型有时候可能会消耗更多token做推理,这完全是隐藏消耗。甚至论文里还发现有些模型用同一个prompt多次发出请求,推理token的消耗可能相差9.7倍,所以实际的开销只靠一次测试也很难估计。

其实论文有一些其他视角没有提到,就是单价便宜的模型可能因为太笨,反而需要更多的对话轮数才能干活,但是单价贵的强模型可能一轮就能完事。多轮对话里每一轮的请求都会带上之前先前对话所有的输入输出一起作为prompt发出去,轮数一多,先前的对话就会被三番五次地重复发出去,这里还可能带着推理token,如果对话中途停顿的时间一久,cache一失效,再带上写cache的消耗,开销就非常大了。

总而言之,选模型得在自己的实际任务上测试实际开销,不能一味选便宜模型,单价贵的模型反而可能开销更低。

(其实还有一层:单价低的模型要是干不了活可能既影响心情又浪费时间)

论文链接: The Price Reversal Phenomenon: When Cheaper Reasoning Models End Up Costing More | Abstract

网友解答:
--【壹】--:

Grok搜索引擎都能把token输出拉满的,也是离谱到家了。

阅读全文
标签:人工智能