分享一个实用的论证: 如果让模型对自己的生成内容进行审查, 审查迭代次数=3可以获取最高边际收益

2026-04-29 11:141阅读0评论SEO问题
  • 内容介绍
  • 文章标签
  • 相关推荐
问题描述:

Yang, Z. et al. (2025). “A Probabilistic Inference Scaling Theory for LLM Self-Correction.” EMNLP 2025. https://arxiv.org/abs/2508.16456

老哥给了一个模型:

Acc_t = Upp - α^t × (Upp - Acc_0)

其中:

  • Acc_t = 第 t 轮后的准确率
  • Upp = CS / (1 - CL + CS) = 理论精度天花板
  • CS (Critique Score) = 模型发现错误的概率(当前模型约 0.4)
  • CL (Confidence Level) = 模型保持正确内容不被改坏的概率(约 0.9)
  • α = CL - CS = 收敛速率(约 0.5)

我觉得这个模型这2个结论比较有用:

  1. 迭代两轮审查 就可以有75%的改进量, 这是边际收益递减的一个里程碑, 三轮最佳收益
  2. 超过 5 轮后,引入新错误的风险开始超过发现旧错误的收益

但是从我的实践经验来看 每次复盘 显式要求agent从不同角度进行审查, 效果更佳. 审查角度 可以根据实际需求来优化, 也可以让agent根据模块的实际内容进行优化.

网友解答:
--【壹】--:

前面我也分享了一个AI生成UI,对AI规划进行审查,不通过多轮审查的流程,看来可以再优化优化:

关于生成式UI工具实现与探索 开发调优
阅读全文
问题描述:

Yang, Z. et al. (2025). “A Probabilistic Inference Scaling Theory for LLM Self-Correction.” EMNLP 2025. https://arxiv.org/abs/2508.16456

老哥给了一个模型:

Acc_t = Upp - α^t × (Upp - Acc_0)

其中:

  • Acc_t = 第 t 轮后的准确率
  • Upp = CS / (1 - CL + CS) = 理论精度天花板
  • CS (Critique Score) = 模型发现错误的概率(当前模型约 0.4)
  • CL (Confidence Level) = 模型保持正确内容不被改坏的概率(约 0.9)
  • α = CL - CS = 收敛速率(约 0.5)

我觉得这个模型这2个结论比较有用:

  1. 迭代两轮审查 就可以有75%的改进量, 这是边际收益递减的一个里程碑, 三轮最佳收益
  2. 超过 5 轮后,引入新错误的风险开始超过发现旧错误的收益

但是从我的实践经验来看 每次复盘 显式要求agent从不同角度进行审查, 效果更佳. 审查角度 可以根据实际需求来优化, 也可以让agent根据模块的实际内容进行优化.

网友解答:
--【壹】--:

前面我也分享了一个AI生成UI,对AI规划进行审查,不通过多轮审查的流程,看来可以再优化优化:

关于生成式UI工具实现与探索 开发调优
阅读全文