如何优化小模型(9B 规模的),做指定行业的智能体编排任务(api调用,路径规划)
- 内容介绍
- 文章标签
- 相关推荐
可以牺牲其他通用性能,有对应的benchmark,但是没有相关微调数据集,想知道目前行业最前沿最有效的方法是什么
网友解答:--【壹】--:
可以考虑用大参数、高性能的模型来生成数据集。要是再往上提效果的话,那得人工数据了。
--【贰】--:
相当于不用根据工具的返回重新思考和rePlan?那不就是调用正确的就给reward的逻辑了
--【叁】--:
现在不都在做 rlvr 了?sft 对 agent 轨迹数据质量要求很高吧
--【肆】--:
对啊,有环境就可以搞 AgentRL 了啊……比如在特定企业的环境下,如何实现更好正确的调用 API 这些,这本身就是 AgentRL 比较好的应用的场景嘛
--【伍】--:
嗯这个基准本来也有问题吧
--【陆】--:
那对于一些基准测试呢 似乎这个基准测试也有问题 只给了环境的设定
--【柒】--:
蹲一个,但是有说法太专一某个领域可能最终性能不怎么样。
--【捌】--:
定向领域的,如果考虑行业知识就先搞下 CPT,行业知识如果比较通用,模型里面已经有比较完善的了,可以考虑直接 AgentRL。
补充说明下,AgentRL 你不需要准备数据集,相反你需要准一个仿真环境,设置好 reward 函数;当然这个有效是取决于多次测试是否有较好效果的,如果同样的初始化状态和 Prompt 有些效果好有些效果不好就可以用类似的方案
--【玖】--:
只想尽可能刷榜啊哈哈哈而且小模型落地的话也很固定的在某个场景
--【拾】--:
我的意思这个基准只有环境的上下文 比如告诉她你可以有那些工具可以用,但是没有提供真实的环境真实的反馈
可以牺牲其他通用性能,有对应的benchmark,但是没有相关微调数据集,想知道目前行业最前沿最有效的方法是什么
网友解答:--【壹】--:
可以考虑用大参数、高性能的模型来生成数据集。要是再往上提效果的话,那得人工数据了。
--【贰】--:
相当于不用根据工具的返回重新思考和rePlan?那不就是调用正确的就给reward的逻辑了
--【叁】--:
现在不都在做 rlvr 了?sft 对 agent 轨迹数据质量要求很高吧
--【肆】--:
对啊,有环境就可以搞 AgentRL 了啊……比如在特定企业的环境下,如何实现更好正确的调用 API 这些,这本身就是 AgentRL 比较好的应用的场景嘛
--【伍】--:
嗯这个基准本来也有问题吧
--【陆】--:
那对于一些基准测试呢 似乎这个基准测试也有问题 只给了环境的设定
--【柒】--:
蹲一个,但是有说法太专一某个领域可能最终性能不怎么样。
--【捌】--:
定向领域的,如果考虑行业知识就先搞下 CPT,行业知识如果比较通用,模型里面已经有比较完善的了,可以考虑直接 AgentRL。
补充说明下,AgentRL 你不需要准备数据集,相反你需要准一个仿真环境,设置好 reward 函数;当然这个有效是取决于多次测试是否有较好效果的,如果同样的初始化状态和 Prompt 有些效果好有些效果不好就可以用类似的方案
--【玖】--:
只想尽可能刷榜啊哈哈哈而且小模型落地的话也很固定的在某个场景
--【拾】--:
我的意思这个基准只有环境的上下文 比如告诉她你可以有那些工具可以用,但是没有提供真实的环境真实的反馈

