We propose a framework that amortizes the cost of inference-time reasoning by converting transient critiques into retrievable guidelines, through a file-based memory system and agent-controlled tool calls. We evaluate this method on the Rubric Feedback Bench, a novel dataset for rubric-based learning. Experiments demonstrate that our augmented LLMs rapidly match the performance of test-time refinement pipelines while drastically reducing inference cost.


翻译:我们提出一种框架,通过基于文件的记忆系统和智能体控制的工具调用,将瞬时性评析转化为可检索的指导原则,从而分摊推理时思考过程的计算成本。我们在Rubric Feedback Bench(一种基于评分标准学习的新型数据集)上对该方法进行评估。实验表明,增强后的大型语言模型能快速达到测试时精炼流程的性能水平,同时显著降低推理成本。

0
下载
关闭预览

相关内容

基于人工反馈的强化学习综述
专知会员服务
65+阅读 · 2023年12月25日
【Google AI-Yi Tay】Transformer记忆为可微搜索索引”(DSI)
专知会员服务
10+阅读 · 2022年3月4日
可解释强化学习,Explainable Reinforcement Learning: A Survey
专知会员服务
132+阅读 · 2020年5月14日
因果关联学习,Causal Relational Learning
专知会员服务
185+阅读 · 2020年4月21日
【反馈循环自编码器】FEEDBACK RECURRENT AUTOENCODER
专知会员服务
23+阅读 · 2020年1月28日
南洋理工大学,深度学习推荐系统综述
专知会员服务
177+阅读 · 2019年10月14日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
【强化学习】强化学习/增强学习/再励学习介绍
产业智能官
10+阅读 · 2018年2月23日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员