Instruction optimization provides a lightweight, model-agnostic approach to enhancing the reasoning performance of large language models (LLMs). This paper presents the first systematic comparison of instruction optimization, based on the DSPy optimization framework, for tabular fact verification. We evaluate four out-of-the-box prompting techniques that cover both text-only prompting and code use: direct prediction, Chain-of-Thought (CoT), ReAct with SQL tools, and CodeAct with Python execution. We study three optimizers from the DSPy framework -- COPRO, MiPROv2, and SIMBA -- across four benchmarks and three model families. We find that instruction optimization consistently improves verification accuracy, with MiPROv2 yielding the most stable gains for CoT, and SIMBA providing the largest benefits for ReAct agents, particularly at larger model scales. Behavioral analyses reveal that SIMBA encourages more direct reasoning paths by applying heuristics, thereby improving numerical comparison abilities in CoT reasoning and helping avoid unnecessary tool calls in ReAct agents. Across different prompting techniques, CoT remains effective for tabular fact checking, especially with smaller models. Although ReAct agents built with larger models can achieve competitive performance, they require careful instruction optimization.


翻译:指令优化为提升大型语言模型(LLMs)的推理性能提供了一种轻量级、模型无关的方法。本文基于DSPy优化框架,首次系统比较了指令优化在表格事实核查任务中的应用效果。我们评估了四种开箱即用的提示技术,涵盖纯文本提示和代码使用场景:直接预测、思维链(CoT)、结合SQL工具的ReAct以及支持Python执行的CodeAct。我们在四个基准数据集和三个模型家族上,对DSPy框架中的三种优化器——COPRO、MiPROv2和SIMBA——进行了全面研究。研究发现,指令优化能持续提升核查准确率:MiPROv2在CoT方法中带来最稳定的增益,而SIMBA对ReAct智能体提升最为显著,尤其在较大规模模型上表现突出。行为分析表明,SIMBA通过应用启发式策略鼓励更直接的推理路径,从而提升CoT推理中的数值比较能力,并帮助ReAct智能体避免不必要的工具调用。在不同提示技术中,CoT对表格事实核查始终保持有效性,尤其在较小模型上表现优异。尽管基于较大模型构建的ReAct智能体能达到有竞争力的性能,但其需要精细的指令优化。

0
下载
关闭预览

相关内容

利用多个大型语言模型:关于LLM集成的调研
专知会员服务
35+阅读 · 2025年2月27日
大语言模型在序列推荐中的应用
专知会员服务
19+阅读 · 2024年11月12日
大型语言模型的高效提示方法综述
专知会员服务
75+阅读 · 2024年4月2日
大型语言模型在表格推理中的应用综述
专知会员服务
47+阅读 · 2024年2月14日
《大型语言模型(LLMs): 训练到推理》全面概述技术细节
《大型语言模型指令调优》综述
专知会员服务
74+阅读 · 2023年8月27日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Instruction Tuning for Large Language Models: A Survey
Arxiv
15+阅读 · 2023年8月21日
VIP会员
最新内容
新兴反无人机技术与不对称防御对策
专知会员服务
3+阅读 · 今天15:12
《美空军条令出版物 3-60,目标定位(2026版)》
专知会员服务
4+阅读 · 今天15:06
《无人机在冲突地区提供紧急医疗与外科支持》
专知会员服务
4+阅读 · 今天14:48
《定向能武器交战授权治理管道》
专知会员服务
4+阅读 · 今天14:41
《人工智能与海军作战》最新报告
专知会员服务
4+阅读 · 今天14:00
具身AI安全综述:风险、攻击与防御
专知会员服务
3+阅读 · 今天12:02
DeepSeek 版Claude Code,免费小白安装教程来了!
专知会员服务
13+阅读 · 5月5日
相关VIP内容
利用多个大型语言模型:关于LLM集成的调研
专知会员服务
35+阅读 · 2025年2月27日
大语言模型在序列推荐中的应用
专知会员服务
19+阅读 · 2024年11月12日
大型语言模型的高效提示方法综述
专知会员服务
75+阅读 · 2024年4月2日
大型语言模型在表格推理中的应用综述
专知会员服务
47+阅读 · 2024年2月14日
《大型语言模型(LLMs): 训练到推理》全面概述技术细节
《大型语言模型指令调优》综述
专知会员服务
74+阅读 · 2023年8月27日
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员