Question decomposition, i.e. breaking a complex query into simpler sub-queries whose answers are composed to produce a final answer, is a widely used strategy for improving LLM reasoning, yet it currently lacks a rigorous mathematical foundation. In this paper, we propose operads, mathematical structures that model many-in, one-out operations and compositions thereof, as a natural framework for describing question decomposition. We define the questions operad $Q$, in which operations correspond to question templates and composition corresponds to substitution of sub-answers, and show how QA models can be interpreted as algebras over $Q$. Beyond reframing existing practice, this operadic perspective points toward new methods, in particular a notion of operadic consistency, which measures whether a QA model's answers agree across the partial collapses of a question decomposition tree. Empirical evaluation of operadic consistency is reported in our companion paper (Bottman, Liu, and Richardson, 2026), which finds it strongly correlated with accuracy across twelve LLMs and four multi-hop QA datasets and outperforming standard temperature-based self-consistency baselines. We argue that operads are the natural mathematical home for question decomposition, and that invariants such as operadic consistency open new directions for analyzing and improving the reliability of multi-step reasoning.


翻译:问题分解——即将复杂查询拆解为若干更简单的子查询,通过组合各子查询答案生成最终答案——是提升大语言模型推理能力的常用策略,但目前尚缺乏严格的数学基础。本文提出将Operads(一种描述多输入单输出运算及其组合的数学结构)作为问题分解的自然框架。我们定义问题Operad $Q$,其中运算对应问题模板,组合对应子答案替换,并展示问答模型可解释为$Q$上的代数。这种Operad视角不仅重述了现有实践,还指向了新方法,特别是Operad一致性概念——该概念衡量问答模型的答案在问题分解树局部坍塌过程中的一致性。我们的伴随论文(Bottman, Liu, and Richardson, 2026)报告了Operad一致性的实证评估,发现在十二种大语言模型和四个多跳问答数据集上,该指标与准确率高度相关,且优于基于温度的标准自一致性基线。我们认为Operads是问题分解的自然数学框架,而Operad一致性等不变量为分析和改进多步推理的可靠性开辟了新方向。

0
下载
关闭预览

相关内容

在回答之前先解释:组合视觉推理综述
专知会员服务
15+阅读 · 2025年8月27日
神经图推理:复杂逻辑查询回答的综述
专知会员服务
28+阅读 · 2024年12月10日
具有组合结构的统计推断和在线算法
专知会员服务
12+阅读 · 2022年12月13日
推荐系统算法合集,满满都是干货(建议收藏)
七月在线实验室
17+阅读 · 2018年7月23日
关系推理:基于表示学习和语义要素
计算机研究与发展
19+阅读 · 2017年8月22日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
美国从乌克兰无人机战争中学习经验
专知会员服务
6+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
2+阅读 · 6月21日
学习数据的几何:形状空间分析数学综述
专知会员服务
10+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
12+阅读 · 6月17日
相关VIP内容
在回答之前先解释:组合视觉推理综述
专知会员服务
15+阅读 · 2025年8月27日
神经图推理:复杂逻辑查询回答的综述
专知会员服务
28+阅读 · 2024年12月10日
具有组合结构的统计推断和在线算法
专知会员服务
12+阅读 · 2022年12月13日
相关基金
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员