Test-time adaptation offers a promising avenue for improving reasoning performance in large language models without additional supervision, but existing approaches often apply a uniform optimization objective across all inputs, leading to inefficient or unstable adaptation on heterogeneous reasoning problems. We propose DiSCTT, a difficulty-aware, consensus-guided self-curriculum framework that dynamically allocates test-time optimization strategies based on instance-level epistemic uncertainty estimated from agreement among sampled reasoning trajectories. Inputs with high consensus are consolidated via supervised fine-tuning using majority-agreed solutions as pseudo-labels, while low-consensus inputs are optimized via reinforcement learning with a consensus-regularized objective that encourages diversity under relevance constraints. Across a broad suite of mathematical and general reasoning benchmarks, DiSCTT consistently outperforms strong test-time adaptation baselines, achieving higher accuracy with reduced variance and substantially lower computation and wall-clock training times. These results demonstrate that explicitly accounting for instance difficulty and uncertainty enables more stable, efficient, and effective test-time adaptation for reasoning models.


翻译:测试时适应为提升大型语言模型的推理性能提供了一条无需额外监督的可行路径,但现有方法通常对所有输入采用统一的优化目标,导致在异构推理问题上存在适应效率低下或不稳定的问题。本文提出DiSCTT,一种基于难度感知与共识引导的自课程框架,该框架根据从采样推理轨迹一致性中估计的实例级认知不确定性,动态分配测试时优化策略。对于高共识输入,我们采用以多数一致解作为伪标签的监督微调进行巩固;对于低共识输入,则通过强化学习进行优化,其目标函数经过共识正则化处理,以在相关性约束下鼓励多样性。在广泛的数学与通用推理基准测试中,DiSCTT持续优于现有强测试时适应基线,以更低的计算成本和实际训练时间实现了更高的准确率与更低的方差。这些结果表明,显式考虑实例难度与不确定性能够为推理模型带来更稳定、高效且有效的测试时适应。

0
下载
关闭预览

相关内容

课程是指学校学生所应学习的学科总和及其进程与安排。课程是对教育的目标、教学内容、教学活动方式的规划和设计,是教学计划、教学大纲等诸多方面实施过程的总和。广义的课程是指学校为实现培养目标而选择的教育内容及其进程的总和,它包括学校老师所教授的各门学科和有目的、有计划的教育活动。狭义的课程是指某一门学科。 专知上对国内外最新AI+X的课程进行了收集与索引,涵盖斯坦福大学、CMU、MIT、清华、北大等名校开放课程。
因果关联学习,Causal Relational Learning
专知会员服务
185+阅读 · 2020年4月21日
自动结构变分推理,Automatic structured variational inference
专知会员服务
41+阅读 · 2020年2月10日
深度学习时代的目标检测算法
炼数成金订阅号
40+阅读 · 2018年3月19日
关系推理:基于表示学习和语义要素
计算机研究与发展
19+阅读 · 2017年8月22日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
24+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
BES:让语言模型通过双向进化搜索自我改进
专知会员服务
3+阅读 · 5月30日
以色列-美国-伊朗战争中的无人机:关键要点
专知会员服务
4+阅读 · 5月30日
《Palantir任务保障性软件安全标准(MA-S2)》
专知会员服务
10+阅读 · 5月30日
基于声学的无人机检测技术综述
专知会员服务
7+阅读 · 5月30日
《当代混合战争分析框架:俄乌战争经验教训》
战略前沿人工智能的再思考(中文)
专知会员服务
8+阅读 · 5月29日
《量化地基防空系统间接效应的博弈论方法》
专知会员服务
6+阅读 · 5月29日
相关VIP内容
因果关联学习,Causal Relational Learning
专知会员服务
185+阅读 · 2020年4月21日
自动结构变分推理,Automatic structured variational inference
专知会员服务
41+阅读 · 2020年2月10日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
24+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员