Double Preconditioning (DoPr): Optimization for Test-Time Performance, not Validation Loss - 专知论文

会员服务 ·

0

损失 · 优化器 · Performance · Learning · Networking ·

Double Preconditioning (DoPr): Optimization for Test-Time Performance, not Validation Loss

翻译：标题：双重预处理（DoPr）：面向测试时性能而非验证损失的优化方法

Thomas T. Zhang,Alok Shah,Yifei Zhang,Vincent Zhang,Nikolai Matni,Max Simchowitz

Many modern applications of deep learning involve training a neural network via a one-step prediction loss (e.g., $L^2$ regression, cross-entropy), but deploy the network by rolling out along its own predictions. Key examples include autoregressive language modeling, flow-based generative modeling, and robot policy learning. It is well-documented that these settings induce a phenomenon we call test-time feedback (TTF): the mismatch between the training/validation loss and downstream metrics of interest, such as task success rate and generation quality, which grows with task length. While data curation, architecture, and objective design have been proposed to combat train-test shift in TTF settings, this paper proposes optimization as a new design axis to mitigate error accumulation. Specifically, we introduce a new optimization paradigm called double-preconditioning (DoPr) uniquely tailored to the challenges of TTF. DoPr combines gradient-wise preconditioning, as in Adam and Muon, with activation-wise preconditioning (AP), such as in KFAC. We show that the addition of AP yields a drop-in intervention for increasing downstream model performance across a range of TTF settings. Interestingly, these gains in test-time performance do not consistently accompany improvements in validation loss, opening new questions about how to properly evaluate models trained with one-step supervised objectives.

翻译：摘要：现代深度学习的许多应用涉及通过一步预测损失（例如 $L^2$ 回归、交叉熵）训练神经网络，但在部署时却基于自身的预测进行展开。典型例子包括自回归语言建模、基于流的生成建模及机器人策略学习。已有充分文献表明，这些场景会引发一种我们称为测试时反馈（TTF）的现象：训练/验证损失与下游感兴趣指标（如任务成功率与生成质量）之间的失配会随任务长度加剧。尽管已有研究者提出通过数据整理、架构设计和目标函数设计来缓解TTF场景中的训练-测试偏移，本文则提出将优化作为缓解误差累积的新设计维度。具体而言，我们引入了一种名为双重预处理（DoPr）的新型优化范式，该范式特别针对TTF的挑战而量身定制。DoPr将Adam和Muon中的梯度级预处理与KFAC等中的激活级预处理（AP）相结合。研究表明，加入AP作为一种即插即用式干预措施，能在多种TTF场景下提升下游模型性能。有趣的是，这些测试时性能的提升并不总是伴随验证损失的改善，这引出了关于如何恰当评估通过一步监督目标训练的模型的新问题。

0

相关内容

重新审视测试时扩展：一项综述与面向多样性的高效推理方法

重新审视测试时扩展：一项综述与面向多样性的高效推理方法

专知会员服务

10+阅读 · 2025年6月8日

图深度学习在时间序列处理中的应用：预测、重构与分析

图深度学习在时间序列处理中的应用：预测、重构与分析

专知会员服务

35+阅读 · 2024年11月30日

【牛津大学博士论文】改进单智能体和多智能体深度强化学习方法

【牛津大学博士论文】改进单智能体和多智能体深度强化学习方法

专知会员服务

48+阅读 · 2024年10月22日

【NeurIPS2024】面向视觉-语言模型测试时泛化的双原型演化

【NeurIPS2024】面向视觉-语言模型测试时泛化的双原型演化

专知会员服务

18+阅读 · 2024年10月17日

【CVPR2024】视觉-语言模型的高效测试时间调整

【CVPR2024】视觉-语言模型的高效测试时间调整

专知会员服务

20+阅读 · 2024年3月30日

【多伦多大学博士论文】深度学习中的训练效率和鲁棒性

【多伦多大学博士论文】深度学习中的训练效率和鲁棒性

专知会员服务

59+阅读 · 2022年6月27日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

新加坡国立大学最新「大规模深度学习优化」综述论文，带你全面了解最新深度学习准确率和效率的优化方法

新加坡国立大学最新「大规模深度学习优化」综述论文，带你全面了解最新深度学习准确率和效率的优化方法

专知会员服务

54+阅读 · 2021年11月19日

【CVPR2021教程】深度学习中的归一化技术:方法、分析和应用

专知会员服务

42+阅读 · 2021年6月21日

【论文】深度学习的最优化:理论和算法（Optimization for deep learning: theory and algorithms）

【论文】深度学习的最优化:理论和算法（Optimization for deep learning: theory and algorithms）

专知会员服务

148+阅读 · 2019年12月28日

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

专知

11+阅读 · 2020年3月17日

荐文 | 时序预测中的深度学习：以电力负载预测为例

荐文 | 时序预测中的深度学习：以电力负载预测为例

德先生

32+阅读 · 2019年9月18日

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

AI100

14+阅读 · 2019年9月1日

开发 | 谷歌对无监督解耦方法进行了大规模评估，还开源了用来实验的开发库！

开发 | 谷歌对无监督解耦方法进行了大规模评估，还开源了用来实验的开发库！

AI科技评论

10+阅读 · 2019年5月13日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

深度学习时代的目标检测算法

深度学习时代的目标检测算法

炼数成金订阅号

40+阅读 · 2018年3月19日

【干货】结合单阶段和两阶段目标检测的优势：基于单次精化神经网络的目标检测方法

【干货】结合单阶段和两阶段目标检测的优势：基于单次精化神经网络的目标检测方法

专知

12+阅读 · 2018年1月12日

深度学习中的五大正则化方法和七大优化策略

深度学习中的五大正则化方法和七大优化策略

全球人工智能

11+阅读 · 2017年12月25日

教你搭建多变量时间序列预测模型LSTM（附代码、数据集）

教你搭建多变量时间序列预测模型LSTM（附代码、数据集）

数据派THU

59+阅读 · 2017年11月6日

基于随机不可靠量测的事件触发多传感器系统融合估计方法研究

国家自然科学基金

3+阅读 · 2017年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于深度卷积神经网络的多源遥感图像时空融合方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于确定性重演的多核程序并发错误消除方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

信息不完全的双边匹配决策方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向安全关键系统的时间可预测多核代码生成方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于时序相似性的机场噪声监测点交互预测

国家自然科学基金

1+阅读 · 2015年12月31日

数据驱动的被动协议测试方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

多重比较中控制FDR的有效检验方法

国家自然科学基金

0+阅读 · 2014年12月31日

An Empirical Investigation of Pre-Trained Deep Learning Model Reuse in the Scientific Process

Arxiv

0+阅读 · 6月15日

Less is More: Improving LLM Reasoning with Minimal Test-Time Intervention

Arxiv

0+阅读 · 6月14日

A Decision-Theoretic View of Test-Time Training: When, How Far, and Which Directions to Adapt

Arxiv

0+阅读 · 6月14日

DIFF-ERO: A Conformance-Aware Loss for Deep Learning in Process Mining

Arxiv

0+阅读 · 6月12日

DOPPLER: Dual-Policy Learning for Device Assignment in Asynchronous Dataflow Graphs

Arxiv

0+阅读 · 6月4日

Learning-Augmented Online Minimization with Dual Predictions

Arxiv

0+阅读 · 6月3日

DiffUNet^2: Bidirectional Prediction, Probabilistic Generation and Collaborative Visual Discovery for Scientific Data

Arxiv

0+阅读 · 6月2日

Diversity Matters: Revisiting Test-Time Compute in Vision-Language Models

Arxiv

0+阅读 · 5月29日

TRAFA: Anticipating User Actions to Reduce Errors in Procedural Tasks with Predictive Feedback

Arxiv

0+阅读 · 5月23日

LeapTS: Rethinking Time Series Forecasting as Adaptive Multi-Horizon Scheduling

Arxiv

0+阅读 · 5月11日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

2+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

2+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

8+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

6+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

4+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

6+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

6+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

8+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

7+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

4+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

6+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

7+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

5+阅读 · 6月17日

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

专知会员服务

5+阅读 · 6月17日

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

专知会员服务

6+阅读 · 6月16日

相关VIP内容

重新审视测试时扩展：一项综述与面向多样性的高效推理方法

重新审视测试时扩展：一项综述与面向多样性的高效推理方法

专知会员服务

10+阅读 · 2025年6月8日

图深度学习在时间序列处理中的应用：预测、重构与分析

图深度学习在时间序列处理中的应用：预测、重构与分析

专知会员服务

35+阅读 · 2024年11月30日

【牛津大学博士论文】改进单智能体和多智能体深度强化学习方法

【牛津大学博士论文】改进单智能体和多智能体深度强化学习方法

专知会员服务

48+阅读 · 2024年10月22日

【NeurIPS2024】面向视觉-语言模型测试时泛化的双原型演化

【NeurIPS2024】面向视觉-语言模型测试时泛化的双原型演化

专知会员服务

18+阅读 · 2024年10月17日

【CVPR2024】视觉-语言模型的高效测试时间调整

【CVPR2024】视觉-语言模型的高效测试时间调整

专知会员服务

20+阅读 · 2024年3月30日

【多伦多大学博士论文】深度学习中的训练效率和鲁棒性

【多伦多大学博士论文】深度学习中的训练效率和鲁棒性

专知会员服务

59+阅读 · 2022年6月27日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

新加坡国立大学最新「大规模深度学习优化」综述论文，带你全面了解最新深度学习准确率和效率的优化方法

新加坡国立大学最新「大规模深度学习优化」综述论文，带你全面了解最新深度学习准确率和效率的优化方法

专知会员服务

54+阅读 · 2021年11月19日

【CVPR2021教程】深度学习中的归一化技术:方法、分析和应用

专知会员服务

42+阅读 · 2021年6月21日

【论文】深度学习的最优化:理论和算法（Optimization for deep learning: theory and algorithms）

【论文】深度学习的最优化:理论和算法（Optimization for deep learning: theory and algorithms）

专知会员服务

148+阅读 · 2019年12月28日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

相关资讯

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

专知

11+阅读 · 2020年3月17日

荐文 | 时序预测中的深度学习：以电力负载预测为例

荐文 | 时序预测中的深度学习：以电力负载预测为例

德先生

32+阅读 · 2019年9月18日

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

AI100

14+阅读 · 2019年9月1日

开发 | 谷歌对无监督解耦方法进行了大规模评估，还开源了用来实验的开发库！

开发 | 谷歌对无监督解耦方法进行了大规模评估，还开源了用来实验的开发库！

AI科技评论

10+阅读 · 2019年5月13日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

深度学习时代的目标检测算法

深度学习时代的目标检测算法

炼数成金订阅号

40+阅读 · 2018年3月19日

【干货】结合单阶段和两阶段目标检测的优势：基于单次精化神经网络的目标检测方法

【干货】结合单阶段和两阶段目标检测的优势：基于单次精化神经网络的目标检测方法

专知

12+阅读 · 2018年1月12日

深度学习中的五大正则化方法和七大优化策略

深度学习中的五大正则化方法和七大优化策略

全球人工智能

11+阅读 · 2017年12月25日

教你搭建多变量时间序列预测模型LSTM（附代码、数据集）

教你搭建多变量时间序列预测模型LSTM（附代码、数据集）

数据派THU

59+阅读 · 2017年11月6日

相关论文

An Empirical Investigation of Pre-Trained Deep Learning Model Reuse in the Scientific Process

Arxiv

0+阅读 · 6月15日

Less is More: Improving LLM Reasoning with Minimal Test-Time Intervention

Arxiv

0+阅读 · 6月14日

A Decision-Theoretic View of Test-Time Training: When, How Far, and Which Directions to Adapt

Arxiv

0+阅读 · 6月14日

DIFF-ERO: A Conformance-Aware Loss for Deep Learning in Process Mining

Arxiv

0+阅读 · 6月12日

DOPPLER: Dual-Policy Learning for Device Assignment in Asynchronous Dataflow Graphs

Arxiv

0+阅读 · 6月4日

Learning-Augmented Online Minimization with Dual Predictions

Arxiv

0+阅读 · 6月3日

DiffUNet^2: Bidirectional Prediction, Probabilistic Generation and Collaborative Visual Discovery for Scientific Data

Arxiv

0+阅读 · 6月2日

Diversity Matters: Revisiting Test-Time Compute in Vision-Language Models

Arxiv

0+阅读 · 5月29日

TRAFA: Anticipating User Actions to Reduce Errors in Procedural Tasks with Predictive Feedback

Arxiv

0+阅读 · 5月23日

LeapTS: Rethinking Time Series Forecasting as Adaptive Multi-Horizon Scheduling

Arxiv

0+阅读 · 5月11日

相关基金

基于随机不可靠量测的事件触发多传感器系统融合估计方法研究

国家自然科学基金

3+阅读 · 2017年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于深度卷积神经网络的多源遥感图像时空融合方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于确定性重演的多核程序并发错误消除方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

信息不完全的双边匹配决策方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向安全关键系统的时间可预测多核代码生成方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于时序相似性的机场噪声监测点交互预测

国家自然科学基金

1+阅读 · 2015年12月31日

数据驱动的被动协议测试方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

多重比较中控制FDR的有效检验方法

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员