Test-Time Compute Games - 专知论文

会员服务 ·

0

测试时间 · 博弈 · 输出 · 大语言模型 · 云服务 ·

Test-Time Compute Games

翻译：测试时间计算博弈

Ander Artola Velasco,Dimitrios Rontogiannis,Stratis Tsirtsis,Manuel Gomez-Rodriguez

Test-time compute has emerged as a promising strategy to enhance the reasoning abilities of large language models (LLMs). However, this strategy has in turn increased how much users pay cloud-based providers offering LLM-as-a-service, since providers charge users for the amount of test-time compute they use to generate an output. In our work, we show that the market of LLM-as-a-service is socially inefficient: providers have a financial incentive to increase the amount of test-time compute, even if this increase contributes little to the quality of the outputs. To address this inefficiency, we introduce a reverse second-price auction mechanism where providers bid their offered price and (expected) quality for the opportunity to serve a user, and users pay proportionally to the marginal value generated by the winning provider relative to the second-highest bidder. To illustrate and complement our theoretical results, we conduct experiments with multiple instruct models from the $\texttt{Llama}$ and $\texttt{Qwen}$ families, as well as reasoning models distilled from $\texttt{DeepSeek-R1}$, on math and science benchmark datasets.

翻译：测试时间计算已成为提升大型语言模型（LLMs）推理能力的一种有前景的策略。然而，这一策略反过来增加了用户向提供LLM即服务的云服务商的付费，因为服务商根据生成输出所使用的测试时间计算量向用户收费。我们的研究表明，LLM即服务市场存在社会效率低下问题：服务商有经济动机增加测试时间计算量，即使这种增加对输出质量的贡献甚微。为解决这一效率问题，我们引入了一种反向第二价格拍卖机制，其中服务商对其服务用户的报价和（预期）质量进行竞价，用户则根据获胜服务商相对第二高出价者产生的边际价值按比例付费。为阐明并补充我们的理论结果，我们使用来自 $\texttt{Llama}$ 和 $\texttt{Qwen}$ 系列的多款指令模型，以及从 $\texttt{DeepSeek-R1}$ 蒸馏的推理模型，在数学和科学基准数据集上开展了实验。

0

相关内容

测试时间

【AAAI2026】NeSTR：一种用于大型语言模型的神经-符号可溯因框架，用于时间推理

【AAAI2026】NeSTR：一种用于大型语言模型的神经-符号可溯因框架，用于时间推理

专知会员服务

17+阅读 · 2025年12月10日

【ICML2025】通过多智能体反思强化大语言模型推理

【ICML2025】通过多智能体反思强化大语言模型推理

专知会员服务

23+阅读 · 2025年6月11日

重新审视测试时扩展：一项综述与面向多样性的高效推理方法

重新审视测试时扩展：一项综述与面向多样性的高效推理方法

专知会员服务

10+阅读 · 2025年6月8日

【ICML2025】MARGE：通过引导式探索提升大型语言模型的数学推理能力

【ICML2025】MARGE：通过引导式探索提升大型语言模型的数学推理能力

专知会员服务

9+阅读 · 2025年5月20日

是什么、如何、何处，以及效果如何？——大语言模型测试时扩展的调研

是什么、如何、何处，以及效果如何？——大语言模型测试时扩展的调研

专知会员服务

26+阅读 · 2025年4月1日

【AAAI2025】通过自适应多方面检索增强，利用大型语言模型进行知识图谱问答

【AAAI2025】通过自适应多方面检索增强，利用大型语言模型进行知识图谱问答

专知会员服务

31+阅读 · 2024年12月26日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

如何检测LLM内容？UCSB等最新首篇《LLM生成内容检测》综述

如何检测LLM内容？UCSB等最新首篇《LLM生成内容检测》综述

专知会员服务

49+阅读 · 2023年10月29日

语言模型如何做算法推理？Google Hattie Zhou《通过语境学习来教算法推理》，附Slides与论文

语言模型如何做算法推理？Google Hattie Zhou《通过语境学习来教算法推理》，附Slides与论文

专知会员服务

27+阅读 · 2023年3月10日

牛津大学等《多智能体系统的博弈论验证》最新论文，Rational verification: game-theoretic verification of multi-agent systems

牛津大学等《多智能体系统的博弈论验证》最新论文，Rational verification: game-theoretic verification of multi-agent systems

专知会员服务

43+阅读 · 2022年4月4日

金融时序预测中的深度学习方法综述: 从2005到2019，附63页pdf下载

金融时序预测中的深度学习方法综述: 从2005到2019，附63页pdf下载

专知

70+阅读 · 2019年12月4日

你真的懂时间序列预测吗？

你真的懂时间序列预测吗？

腾讯大讲堂

104+阅读 · 2019年1月7日

DeepMind研究员Tor2019著作《赌博机算法》，555页带你学习专治选择困难症技术

DeepMind研究员Tor2019著作《赌博机算法》，555页带你学习专治选择困难症技术

专知

11+阅读 · 2019年1月6日

基于LSTM深层神经网络的时间序列预测

基于LSTM深层神经网络的时间序列预测

论智

22+阅读 · 2018年9月4日

时序异常检测算法概览

时序异常检测算法概览

论智

29+阅读 · 2018年8月30日

基于 Keras 用深度学习预测时间序列

基于 Keras 用深度学习预测时间序列

R语言中文社区

23+阅读 · 2018年7月27日

时间卷积网络（TCN）将取代RNN成为NLP预测领域王者

时间卷积网络（TCN）将取代RNN成为NLP预测领域王者

AI前线

11+阅读 · 2018年5月14日

15款免费预测分析软件！收藏好，别丢了！

15款免费预测分析软件！收藏好，别丢了！

七月在线实验室

11+阅读 · 2018年2月27日

教你搭建多变量时间序列预测模型LSTM（附代码、数据集）

教你搭建多变量时间序列预测模型LSTM（附代码、数据集）

数据派THU

59+阅读 · 2017年11月6日

回归预测&时间序列预测

回归预测&时间序列预测

GBASE数据工程部数据团队

44+阅读 · 2017年5月17日

组合测试用例优先排序算法及选择策略研究

国家自然科学基金

9+阅读 · 2015年12月31日

面向金融市场走势预测的在线论坛公众情绪挖掘与演化分析算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

逻辑等价算子在不确定性推理中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

面向安全关键系统的时间可预测多核代码生成方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

心理与教育测量中项目反应时间数据的统计建模及其应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于声表面波编码器件激励的高精度事件计时测量方法的研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于代数规约的Web服务在线测试理论和技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

算法博弈论视角下的策略替代型网络博弈

国家自然科学基金

4+阅读 · 2014年12月31日

互联网实时竞价广告的若干关键问题研究

国家自然科学基金

2+阅读 · 2014年12月31日

REVES: REvision and VErification--Augmented Training for Test-Time Scaling

Arxiv

0+阅读 · 6月17日

Online LLM Selection via Constrained Bandits with Time-Varying Demand

Arxiv

0+阅读 · 6月16日

MemoryBench: A Benchmark for Memory and Continual Learning in LLM Systems

Arxiv

0+阅读 · 6月3日

Test-Time Compute for Frozen Embedding Models through Agentic Program Search

Arxiv

0+阅读 · 5月30日

Diversity Matters: Revisiting Test-Time Compute in Vision-Language Models

Arxiv

0+阅读 · 5月29日

Test-Time Speculation

Arxiv

0+阅读 · 5月19日

MARLIN: Multi-Agent Game-Theoretic Reinforcement Learning for Sustainable LLM Inference in Cloud Datacenters

Arxiv

0+阅读 · 5月13日

Agentic Fuzzing: Opportunities and Challenges

Arxiv

0+阅读 · 5月11日

TSNBench: Benchmarking LLM Proficiency in Time-Sensitive Networking

Arxiv

0+阅读 · 5月10日

Common-agency Games for Multi-Objective Test-Time Alignment

Arxiv

0+阅读 · 5月8日

VIP会员

文章信息

相关主题

大语言模型

最新内容

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

3+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

4+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

9+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

8+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

4+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

7+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

6+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

9+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

7+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

4+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

6+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

7+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

6+阅读 · 6月17日

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

专知会员服务

5+阅读 · 6月17日

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

专知会员服务

6+阅读 · 6月16日

相关VIP内容

【AAAI2026】NeSTR：一种用于大型语言模型的神经-符号可溯因框架，用于时间推理

【AAAI2026】NeSTR：一种用于大型语言模型的神经-符号可溯因框架，用于时间推理

专知会员服务

17+阅读 · 2025年12月10日

【ICML2025】通过多智能体反思强化大语言模型推理

【ICML2025】通过多智能体反思强化大语言模型推理

专知会员服务

23+阅读 · 2025年6月11日

重新审视测试时扩展：一项综述与面向多样性的高效推理方法

重新审视测试时扩展：一项综述与面向多样性的高效推理方法

专知会员服务

10+阅读 · 2025年6月8日

【ICML2025】MARGE：通过引导式探索提升大型语言模型的数学推理能力

【ICML2025】MARGE：通过引导式探索提升大型语言模型的数学推理能力

专知会员服务

9+阅读 · 2025年5月20日

是什么、如何、何处，以及效果如何？——大语言模型测试时扩展的调研

是什么、如何、何处，以及效果如何？——大语言模型测试时扩展的调研

专知会员服务

26+阅读 · 2025年4月1日

【AAAI2025】通过自适应多方面检索增强，利用大型语言模型进行知识图谱问答

【AAAI2025】通过自适应多方面检索增强，利用大型语言模型进行知识图谱问答

专知会员服务

31+阅读 · 2024年12月26日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

如何检测LLM内容？UCSB等最新首篇《LLM生成内容检测》综述

如何检测LLM内容？UCSB等最新首篇《LLM生成内容检测》综述

专知会员服务

49+阅读 · 2023年10月29日

语言模型如何做算法推理？Google Hattie Zhou《通过语境学习来教算法推理》，附Slides与论文

语言模型如何做算法推理？Google Hattie Zhou《通过语境学习来教算法推理》，附Slides与论文

专知会员服务

27+阅读 · 2023年3月10日

牛津大学等《多智能体系统的博弈论验证》最新论文，Rational verification: game-theoretic verification of multi-agent systems

牛津大学等《多智能体系统的博弈论验证》最新论文，Rational verification: game-theoretic verification of multi-agent systems

专知会员服务

43+阅读 · 2022年4月4日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

相关资讯

金融时序预测中的深度学习方法综述: 从2005到2019，附63页pdf下载

金融时序预测中的深度学习方法综述: 从2005到2019，附63页pdf下载

专知

70+阅读 · 2019年12月4日

你真的懂时间序列预测吗？

你真的懂时间序列预测吗？

腾讯大讲堂

104+阅读 · 2019年1月7日

DeepMind研究员Tor2019著作《赌博机算法》，555页带你学习专治选择困难症技术

DeepMind研究员Tor2019著作《赌博机算法》，555页带你学习专治选择困难症技术

专知

11+阅读 · 2019年1月6日

基于LSTM深层神经网络的时间序列预测

基于LSTM深层神经网络的时间序列预测

论智

22+阅读 · 2018年9月4日

时序异常检测算法概览

时序异常检测算法概览

论智

29+阅读 · 2018年8月30日

基于 Keras 用深度学习预测时间序列

基于 Keras 用深度学习预测时间序列

R语言中文社区

23+阅读 · 2018年7月27日

时间卷积网络（TCN）将取代RNN成为NLP预测领域王者

时间卷积网络（TCN）将取代RNN成为NLP预测领域王者

AI前线

11+阅读 · 2018年5月14日

15款免费预测分析软件！收藏好，别丢了！

15款免费预测分析软件！收藏好，别丢了！

七月在线实验室

11+阅读 · 2018年2月27日

教你搭建多变量时间序列预测模型LSTM（附代码、数据集）

教你搭建多变量时间序列预测模型LSTM（附代码、数据集）

数据派THU

59+阅读 · 2017年11月6日

回归预测&时间序列预测

回归预测&时间序列预测

GBASE数据工程部数据团队

44+阅读 · 2017年5月17日

相关论文

REVES: REvision and VErification--Augmented Training for Test-Time Scaling

Arxiv

0+阅读 · 6月17日

Online LLM Selection via Constrained Bandits with Time-Varying Demand

Arxiv

0+阅读 · 6月16日

MemoryBench: A Benchmark for Memory and Continual Learning in LLM Systems

Arxiv

0+阅读 · 6月3日

Test-Time Compute for Frozen Embedding Models through Agentic Program Search

Arxiv

0+阅读 · 5月30日

Diversity Matters: Revisiting Test-Time Compute in Vision-Language Models

Arxiv

0+阅读 · 5月29日

Test-Time Speculation

Arxiv

0+阅读 · 5月19日

MARLIN: Multi-Agent Game-Theoretic Reinforcement Learning for Sustainable LLM Inference in Cloud Datacenters

Arxiv

0+阅读 · 5月13日

Agentic Fuzzing: Opportunities and Challenges

Arxiv

0+阅读 · 5月11日

TSNBench: Benchmarking LLM Proficiency in Time-Sensitive Networking

Arxiv

0+阅读 · 5月10日

Common-agency Games for Multi-Objective Test-Time Alignment

Arxiv

0+阅读 · 5月8日

相关基金

组合测试用例优先排序算法及选择策略研究

国家自然科学基金

9+阅读 · 2015年12月31日

面向金融市场走势预测的在线论坛公众情绪挖掘与演化分析算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

逻辑等价算子在不确定性推理中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

面向安全关键系统的时间可预测多核代码生成方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

心理与教育测量中项目反应时间数据的统计建模及其应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于声表面波编码器件激励的高精度事件计时测量方法的研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于代数规约的Web服务在线测试理论和技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

算法博弈论视角下的策略替代型网络博弈

国家自然科学基金

4+阅读 · 2014年12月31日

互联网实时竞价广告的若干关键问题研究

国家自然科学基金

2+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员