Test-Time Compute Games - 专知论文

会员服务 ·

0

博弈 · 输出 · 大语言模型 · 云服务 · 拍卖机制 ·

Test-Time Compute Games

翻译：测试时计算博弈

Ander Artola Velasco,Dimitrios Rontogiannis,Stratis Tsirtsis,Manuel Gomez-Rodriguez

Test-time compute has emerged as a promising strategy to enhance the reasoning abilities of large language models (LLMs). However, this strategy has in turn increased how much users pay cloud-based providers offering LLM-as-a-service, since providers charge users for the amount of test-time compute they use to generate an output. In our work, we show that the market of LLM-as-a-service is socially inefficient: providers have a financial incentive to increase the amount of test-time compute, even if this increase contributes little to the quality of the outputs. To address this inefficiency, we introduce a reverse second-price auction mechanism where providers bid their offered price and (expected) quality for the opportunity to serve a user, and users pay proportionally to the marginal value generated by the winning provider relative to the second-highest bidder. To illustrate and complement our theoretical results, we conduct experiments with multiple instruct models from the $\texttt{Llama}$ and $\texttt{Qwen}$ families, as well as reasoning models distilled from $\texttt{DeepSeek-R1}$, on math and science benchmark datasets.

翻译：测试时计算已成为增强大型语言模型推理能力的一种有前景的策略。然而，该策略也增加了用户向提供LLM即服务的云服务提供商支付的费用，因为提供商根据用户生成输出所使用的测试时计算量进行收费。在我们的工作中，我们证明LLM即服务市场存在社会效率低下的问题：提供商有经济激励去增加测试时计算量，即使这种增加对输出质量的贡献微乎其微。为解决这一效率低下问题，我们引入了一种反向第二价格拍卖机制：提供商为其服务机会竞标报价与（预期）质量，用户则根据中标提供商相对于次高竞价者所产生的边际价值按比例支付费用。为阐释并补充我们的理论结果，我们在数学与科学基准数据集上，对来自$\texttt{Llama}$和$\texttt{Qwen}$系列的多个指令模型，以及从$\texttt{DeepSeek-R1}$蒸馏得到的推理模型进行了实验。

0

相关内容

【AAAI2026】NeSTR：一种用于大型语言模型的神经-符号可溯因框架，用于时间推理

【AAAI2026】NeSTR：一种用于大型语言模型的神经-符号可溯因框架，用于时间推理

专知会员服务

17+阅读 · 2025年12月10日

【ICML2025】通过多智能体反思强化大语言模型推理

【ICML2025】通过多智能体反思强化大语言模型推理

专知会员服务

23+阅读 · 2025年6月11日

重新审视测试时扩展：一项综述与面向多样性的高效推理方法

重新审视测试时扩展：一项综述与面向多样性的高效推理方法

专知会员服务

10+阅读 · 2025年6月8日

大语言模型时代的城市计算

大语言模型时代的城市计算

专知会员服务

21+阅读 · 2025年4月4日

是什么、如何、何处，以及效果如何？——大语言模型测试时扩展的调研

是什么、如何、何处，以及效果如何？——大语言模型测试时扩展的调研

专知会员服务

26+阅读 · 2025年4月1日

【新书】使用生成式人工智能进行软件测试

【新书】使用生成式人工智能进行软件测试

专知会员服务

44+阅读 · 2025年1月6日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

【干货书】算法博弈论，Algorithmic Game Theory，775页pdf

【干货书】算法博弈论，Algorithmic Game Theory，775页pdf

专知会员服务

89+阅读 · 2023年6月19日

牛津大学等《多智能体系统的博弈论验证》最新论文，Rational verification: game-theoretic verification of multi-agent systems

牛津大学等《多智能体系统的博弈论验证》最新论文，Rational verification: game-theoretic verification of multi-agent systems

专知会员服务

43+阅读 · 2022年4月4日

【经典书】算法博弈论，775页pdf，Algorithmic Game Theory

【经典书】算法博弈论，775页pdf，Algorithmic Game Theory

专知会员服务

156+阅读 · 2021年5月9日

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

《海军兵棋推演战斗管理辅助工具中的博弈论和规范分析》2022最新84页论文，美海军

《海军兵棋推演战斗管理辅助工具中的博弈论和规范分析》2022最新84页论文，美海军

专知

67+阅读 · 2022年12月1日

金融时序预测中的深度学习方法综述: 从2005到2019，附63页pdf下载

金融时序预测中的深度学习方法综述: 从2005到2019，附63页pdf下载

专知

70+阅读 · 2019年12月4日

你的算法可靠吗？神经网络不确定性度量

你的算法可靠吗？神经网络不确定性度量

专知

40+阅读 · 2019年4月27日

DeepMind研究员Tor2019著作《赌博机算法》，555页带你学习专治选择困难症技术

DeepMind研究员Tor2019著作《赌博机算法》，555页带你学习专治选择困难症技术

专知

11+阅读 · 2019年1月6日

用机器学习来预测股价（代码+文档）——2018年iNTUtion决赛大作！

用机器学习来预测股价（代码+文档）——2018年iNTUtion决赛大作！

量化投资与机器学习

25+阅读 · 2018年11月20日

时序异常检测算法概览

时序异常检测算法概览

论智

29+阅读 · 2018年8月30日

边缘计算应用：传感数据异常实时检测算法

边缘计算应用：传感数据异常实时检测算法

计算机研究与发展

11+阅读 · 2018年4月10日

15款免费预测分析软件！收藏好，别丢了！

15款免费预测分析软件！收藏好，别丢了！

七月在线实验室

11+阅读 · 2018年2月27日

教你搭建多变量时间序列预测模型LSTM（附代码、数据集）

教你搭建多变量时间序列预测模型LSTM（附代码、数据集）

数据派THU

59+阅读 · 2017年11月6日

组合测试用例优先排序算法及选择策略研究

国家自然科学基金

9+阅读 · 2015年12月31日

面向金融市场走势预测的在线论坛公众情绪挖掘与演化分析算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

逻辑等价算子在不确定性推理中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

心理与教育测量中项目反应时间数据的统计建模及其应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于代数规约的Web服务在线测试理论和技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

量子计算算法设计与实现方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

数据驱动的被动协议测试方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

算法博弈论视角下的策略替代型网络博弈

国家自然科学基金

4+阅读 · 2014年12月31日

互联网实时竞价广告的若干关键问题研究

国家自然科学基金

2+阅读 · 2014年12月31日

Algorithmic Collusion at Test Time: A Meta-game Design and Evaluation

Arxiv

0+阅读 · 2月19日

$\texttt{SPECS}$: Faster Test-Time Scaling through Speculative Drafts

Arxiv

0+阅读 · 2月18日

Learning When to Plan: Efficiently Allocating Test-Time Compute for LLM Agents

Arxiv

0+阅读 · 2月17日

Learning to Discover at Test Time

Arxiv

0+阅读 · 2月5日

SWE-Replay: Efficient Test-Time Scaling for Software Engineering Agents

Arxiv

0+阅读 · 2月5日

Scaling Agentic Verifier for Competitive Coding

Arxiv

0+阅读 · 2月4日

Training LLMs for Divide-and-Conquer Reasoning Elevates Test-Time Scalability

Arxiv

0+阅读 · 2月2日

Policy of Thoughts: Scaling LLM Reasoning via Test-time Policy Evolution

Arxiv

0+阅读 · 1月28日

Entropy-Gated Branching for Efficient Test-Time Reasoning

Arxiv

0+阅读 · 1月27日

Timely Machine: Awareness of Time Makes Test-Time Scaling Agentic

Arxiv

0+阅读 · 1月23日

VIP会员

文章信息

相关主题

大语言模型

最新内容

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

专知会员服务

2+阅读 · 今天15:00

《系统簇式多域作战规划范畴论框架》

《系统簇式多域作战规划范畴论框架》

专知会员服务

2+阅读 · 今天14:54

《美国防部指令6130.03，第2卷服役医疗标准：保留》

《美国防部指令6130.03，第2卷服役医疗标准：保留》

专知会员服务

1+阅读 · 今天14:49

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

专知会员服务

1+阅读 · 今天14:44

美空军“战场机载通信节点（BACN）”：美以对伊空战行动中隐形却关键的一环

美空军“战场机载通信节点（BACN）”：美以对伊空战行动中隐形却关键的一环

专知会员服务

2+阅读 · 今天14:03

【CMU博士论文】面向非结构化环境下医疗急救的具身人工智能

【CMU博士论文】面向非结构化环境下医疗急救的具身人工智能

专知会员服务

0+阅读 · 今天13:36

高效视频扩散模型：进展与挑战

高效视频扩散模型：进展与挑战

专知会员服务

0+阅读 · 今天13:34

乌克兰前线的五项创新

乌克兰前线的五项创新

专知会员服务

6+阅读 · 今天6:14

军事通信系统与设备的技术演进综述

军事通信系统与设备的技术演进综述

专知会员服务

4+阅读 · 今天5:59

《北约 AI手册：作战人员的实用考量》（2026最新64页）

《北约 AI手册：作战人员的实用考量》（2026最新64页）

专知会员服务

6+阅读 · 今天5:54

《北约标准：医疗评估手册》174页

《北约标准：医疗评估手册》174页

专知会员服务

4+阅读 · 今天5:51

《提升生成模型的安全性与保障》博士论文

《提升生成模型的安全性与保障》博士论文

专知会员服务

4+阅读 · 今天5:47

美国当前高超音速导弹发展概述

美国当前高超音速导弹发展概述

专知会员服务

4+阅读 · 4月19日

《高超音速武器：一项再度兴起的技术》120页slides

《高超音速武器：一项再度兴起的技术》120页slides

专知会员服务

12+阅读 · 4月19日

无人机蜂群建模与仿真方法

无人机蜂群建模与仿真方法

专知会员服务

13+阅读 · 4月19日

相关VIP内容

【AAAI2026】NeSTR：一种用于大型语言模型的神经-符号可溯因框架，用于时间推理

【AAAI2026】NeSTR：一种用于大型语言模型的神经-符号可溯因框架，用于时间推理

专知会员服务

17+阅读 · 2025年12月10日

【ICML2025】通过多智能体反思强化大语言模型推理

【ICML2025】通过多智能体反思强化大语言模型推理

专知会员服务

23+阅读 · 2025年6月11日

重新审视测试时扩展：一项综述与面向多样性的高效推理方法

重新审视测试时扩展：一项综述与面向多样性的高效推理方法

专知会员服务

10+阅读 · 2025年6月8日

大语言模型时代的城市计算

大语言模型时代的城市计算

专知会员服务

21+阅读 · 2025年4月4日

是什么、如何、何处，以及效果如何？——大语言模型测试时扩展的调研

是什么、如何、何处，以及效果如何？——大语言模型测试时扩展的调研

专知会员服务

26+阅读 · 2025年4月1日

【新书】使用生成式人工智能进行软件测试

【新书】使用生成式人工智能进行软件测试

专知会员服务

44+阅读 · 2025年1月6日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

【干货书】算法博弈论，Algorithmic Game Theory，775页pdf

【干货书】算法博弈论，Algorithmic Game Theory，775页pdf

专知会员服务

89+阅读 · 2023年6月19日

牛津大学等《多智能体系统的博弈论验证》最新论文，Rational verification: game-theoretic verification of multi-agent systems

牛津大学等《多智能体系统的博弈论验证》最新论文，Rational verification: game-theoretic verification of multi-agent systems

专知会员服务

43+阅读 · 2022年4月4日

【经典书】算法博弈论，775页pdf，Algorithmic Game Theory

【经典书】算法博弈论，775页pdf，Algorithmic Game Theory

专知会员服务

156+阅读 · 2021年5月9日

热门VIP内容

开通专知VIP会员享更多权益服务

《系统簇式多域作战规划范畴论框架》

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

《美国防部指令6130.03，第2卷服役医疗标准：保留》

相关资讯

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

《海军兵棋推演战斗管理辅助工具中的博弈论和规范分析》2022最新84页论文，美海军

《海军兵棋推演战斗管理辅助工具中的博弈论和规范分析》2022最新84页论文，美海军

专知

67+阅读 · 2022年12月1日

金融时序预测中的深度学习方法综述: 从2005到2019，附63页pdf下载

金融时序预测中的深度学习方法综述: 从2005到2019，附63页pdf下载

专知

70+阅读 · 2019年12月4日

你的算法可靠吗？神经网络不确定性度量

你的算法可靠吗？神经网络不确定性度量

专知

40+阅读 · 2019年4月27日

DeepMind研究员Tor2019著作《赌博机算法》，555页带你学习专治选择困难症技术

DeepMind研究员Tor2019著作《赌博机算法》，555页带你学习专治选择困难症技术

专知

11+阅读 · 2019年1月6日

用机器学习来预测股价（代码+文档）——2018年iNTUtion决赛大作！

用机器学习来预测股价（代码+文档）——2018年iNTUtion决赛大作！

量化投资与机器学习

25+阅读 · 2018年11月20日

时序异常检测算法概览

时序异常检测算法概览

论智

29+阅读 · 2018年8月30日

边缘计算应用：传感数据异常实时检测算法

边缘计算应用：传感数据异常实时检测算法

计算机研究与发展

11+阅读 · 2018年4月10日

15款免费预测分析软件！收藏好，别丢了！

15款免费预测分析软件！收藏好，别丢了！

七月在线实验室

11+阅读 · 2018年2月27日

教你搭建多变量时间序列预测模型LSTM（附代码、数据集）

教你搭建多变量时间序列预测模型LSTM（附代码、数据集）

数据派THU

59+阅读 · 2017年11月6日

相关论文

Algorithmic Collusion at Test Time: A Meta-game Design and Evaluation

Arxiv

0+阅读 · 2月19日

$\texttt{SPECS}$: Faster Test-Time Scaling through Speculative Drafts

Arxiv

0+阅读 · 2月18日

Learning When to Plan: Efficiently Allocating Test-Time Compute for LLM Agents

Arxiv

0+阅读 · 2月17日

Learning to Discover at Test Time

Arxiv

0+阅读 · 2月5日

SWE-Replay: Efficient Test-Time Scaling for Software Engineering Agents

Arxiv

0+阅读 · 2月5日

Scaling Agentic Verifier for Competitive Coding

Arxiv

0+阅读 · 2月4日

Training LLMs for Divide-and-Conquer Reasoning Elevates Test-Time Scalability

Arxiv

0+阅读 · 2月2日

Policy of Thoughts: Scaling LLM Reasoning via Test-time Policy Evolution

Arxiv

0+阅读 · 1月28日

Entropy-Gated Branching for Efficient Test-Time Reasoning

Arxiv

0+阅读 · 1月27日

Timely Machine: Awareness of Time Makes Test-Time Scaling Agentic

Arxiv

0+阅读 · 1月23日

相关基金

组合测试用例优先排序算法及选择策略研究

国家自然科学基金

9+阅读 · 2015年12月31日

面向金融市场走势预测的在线论坛公众情绪挖掘与演化分析算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

逻辑等价算子在不确定性推理中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

心理与教育测量中项目反应时间数据的统计建模及其应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于代数规约的Web服务在线测试理论和技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

量子计算算法设计与实现方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

数据驱动的被动协议测试方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

算法博弈论视角下的策略替代型网络博弈

国家自然科学基金

4+阅读 · 2014年12月31日

互联网实时竞价广告的若干关键问题研究

国家自然科学基金

2+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员