Strategic Candidacy in Generative AI Arenas - 专知论文

会员服务 ·

0

Strategic Candidacy in Generative AI Arenas

翻译：生成式人工智能竞技场中的战略候选策略

Chris Hays,Rachel Li,Bailey Flanigan,Manish Raghavan

from arxiv, 43 pages, 5 figures

AI arenas, which rank generative models from pairwise preferences of users, are a popular method for measuring the relative performance of models in the course of their organic use. Because rankings are computed from noisy preferences, there is a concern that model producers can exploit this randomness by submitting many models (e.g., multiple variants of essentially the same model) and thereby artificially improve the rank of their top models. This can lead to degradations in the quality, and therefore the usefulness, of the ranking. In this paper, we begin by establishing, both theoretically and in simulations calibrated to data from the platform Arena (formerly LMArena, Chatbot Arena), conditions under which producers can benefit from submitting clones when their goal is to be ranked highly. We then propose a new mechanism for ranking models from pairwise comparisons, called You-Rank-We-Rank (YRWR). It requires that producers submit rankings over their own models and uses these rankings to correct statistical estimates of model quality. We prove that this mechanism is approximately clone-robust, in the sense that a producer cannot improve their rank much by doing anything other than submitting each of their unique models exactly once. Moreover, to the extent that model producers are able to correctly rank their own models, YRWR improves overall ranking accuracy. In further simulations, we show that indeed the mechanism is approximately clone-robust and quantify improvements to ranking accuracy, even under producer misranking.

翻译：人工智能竞技场通过用户对生成模型的成对偏好进行排名，已成为在模型有机使用过程中衡量其相对性能的流行方法。由于排名是根据带有噪声的偏好计算得出，模型生产者可能利用这种随机性提交大量模型（例如，本质相同的多个变体），从而人为提升其顶级模型的排名。这种行为可能导致排名质量下降，进而削弱其可用性。本文首先从理论和数值模拟两个层面（模拟数据校准自Arena平台，原LMArena/Chatbot Arena），证实了当生产者以高排名为目标时，其可通过提交克隆模型获益的条件。随后，我们提出一种基于成对比较的排名新机制——“你排我排”（YRWR）。该机制要求生产者提交自身模型的排名，并利用这些排名修正模型质量的统计估计值。理论证明该机制具有近似克隆鲁棒性：即生产者仅提交每个独特模型一次时，无法通过其他操作显著提升排名。此外，在生产者能正确排序自身模型的条件下，YRWR可提升整体排名准确性。进一步模拟显示，即使存在生产者错误排名的情形，该机制仍保持近似克隆鲁棒性，且能量化评估排名准确性的改进幅度。

0

相关内容

将生成式人工智能整合进军事战术决策中

将生成式人工智能整合进军事战术决策中

专知会员服务

30+阅读 · 4月10日

生成式人工智能的军事应用及路径探讨

生成式人工智能的军事应用及路径探讨

专知会员服务

30+阅读 · 2025年11月12日

中文版 | 战争算法：生成式人工智能在战场的崛起

中文版 | 战争算法：生成式人工智能在战场的崛起

专知会员服务

35+阅读 · 2025年7月14日

中文版 | 生成式人工智能（GenAI）：概览、议题与美国国会考量

中文版 | 生成式人工智能（GenAI）：概览、议题与美国国会考量

专知会员服务

24+阅读 · 2025年4月15日

生成式人工智能：数据军备竞赛中的新弹药

生成式人工智能：数据军备竞赛中的新弹药

专知会员服务

28+阅读 · 2025年2月21日

【新书】利用生成式人工智能进行网络防御策略

【新书】利用生成式人工智能进行网络防御策略

专知会员服务

31+阅读 · 2024年10月18日

《生成式人工智能模型：机遇与风险》

《生成式人工智能模型：机遇与风险》

专知会员服务

79+阅读 · 2024年4月22日

创新战争：利用生成式人工智能的力量

创新战争：利用生成式人工智能的力量

专知会员服务

63+阅读 · 2024年2月14日

《人工智能对战略和业务决策的影响》

《人工智能对战略和业务决策的影响》

专知会员服务

60+阅读 · 2023年12月17日

生成式AI如何可控？谷歌DARPA等最新《识别并缓解生成式人工智能的安全风险》综述，详述GenAI技术安全性

生成式AI如何可控？谷歌DARPA等最新《识别并缓解生成式人工智能的安全风险》综述，详述GenAI技术安全性

专知会员服务

49+阅读 · 2023年9月20日

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

专知

38+阅读 · 2023年4月13日

推荐！《用于兵棋推演和建模的人工智能》兰德、耶鲁大学2022最新16页论文

推荐！《用于兵棋推演和建模的人工智能》兰德、耶鲁大学2022最新16页论文

专知

53+阅读 · 2022年11月14日

推荐！《人工智能在武器系统中的应用》美智库(DSIAC)2022最新92页报告

推荐！《人工智能在武器系统中的应用》美智库(DSIAC)2022最新92页报告

专知

102+阅读 · 2022年10月17日

面向多智能体博弈对抗的对手建模框架

面向多智能体博弈对抗的对手建模框架

专知

18+阅读 · 2022年9月28日

推荐！《关于美国海军陆战队情报工作的人工智能（AI）战略和设计》美国海军研究生院131页报告

推荐！《关于美国海军陆战队情报工作的人工智能（AI）战略和设计》美国海军研究生院131页报告

专知

62+阅读 · 2022年9月7日

推荐！【中文版】《人工智能在指挥和控制系统中的决策支持》瑞典国防研究局

推荐！【中文版】《人工智能在指挥和控制系统中的决策支持》瑞典国防研究局

专知

36+阅读 · 2022年7月31日

兵棋推演的智能决策技术与挑战

兵棋推演的智能决策技术与挑战

专知

28+阅读 · 2022年7月5日

《人工智能在空战指挥与控制中的应用》中文版，美国空军大学空军指挥参谋学院

《人工智能在空战指挥与控制中的应用》中文版，美国空军大学空军指挥参谋学院

专知

111+阅读 · 2022年4月28日

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知

92+阅读 · 2022年4月17日

中国人工智能三年国家战略公布：8类产品要火

中国人工智能三年国家战略公布：8类产品要火

千读

12+阅读 · 2017年12月20日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

集成专家意见的在线投资组合策略设计及竞争性能分析

国家自然科学基金

0+阅读 · 2015年12月31日

面向类人机器人动作规划的参数最优控制技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

改进智能优化策略多机动目标跟踪方法研究

国家自然科学基金

20+阅读 · 2015年12月31日

人类双向选择行为的统计特征分析与预测方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向大数据的群体偏好决策分析研究

国家自然科学基金

6+阅读 · 2014年12月31日

基于人眼关注度与情感分析的电子商务智能推荐计算

国家自然科学基金

0+阅读 · 2014年12月31日

算法博弈论视角下的策略替代型网络博弈

国家自然科学基金

4+阅读 · 2014年12月31日

面向现代防御系统的多无人机协同优化与决策

国家自然科学基金

17+阅读 · 2012年12月31日

数据和模型混合驱动的虚拟人群行为仿真技术研究及其在军事中的应用

国家自然科学基金

10+阅读 · 2011年12月31日

Strategic Response of News Publishers to Generative AI

Arxiv

0+阅读 · 4月15日

Yes, But Not Always. Generative AI Needs Nuanced Opt-in

Arxiv

0+阅读 · 4月10日

Navigational Thinking as an Emerging Paradigm of Computer Science in the Age of Generative AI

Arxiv

0+阅读 · 3月23日

Human strategic decision making in parametrized games

Arxiv

0+阅读 · 3月23日

Generative AI Training and Copyright Law

Arxiv

0+阅读 · 3月17日

When Should Humans Step In? Optimal Human Dispatching in AI-Assisted Decisions

Arxiv

1+阅读 · 3月14日

GenAI vs. Human Creators: Procurement Mechanism Design in Two-/Three-Layer Markets

Arxiv

0+阅读 · 2月23日

Market Games for Generative Models: Equilibria, Welfare, and Strategic Entry

Arxiv

0+阅读 · 2月19日

Generative AI for Advanced UAV Networking

Arxiv

12+阅读 · 2024年4月16日

Generative Agents: Interactive Simulacra of Human Behavior

Arxiv

16+阅读 · 2023年8月6日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

4+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

7+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

6+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

5+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

8+阅读 · 6月22日

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

7+阅读 · 6月21日

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

5+阅读 · 6月21日

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

8+阅读 · 6月21日

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

22+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

5+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

8+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

7+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

10+阅读 · 6月18日

相关VIP内容

将生成式人工智能整合进军事战术决策中

将生成式人工智能整合进军事战术决策中

专知会员服务

30+阅读 · 4月10日

生成式人工智能的军事应用及路径探讨

生成式人工智能的军事应用及路径探讨

专知会员服务

30+阅读 · 2025年11月12日

中文版 | 战争算法：生成式人工智能在战场的崛起

中文版 | 战争算法：生成式人工智能在战场的崛起

专知会员服务

35+阅读 · 2025年7月14日

中文版 | 生成式人工智能（GenAI）：概览、议题与美国国会考量

中文版 | 生成式人工智能（GenAI）：概览、议题与美国国会考量

专知会员服务

24+阅读 · 2025年4月15日

生成式人工智能：数据军备竞赛中的新弹药

生成式人工智能：数据军备竞赛中的新弹药

专知会员服务

28+阅读 · 2025年2月21日

【新书】利用生成式人工智能进行网络防御策略

【新书】利用生成式人工智能进行网络防御策略

专知会员服务

31+阅读 · 2024年10月18日

《生成式人工智能模型：机遇与风险》

《生成式人工智能模型：机遇与风险》

专知会员服务

79+阅读 · 2024年4月22日

创新战争：利用生成式人工智能的力量

创新战争：利用生成式人工智能的力量

专知会员服务

63+阅读 · 2024年2月14日

《人工智能对战略和业务决策的影响》

《人工智能对战略和业务决策的影响》

专知会员服务

60+阅读 · 2023年12月17日

生成式AI如何可控？谷歌DARPA等最新《识别并缓解生成式人工智能的安全风险》综述，详述GenAI技术安全性

生成式AI如何可控？谷歌DARPA等最新《识别并缓解生成式人工智能的安全风险》综述，详述GenAI技术安全性

专知会员服务

49+阅读 · 2023年9月20日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 3D场景图：开放挑战与未来方向

21世纪的无人机战争

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

相关资讯

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

专知

38+阅读 · 2023年4月13日

推荐！《用于兵棋推演和建模的人工智能》兰德、耶鲁大学2022最新16页论文

推荐！《用于兵棋推演和建模的人工智能》兰德、耶鲁大学2022最新16页论文

专知

53+阅读 · 2022年11月14日

推荐！《人工智能在武器系统中的应用》美智库(DSIAC)2022最新92页报告

推荐！《人工智能在武器系统中的应用》美智库(DSIAC)2022最新92页报告

专知

102+阅读 · 2022年10月17日

面向多智能体博弈对抗的对手建模框架

面向多智能体博弈对抗的对手建模框架

专知

18+阅读 · 2022年9月28日

推荐！《关于美国海军陆战队情报工作的人工智能（AI）战略和设计》美国海军研究生院131页报告

推荐！《关于美国海军陆战队情报工作的人工智能（AI）战略和设计》美国海军研究生院131页报告

专知

62+阅读 · 2022年9月7日

推荐！【中文版】《人工智能在指挥和控制系统中的决策支持》瑞典国防研究局

推荐！【中文版】《人工智能在指挥和控制系统中的决策支持》瑞典国防研究局

专知

36+阅读 · 2022年7月31日

兵棋推演的智能决策技术与挑战

兵棋推演的智能决策技术与挑战

专知

28+阅读 · 2022年7月5日

《人工智能在空战指挥与控制中的应用》中文版，美国空军大学空军指挥参谋学院

《人工智能在空战指挥与控制中的应用》中文版，美国空军大学空军指挥参谋学院

专知

111+阅读 · 2022年4月28日

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知

92+阅读 · 2022年4月17日

中国人工智能三年国家战略公布：8类产品要火

中国人工智能三年国家战略公布：8类产品要火

千读

12+阅读 · 2017年12月20日

相关论文

Strategic Response of News Publishers to Generative AI

Arxiv

0+阅读 · 4月15日

Yes, But Not Always. Generative AI Needs Nuanced Opt-in

Arxiv

0+阅读 · 4月10日

Navigational Thinking as an Emerging Paradigm of Computer Science in the Age of Generative AI

Arxiv

0+阅读 · 3月23日

Human strategic decision making in parametrized games

Arxiv

0+阅读 · 3月23日

Generative AI Training and Copyright Law

Arxiv

0+阅读 · 3月17日

When Should Humans Step In? Optimal Human Dispatching in AI-Assisted Decisions

Arxiv

1+阅读 · 3月14日

GenAI vs. Human Creators: Procurement Mechanism Design in Two-/Three-Layer Markets

Arxiv

0+阅读 · 2月23日

Market Games for Generative Models: Equilibria, Welfare, and Strategic Entry

Arxiv

0+阅读 · 2月19日

Generative AI for Advanced UAV Networking

Arxiv

12+阅读 · 2024年4月16日

Generative Agents: Interactive Simulacra of Human Behavior

Arxiv

16+阅读 · 2023年8月6日

相关基金

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

集成专家意见的在线投资组合策略设计及竞争性能分析

国家自然科学基金

0+阅读 · 2015年12月31日

面向类人机器人动作规划的参数最优控制技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

改进智能优化策略多机动目标跟踪方法研究

国家自然科学基金

20+阅读 · 2015年12月31日

人类双向选择行为的统计特征分析与预测方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向大数据的群体偏好决策分析研究

国家自然科学基金

6+阅读 · 2014年12月31日

基于人眼关注度与情感分析的电子商务智能推荐计算

国家自然科学基金

0+阅读 · 2014年12月31日

算法博弈论视角下的策略替代型网络博弈

国家自然科学基金

4+阅读 · 2014年12月31日

面向现代防御系统的多无人机协同优化与决策

国家自然科学基金

17+阅读 · 2012年12月31日

数据和模型混合驱动的虚拟人群行为仿真技术研究及其在军事中的应用

国家自然科学基金

10+阅读 · 2011年12月31日

微信扫码咨询专知VIP会员