Not Yet: Humans Outperform LLMs in a Colonel Blotto Tournament - 专知论文

会员服务 ·

0

博弈 · 语言模型 · 大语言模型 · 经济学家 · 高维 ·

Not Yet: Humans Outperform LLMs in a Colonel Blotto Tournament

翻译：还不是时候：人类在Colonel Blotto博弈竞赛中胜过大型语言模型

Dmitry Dagaev,Egor Ivanov,Petr Parshakov,Alexey Savvateev,Gleb Vasiliev

The emergence of large language models (LLMs) has spurred economists to study how humans and LLMs behave in strategic settings. We organized a series of round-robin tournaments in the Colonel Blotto game. This game attracts game theorists' attention due to high-dimensional action space and the absence of pure strategy Nash equilibria. In the first tournament, more than 200 human participants competed against one another. In the second tournament, several popular LLMs were invited to submit strategies. In the third tournament, we matched the number of LLM strategies to the number submitted by humans. We find that humans more often employ better-calibrated intermediate-level allocation heuristics and outperform the simpler, more stereotyped strategies submitted by LLMs. Strategic sophistication is key to success if and only if the necessary level of reasoning depth is reached, while lower and higher levels of reasoning offer no clear advantage over the primitive strategies. Among humans, field of study weakly predicts success: participants with STEM backgrounds perform better in the first tournament. Surprisingly, humans almost do not adjust their strategies across tournaments with different sets of opponents. This result suggests that humans base their choices primarily on the game's rules rather than on the identity of their opponents, treating LLMs much like human competitors.

翻译：大型语言模型（LLMs）的兴起促使经济学家研究人类与LLMs在战略环境中的行为。我们组织了一系列Colonel Blotto博弈的循环赛。该博弈因高维动作空间及纯策略纳什均衡缺失而备受博弈论学者关注。在第一轮竞赛中，超过200名人类参与者相互竞争。第二轮竞赛邀请了几种主流LLMs提交策略。第三轮竞赛中，我们将LLMs策略数量匹配至人类提交策略数量。研究发现，人类更常采用校准更精确的中等层次分配启发式策略，其表现优于LLMs提交的更为简单、刻板的策略。只有当达到必要推理深度时，战略复杂性才是成功的关键；而较低或较高层次的推理相较于基础策略并无明显优势。在人类参与者中，学科背景对成功的影响较弱：具有STEM背景的参与者在第一轮竞赛中表现更佳。令人惊讶的是，人类在面对不同对手组别的竞赛中几乎未调整策略。这一结果表明，人类主要基于博弈规则而非对手身份做出选择，将LLMs视为与人类竞争对手类似的参与者。

0

相关内容

《大型语言模型能否有效生成基于博弈论的网络安全场景？》

《大型语言模型能否有效生成基于博弈论的网络安全场景？》

专知会员服务

17+阅读 · 2025年8月22日

《信息战中基于大语言模型的AI代理红蓝队对抗沙盒方法：探索反信息、提示注入与AI素养中的人类控制》最新报告

《信息战中基于大语言模型的AI代理红蓝队对抗沙盒方法：探索反信息、提示注入与AI素养中的人类控制》最新报告

专知会员服务

27+阅读 · 2025年5月29日

博弈论与大语言模型的结合：系统性综述

博弈论与大语言模型的结合：系统性综述

专知会员服务

60+阅读 · 2025年2月14日

《人类与机器：兵棋推演中人类专家与大语言模型的行为差异》

《人类与机器：兵棋推演中人类专家与大语言模型的行为差异》

专知会员服务

34+阅读 · 2024年10月16日

大语言模型如何改变现代战争：ChatGPT 是否适用于军事领域？

大语言模型如何改变现代战争：ChatGPT 是否适用于军事领域？

专知会员服务

80+阅读 · 2024年5月31日

《人类与机器：大型语言模型与兵棋推演》

《人类与机器：大型语言模型与兵棋推演》

专知会员服务

89+阅读 · 2024年3月27日

如何攻击大模型？UIUC等最新《破解防御：大型语言模型攻击方法》综述

如何攻击大模型？UIUC等最新《破解防御：大型语言模型攻击方法》综述

专知会员服务

45+阅读 · 2024年3月12日

大模型如何构建和部署？微软等最新《大型语言模型》综述，详述GPT, LLaMA, PaLM技术细节，Tomas等大牛撰写

大模型如何构建和部署？微软等最新《大型语言模型》综述，详述GPT, LLaMA, PaLM技术细节，Tomas等大牛撰写

专知会员服务

91+阅读 · 2024年2月12日

西工大等最新《大型语言模型机器人技术》综述，详述多模态 GPT-4V 机器人技术

西工大等最新《大型语言模型机器人技术》综述，详述多模态 GPT-4V 机器人技术

专知会员服务

79+阅读 · 2024年1月10日

通过大语言模型和人工智能的力量改变军事规划

通过大语言模型和人工智能的力量改变军事规划

专知会员服务

150+阅读 · 2023年9月1日

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

推荐！【美海军·系统工程顶点报告】《人工智能使能的实时兵棋推演系统在海军战术行动中的应用》美国海军2022最新128页

推荐！【美海军·系统工程顶点报告】《人工智能使能的实时兵棋推演系统在海军战术行动中的应用》美国海军2022最新128页

专知

86+阅读 · 2022年9月24日

【AI与军事】美国陆军专著《博弈论在作战层面的应用》，47页pdf，中文版

【AI与军事】美国陆军专著《博弈论在作战层面的应用》，47页pdf，中文版

专知

131+阅读 · 2022年4月4日

一大批中文（BERT等）预训练模型等你认领！

一大批中文（BERT等）预训练模型等你认领！

PaperWeekly

15+阅读 · 2019年6月25日

微软机器阅读理解在一场多轮对话挑战中媲美人类

微软机器阅读理解在一场多轮对话挑战中媲美人类

微软丹棱街5号

19+阅读 · 2019年5月14日

AI会话能力超越人类！CoQA挑战赛微软创新纪录

AI会话能力超越人类！CoQA挑战赛微软创新纪录

智东西

12+阅读 · 2019年5月5日

逆天语言模型GPT-2最新开源：345M预训练模型和1.5B参数都来了

逆天语言模型GPT-2最新开源：345M预训练模型和1.5B参数都来了

量子位

18+阅读 · 2019年5月4日

BERT大火却不懂Transformer？读这一篇就够了

BERT大火却不懂Transformer？读这一篇就够了

大数据文摘

12+阅读 · 2019年1月8日

YesOfCourse团队在Kaggle文本匹配竞赛中获得优异成绩

YesOfCourse团队在Kaggle文本匹配竞赛中获得优异成绩

中国科学院网络数据重点实验室

10+阅读 · 2017年6月15日

复杂动态网络上演化博弈的群体策略选择和干预机制研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于演化博弈的多智能体环形编队的理论与实验研究

国家自然科学基金

23+阅读 · 2015年12月31日

人类转录因子基因家族调控网络进化模式研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于非局域性的量子博弈研究

国家自然科学基金

1+阅读 · 2015年12月31日

复杂网络上数据传输博弈的合作性优化与控制研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向聋儿言语康复的多模态人机交互模型及技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

贝叶斯博弈关于信息结构的比较静态分析及应用

国家自然科学基金

1+阅读 · 2014年12月31日

算法博弈论视角下的策略替代型网络博弈

国家自然科学基金

4+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

Using Cognitive Models to Improve Language Model Simulation of Human Persuasion Games

Arxiv

0+阅读 · 6月16日

How Many Human Survey Respondents is a Large Language Model Worth? An Uncertainty Quantification Perspective

Arxiv

0+阅读 · 6月15日

Poker Arena: Multi-Axis Profiling of Strategic Reasoning and Memory in LLMs

Arxiv

0+阅读 · 6月11日

LLMs Can Better Capture Human Judgments--With the Right Prompts

Arxiv

0+阅读 · 6月10日

To Nuke or Not to Nuke: LLMs' (Missing) Ethical Reasoning and Actions in a High-Stakes Decision-Making Simulation

Arxiv

0+阅读 · 6月6日

Where Do Large Language Models Fail on Competitive Programming? A Taxonomy of Failures by Algorithm Type and Difficulty Rating

Arxiv

0+阅读 · 6月2日

Greener Than Humans? Environmental Attitudes in Large Language Models

Arxiv

0+阅读 · 6月1日

How to Compare the Security of Code Written by Humans to LLM-generated Code

Arxiv

0+阅读 · 5月29日

PokerSkill: LLMs Can Play Expert-Level Poker without Training or Solvers

Arxiv

0+阅读 · 5月28日

ClausewitzGPT Framework: A New Frontier in Theoretical Large Language Model Enhanced Information Operations

Arxiv

31+阅读 · 2023年10月11日

VIP会员

文章信息

相关主题

大语言模型

最新内容

综述 | 从问答到任务完成：Agent系统与Harness设计

综述 | 从问答到任务完成：Agent系统与Harness设计

专知会员服务

1+阅读 · 今天16:54

Agentic RL：框架、实践与长程智能体训练

Agentic RL：框架、实践与长程智能体训练

专知会员服务

1+阅读 · 今天16:52

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

专知会员服务

6+阅读 · 今天8:00

重新思考无人机时代的生存能力

重新思考无人机时代的生存能力

专知会员服务

5+阅读 · 今天7:44

装甲突击旅：现代战争思考、战斗与组织

装甲突击旅：现代战争思考、战斗与组织

专知会员服务

4+阅读 · 今天7:28

在人工智能加速决策环境中拓展OODA循环

在人工智能加速决策环境中拓展OODA循环

专知会员服务

4+阅读 · 今天7:18

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

专知会员服务

5+阅读 · 今天7:07

军事欺骗：供作战战术指挥官使用的工具

军事欺骗：供作战战术指挥官使用的工具

专知会员服务

4+阅读 · 今天7:03

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

4+阅读 · 6月23日

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

6+阅读 · 6月23日

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

10+阅读 · 6月23日

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

4+阅读 · 6月23日

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

5+阅读 · 6月23日

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

8+阅读 · 6月23日

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

7+阅读 · 6月23日

相关VIP内容

《大型语言模型能否有效生成基于博弈论的网络安全场景？》

《大型语言模型能否有效生成基于博弈论的网络安全场景？》

专知会员服务

17+阅读 · 2025年8月22日

《信息战中基于大语言模型的AI代理红蓝队对抗沙盒方法：探索反信息、提示注入与AI素养中的人类控制》最新报告

《信息战中基于大语言模型的AI代理红蓝队对抗沙盒方法：探索反信息、提示注入与AI素养中的人类控制》最新报告

专知会员服务

27+阅读 · 2025年5月29日

博弈论与大语言模型的结合：系统性综述

博弈论与大语言模型的结合：系统性综述

专知会员服务

60+阅读 · 2025年2月14日

《人类与机器：兵棋推演中人类专家与大语言模型的行为差异》

《人类与机器：兵棋推演中人类专家与大语言模型的行为差异》

专知会员服务

34+阅读 · 2024年10月16日

大语言模型如何改变现代战争：ChatGPT 是否适用于军事领域？

大语言模型如何改变现代战争：ChatGPT 是否适用于军事领域？

专知会员服务

80+阅读 · 2024年5月31日

《人类与机器：大型语言模型与兵棋推演》

《人类与机器：大型语言模型与兵棋推演》

专知会员服务

89+阅读 · 2024年3月27日

如何攻击大模型？UIUC等最新《破解防御：大型语言模型攻击方法》综述

如何攻击大模型？UIUC等最新《破解防御：大型语言模型攻击方法》综述

专知会员服务

45+阅读 · 2024年3月12日

大模型如何构建和部署？微软等最新《大型语言模型》综述，详述GPT, LLaMA, PaLM技术细节，Tomas等大牛撰写

大模型如何构建和部署？微软等最新《大型语言模型》综述，详述GPT, LLaMA, PaLM技术细节，Tomas等大牛撰写

专知会员服务

91+阅读 · 2024年2月12日

西工大等最新《大型语言模型机器人技术》综述，详述多模态 GPT-4V 机器人技术

西工大等最新《大型语言模型机器人技术》综述，详述多模态 GPT-4V 机器人技术

专知会员服务

79+阅读 · 2024年1月10日

通过大语言模型和人工智能的力量改变军事规划

通过大语言模型和人工智能的力量改变军事规划

专知会员服务

150+阅读 · 2023年9月1日

热门VIP内容

开通专知VIP会员享更多权益服务

Agentic RL：框架、实践与长程智能体训练

重新思考无人机时代的生存能力

综述 | 从问答到任务完成：Agent系统与Harness设计

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

相关资讯

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

推荐！【美海军·系统工程顶点报告】《人工智能使能的实时兵棋推演系统在海军战术行动中的应用》美国海军2022最新128页

推荐！【美海军·系统工程顶点报告】《人工智能使能的实时兵棋推演系统在海军战术行动中的应用》美国海军2022最新128页

专知

86+阅读 · 2022年9月24日

【AI与军事】美国陆军专著《博弈论在作战层面的应用》，47页pdf，中文版

【AI与军事】美国陆军专著《博弈论在作战层面的应用》，47页pdf，中文版

专知

131+阅读 · 2022年4月4日

一大批中文（BERT等）预训练模型等你认领！

一大批中文（BERT等）预训练模型等你认领！

PaperWeekly

15+阅读 · 2019年6月25日

微软机器阅读理解在一场多轮对话挑战中媲美人类

微软机器阅读理解在一场多轮对话挑战中媲美人类

微软丹棱街5号

19+阅读 · 2019年5月14日

AI会话能力超越人类！CoQA挑战赛微软创新纪录

AI会话能力超越人类！CoQA挑战赛微软创新纪录

智东西

12+阅读 · 2019年5月5日

逆天语言模型GPT-2最新开源：345M预训练模型和1.5B参数都来了

逆天语言模型GPT-2最新开源：345M预训练模型和1.5B参数都来了

量子位

18+阅读 · 2019年5月4日

BERT大火却不懂Transformer？读这一篇就够了

BERT大火却不懂Transformer？读这一篇就够了

大数据文摘

12+阅读 · 2019年1月8日

YesOfCourse团队在Kaggle文本匹配竞赛中获得优异成绩

YesOfCourse团队在Kaggle文本匹配竞赛中获得优异成绩

中国科学院网络数据重点实验室

10+阅读 · 2017年6月15日

相关论文

Using Cognitive Models to Improve Language Model Simulation of Human Persuasion Games

Arxiv

0+阅读 · 6月16日

How Many Human Survey Respondents is a Large Language Model Worth? An Uncertainty Quantification Perspective

Arxiv

0+阅读 · 6月15日

Poker Arena: Multi-Axis Profiling of Strategic Reasoning and Memory in LLMs

Arxiv

0+阅读 · 6月11日

LLMs Can Better Capture Human Judgments--With the Right Prompts

Arxiv

0+阅读 · 6月10日

To Nuke or Not to Nuke: LLMs' (Missing) Ethical Reasoning and Actions in a High-Stakes Decision-Making Simulation

Arxiv

0+阅读 · 6月6日

Where Do Large Language Models Fail on Competitive Programming? A Taxonomy of Failures by Algorithm Type and Difficulty Rating

Arxiv

0+阅读 · 6月2日

Greener Than Humans? Environmental Attitudes in Large Language Models

Arxiv

0+阅读 · 6月1日

How to Compare the Security of Code Written by Humans to LLM-generated Code

Arxiv

0+阅读 · 5月29日

PokerSkill: LLMs Can Play Expert-Level Poker without Training or Solvers

Arxiv

0+阅读 · 5月28日

ClausewitzGPT Framework: A New Frontier in Theoretical Large Language Model Enhanced Information Operations

Arxiv

31+阅读 · 2023年10月11日

相关基金

复杂动态网络上演化博弈的群体策略选择和干预机制研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于演化博弈的多智能体环形编队的理论与实验研究

国家自然科学基金

23+阅读 · 2015年12月31日

人类转录因子基因家族调控网络进化模式研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于非局域性的量子博弈研究

国家自然科学基金

1+阅读 · 2015年12月31日

复杂网络上数据传输博弈的合作性优化与控制研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向聋儿言语康复的多模态人机交互模型及技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

贝叶斯博弈关于信息结构的比较静态分析及应用

国家自然科学基金

1+阅读 · 2014年12月31日

算法博弈论视角下的策略替代型网络博弈

国家自然科学基金

4+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员