Discovering Differences in Strategic Behavior Between Humans and LLMs - 专知论文

会员服务 ·

0

博弈 · 分析 · 结构 · 结构性 · 语言模型 ·

Discovering Differences in Strategic Behavior Between Humans and LLMs

翻译：人类与大型语言模型在策略行为上的差异探究

Caroline Wang,Daniel Kasenberg,Kim Stachenfeld,Pablo Samuel Castro

As Large Language Models (LLMs) are increasingly deployed in social and strategic scenarios, it becomes critical to understand where and why their behavior diverges from that of humans. While behavioral game theory (BGT) provides a framework for analyzing behavior, existing models do not fully capture the idiosyncratic behavior of humans or black-box, non-human agents like LLMs. We employ AlphaEvolve, a cutting-edge program discovery tool, to directly discover interpretable models of human and LLM behavior from data, thereby enabling open-ended discovery of structural factors driving human and LLM behavior. Our analysis on iterated rock-paper-scissors reveals that frontier LLMs can be capable of deeper strategic behavior than humans. These results provide a foundation for understanding structural differences driving differences in human and LLM behavior in strategic interactions.

翻译：随着大型语言模型（LLMs）越来越多地应用于社交与策略场景，理解其行为在何处及为何与人类行为产生分歧变得至关重要。尽管行为博弈论（BGT）为分析行为提供了一个框架，但现有模型并未完全捕捉人类或如LLMs这类黑箱非人类智能体的独特行为模式。我们采用前沿的程序发现工具AlphaEvolve，直接从数据中发现可解释的人类及LLM行为模型，从而实现对驱动人类与LLM行为的结构性因素进行开放式探索。在迭代剪刀石头布博弈中的分析表明，前沿LLMs能够展现出比人类更深层次的策略行为。这些结果为理解策略互动中驱动人类与LLM行为差异的结构性因素奠定了基础。

0

相关内容

大型语言模型中隐性与显性偏见的综合研究

大型语言模型中隐性与显性偏见的综合研究

专知会员服务

17+阅读 · 2025年11月25日

从语言到行动：大语言模型作为自主智能体与工具使用者的综述

从语言到行动：大语言模型作为自主智能体与工具使用者的综述

专知会员服务

27+阅读 · 2025年9月2日

大语言模型与小语言模型协同机制综述

大语言模型与小语言模型协同机制综述

专知会员服务

39+阅读 · 2025年5月15日

【新书】设计大型语言模型应用：一种面向LLMs的整体方法

【新书】设计大型语言模型应用：一种面向LLMs的整体方法

专知会员服务

56+阅读 · 2025年3月16日

《以人为中心的大型语言模型（LLM）研究综述》

《以人为中心的大型语言模型（LLM）研究综述》

专知会员服务

41+阅读 · 2024年11月25日

《人类与机器：兵棋推演中人类专家与大语言模型的行为差异》

《人类与机器：兵棋推演中人类专家与大语言模型的行为差异》

专知会员服务

33+阅读 · 2024年10月16日

大型语言模型（LLMs），附Slides与视频

大型语言模型（LLMs），附Slides与视频

专知会员服务

71+阅读 · 2024年6月30日

大型语言模型中的人格综述

大型语言模型中的人格综述

专知会员服务

42+阅读 · 2024年6月30日

大规模语言模型的人类偏好学习综述

大规模语言模型的人类偏好学习综述

专知会员服务

42+阅读 · 2024年6月19日

大型语言模型（LLMs）革新金融：应用与洞察概览

大型语言模型（LLMs）革新金融：应用与洞察概览

专知会员服务

40+阅读 · 2024年3月22日

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

【博士论文】《安全博弈中的分层规划：战略、战术和行动决策的博弈论方法》南加州大学

【博士论文】《安全博弈中的分层规划：战略、战术和行动决策的博弈论方法》南加州大学

专知

24+阅读 · 2022年9月25日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

绝对干货！NLP预训练模型：从transformer到albert

绝对干货！NLP预训练模型：从transformer到albert

新智元

13+阅读 · 2019年11月10日

预训练语言模型关系图+必读论文列表，清华荣誉出品

预训练语言模型关系图+必读论文列表，清华荣誉出品

机器之心

18+阅读 · 2019年10月11日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

【ICCV 2017论文笔记】我们应当如何理解视频中的人类行为？

【ICCV 2017论文笔记】我们应当如何理解视频中的人类行为？

极市平台

14+阅读 · 2017年9月15日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

基于深度学习的复杂场景下人体行为识别研究

国家自然科学基金

9+阅读 · 2015年12月31日

基于人机交互的数据驱动式人群行为建模与仿真研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

基于多通道深度卷积神经网络的人体行为分析研究

国家自然科学基金

6+阅读 · 2015年12月31日

人类双向选择行为的统计特征分析与预测方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向大数据的群体偏好决策分析研究

国家自然科学基金

6+阅读 · 2014年12月31日

面向经济复杂性的行为建模与计算实验及应用研究

国家自然科学基金

2+阅读 · 2014年12月31日

算法博弈论视角下的策略替代型网络博弈

国家自然科学基金

4+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

数据和模型混合驱动的虚拟人群行为仿真技术研究及其在军事中的应用

国家自然科学基金

10+阅读 · 2011年12月31日

Towards Strategic Persuasion with Language Models

Arxiv

0+阅读 · 3月7日

A Systematic Analysis of Biases in Large Language Models

Arxiv

0+阅读 · 3月4日

LLMs as Strategic Actors: Behavioral Alignment, Risk Calibration, and Argumentation Framing in Geopolitical Simulations

Arxiv

0+阅读 · 3月2日

Moral Susceptibility and Robustness under Persona Role-Play in Large Language Models

Arxiv

0+阅读 · 2月27日

Under the Influence: Quantifying Persuasion and Vigilance in Large Language Models

Arxiv

0+阅读 · 2月26日

Advances in LLMs with Focus on Reasoning, Adaptability, Efficiency and Ethics

Arxiv

0+阅读 · 2月11日

Can LLMs Truly Embody Human Personality? Analyzing AI and Human Behavior Alignment in Dispute Resolution

Arxiv

0+阅读 · 2月7日

Overstating Attitudes, Ignoring Networks: LLM Biases in Simulating Misinformation Susceptibility

Arxiv

0+阅读 · 2月4日

An Empirical Study of Collective Behaviors and Social Dynamics in Large Language Model Agents

Arxiv

0+阅读 · 2月3日

Sparks of Rationality: Do Reasoning LLMs Align with Human Judgment and Choice?

Arxiv

0+阅读 · 1月29日

VIP会员

文章信息

相关主题

最新内容

大语言模型平台在国防情报应用中的对比

大语言模型平台在国防情报应用中的对比

专知会员服务

1+阅读 · 54分钟前

美陆军“增强任务分析”实验：将人工智能集成到军事决策流程中

美陆军“增强任务分析”实验：将人工智能集成到军事决策流程中

专知会员服务

1+阅读 · 今天3:00

《面向安全态势自适应决策的情报信息系统与机器学习算法研究》

《面向安全态势自适应决策的情报信息系统与机器学习算法研究》

专知会员服务

1+阅读 · 今天2:56

《杀伤链中人类判断的终结？论AI智能体对主动权与解释权的重置》

《杀伤链中人类判断的终结？论AI智能体对主动权与解释权的重置》

专知会员服务

1+阅读 · 今天2:44

《仿真互操作性标准：实时平台参考联邦对象模型指南、原理与互操作性模式标准》300页

《仿真互操作性标准：实时平台参考联邦对象模型指南、原理与互操作性模式标准》300页

专知会员服务

2+阅读 · 今天2:37

《自主远程巡飞弹药打击系统的嵌入式人工智能感知框架》

《自主远程巡飞弹药打击系统的嵌入式人工智能感知框架》

专知会员服务

1+阅读 · 今天2:22

美海军“超配项目”

美海军“超配项目”

专知会员服务

1+阅读 · 今天2:13

《美陆军条例：陆军指挥政策（2026版）》

《美陆军条例：陆军指挥政策（2026版）》

专知会员服务

10+阅读 · 4月21日

《提升美军全域城市作战训练最佳实践的案例研究》366页

《提升美军全域城市作战训练最佳实践的案例研究》366页

专知会员服务

12+阅读 · 4月21日

《军用自主人工智能系统的治理与安全》

《军用自主人工智能系统的治理与安全》

专知会员服务

7+阅读 · 4月21日

美海军数字作战负责人：如何利用数据快速生成战斗力

美海军数字作战负责人：如何利用数据快速生成战斗力

专知会员服务

8+阅读 · 4月21日

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

专知会员服务

11+阅读 · 4月20日

《系统簇式多域作战规划范畴论框架》

《系统簇式多域作战规划范畴论框架》

专知会员服务

10+阅读 · 4月20日

《美国防部指令6130.03，第2卷服役医疗标准：保留》

《美国防部指令6130.03，第2卷服役医疗标准：保留》

专知会员服务

6+阅读 · 4月20日

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

专知会员服务

4+阅读 · 4月20日

相关VIP内容

大型语言模型中隐性与显性偏见的综合研究

大型语言模型中隐性与显性偏见的综合研究

专知会员服务

17+阅读 · 2025年11月25日

从语言到行动：大语言模型作为自主智能体与工具使用者的综述

从语言到行动：大语言模型作为自主智能体与工具使用者的综述

专知会员服务

27+阅读 · 2025年9月2日

大语言模型与小语言模型协同机制综述

大语言模型与小语言模型协同机制综述

专知会员服务

39+阅读 · 2025年5月15日

【新书】设计大型语言模型应用：一种面向LLMs的整体方法

【新书】设计大型语言模型应用：一种面向LLMs的整体方法

专知会员服务

56+阅读 · 2025年3月16日

《以人为中心的大型语言模型（LLM）研究综述》

《以人为中心的大型语言模型（LLM）研究综述》

专知会员服务

41+阅读 · 2024年11月25日

《人类与机器：兵棋推演中人类专家与大语言模型的行为差异》

《人类与机器：兵棋推演中人类专家与大语言模型的行为差异》

专知会员服务

33+阅读 · 2024年10月16日

大型语言模型（LLMs），附Slides与视频

大型语言模型（LLMs），附Slides与视频

专知会员服务

71+阅读 · 2024年6月30日

大型语言模型中的人格综述

大型语言模型中的人格综述

专知会员服务

42+阅读 · 2024年6月30日

大规模语言模型的人类偏好学习综述

大规模语言模型的人类偏好学习综述

专知会员服务

42+阅读 · 2024年6月19日

大型语言模型（LLMs）革新金融：应用与洞察概览

大型语言模型（LLMs）革新金融：应用与洞察概览

专知会员服务

40+阅读 · 2024年3月22日

热门VIP内容

开通专知VIP会员享更多权益服务

美陆军“增强任务分析”实验：将人工智能集成到军事决策流程中

《杀伤链中人类判断的终结？论AI智能体对主动权与解释权的重置》

大语言模型平台在国防情报应用中的对比

《面向安全态势自适应决策的情报信息系统与机器学习算法研究》

相关资讯

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

【博士论文】《安全博弈中的分层规划：战略、战术和行动决策的博弈论方法》南加州大学

【博士论文】《安全博弈中的分层规划：战略、战术和行动决策的博弈论方法》南加州大学

专知

24+阅读 · 2022年9月25日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

绝对干货！NLP预训练模型：从transformer到albert

绝对干货！NLP预训练模型：从transformer到albert

新智元

13+阅读 · 2019年11月10日

预训练语言模型关系图+必读论文列表，清华荣誉出品

预训练语言模型关系图+必读论文列表，清华荣誉出品

机器之心

18+阅读 · 2019年10月11日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

【ICCV 2017论文笔记】我们应当如何理解视频中的人类行为？

【ICCV 2017论文笔记】我们应当如何理解视频中的人类行为？

极市平台

14+阅读 · 2017年9月15日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

相关论文

Towards Strategic Persuasion with Language Models

Arxiv

0+阅读 · 3月7日

A Systematic Analysis of Biases in Large Language Models

Arxiv

0+阅读 · 3月4日

LLMs as Strategic Actors: Behavioral Alignment, Risk Calibration, and Argumentation Framing in Geopolitical Simulations

Arxiv

0+阅读 · 3月2日

Moral Susceptibility and Robustness under Persona Role-Play in Large Language Models

Arxiv

0+阅读 · 2月27日

Under the Influence: Quantifying Persuasion and Vigilance in Large Language Models

Arxiv

0+阅读 · 2月26日

Advances in LLMs with Focus on Reasoning, Adaptability, Efficiency and Ethics

Arxiv

0+阅读 · 2月11日

Can LLMs Truly Embody Human Personality? Analyzing AI and Human Behavior Alignment in Dispute Resolution

Arxiv

0+阅读 · 2月7日

Overstating Attitudes, Ignoring Networks: LLM Biases in Simulating Misinformation Susceptibility

Arxiv

0+阅读 · 2月4日

An Empirical Study of Collective Behaviors and Social Dynamics in Large Language Model Agents

Arxiv

0+阅读 · 2月3日

Sparks of Rationality: Do Reasoning LLMs Align with Human Judgment and Choice?

Arxiv

0+阅读 · 1月29日

相关基金

基于深度学习的复杂场景下人体行为识别研究

国家自然科学基金

9+阅读 · 2015年12月31日

基于人机交互的数据驱动式人群行为建模与仿真研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

基于多通道深度卷积神经网络的人体行为分析研究

国家自然科学基金

6+阅读 · 2015年12月31日

人类双向选择行为的统计特征分析与预测方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向大数据的群体偏好决策分析研究

国家自然科学基金

6+阅读 · 2014年12月31日

面向经济复杂性的行为建模与计算实验及应用研究

国家自然科学基金

2+阅读 · 2014年12月31日

算法博弈论视角下的策略替代型网络博弈

国家自然科学基金

4+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

数据和模型混合驱动的虚拟人群行为仿真技术研究及其在军事中的应用

国家自然科学基金

10+阅读 · 2011年12月31日

微信扫码咨询专知VIP会员