Evaluating the social intelligence of Large Language Models (LLMs) increasingly requires moving beyond static text generation toward dynamic, adversarial interaction. We introduce the Adversarial Resource Extraction Game (AREG), a benchmark that operationalizes persuasion and resistance as a multi-turn, zero-sum negotiation over financial resources. Using a round-robin tournament across frontier models, AREG enables joint evaluation of offensive (persuasion) and defensive (resistance) capabilities within a single interactional framework. Our analysis provides evidence that these capabilities are weakly correlated ($ρ= 0.33$) and empirically dissociated: strong persuasive performance does not reliably predict strong resistance, and vice versa. Across all evaluated models, resistance scores exceed persuasion scores, indicating a systematic defensive advantage in adversarial dialogue settings. Further linguistic analysis suggests that interaction structure plays a central role in these outcomes. Incremental commitment-seeking strategies are associated with higher extraction success, while verification-seeking responses are more prevalent in successful defenses than explicit refusal. Together, these findings indicate that social influence in LLMs is not a monolithic capability and that evaluation frameworks focusing on persuasion alone may overlook asymmetric behavioral vulnerabilities.


翻译:评估大语言模型(LLMs)的社会智能日益需要从静态文本生成转向动态对抗性交互。本文提出对抗性资源提取博弈(AREG),该基准将说服与抵抗能力操作化为围绕财务资源的多轮零和谈判。通过在顶尖模型间进行循环锦标赛,AREG能够在单一交互框架内对攻击性(说服)和防御性(抵抗)能力进行联合评估。我们的分析表明这两种能力呈弱相关($ρ= 0.33$)且在经验上相互分离:强大的说服表现并不能可靠预测其抵抗能力,反之亦然。在所有评估模型中,抵抗分数均高于说服分数,表明在对抗性对话场景中存在系统性防御优势。进一步的语言学分析表明,交互结构对这些结果起着核心作用。渐进式承诺寻求策略与更高的资源提取成功率相关,而验证寻求式回应在成功防御中的出现频率高于直接拒绝。这些发现共同表明,LLMs的社会影响力并非单一能力,仅关注说服能力的评估框架可能忽视非对称的行为脆弱性。

0
下载
关闭预览

相关内容

赋能大型语言模型多领域资源挑战
专知会员服务
10+阅读 · 2025年6月10日
PlanGenLLMs:大型语言模型规划能力的最新综述
专知会员服务
33+阅读 · 2025年5月18日
《使用生成式大语言模型进行多语言事件提取》最新85页
博弈论与大语言模型的结合:系统性综述
专知会员服务
60+阅读 · 2025年2月14日
大型语言模型对齐技术综述:RLHF、RLAIF、PPO、DPO 等
专知会员服务
55+阅读 · 2024年7月24日
《大型语言模型自然语言生成评估》综述
专知会员服务
72+阅读 · 2024年1月20日
天大最新《大型语言模型评估》全面综述,111页pdf
专知会员服务
88+阅读 · 2023年10月31日
面向多智能体博弈对抗的对手建模框架
专知
18+阅读 · 2022年9月28日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2013年12月31日
VIP会员
相关VIP内容
赋能大型语言模型多领域资源挑战
专知会员服务
10+阅读 · 2025年6月10日
PlanGenLLMs:大型语言模型规划能力的最新综述
专知会员服务
33+阅读 · 2025年5月18日
《使用生成式大语言模型进行多语言事件提取》最新85页
博弈论与大语言模型的结合:系统性综述
专知会员服务
60+阅读 · 2025年2月14日
大型语言模型对齐技术综述:RLHF、RLAIF、PPO、DPO 等
专知会员服务
55+阅读 · 2024年7月24日
《大型语言模型自然语言生成评估》综述
专知会员服务
72+阅读 · 2024年1月20日
天大最新《大型语言模型评估》全面综述,111页pdf
专知会员服务
88+阅读 · 2023年10月31日
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员