LLM Active Alignment: A Nash Equilibrium Perspective - 专知论文

会员服务 ·

0

对齐 · 均衡 · 纳什均衡 · 语言模型 · 大语言模型 ·

LLM Active Alignment: A Nash Equilibrium Perspective

翻译：大语言模型主动对齐：纳什均衡视角

Tonghan Wang,Yuqi Pan,Xinyi Yang,Yanchen Jiang,Milind Tambe,David C. Parkes

We develop a game-theoretic framework for predicting and steering the behavior of populations of large language models (LLMs) through Nash equilibrium (NE) analysis. To avoid the intractability of equilibrium computation in open-ended text spaces, we model each agent's action as a mixture over human subpopulations. Agents choose actively and strategically which groups to align with, yielding an interpretable and behaviorally substantive policy class. We derive closed-form NE characterizations, adopting standard concave-utility assumptions to enable analytical system-level predictions and give explicit, actionable guidance for shifting alignment targets toward socially desirable outcomes. The method functions as an active alignment layer on top of existing alignment pipelines such as RLHF. In a social-media setting, we show that a population of LLMs, especially reasoning-based models, may exhibit political exclusion, pathologies where some subpopulations are ignored by all LLM agents, which can be avoided by our method, illustrating the promise of applying the method to regulate multi-agent LLM dynamics across domains.

翻译：我们提出了一个博弈论框架，通过纳什均衡分析来预测和引导大语言模型群体的行为。为避免在开放文本空间中均衡计算难以处理的问题，我们将每个智能体的行动建模为对人类子群体的混合选择。智能体主动且策略性地选择与哪些群体对齐，从而产生一个可解释且具有行为实质性的策略类别。我们推导出闭式纳什均衡特征，采用标准的凹效用假设以实现系统层面的解析预测，并为将对齐目标转向社会期望结果提供明确、可操作的指导。该方法可作为现有对齐流程（如RLHF）之上的一个主动对齐层。在一个社交媒体场景中，我们证明大语言模型群体（尤其是基于推理的模型）可能出现政治排斥现象，即某些子群体被所有LLM智能体忽略的病理状态，而我们的方法可以避免这种情况，这说明了将该方法应用于跨领域多智能体LLM动态调控的前景。

0

相关内容

《大型语言模型能否有效生成基于博弈论的网络安全场景？》

《大型语言模型能否有效生成基于博弈论的网络安全场景？》

专知会员服务

16+阅读 · 2025年8月22日

如何对齐？北大最新271页ICML2025教程《语言模型的对齐方法：一种机器学习视角》

如何对齐？北大最新271页ICML2025教程《语言模型的对齐方法：一种机器学习视角》

专知会员服务

47+阅读 · 2025年7月16日

【ICML2025】大语言模型的有限理性：推理时的“满意化”对齐策略

【ICML2025】大语言模型的有限理性：推理时的“满意化”对齐策略

专知会员服务

11+阅读 · 2025年6月1日

博弈论与大语言模型的结合：系统性综述

博弈论与大语言模型的结合：系统性综述

专知会员服务

60+阅读 · 2025年2月14日

迈向大语言模型偏好学习的统一视角综述

迈向大语言模型偏好学习的统一视角综述

专知会员服务

24+阅读 · 2024年9月7日

大语言模型对齐研究综述

大语言模型对齐研究综述

专知会员服务

56+阅读 · 2024年8月1日

多模态对齐如何做？国防科大等最新《如何弥合模态间的差距：多模态大型语言模型》综述四大类型多模态对齐方法

多模态对齐如何做？国防科大等最新《如何弥合模态间的差距：多模态大型语言模型》综述四大类型多模态对齐方法

专知会员服务

74+阅读 · 2023年11月18日

大型语言模型对齐

大型语言模型对齐

专知会员服务

120+阅读 · 2023年9月27日

【CMU博士论文】不完全信息博弈中的博弈决策学习动力学、均衡计算和复杂性，358页pdf

【CMU博士论文】不完全信息博弈中的博弈决策学习动力学、均衡计算和复杂性，358页pdf

专知会员服务

64+阅读 · 2023年6月16日

AAAI 2021 | 稀疏胜负多智能体博弈中的纳什均衡解计算

专知会员服务

41+阅读 · 2021年2月12日

【博士论文】《安全博弈中的分层规划：战略、战术和行动决策的博弈论方法》南加州大学

【博士论文】《安全博弈中的分层规划：战略、战术和行动决策的博弈论方法》南加州大学

专知

24+阅读 · 2022年9月25日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

绝对干货！NLP预训练模型：从transformer到albert

绝对干货！NLP预训练模型：从transformer到albert

新智元

13+阅读 · 2019年11月10日

NAACL 2019最佳论文：量子概率驱动的神经网络

NAACL 2019最佳论文：量子概率驱动的神经网络

PaperWeekly

14+阅读 · 2019年6月10日

【NAACL-HLT2019】自然语言处理的深度对抗学习方法-附104页教程Slides

【NAACL-HLT2019】自然语言处理的深度对抗学习方法-附104页教程Slides

专知

17+阅读 · 2019年6月3日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

NLP不同任务Tensorflow深度学习模型大全

NLP不同任务Tensorflow深度学习模型大全

专知

10+阅读 · 2019年3月19日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

NLP通用模型诞生？一个模型搞定十大自然语言常见任务

NLP通用模型诞生？一个模型搞定十大自然语言常见任务

人工智能头条

10+阅读 · 2018年6月29日

【论文推荐】最新六篇主题模型相关论文—收敛率、大规模、深度主题建模、优化、情绪强度、广义动态主题模型

【论文推荐】最新六篇主题模型相关论文—收敛率、大规模、深度主题建模、优化、情绪强度、广义动态主题模型

专知

11+阅读 · 2018年3月29日

复杂动态网络上演化博弈的群体策略选择和干预机制研究

国家自然科学基金

5+阅读 · 2015年12月31日

经济学中均衡的计算及其在排序机制中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

主被动视角联合的细粒度行为识别

国家自然科学基金

1+阅读 · 2015年12月31日

随机广义纳什均衡问题的研究及应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

面向大数据的群体偏好决策分析研究

国家自然科学基金

6+阅读 · 2014年12月31日

高维数据下的模型平均方法

国家自然科学基金

6+阅读 · 2014年12月31日

若干广义Nash均衡问题的非线性分析方法和应用

国家自然科学基金

0+阅读 · 2014年12月31日

算法博弈论视角下的策略替代型网络博弈

国家自然科学基金

4+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

Asymmetric Nash Seeking via Best Response Maps: Global Linear Convergence and Robustness to Inexact Reaction Models

Asymmetric Nash Seeking via Best Response Maps: Global Linear Convergence and Robustness to Inexact Reaction Models

Arxiv

0+阅读 · 3月17日

Learning generalized Nash equilibria from pairwise preferences

Arxiv

0+阅读 · 3月17日

Are Dilemmas and Conflicts in LLM Alignment Solvable? A View from Priority Graph

Are Dilemmas and Conflicts in LLM Alignment Solvable? A View from Priority Graph

Arxiv

0+阅读 · 3月16日

Branch-and-Cut for Mixed-Integer Nash Equilibrium Problems

Arxiv

0+阅读 · 3月4日

LLMs as Strategic Actors: Behavioral Alignment, Risk Calibration, and Argumentation Framing in Geopolitical Simulations

Arxiv

1+阅读 · 3月2日

Towards Aligning Multimodal LLMs with Human Experts: A Focus on Parent-Child Interaction

Arxiv

0+阅读 · 3月2日

Socially-Weighted Alignment: A Game-Theoretic Framework for Multi-Agent LLM Systems

Arxiv

0+阅读 · 2月16日

Discovering Differences in Strategic Behavior Between Humans and LLMs

Arxiv

0+阅读 · 2月10日

Beyond Pairwise: Empowering LLM Alignment With Ranked Choice Modeling

Arxiv

0+阅读 · 2月10日

Nash Equilibria in Games with Playerwise Concave Coupling Constraints: Existence and Computation

Arxiv

0+阅读 · 2月6日

VIP会员

文章信息

相关主题

大语言模型

最新内容

KDD 2026 | MixRAGRec：面向LLM推荐的混合专家KG-RAG框架

KDD 2026 | MixRAGRec：面向LLM推荐的混合专家KG-RAG框架

专知会员服务

1+阅读 · 今天12:11

综述 | 推理时控制：可信大语言模型的运行时治理全景

综述 | 推理时控制：可信大语言模型的运行时治理全景

专知会员服务

0+阅读 · 今天12:10

BES：让语言模型通过双向进化搜索自我改进

BES：让语言模型通过双向进化搜索自我改进

专知会员服务

3+阅读 · 5月30日

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

专知会员服务

4+阅读 · 5月30日

以色列-美国-伊朗战争中的无人机：关键要点

以色列-美国-伊朗战争中的无人机：关键要点

专知会员服务

4+阅读 · 5月30日

美以伊战争：首次人工智能战争——军事自主性困境

美以伊战争：首次人工智能战争——军事自主性困境

专知会员服务

5+阅读 · 5月30日

《Palantir任务保障性软件安全标准（MA-S2）》

《Palantir任务保障性软件安全标准（MA-S2）》

专知会员服务

14+阅读 · 5月30日

《美海军利用扩展现实增强知识流动研究》300页报告

《美海军利用扩展现实增强知识流动研究》300页报告

专知会员服务

7+阅读 · 5月30日

基于声学的无人机检测技术综述

基于声学的无人机检测技术综述

专知会员服务

8+阅读 · 5月30日

《当代混合战争分析框架：俄乌战争经验教训》

《当代混合战争分析框架：俄乌战争经验教训》

专知会员服务

8+阅读 · 5月30日

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

专知会员服务

11+阅读 · 5月29日

AutoScientists：自组织智能体团队驱动长期科学实验

AutoScientists：自组织智能体团队驱动长期科学实验

专知会员服务

6+阅读 · 5月29日

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

专知会员服务

6+阅读 · 5月29日

战略前沿人工智能的再思考（中文）

战略前沿人工智能的再思考（中文）

专知会员服务

8+阅读 · 5月29日

《量化地基防空系统间接效应的博弈论方法》

《量化地基防空系统间接效应的博弈论方法》

专知会员服务

6+阅读 · 5月29日

相关VIP内容

《大型语言模型能否有效生成基于博弈论的网络安全场景？》

《大型语言模型能否有效生成基于博弈论的网络安全场景？》

专知会员服务

16+阅读 · 2025年8月22日

如何对齐？北大最新271页ICML2025教程《语言模型的对齐方法：一种机器学习视角》

如何对齐？北大最新271页ICML2025教程《语言模型的对齐方法：一种机器学习视角》

专知会员服务

47+阅读 · 2025年7月16日

【ICML2025】大语言模型的有限理性：推理时的“满意化”对齐策略

【ICML2025】大语言模型的有限理性：推理时的“满意化”对齐策略

专知会员服务

11+阅读 · 2025年6月1日

博弈论与大语言模型的结合：系统性综述

博弈论与大语言模型的结合：系统性综述

专知会员服务

60+阅读 · 2025年2月14日

迈向大语言模型偏好学习的统一视角综述

迈向大语言模型偏好学习的统一视角综述

专知会员服务

24+阅读 · 2024年9月7日

大语言模型对齐研究综述

大语言模型对齐研究综述

专知会员服务

56+阅读 · 2024年8月1日

多模态对齐如何做？国防科大等最新《如何弥合模态间的差距：多模态大型语言模型》综述四大类型多模态对齐方法

多模态对齐如何做？国防科大等最新《如何弥合模态间的差距：多模态大型语言模型》综述四大类型多模态对齐方法

专知会员服务

74+阅读 · 2023年11月18日

大型语言模型对齐

大型语言模型对齐

专知会员服务

120+阅读 · 2023年9月27日

【CMU博士论文】不完全信息博弈中的博弈决策学习动力学、均衡计算和复杂性，358页pdf

【CMU博士论文】不完全信息博弈中的博弈决策学习动力学、均衡计算和复杂性，358页pdf

专知会员服务

64+阅读 · 2023年6月16日

AAAI 2021 | 稀疏胜负多智能体博弈中的纳什均衡解计算

专知会员服务

41+阅读 · 2021年2月12日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 推理时控制：可信大语言模型的运行时治理全景

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

KDD 2026 | MixRAGRec：面向LLM推荐的混合专家KG-RAG框架

BES：让语言模型通过双向进化搜索自我改进

相关资讯

【博士论文】《安全博弈中的分层规划：战略、战术和行动决策的博弈论方法》南加州大学

【博士论文】《安全博弈中的分层规划：战略、战术和行动决策的博弈论方法》南加州大学

专知

24+阅读 · 2022年9月25日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

绝对干货！NLP预训练模型：从transformer到albert

绝对干货！NLP预训练模型：从transformer到albert

新智元

13+阅读 · 2019年11月10日

NAACL 2019最佳论文：量子概率驱动的神经网络

NAACL 2019最佳论文：量子概率驱动的神经网络

PaperWeekly

14+阅读 · 2019年6月10日

【NAACL-HLT2019】自然语言处理的深度对抗学习方法-附104页教程Slides

【NAACL-HLT2019】自然语言处理的深度对抗学习方法-附104页教程Slides

专知

17+阅读 · 2019年6月3日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

NLP不同任务Tensorflow深度学习模型大全

NLP不同任务Tensorflow深度学习模型大全

专知

10+阅读 · 2019年3月19日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

NLP通用模型诞生？一个模型搞定十大自然语言常见任务

NLP通用模型诞生？一个模型搞定十大自然语言常见任务

人工智能头条

10+阅读 · 2018年6月29日

【论文推荐】最新六篇主题模型相关论文—收敛率、大规模、深度主题建模、优化、情绪强度、广义动态主题模型

【论文推荐】最新六篇主题模型相关论文—收敛率、大规模、深度主题建模、优化、情绪强度、广义动态主题模型

专知

11+阅读 · 2018年3月29日

相关论文

Asymmetric Nash Seeking via Best Response Maps: Global Linear Convergence and Robustness to Inexact Reaction Models

Asymmetric Nash Seeking via Best Response Maps: Global Linear Convergence and Robustness to Inexact Reaction Models

Arxiv

0+阅读 · 3月17日

Learning generalized Nash equilibria from pairwise preferences

Arxiv

0+阅读 · 3月17日

Are Dilemmas and Conflicts in LLM Alignment Solvable? A View from Priority Graph

Are Dilemmas and Conflicts in LLM Alignment Solvable? A View from Priority Graph

Arxiv

0+阅读 · 3月16日

Branch-and-Cut for Mixed-Integer Nash Equilibrium Problems

Arxiv

0+阅读 · 3月4日

LLMs as Strategic Actors: Behavioral Alignment, Risk Calibration, and Argumentation Framing in Geopolitical Simulations

Arxiv

1+阅读 · 3月2日

Towards Aligning Multimodal LLMs with Human Experts: A Focus on Parent-Child Interaction

Arxiv

0+阅读 · 3月2日

Socially-Weighted Alignment: A Game-Theoretic Framework for Multi-Agent LLM Systems

Arxiv

0+阅读 · 2月16日

Discovering Differences in Strategic Behavior Between Humans and LLMs

Arxiv

0+阅读 · 2月10日

Beyond Pairwise: Empowering LLM Alignment With Ranked Choice Modeling

Arxiv

0+阅读 · 2月10日

Nash Equilibria in Games with Playerwise Concave Coupling Constraints: Existence and Computation

Arxiv

0+阅读 · 2月6日

相关基金

复杂动态网络上演化博弈的群体策略选择和干预机制研究

国家自然科学基金

5+阅读 · 2015年12月31日

经济学中均衡的计算及其在排序机制中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

主被动视角联合的细粒度行为识别

国家自然科学基金

1+阅读 · 2015年12月31日

随机广义纳什均衡问题的研究及应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

面向大数据的群体偏好决策分析研究

国家自然科学基金

6+阅读 · 2014年12月31日

高维数据下的模型平均方法

国家自然科学基金

6+阅读 · 2014年12月31日

若干广义Nash均衡问题的非线性分析方法和应用

国家自然科学基金

0+阅读 · 2014年12月31日

算法博弈论视角下的策略替代型网络博弈

国家自然科学基金

4+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员