Game-theoretic interactions between agents with Large Language Models (LLMs) have revealed many emergent capabilities, yet the linguistic diversity of these interactions has not been sufficiently quantified. In this paper, we present the Conversational Robustness Evaluation Score: CORE, a metric to quantify the effectiveness of language use within multi-agent systems across different game-theoretic interactions. CORE integrates measures of cluster entropy, lexical repetition, and semantic similarity, providing a direct lens of dialog quality. We apply CORE to pairwise LLM dialogs across competitive, cooperative, and neutral settings, further grounding our analysis in Zipf's and Heaps' Laws to characterize word frequency distributions and vocabulary growth. Our findings show that cooperative settings exhibit both steeper Zipf distributions and higher Heap exponents, indicating more repetition alongside greater vocabulary expansion. In contrast, competitive interactions display lower Zipf and Heaps exponents, reflecting less repetition and more constrained vocabularies. These results provide new insights into how social incentives influence language adaptation, and highlight CORE as a robust diagnostic for measuring linguistic robustness in multi-agent LLM systems. Our code is available at https://github.com/psyonp/core.


翻译:大语言模型(LLM)智能体间的博弈论交互已展现出诸多涌现能力,但这些交互的语言多样性尚未得到充分量化。本文提出对话鲁棒性评估分数:CORE,该指标用于量化多智能体系统在不同博弈论交互中语言使用的有效性。CORE综合了聚类熵、词汇重复率和语义相似度的度量,为对话质量提供了直接观测视角。我们将CORE应用于竞争性、合作性与中性场景下的成对LLM对话,并进一步基于齐普夫定律与赫普斯定律分析词频分布与词汇增长特征。研究发现:合作性场景同时呈现更陡峭的齐普夫分布与更高的赫普斯指数,表明其在词汇扩展过程中伴随更多重复;而竞争性交互则显示较低的齐普夫指数与赫普斯指数,反映出更少的重复与更受限的词汇使用。这些结果为社会激励如何影响语言适应提供了新见解,并证明CORE可作为衡量多智能体LLM系统语言鲁棒性的有效诊断工具。代码已开源:https://github.com/psyonp/core。

0
下载
关闭预览

相关内容

大语言模型智能体的评估与基准:综述
专知会员服务
50+阅读 · 2025年7月31日
基于大语言模型的智能体优化研究综述
专知会员服务
64+阅读 · 2025年3月25日
《以人为中心的大型语言模型(LLM)研究综述》
专知会员服务
41+阅读 · 2024年11月25日
面向多智能体博弈对抗的对手建模框架
专知
18+阅读 · 2022年9月28日
干货篇|百度UNIT对话系统核心技术解析
InfoQ
23+阅读 · 2018年9月20日
多轮对话之对话管理:Dialog Management
PaperWeekly
18+阅读 · 2018年1月15日
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
VIP会员
最新内容
综述 | OPSD:大语言模型的在线策略自蒸馏
专知会员服务
3+阅读 · 6月1日
帕兰蒂尔Maven:军事人工智能的新纪元
专知会员服务
7+阅读 · 6月1日
超越网格:作战环境对炮兵的影响
专知会员服务
3+阅读 · 5月31日
BES:让语言模型通过双向进化搜索自我改进
专知会员服务
6+阅读 · 5月30日
以色列-美国-伊朗战争中的无人机:关键要点
专知会员服务
7+阅读 · 5月30日
相关基金
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员