Advancements in Large Language Model (LLM) Role-Playing Agents have focused on various construction methodologies, yet it remains unclear which aspects of character profiles genuinely drive role-playing quality. To bridge this gap, we introduce a systematic diagnostic framework that disentangles the impact of character profiles along three axes: Familiarity (Known vs. Unknown), Structure (Structured vs. Unstructured), and Disposition (Moral vs. Immoral). To investigate these axes, we design a unified hierarchical schema (5 dimensions, 28 fields) standardizing character attributes and construct a controlled dataset of 211 personas varying along these three axes. We evaluate five LLMs on single and multi-turn benchmarks. Our results reveal a striking asymmetry: Familiarity and Structure show negligible impact, while Valence produces large, consistent performance degradation for immoral characters across all conditions. This performance drop concentrates in motivation-related attributes, indicating that alignment priors actively suppress tokens needed for faithful immoral portrayal. To mitigate this alignment-induced bottleneck, we propose Field-Aware Contrastive Decoding (FACD), a training-free strategy that selectively amplizes suppressed immoral-field signals, significantly reducing the Moral-Immoral performance gap without sacrificing moral-character performance.


翻译:大语言模型角色扮演智能体的研究进展集中在各类构建方法上,但角色特征中哪些维度真正影响角色扮演质量仍不明确。为填补这一空白,我们提出一个系统化的诊断框架,沿三个特征轴解耦角色特征的影响:熟悉度(已知 vs. 未知)、结构(结构化 vs. 非结构化)和倾向性(道德 vs. 不道德)。为研究这些轴,我们设计了一个统一的分层模式(5个维度、28个字段)以标准化角色属性,并构建了一个沿这三个轴变化的211个角色的受控数据集。我们在单轮和多轮基准上评估了五个大语言模型。结果揭示了显著的不对称性:熟悉度和结构影响可忽略不计,而倾向性中不道德角色在所有条件下均导致一致且显著的性能下降。这种性能下降集中在动机相关属性上,表明对齐先验主动抑制了忠实刻画不道德角色所需的词元。为缓解这种对齐导致的瓶颈,我们提出字段感知对比解码(FACD),一种无需训练的策略,通过选择性放大被抑制的不道德角色字段信号,在不牺牲道德角色性能的前提下显著缩小道德-不道德角色间的性能差距。

0
下载
关闭预览

相关内容

智能体评判者(Agent-as-a-Judge)研究综述
专知会员服务
37+阅读 · 1月9日
AI 智能体系统:体系架构、应用场景及评估范式
《基于Transformer的智能体的战术决策解释》
专知会员服务
49+阅读 · 2025年12月28日
AgentOps综述:分类、挑战与未来方向
专知会员服务
40+阅读 · 2025年8月6日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
深度学习模型可解释性的研究进展
专知
26+阅读 · 2020年8月1日
特征工程的特征理解(一)
机器学习研究会
10+阅读 · 2017年10月23日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
Arxiv
14+阅读 · 2023年8月7日
VIP会员
相关主题
最新内容
重新思考无人机时代的生存能力
专知会员服务
3+阅读 · 今天7:44
装甲突击旅:现代战争思考、战斗与组织
专知会员服务
3+阅读 · 今天7:28
在人工智能加速决策环境中拓展OODA循环
专知会员服务
4+阅读 · 今天7:18
军事欺骗:供作战战术指挥官使用的工具
专知会员服务
4+阅读 · 今天7:03
综述 | 世界动作模型:少做梦,多行动
专知会员服务
5+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
10+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
5+阅读 · 6月23日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员