Large language models (LLMs) increasingly mediate high-stakes interactions in finance, medicine, and mental-health support, yet users have limited control over how these systems communicate. We frame interaction style as a governance object: provider-side alignment not only blocks harmful content, but also stabilizes communicative defaults that shape users' epistemic distance, relational expectations, and capacity to opt out of emotionalized or anthropomorphic interaction. We introduce a deterministic multi-agent evaluation pipeline for measuring prompt steerability and style drift in long-horizon dialogue. The study replays 100 frozen user-only scripts across four domains and three runnable persona conditions: default, sarcastic, and cold, using three generator models, yielding 90,000 assistant replies scored by a human-calibrated LLM judge on harmfulness, negative emotion, inappropriateness, empathic language, anthropomorphism, and refusal behavior. A fourth harmful persona is evaluated separately as a safety-gating test. The paper contributes a reproducible method for quantifying whether prompt-specified styles remain stable over time and a governance framework distinguishing safety gating, civility steering, and affective default lock-in. Overall, we show that prompt steerability and regression-to-default are observable indicators of provider control over communicative form, with implications for pluralism, autonomy, and democratic agency in human-LLM interaction.


翻译:大型语言模型(LLM)日益介入金融、医疗和心理健康支持等高风险交互场景,但用户对这些系统的沟通方式控制有限。我们将交互风格界定为治理对象:提供方对齐机制不仅屏蔽有害内容,还固化了沟通默认设置——这种设置影响用户的认知距离、关系期望以及退出情感化或拟人化交互的能力。我们提出了一种确定性多智能体评估管线,用于测量长程对话中的提示可引导性和风格漂移。研究基于四个领域、三种可运行人格条件(默认模式、讽刺模式、冷漠模式),回放100个冻结用户脚本,使用三个生成模型,产出9万条助手回复。这些回复由经人类校准的LLM裁判在有害性、负面情绪、不当性、共情语言、拟人化和拒绝行为六个维度进行评分。第四种有害人格作为安全门控测试单独评估。本文贡献包括:可复现的量化方法(用于评估指定提示风格是否随时间保持稳定),以及区分安全门控、礼节引导和情感默认锁定的治理框架。总体而言,我们证明提示可引导性和回归默认倾向是可观察的指标,反映提供方对沟通形式的控制力,这对人机交互中的多元性、自主性和民主能动性具有深远启示。

0
下载
关闭预览

相关内容

基于大型语言模型的人机系统综述
专知会员服务
26+阅读 · 2025年5月12日
《以人为中心的大型语言模型(LLM)研究综述》
专知会员服务
41+阅读 · 2024年11月25日
迈向可信的人工智能:伦理和稳健的大型语言模型综述
专知会员服务
39+阅读 · 2024年7月28日
【深度语义匹配模型】原理篇二:交互篇
AINLP
16+阅读 · 2020年5月18日
解读!10篇人机交互领域高引论文合集
THU数据派
11+阅读 · 2019年11月14日
【论文笔记】基于强化学习的人机对话
专知
20+阅读 · 2019年9月21日
SMP 2019 第三届中文人机对话技术评测顺利落幕
哈工大SCIR
12+阅读 · 2019年8月19日
对话系统近期进展
专知
37+阅读 · 2019年3月23日
NLP实践:对话系统技术原理和应用
AI100
34+阅读 · 2019年3月20日
最新人机对话系统简略综述
专知
26+阅读 · 2018年3月10日
多轮对话之对话管理:Dialog Management
PaperWeekly
18+阅读 · 2018年1月15日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Arxiv
0+阅读 · 5月18日
VIP会员
最新内容
综述 | 世界动作模型:少做梦,多行动
专知会员服务
3+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
5+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
4+阅读 · 6月23日
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关VIP内容
基于大型语言模型的人机系统综述
专知会员服务
26+阅读 · 2025年5月12日
《以人为中心的大型语言模型(LLM)研究综述》
专知会员服务
41+阅读 · 2024年11月25日
迈向可信的人工智能:伦理和稳健的大型语言模型综述
专知会员服务
39+阅读 · 2024年7月28日
相关基金
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员