Standard LLM benchmarks evaluate the assistant turn: the model generates a response to an input, a verifier scores correctness, and the analysis ends. This paradigm leaves unmeasured whether the LLM encodes any awareness of what follows the assistant response. We propose user-turn generation as a probe of this gap: given a conversation context of user query and assistant response, we let a model generate under the user role. If the model's weights encode interaction awareness, the generated user turn will be a grounded follow-up that reacts to the preceding context. Through experiments across $11$ open-weight LLMs (Qwen3.5, gpt-oss, GLM) and $5$ datasets (math reasoning, instruction following, conversation), we show that interaction awareness is decoupled from task accuracy. In particular, within the Qwen3.5 family, GSM8K accuracy scales from $41\%$ ($0.8$B) to $96.8\%$ ($397$B-A$17$B), yet genuine follow-up rates under deterministic generation remain near zero. In contrast, higher temperature sampling reveals interaction awareness is latent with follow up rates reaching $22\%$. Controlled perturbations validate that the proposed probe measures a real property of the model, and collaboration-oriented post-training on Qwen3.5-2B demonstrates an increase in follow-up rates. Our results show that user-turn generation captures a dimension of LLM behavior, interaction awareness, that is unexplored and invisible with current assistant-only benchmarks.


翻译:标准的大语言模型基准测试评估的是“助手轮次”:模型根据输入生成响应,验证器对正确性进行评分,分析就此终结。这一范式未能衡量大语言模型是否编码了对助手响应之后内容的任何意识。我们提出“用户轮次生成”作为这一缺口的探针:给定一段包含用户查询和助手响应的对话上下文,让模型以用户角色进行生成。若模型权重编码了交互意识,生成的用户轮次将是对前文做出反应、有依据的后续内容。通过对11个开源大语言模型(如Qwen3.5、gpt-oss、GLM)和5个数据集(涵盖数学推理、指令遵循、对话)的实验,我们证明交互意识与任务准确性是解耦的。特别地,在Qwen3.5系列中,GSM8K准确率从41%(0.8B参数)提升到96.8%(397B-A17B参数),但在确定性生成下真正的后续比例仍接近零。相反,更高的温度采样揭示了交互意识是潜伏的,后续比例可达22%。受控扰动验证了所提探针测量的是模型的一种真实属性,而针对Qwen3.5-2B的协作导向后训练则展示了后续比例的增加。我们的结果表明,用户轮次生成捕捉了大语言模型行为的一个维度——交互意识,这是当前仅依赖助手轮次的基准测试所未探索且不可见的。

0
下载
关闭预览

相关内容

【伯克利博士论文】协同语言智能体
专知会员服务
21+阅读 · 1月10日
大型语言模型对齐技术综述:RLHF、RLAIF、PPO、DPO 等
专知会员服务
55+阅读 · 2024年7月24日
【斯坦福博士论文】在语言模型融合多模态知识,225页pdf
RecInterpreter:架起大语言模型与传统推荐模型的桥梁
专知会员服务
54+阅读 · 2023年11月9日
大语言模型的前世、今生与未来
专知会员服务
111+阅读 · 2023年9月8日
【深度语义匹配模型】原理篇二:交互篇
AINLP
16+阅读 · 2020年5月18日
绝对干货!NLP预训练模型:从transformer到albert
新智元
13+阅读 · 2019年11月10日
深入理解BERT Transformer ,不仅仅是注意力机制
大数据文摘
22+阅读 · 2019年3月19日
NLP通用模型诞生?一个模型搞定十大自然语言常见任务
人工智能头条
10+阅读 · 2018年6月29日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
最新内容
俄罗斯无人机战线实验
专知会员服务
5+阅读 · 今天3:29
高阶网络的表示:基于图的框架综述
专知会员服务
8+阅读 · 5月14日
《作战资源再分配的作战行动数学模型构建》
专知会员服务
13+阅读 · 5月14日
世界动作模型: 具身AI的下一个前沿
专知会员服务
15+阅读 · 5月13日
全球十大防空反导系统:列表、射程与用途
专知会员服务
16+阅读 · 5月13日
相关基金
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员