Token Statistics Reveal Conversational Drift in Multi-turn LLM Interaction - 专知论文

会员服务 ·

0

交互 · 一致 · 令牌 · 结构 · 语言模型 ·

Token Statistics Reveal Conversational Drift in Multi-turn LLM Interaction

翻译：Token Statistics Reveal Conversational Drift in Multi-turn LLM Interaction

Wael Hafez,Amir Nazeri

from arxiv, 13 Pages, 3 Figures

Large language models, LLMs, are increasingly deployed in multiturn settings where earlier responses shape later ones, making reliability dependent on whether a conversation remains consistent over time. When this consistency degrades undetected, downstream decisions lose their grounding in the exchange that produced them. Yet current evaluation methods assess isolated outputs rather than the interaction producing them. Here we show that conversational structural consistency can be monitored directly from token frequency statistics, without embeddings, auxiliary evaluators or access to model internals. We formalize this signal as Bipredictability, P, which measures shared predictability across the context, response, next prompt loop relative to the turn total uncertainty, and implement it in a lightweight auxiliary architecture, the Information Digital Twin, IDT. Across 4,574 conversational turns spanning 34 conditions, one student model and three frontier teacher models, P established a stable runtime baseline, aligned with structural consistency in 85 percent of conditions but with semantic quality in only 44 percent, and the IDT detected all tested contradictions, topic shifts and non-sequiturs with 100 percent sensitivity. These results show that reliability in extended LLM interaction cannot be reduced to response quality alone, and that structural monitoring from the observable token stream can complement semantic evaluation in deployment.

翻译：论文标题：令牌统计揭示多轮大语言模型交互中的对话漂移摘要：大语言模型（LLMs）日益部署于多轮交互场景中，其中先前的响应会影响后续响应，因此对话能否在时间上保持一致直接决定其可靠性。当这种一致性未被察觉地退化时，下游决策将失去产生这些决策的对话基础。然而，当前评估方法仅关注孤立输出，而非产生输出的交互过程。本研究证明，对话结构一致性可直接通过令牌频率统计进行监测，无需嵌入、辅助评估器或访问模型内部参数。我们将这一信号形式化为“双向可预测性”（Bipredictability, P），该指标测量上下文、响应及下一轮提示这一循环中共享的可预测性相对于轮次总不确定性的比例，并基于轻量级辅助架构“信息数字孪生”（Information Digital Twin, IDT）实现。在涵盖34种条件的4,574个对话轮次中，基于一个学生模型与三个前沿教师模型，P建立了稳定的运行时基线：在85%的条件下与结构一致性对齐，但仅44%的条件下与语义质量对齐。同时，IDT以100%的灵敏度检测出所有测试中的矛盾、话题偏移及逻辑断裂。这些结果表明，扩展大语言模型交互的可靠性不能仅归结为响应质量，且基于可观测令牌流的结构监测可在部署中补充语义评估。

0

相关内容

【ICML2025】大语言模型的有限理性：推理时的“满意化”对齐策略

【ICML2025】大语言模型的有限理性：推理时的“满意化”对齐策略

专知会员服务

11+阅读 · 2025年6月1日

TransMLA：多头潜在注意力（MLA）即为所需

TransMLA：多头潜在注意力（MLA）即为所需

专知会员服务

23+阅读 · 2025年2月13日

面向多模态智能的下一个Token预测：综述

面向多模态智能的下一个Token预测：综述

专知会员服务

26+阅读 · 2024年12月30日

大型语言模型对齐技术综述：RLHF、RLAIF、PPO、DPO 等

大型语言模型对齐技术综述：RLHF、RLAIF、PPO、DPO 等

专知会员服务

55+阅读 · 2024年7月24日

LLM4Science怎么做？UIUC等最新《科学大型语言模型及其在科学发现中的应用》综述

LLM4Science怎么做？UIUC等最新《科学大型语言模型及其在科学发现中的应用》综述

专知会员服务

35+阅读 · 2024年6月23日

基于LLM的多轮对话系统的最新进展综述

基于LLM的多轮对话系统的最新进展综述

专知会员服务

58+阅读 · 2024年3月7日

《多模态大型语言模型》最新进展，详述26种现有MM-LLMs

《多模态大型语言模型》最新进展，详述26种现有MM-LLMs

专知会员服务

65+阅读 · 2024年1月25日

大模型如何重塑推荐？香港理工大学等《大型语言模型（LLMs）时代的推荐系统》综述论文，全面阐述LLM+RS技术体系

大模型如何重塑推荐？香港理工大学等《大型语言模型（LLMs）时代的推荐系统》综述论文，全面阐述LLM+RS技术体系

专知会员服务

74+阅读 · 2023年9月3日

大模型如何重塑推荐？中科大等最新《面向推荐的大型语言模型》综述，全面阐述LLM4Rec进展

大模型如何重塑推荐？中科大等最新《面向推荐的大型语言模型》综述，全面阐述LLM4Rec进展

专知会员服务

93+阅读 · 2023年6月1日

大模型如何可信安全？利物浦大学最新《从验证和确认的角度综述大型语言模型的安全性和可信性》综述，全面阐述LLM安全性

大模型如何可信安全？利物浦大学最新《从验证和确认的角度综述大型语言模型的安全性和可信性》综述，全面阐述LLM安全性

专知会员服务

66+阅读 · 2023年5月30日

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

【AAAI2020论文】多轮对话系统中的历史自适应知识融合机制, 中科院信工所孙雅静等

【AAAI2020论文】多轮对话系统中的历史自适应知识融合机制, 中科院信工所孙雅静等

专知

30+阅读 · 2019年11月24日

绝对干货！NLP预训练模型：从transformer到albert

绝对干货！NLP预训练模型：从transformer到albert

新智元

13+阅读 · 2019年11月10日

博客 | 一文看懂任务型对话中的对话策略学习（DPL）

博客 | 一文看懂任务型对话中的对话策略学习（DPL）

AI研习社

10+阅读 · 2019年4月22日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

专知

15+阅读 · 2018年6月11日

【干货】一文读懂智能对话系统，当前研究综述和未来趋势

【干货】一文读懂智能对话系统，当前研究综述和未来趋势

新智元

13+阅读 · 2018年1月23日

多轮对话之对话管理：Dialog Management

多轮对话之对话管理：Dialog Management

PaperWeekly

18+阅读 · 2018年1月15日

基于盲双迭代策略的高可靠变速移动水声多用户通信理论和方法

国家自然科学基金

0+阅读 · 2017年12月31日

通信约束下间歇量测的多自主体系统趋同控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于反馈型级联连接模型的多模态语义SFM方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

随机环境下多个体系统集体行为分析、调控与优化

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

面向交互式问答的省略恢复技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

事件触发机制下随机多智能体系统的有限时间一致性研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于多场信息数据驱动的滑坡演化多模式切换概率预测和控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

考虑共谋行为的多属性采购拍卖理论与优化方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

Game-Theoretic Multi-Agent Control for Robust Contextual Reasoning in LLMs

Arxiv

0+阅读 · 6月12日

Beyond tokens: a unified framework for latent communication in LLM-based multi-agent systems

Arxiv

0+阅读 · 6月5日

Mixture-of-Experts Knowledge Graph Retrieval-Augmented Generation for Multi-Agent LLM-based Recommendation

Arxiv

0+阅读 · 5月29日

Dynamic Mixed-Precision Routing for Efficient Multi-step LLM Interaction

Arxiv

0+阅读 · 5月14日

Mitigating Lost in Multi-turn Conversation via Curriculum RL with Verifiable Accuracy and Abstention Rewards

Arxiv

0+阅读 · 4月23日

Multi-LLM Token Filtering and Routing for Sequential Recommendation

Arxiv

0+阅读 · 4月20日

Toward Consistent World Models with Multi-Token Prediction and Latent Semantic Enhancement

Arxiv

0+阅读 · 4月7日

Not All Tokens Matter: Towards Efficient LLM Reasoning via Token Significance in Reinforcement Learning

Arxiv

0+阅读 · 4月6日

DRIFT: Dynamic Rule-Based Defense with Injection Isolation for Securing LLM Agents

Arxiv

0+阅读 · 3月26日

Not All Tokens Are Created Equal: Query-Efficient Jailbreak Fuzzing for LLMs

Arxiv

0+阅读 · 3月24日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

3+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

4+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

5+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

4+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

4+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

4+阅读 · 6月22日

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

7+阅读 · 6月21日

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

5+阅读 · 6月21日

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

8+阅读 · 6月21日

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

21+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

5+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

8+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

7+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

9+阅读 · 6月18日

相关VIP内容

【ICML2025】大语言模型的有限理性：推理时的“满意化”对齐策略

【ICML2025】大语言模型的有限理性：推理时的“满意化”对齐策略

专知会员服务

11+阅读 · 2025年6月1日

TransMLA：多头潜在注意力（MLA）即为所需

TransMLA：多头潜在注意力（MLA）即为所需

专知会员服务

23+阅读 · 2025年2月13日

面向多模态智能的下一个Token预测：综述

面向多模态智能的下一个Token预测：综述

专知会员服务

26+阅读 · 2024年12月30日

大型语言模型对齐技术综述：RLHF、RLAIF、PPO、DPO 等

大型语言模型对齐技术综述：RLHF、RLAIF、PPO、DPO 等

专知会员服务

55+阅读 · 2024年7月24日

LLM4Science怎么做？UIUC等最新《科学大型语言模型及其在科学发现中的应用》综述

LLM4Science怎么做？UIUC等最新《科学大型语言模型及其在科学发现中的应用》综述

专知会员服务

35+阅读 · 2024年6月23日

基于LLM的多轮对话系统的最新进展综述

基于LLM的多轮对话系统的最新进展综述

专知会员服务

58+阅读 · 2024年3月7日

《多模态大型语言模型》最新进展，详述26种现有MM-LLMs

《多模态大型语言模型》最新进展，详述26种现有MM-LLMs

专知会员服务

65+阅读 · 2024年1月25日

大模型如何重塑推荐？香港理工大学等《大型语言模型（LLMs）时代的推荐系统》综述论文，全面阐述LLM+RS技术体系

大模型如何重塑推荐？香港理工大学等《大型语言模型（LLMs）时代的推荐系统》综述论文，全面阐述LLM+RS技术体系

专知会员服务

74+阅读 · 2023年9月3日

大模型如何重塑推荐？中科大等最新《面向推荐的大型语言模型》综述，全面阐述LLM4Rec进展

大模型如何重塑推荐？中科大等最新《面向推荐的大型语言模型》综述，全面阐述LLM4Rec进展

专知会员服务

93+阅读 · 2023年6月1日

大模型如何可信安全？利物浦大学最新《从验证和确认的角度综述大型语言模型的安全性和可信性》综述，全面阐述LLM安全性

大模型如何可信安全？利物浦大学最新《从验证和确认的角度综述大型语言模型的安全性和可信性》综述，全面阐述LLM安全性

专知会员服务

66+阅读 · 2023年5月30日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 3D场景图：开放挑战与未来方向

21世纪的无人机战争

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

相关资讯

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

【AAAI2020论文】多轮对话系统中的历史自适应知识融合机制, 中科院信工所孙雅静等

【AAAI2020论文】多轮对话系统中的历史自适应知识融合机制, 中科院信工所孙雅静等

专知

30+阅读 · 2019年11月24日

绝对干货！NLP预训练模型：从transformer到albert

绝对干货！NLP预训练模型：从transformer到albert

新智元

13+阅读 · 2019年11月10日

博客 | 一文看懂任务型对话中的对话策略学习（DPL）

博客 | 一文看懂任务型对话中的对话策略学习（DPL）

AI研习社

10+阅读 · 2019年4月22日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

专知

15+阅读 · 2018年6月11日

【干货】一文读懂智能对话系统，当前研究综述和未来趋势

【干货】一文读懂智能对话系统，当前研究综述和未来趋势

新智元

13+阅读 · 2018年1月23日

多轮对话之对话管理：Dialog Management

多轮对话之对话管理：Dialog Management

PaperWeekly

18+阅读 · 2018年1月15日

相关论文

Game-Theoretic Multi-Agent Control for Robust Contextual Reasoning in LLMs

Arxiv

0+阅读 · 6月12日

Beyond tokens: a unified framework for latent communication in LLM-based multi-agent systems

Arxiv

0+阅读 · 6月5日

Mixture-of-Experts Knowledge Graph Retrieval-Augmented Generation for Multi-Agent LLM-based Recommendation

Arxiv

0+阅读 · 5月29日

Dynamic Mixed-Precision Routing for Efficient Multi-step LLM Interaction

Arxiv

0+阅读 · 5月14日

Mitigating Lost in Multi-turn Conversation via Curriculum RL with Verifiable Accuracy and Abstention Rewards

Arxiv

0+阅读 · 4月23日

Multi-LLM Token Filtering and Routing for Sequential Recommendation

Arxiv

0+阅读 · 4月20日

Toward Consistent World Models with Multi-Token Prediction and Latent Semantic Enhancement

Arxiv

0+阅读 · 4月7日

Not All Tokens Matter: Towards Efficient LLM Reasoning via Token Significance in Reinforcement Learning

Arxiv

0+阅读 · 4月6日

DRIFT: Dynamic Rule-Based Defense with Injection Isolation for Securing LLM Agents

Arxiv

0+阅读 · 3月26日

Not All Tokens Are Created Equal: Query-Efficient Jailbreak Fuzzing for LLMs

Arxiv

0+阅读 · 3月24日

相关基金

基于盲双迭代策略的高可靠变速移动水声多用户通信理论和方法

国家自然科学基金

0+阅读 · 2017年12月31日

通信约束下间歇量测的多自主体系统趋同控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于反馈型级联连接模型的多模态语义SFM方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

随机环境下多个体系统集体行为分析、调控与优化

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

面向交互式问答的省略恢复技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

事件触发机制下随机多智能体系统的有限时间一致性研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于多场信息数据驱动的滑坡演化多模式切换概率预测和控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

考虑共谋行为的多属性采购拍卖理论与优化方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员