Conversational AI has now reached billions of users, yet existing datasets capture only what people say, not what they think. We introduce ThoughtTrace, the first large-scale dataset that pairs real-world multi-turn human--AI conversations with users' self-reported thoughts: their reasons for sending prompts and reactions to assistant responses. ThoughtTrace comprises 1,058 users, 2,155 conversations, 17,058 turns, and 10,174 thought annotations collected across 20 language models. Our analysis shows that ThoughtTrace captures long-horizon, topically diverse interactions, and that thoughts are semantically distinct from messages, difficult for frontier LLMs to infer from context, diverse in content, and tied to conversation stages. We further demonstrate the utility of thoughts for downstream modeling. First, thoughts improve user-behavior prediction as inference-time context. Second, thought-guided rewrites provide fine-grained alignment signals for training personalized assistants. Together, ThoughtTrace establishes user thoughts as a new data modality for studying the cognitive dynamics behind human--AI interaction and provides a foundation for building assistants that better understand and adapt to users' latent goals, preferences, and needs.


翻译:对话式人工智能现已服务数十亿用户,然而现有数据集仅捕捉人们所言,而非所思。我们提出思考轨迹,这是首个将真实世界多轮人机对话与用户自述思维(包括发送提示的动机及对助手回复的反应)相结合的大规模数据集。该数据集包含来自20种语言模型的1058名用户、2155段对话、17058轮交互及10174条思维标注。分析表明,思考轨迹捕捉到长期且主题多样的交互,用户思维在语义上与消息内容显著不同,前沿大语言模型难以从上下文中推断其含义,且思维内容多样性与对话阶段紧密相关。我们进一步论证了思维对下游建模的实用价值:首先,思维作为推理过程中的上下文能提升用户行为预测效果;其次,思维引导的文本改写可为训练个性化助手提供细粒度对齐信号。综上,思考轨迹将用户思维确立为研究人机交互背后认知动态的新数据模态,并为构建能更好理解并适应用户潜在目标、偏好及需求的智能助手奠定基础。

0
下载
关闭预览

相关内容

【综述】 基于大语言模型的对话用户模拟综述
LLMS4ALL:大语言模型在各学科科研与应用中的综述
专知会员服务
36+阅读 · 2025年10月4日
《以人为中心的大型语言模型(LLM)研究综述》
专知会员服务
41+阅读 · 2024年11月25日
NLP实践:对话系统技术原理和应用
AI100
34+阅读 · 2019年3月20日
知识在检索式对话系统的应用
微信AI
32+阅读 · 2018年9月20日
Representation Learning on Network 网络表示学习
全球人工智能
10+阅读 · 2017年10月19日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
6+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关基金
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员