The agency expected of Agentic Large Language Models goes beyond answering correctly, requiring autonomy to set goals and decide what to explore. We term this investigatory intelligence, distinguishing it from executional intelligence, which merely completes assigned tasks. Data Science provides a natural testbed, as real-world analysis starts from raw data rather than explicit queries, yet few benchmarks focus on it. To address this, we introduce Deep Data Research (DDR), an open-ended task where LLMs autonomously extract key insights from databases, and DDR-Bench, a large-scale, checklist-based benchmark that enables verifiable evaluation. Results show that while frontier models display emerging agency, long-horizon exploration remains challenging. Our analysis highlights that effective investigatory intelligence depends not only on agent scaffolding or merely scaling, but also on intrinsic strategies of agentic models.


翻译:智能体化大型语言模型所应具备的能动性不仅要求正确回答问题,更需要自主设定目标并决策探索方向。我们将这种能力称为调查性智能,以区别于仅完成预设任务的执行性智能。数据科学为此提供了天然试验场,因为现实世界的数据分析始于原始数据而非明确查询,但现有基准测试鲜少关注这一维度。为此,我们提出深度数据研究——一项让大型语言模型从数据库中自主提取关键洞见的开放式任务,并构建了DDR-Bench这一基于核查清单的大规模可验证评估基准。实验结果表明,尽管前沿模型展现出初步的能动性,但长周期探索仍具挑战。我们的分析进一步揭示:有效的调查性智能不仅依赖于智能体框架构建或单纯规模扩展,更取决于智能体化模型的内在策略。

0
下载
关闭预览

相关内容

《多智能体大语言模型系统的可靠决策研究》
专知会员服务
31+阅读 · 2月2日
评估大语言模型在科学发现中的作用
专知会员服务
19+阅读 · 2025年12月19日
数据驱动的具身学习探索
专知会员服务
16+阅读 · 2025年2月26日
大语言模型评估技术研究进展
专知会员服务
48+阅读 · 2024年7月9日
大语言模型视角下的智能规划方法综述
专知会员服务
136+阅读 · 2024年4月20日
「知识增强预训练语言模型」最新研究综述
专知
18+阅读 · 2022年11月18日
浅谈主动学习(Active Learning)
凡人机器学习
32+阅读 · 2020年6月18日
展望:模型驱动的深度学习
人工智能学家
12+阅读 · 2018年1月23日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
25+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
25+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员