Idea2Story: An Automated Pipeline for Transforming Research Concepts into Complete Scientific Narratives

Tengyue Xu,Zhuoyang Qian,Gaoge Liu,Li Ling,Zhentao Zhang,Biao Wu,Shuo Zhang,Ke Lu,Wei Shi,Ziqi Wang,Zheng Feng,Yan Luo,Shu Xu,Yongjin Chen,Zhibo Feng,Zhuo Chen,Bruce Yuan,Harry Wang,Kris Chen

from arxiv, 11 pages, 3 figures

Autonomous scientific discovery with large language model (LLM)-based agents has recently made substantial progress, demonstrating the ability to automate end-to-end research workflows. However, existing systems largely rely on runtime-centric execution paradigms, repeatedly reading, summarizing, and reasoning over large volumes of scientific literature online. This on-the-spot computation strategy incurs high computational cost, suffers from context window limitations, and often leads to brittle reasoning and hallucination. We propose Idea2Story, a pre-computation-driven framework for autonomous scientific discovery that shifts literature understanding from online reasoning to offline knowledge construction. Idea2Story continuously collects peer-reviewed papers together with their review feedback, extracts core methodological units, composes reusable research patterns, and organizes them into a structured methodological knowledge graph. At runtime, underspecified user research intents are aligned to established research paradigms, enabling efficient retrieval and reuse of high-quality research patterns instead of open-ended generation and trial-and-error. By grounding research planning and execution in a pre-built knowledge graph, Idea2Story alleviates the context window bottleneck of LLMs and substantially reduces repeated runtime reasoning over literature. We conduct qualitative analyses and preliminary empirical studies demonstrating that Idea2Story can generate coherent, methodologically grounded, and novel research patterns, and can produce several high-quality research demonstrations in an end-to-end setting. These results suggest that offline knowledge construction provides a practical and scalable foundation for reliable autonomous scientific discovery.

翻译：基于大语言模型（LLM）的智能体在自主科学发现领域近期取得了显著进展，展现出自动化端到端研究流程的能力。然而，现有系统主要依赖以运行时为中心的执行范式，需要反复在线读取、总结和推理大量科学文献。这种即时计算策略计算成本高昂，受限于上下文窗口，且常导致脆弱的推理过程和幻觉现象。我们提出了Idea2Story——一种基于预计算驱动的自主科学发现框架，将文献理解从在线推理转变为离线知识构建。Idea2Story持续收集经过同行评审的论文及其审稿反馈，提取核心方法单元，组合可复用的研究模式，并将其组织成结构化的方法知识图谱。在运行时，用户未充分明确的研究意图将与既定的研究范式对齐，从而实现高质量研究模式的高效检索与复用，而非开放式生成和试错。通过将研究规划与执行建立在预构建的知识图谱之上，Idea2Story缓解了LLM的上下文窗口瓶颈，并大幅减少了对文献的重复运行时推理。我们进行了定性分析和初步实证研究，结果表明Idea2Story能够生成连贯、方法学基础扎实且新颖的研究模式，并能在端到端设置中产出多个高质量的研究演示。这些发现表明，离线知识构建为可靠、可扩展的自主科学发现提供了实用基础。

相关内容

粤港澳大湾区数字经济研究院

关注 1

粤港澳大湾区数字经济研究院是一家面向人工智能、数字经济产业和前沿科技的国际化创新型研究机构，坐落于深圳市深港科技创新合作区内。IDEA正与 MSR、Google Brain、DeepMind、OpenAI 等同行者一起推动人类 AI 技术前沿的发展。IDEA 的使命是立足社会需求，研发颠覆式创新技术并回馈社会，让更多的人从数字经济发展中获益。IDEA 秉承共享共赢共生的开源开放精神，积极营造自由而富有激情的创新工作环境，聚集全世界最聪慧的大脑一起创造人类社会最需要的价值。我们坚持科技擎天，产业立地，相信最好的研究从需求中来，到需求中去，最终惠及广大企业和受众。 IDEA 目前已聚集一批包括院士、世界著名大学教授、世界知名开源系统发明人在内的国际一流技术专家，致力于在 AI 基础技术与开源系统、人工智能金融科技、区块链技术与可信计算、企业级 AI 系统、产业智能物联网与智能机器人等领域研发国际顶尖成果，并培育一批国际领先科技企业，带动深圳乃至大湾区万亿级数字经济产业发展。 AIPT（AI 平台技术研究中心）致力于建设支撑人工智能算法、算力和数据的平台，通过具体项目的研发、实施和部署来推进 AI 技术的落地和产业化，团队成立以来，已发布 ReadPaper 论文阅读平台、BIOS 医疗知识图谱两款产品。AIPT 负责人-谢育涛曾任微软公司技术合伙人兼微软（中国）操作系统工程院院长。谢育涛在微软公司工作 20 余年，先后在微软美国总部的 Microsoft Office 产品组、必应团队、微软亚洲互联网工程院以及微软（中国）操作系统工程院、人工智能和云计算等多个研发部门担任重要职务。他在操作系统、搜索技术、人工智能、应用及服务领域拥有丰富的技术与管理经验。

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

专知会员服务

28+阅读 · 2月27日

自进化人工智能体的全面综述：连接基础模型与终身自主智能系统的新范式

专知会员服务

35+阅读 · 2025年12月28日

【AAAI2026】AutoTool：面向大语言模型智能体的高效工具选择方法

专知会员服务

19+阅读 · 2025年11月19日

基于大语言模型的智能体易产生幻觉：分类体系、方法与未来方向综述

专知会员服务

32+阅读 · 2025年9月27日