Act While Thinking: Accelerating LLM Agents via Pattern-Aware Speculative Tool Execution - 专知论文

会员服务 ·

0

工具 · 智能体 · 大语言模型 · 负载 · 序列 ·

Act While Thinking: Accelerating LLM Agents via Pattern-Aware Speculative Tool Execution

翻译：边推理边行动：通过模式感知的推测式工具执行加速LLM智能体

Yifan Sui,Han Zhao,Rui Ma,Zhiyuan He,Hao Wang,Jianxun Li,Yuqing Yang

LLM-powered agents are emerging as a dominant paradigm for autonomous task solving. Unlike standard inference workloads, agents operate in a strictly serial "LLM-tool" loop, where the LLM must wait for external tool execution at every step. This execution model introduces severe latency bottlenecks. To address this problem, we propose PASTE, a Pattern-Aware Speculative Tool Execution method designed to hide tool latency through speculation. PASTE is based on the insight that although agent requests are semantically diverse, they exhibit stable application level control flows (recurring tool-call sequences) and predictable data dependencies (parameter passing between tools). By exploiting these properties, PASTE improves agent serving performance through speculative tool execution. Experimental results against state of the art baselines show that PASTE reduces average task completion time by 48.5% and improves tool execution throughput by 1.8x.

翻译：基于大语言模型（LLM）的智能体正成为自主任务求解的主流范式。与标准推理负载不同，智能体在严格的串行“LLM-工具”循环中运行，LLM每一步都必须等待外部工具执行完毕。这种执行模型带来了严重的延迟瓶颈。为解决此问题，我们提出PASTE——一种模式感知的推测式工具执行方法，旨在通过推测来隐藏工具延迟。PASTE基于以下洞见：尽管智能体请求在语义上多样，但它们表现出稳定的应用层控制流（重复出现的工具调用序列）和可预测的数据依赖关系（工具间的参数传递）。通过利用这些特性，PASTE通过推测式工具执行提升了智能体服务性能。与最先进基线的实验结果表明，PASTE将平均任务完成时间减少48.5%，并将工具执行吞吐量提升1.8倍。

0

相关内容

大语言模型智能体（LLM Agents）工具调用的演进：从单工具调用到多工具协同编排

大语言模型智能体（LLM Agents）工具调用的演进：从单工具调用到多工具协同编排

专知会员服务

29+阅读 · 4月6日

从静态模板到动态运行时图：大语言模型智能体（LLM Agents）工作流优化综述

从静态模板到动态运行时图：大语言模型智能体（LLM Agents）工作流优化综述

专知会员服务

23+阅读 · 3月30日

管理 LLM 智能体中的演进式记忆：风险、机理及稳定性与安全性受控记忆（SSGM）框架

管理 LLM 智能体中的演进式记忆：风险、机理及稳定性与安全性受控记忆（SSGM）框架

专知会员服务

16+阅读 · 3月14日

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

专知会员服务

28+阅读 · 2月27日

从感知到行动：空间人工智能体与世界模型

从感知到行动：空间人工智能体与世界模型

专知会员服务

30+阅读 · 2月3日

大语言模型的智能体化推理

大语言模型的智能体化推理

专知会员服务

35+阅读 · 1月21日

【AAAI2026】AutoTool：面向大语言模型智能体的高效工具选择方法

【AAAI2026】AutoTool：面向大语言模型智能体的高效工具选择方法

专知会员服务

19+阅读 · 2025年11月19日

基于大语言模型（LLM）的智能体推理框架：从方法到场景的综述

基于大语言模型（LLM）的智能体推理框架：从方法到场景的综述

专知会员服务

55+阅读 · 2025年8月26日

142页DeepSeek-R1 思维链技术：让我们一起<思考>大语言模型（LLM）的推理能力

142页DeepSeek-R1 思维链技术：让我们一起<思考>大语言模型（LLM）的推理能力

专知会员服务

48+阅读 · 2025年4月12日

AI Agent下一个热点？复旦最新86页《大型语言模型智能体的崛起与潜力》综述，详述LLM Agent: 大脑、感知和行动

AI Agent下一个热点？复旦最新86页《大型语言模型智能体的崛起与潜力》综述，详述LLM Agent: 大脑、感知和行动

专知会员服务

170+阅读 · 2023年9月15日

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知

17+阅读 · 2023年4月12日

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

专知

27+阅读 · 2022年11月24日

通过集成 XNNPACK 实现推理速度飞跃

通过集成 XNNPACK 实现推理速度飞跃

TensorFlow

26+阅读 · 2020年7月30日

机器推理系列文章概览：七大NLP任务最新方法与进展

机器推理系列文章概览：七大NLP任务最新方法与进展

AI100

12+阅读 · 2019年9月15日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

机器之心

17+阅读 · 2019年2月11日

“猜心思”的Hard模式：问答系统在智能法律场景的实践与优化

“猜心思”的Hard模式：问答系统在智能法律场景的实践与优化

AINLP

15+阅读 · 2019年2月2日

【CVPR2018】如何增强Attention Model的推理能力

【CVPR2018】如何增强Attention Model的推理能力

专知

15+阅读 · 2018年7月2日

复合型移动群智感知关键技术研究

国家自然科学基金

9+阅读 · 2017年12月31日

冲动性个体的决策加工模式与神经机制

国家自然科学基金

0+阅读 · 2015年12月31日

主被动视角联合的细粒度行为识别

国家自然科学基金

1+阅读 · 2015年12月31日

逻辑等价算子在不确定性推理中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于MEMS加速度传感器的智能终端手势识别及三维交互模型

国家自然科学基金

6+阅读 · 2015年12月31日

人体行为识别的时空耦合随机图模型及其高效推理算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

事件触发机制下随机多智能体系统的有限时间一致性研究

国家自然科学基金

2+阅读 · 2015年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

Speculative Actions: A Lossless Framework for Faster Agentic Systems

Arxiv

0+阅读 · 4月23日

Sutradhara: An Intelligent Orchestrator-Engine Co-design for Tool-based Agentic Inference

Arxiv

0+阅读 · 4月22日

Dynamic Model Routing and Cascading for Efficient LLM Inference: A Survey

Arxiv

1+阅读 · 4月21日

The Reasoning Trap: How Enhancing LLM Reasoning Amplifies Tool Hallucination

Arxiv

0+阅读 · 4月17日

Sutradhara: An Intelligent Orchestrator-Engine Co-design for Tool-based Agentic Inference

Arxiv

0+阅读 · 4月17日

From Perception to Autonomous Computational Modeling: A Multi-Agent Approach

Arxiv

0+阅读 · 4月12日

Combating the Memory Walls: Optimization Pathways for Long-Context Agentic LLM Inference

Arxiv

0+阅读 · 4月12日

HumanLLM: Benchmarking and Improving LLM Anthropomorphism via Human Cognitive Patterns

Arxiv

0+阅读 · 4月9日

DRIFT: Dynamic Rule-Based Defense with Injection Isolation for Securing LLM Agents

Arxiv

0+阅读 · 3月26日

SpecEyes: Accelerating Agentic Multimodal LLMs via Speculative Perception and Planning

Arxiv

0+阅读 · 3月24日

VIP会员

文章信息

相关主题

大语言模型

最新内容

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

2+阅读 · 6月23日

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

4+阅读 · 6月23日

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

7+阅读 · 6月23日

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

3+阅读 · 6月23日

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

4+阅读 · 6月23日

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

7+阅读 · 6月23日

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

5+阅读 · 6月23日

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

3+阅读 · 6月23日

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

6+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

8+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

8+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

6+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

9+阅读 · 6月22日

相关VIP内容

大语言模型智能体（LLM Agents）工具调用的演进：从单工具调用到多工具协同编排

大语言模型智能体（LLM Agents）工具调用的演进：从单工具调用到多工具协同编排

专知会员服务

29+阅读 · 4月6日

从静态模板到动态运行时图：大语言模型智能体（LLM Agents）工作流优化综述

从静态模板到动态运行时图：大语言模型智能体（LLM Agents）工作流优化综述

专知会员服务

23+阅读 · 3月30日

管理 LLM 智能体中的演进式记忆：风险、机理及稳定性与安全性受控记忆（SSGM）框架

管理 LLM 智能体中的演进式记忆：风险、机理及稳定性与安全性受控记忆（SSGM）框架

专知会员服务

16+阅读 · 3月14日

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

专知会员服务

28+阅读 · 2月27日

从感知到行动：空间人工智能体与世界模型

从感知到行动：空间人工智能体与世界模型

专知会员服务

30+阅读 · 2月3日

大语言模型的智能体化推理

大语言模型的智能体化推理

专知会员服务

35+阅读 · 1月21日

【AAAI2026】AutoTool：面向大语言模型智能体的高效工具选择方法

【AAAI2026】AutoTool：面向大语言模型智能体的高效工具选择方法

专知会员服务

19+阅读 · 2025年11月19日

基于大语言模型（LLM）的智能体推理框架：从方法到场景的综述

基于大语言模型（LLM）的智能体推理框架：从方法到场景的综述

专知会员服务

55+阅读 · 2025年8月26日

142页DeepSeek-R1 思维链技术：让我们一起<思考>大语言模型（LLM）的推理能力

142页DeepSeek-R1 思维链技术：让我们一起<思考>大语言模型（LLM）的推理能力

专知会员服务

48+阅读 · 2025年4月12日

AI Agent下一个热点？复旦最新86页《大型语言模型智能体的崛起与潜力》综述，详述LLM Agent: 大脑、感知和行动

AI Agent下一个热点？复旦最新86页《大型语言模型智能体的崛起与潜力》综述，详述LLM Agent: 大脑、感知和行动

专知会员服务

170+阅读 · 2023年9月15日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 世界动作模型：少做梦，多行动

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

美以伊冲突：无人机与人工智能的运用

相关资讯

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知

17+阅读 · 2023年4月12日

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

专知

27+阅读 · 2022年11月24日

通过集成 XNNPACK 实现推理速度飞跃

通过集成 XNNPACK 实现推理速度飞跃

TensorFlow

26+阅读 · 2020年7月30日

机器推理系列文章概览：七大NLP任务最新方法与进展

机器推理系列文章概览：七大NLP任务最新方法与进展

AI100

12+阅读 · 2019年9月15日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

机器之心

17+阅读 · 2019年2月11日

“猜心思”的Hard模式：问答系统在智能法律场景的实践与优化

“猜心思”的Hard模式：问答系统在智能法律场景的实践与优化

AINLP

15+阅读 · 2019年2月2日

【CVPR2018】如何增强Attention Model的推理能力

【CVPR2018】如何增强Attention Model的推理能力

专知

15+阅读 · 2018年7月2日

相关论文

Speculative Actions: A Lossless Framework for Faster Agentic Systems

Arxiv

0+阅读 · 4月23日

Sutradhara: An Intelligent Orchestrator-Engine Co-design for Tool-based Agentic Inference

Arxiv

0+阅读 · 4月22日

Dynamic Model Routing and Cascading for Efficient LLM Inference: A Survey

Arxiv

1+阅读 · 4月21日

The Reasoning Trap: How Enhancing LLM Reasoning Amplifies Tool Hallucination

Arxiv

0+阅读 · 4月17日

Sutradhara: An Intelligent Orchestrator-Engine Co-design for Tool-based Agentic Inference

Arxiv

0+阅读 · 4月17日

From Perception to Autonomous Computational Modeling: A Multi-Agent Approach

Arxiv

0+阅读 · 4月12日

Combating the Memory Walls: Optimization Pathways for Long-Context Agentic LLM Inference

Arxiv

0+阅读 · 4月12日

HumanLLM: Benchmarking and Improving LLM Anthropomorphism via Human Cognitive Patterns

Arxiv

0+阅读 · 4月9日

DRIFT: Dynamic Rule-Based Defense with Injection Isolation for Securing LLM Agents

Arxiv

0+阅读 · 3月26日

SpecEyes: Accelerating Agentic Multimodal LLMs via Speculative Perception and Planning

Arxiv

0+阅读 · 3月24日

相关基金

复合型移动群智感知关键技术研究

国家自然科学基金

9+阅读 · 2017年12月31日

冲动性个体的决策加工模式与神经机制

国家自然科学基金

0+阅读 · 2015年12月31日

主被动视角联合的细粒度行为识别

国家自然科学基金

1+阅读 · 2015年12月31日

逻辑等价算子在不确定性推理中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于MEMS加速度传感器的智能终端手势识别及三维交互模型

国家自然科学基金

6+阅读 · 2015年12月31日

人体行为识别的时空耦合随机图模型及其高效推理算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

事件触发机制下随机多智能体系统的有限时间一致性研究

国家自然科学基金

2+阅读 · 2015年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员