Structured Agent Distillation for Large Language Model

Large language models (LLMs) exhibit strong capabilities as decision-making agents by interleaving reasoning and actions, as seen in ReAct-style frameworks. Yet, their practical deployment is constrained by high inference costs and large model sizes. We propose Structured Agent Distillation, a framework that compresses large LLM-based agents into smaller student models while preserving both reasoning fidelity and action consistency. Unlike standard token-level distillation, our method segments trajectories into [REASON] and [ACT] spans, applying segment-specific losses to align each component with the teacher's behavior. This structure-aware supervision enables compact agents to better replicate the teacher's decision process. Experiments on ALFWorld, HotPotQA-ReAct, and WebShop show that our approach consistently outperforms token-level and imitation learning baselines, achieving significant compression with minimal performance drop. Scaling and ablation results further highlight the importance of span-level alignment for efficient and deployable agents.

翻译：大语言模型（LLMs）通过交错推理与操作展现出强大的决策智能体能力，如ReAct风格框架所示。然而，其实际部署受限于高昂的推理成本与模型规模。我们提出结构化智能体蒸馏框架，将基于大语言模型的智能体压缩为更小的学生模型，同时保留推理保真度与操作一致性。与标准词元级蒸馏不同，本方法将轨迹划分为[推理]和[操作]区间，通过区间特定损失函数对齐各组件与教师模型的行为。这种结构感知监督使紧凑型智能体能够更好地复现教师模型的决策过程。在ALFWorld、HotPotQA-ReAct和WebShop上的实验表明，我们的方法始终优于词元级蒸馏和模仿学习基线，在性能下降极小的情况下实现了显著压缩。缩放实验与消融研究进一步凸显了区间级对齐对构建高效可部署智能体的重要性。

相关内容

MoDELS

关注 45

ACM/IEEE第23届模型驱动工程语言和系统国际会议，是模型驱动软件和系统工程的首要会议系列，由ACM-SIGSOFT和IEEE-TCSE支持组织。自1998年以来，模型涵盖了建模的各个方面，从语言和方法到工具和应用程序。模特的参加者来自不同的背景，包括研究人员、学者、工程师和工业专业人士。MODELS 2019是一个论坛，参与者可以围绕建模和模型驱动的软件和系统交流前沿研究成果和创新实践经验。今年的版本将为建模社区提供进一步推进建模基础的机会，并在网络物理系统、嵌入式系统、社会技术系统、云计算、大数据、机器学习、安全、开源等新兴领域提出建模的创新应用以及可持续性。官网链接：http://www.modelsconference.org/

大语言模型智能体中的外显化机制：记忆、技能、协议与评测基准工程综述

专知会员服务

34+阅读 · 4月19日

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

专知会员服务

28+阅读 · 2月27日

法律领域中的大语言模型智能体：分类体系、应用场景与挑战

专知会员服务

17+阅读 · 1月14日

基于大语言模型的智能体易产生幻觉：分类体系、方法与未来方向综述

专知会员服务

32+阅读 · 2025年9月27日