终身智能体正日益普及,但依赖云端前沿 API 面临着成本高昂、延迟与隐私限制以及多用户个性化难以实现等根本性问题,使小型语言模型成为唯一现实的部署载体。本报告围绕构建终身智能体的三个核心挑战展开:(1)领域专业化:提出 A3(Agent-as-Annotators)方法,利用前沿模型自动生成并筛选带推理轨迹的交互数据,将 Qwen3.5-9B 在 WebArena 上的成功率从 31.0% 提升至 41.5%,媲美 27B 模型,且在四个分布外环境中展现出强泛化能力。(2)用户个性化:构建 AdaptArena 基准以评估智能体从隐式历史轨迹推断用户偏好的能力。即使最强的前沿模型与 Oracle 之间仍存在超过 15 个百分点的性能差距;交换历史实验证实,性能增益源于正确的用户-上下文对齐,而非通用示例。(3)记忆与通信:提出 LLM2Vec-Gen,在语言模型自身的输出空间中学习生成嵌入,在 MTEB 上以 61.9 分刷新自监督最优结果,并在推理密集型检索任务上显著优于基线,且嵌入可通过 Logit Lens 实现可解释阅读。该嵌入空间还可作为智能体间通信的共享表示,将数百个 token 压缩为少量潜在向量,提升多智能体交互效率。综上,融合专业化、个性化与高效检索的小型语言模型,有望成为终身多智能体系统中缺失的核心基元。