大语言模型在标准基准测试中已取得了卓越的性能。然而,现实世界的应用需求远超出了单纯的回答问题或在全定义环境中执行动作——它要求模型具备与人类进行交互的能力,而人类往往带有各自独特的背景(Context)、目标和偏好。本论文旨在解决一个核心问题:如何设计能够与人类进行高效协作的模型?
我通过三个互补的视角来应对这一挑战:评估、架构以及学习目标。 * 首先,我提出了 DialOp,这是一个用于评估语言模型智能体与人类如何共同做出复杂日常决策的基准测试,为衡量系统的协同能力提供了严谨的框架。 * 其次,我证明了通过为语言模型架构增加记忆层(Memory Layers),可以实现高效的知识更新,从而为跨交互过程中的持续学习(Continual Learning)奠定了基础。 * 最后,我将这些理念从文本领域扩展到了具身多模态智能体(Embodied, Multimodal Agents)。研究表明,将语言学习与**世界建模目标(World Modeling Objectives)**相结合,能够使智能体理解多样化的人类交流形式(包括人类反馈)。
综上所述,这些研究成果推动了 AI 系统向更高阶段发展:使其不仅能在数字环境中,并最终能在物理世界中实现与人类的深度协作。