This work addresses the challenge of personalized question answering in long-term human-machine interactions: when conversational history spans weeks or months and exceeds the context window, existing personalization mechanisms struggle to continuously absorb and leverage users' incremental concepts, aliases, and preferences. Current personalized multimodal models are predominantly static-concepts are fixed at initialization and cannot evolve during interactions. We propose M2A, an agentic dual-layer hybrid memory system that maintains personalized multimodal information through online updates. The system employs two collaborative agents: ChatAgent manages user interactions and autonomously decides when to query or update memory, while MemoryManager breaks down memory requests from ChatAgent into detailed operations on the dual-layer memory bank, which couples a RawMessageStore (immutable conversation log) with a SemanticMemoryStore (high-level observations), providing memories at different granularities. In addition, we develop a reusable data synthesis pipeline that injects concept-grounded sessions from Yo'LLaVA and MC-LLaVA into LoCoMo long conversations while preserving temporal coherence. Experiments show that M2A significantly outperforms baselines, demonstrating that transforming personalization from one-shot configuration to a co-evolving memory mechanism provides a viable path for high-quality individualized responses in long-term multimodal interactions. The code is available at https://github.com/Little-Fridge/M2A.


翻译:本研究致力于解决长期人机交互中的个性化问答挑战:当对话历史跨越数周甚至数月并超出上下文窗口时,现有个性化机制难以持续吸收和利用用户不断增长的概念、别名和偏好。当前的多模态个性化模型主要为静态模型——概念在初始化时固定,无法在交互过程中演化。我们提出M2A,一种具备双层混合记忆的智能体系统,通过在线更新维护个性化多模态信息。该系统采用两个协同工作的智能体:ChatAgent负责管理用户交互并自主决定何时查询或更新记忆;MemoryManager则将ChatAgent的记忆请求分解为对双层记忆库的详细操作。该记忆库耦合了RawMessageStore(不可变的对话日志)与SemanticMemoryStore(高层级观察),提供不同粒度的记忆。此外,我们开发了一个可复用的数据合成流程,将来自Yo'LLaVA和MC-LLaVA的概念锚定会话注入LoCoMo长对话中,同时保持时间连贯性。实验表明,M2A显著优于基线模型,证明将个性化从一次性配置转变为协同演化的记忆机制,为长期多模态交互中实现高质量个体化响应提供了可行路径。代码发布于https://github.com/Little-Fridge/M2A。

0
下载
关闭预览

相关内容

MMA:多模态记忆智能体
专知会员服务
9+阅读 · 2月19日
下半场思考:基础智能体记忆机制
专知会员服务
18+阅读 · 2月9日
大规模语言模型的个性化:综述
专知会员服务
43+阅读 · 2024年11月4日
多模态人机交互综述
专知会员服务
150+阅读 · 2022年7月3日
【WWW2021】合作记忆网络的个性化任务导向对话系统
专知会员服务
15+阅读 · 2021年2月17日
专访俞栋:多模态是迈向通用人工智能的重要方向
AI科技评论
26+阅读 · 2019年9月9日
人工智能顶刊TPAMI2019最新《多模态机器学习综述》
人工智能学家
29+阅读 · 2019年1月19日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2月18日
VIP会员
相关基金
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员