Production AI agents frequently receive user-specific queries that are highly repetitive, with up to 47\% being semantically similar to prior interactions, yet each query is typically processed with the same computational cost. We argue that this redundancy can be exploited through conversational memory, transforming repetition from a cost burden into an efficiency advantage. We propose a memory-augmented inference framework in which a lightweight 8B-parameter model leverages retrieved conversational context to answer all queries via a low-cost inference path. Without any additional training or labeled data, this approach achieves 30.5\% F1, recovering 69\% of the performance of a full-context 235B model while reducing effective cost by 96\%. Notably, a 235B model without memory (13.7\% F1) underperforms even the standalone 8B model (15.4\% F1), indicating that for user-specific queries, access to relevant knowledge outweighs model scale. We further analyze the role of routing and confidence. At practical confidence thresholds, routing alone already directs 96\% of queries to the small model, but yields poor accuracy (13.0\% F1) due to confident hallucinations. Memory does not substantially alter routing decisions; instead, it improves correctness by grounding responses in retrieved user-specific information. As conversational memory accumulates over time, coverage of recurring topics increases, further narrowing the performance gap. We evaluate on 152 LoCoMo questions (Qwen3-8B/235B) and 500 LongMemEval questions. Incorporating hybrid retrieval (BM25 + cosine similarity) improves performance by an additional +7.7 F1, demonstrating that retrieval quality directly enhances end-to-end system performance. Overall, our results highlight that memory, rather than model size, is the primary driver of accuracy and efficiency in persistent AI agents.


翻译:生产环境中的AI代理频繁处理高度重复的用户特定查询,其中高达47%的查询与历史交互在语义上相似,但每次查询通常消耗相同的计算成本。我们认为这种冗余可通过对话记忆加以利用,将重复性从成本负担转化为效率优势。我们提出一种记忆增强推理框架,其中轻量级80亿参数模型通过检索对话上下文,以低成本推理路径回答所有查询。无需额外训练或标注数据,该方法即可达到30.5%的F1值,恢复2350亿参数全上下文模型69%的性能,同时将有效成本降低96%。值得注意的是,无记忆的2350亿参数模型(F1=13.7%)甚至不及独立的80亿参数模型(F1=15.4%),这表明对于用户特定查询而言,获取相关知识比模型规模更为重要。我们进一步分析了路由与置信度的作用。在实际置信度阈值下,仅凭路由机制即将96%的查询导向小模型,但由于置信幻觉导致准确率低下(F1=13.0%)。记忆并未显著改变路由决策,而是通过基于检索到的用户特定信息生成响应来提升正确性。随着对话记忆的持续累积,重复主题的覆盖范围逐步扩大,进一步缩小了性能差距。我们在152个LoCoMo问题(Qwen3-8B/235B)和500个LongMemEval问题上进行了评估。结合混合检索(BM25+余弦相似度)使性能额外提升7.7个F1点,证明检索质量直接增强端到端系统性能。总体而言,我们的研究结果凸显记忆而非模型规模才是持久化AI代理准确率与效率的主要驱动力。

0
下载
关闭预览

相关内容

人工智能杂志AI(Artificial Intelligence)是目前公认的发表该领域最新研究成果的主要国际论坛。该期刊欢迎有关AI广泛方面的论文,这些论文构成了整个领域的进步,也欢迎介绍人工智能应用的论文,但重点应该放在新的和新颖的人工智能方法如何提高应用领域的性能,而不是介绍传统人工智能方法的另一个应用。关于应用的论文应该描述一个原则性的解决方案,强调其新颖性,并对正在开发的人工智能技术进行深入的评估。 官网地址:http://dblp.uni-trier.de/db/journals/ai/
MMA:多模态记忆智能体
专知会员服务
10+阅读 · 2月19日
AI智能体时代中的记忆:形式、功能与动态综述
专知会员服务
36+阅读 · 2025年12月16日
AI Agent:基于大模型的自主智能体
专知会员服务
250+阅读 · 2023年9月9日
KnowledGPT:基于知识库的检索和存储访问增强大型语言模型
探究检索增强下的大模型知识边界
专知会员服务
56+阅读 · 2023年7月25日
用于语音识别的数据增强
AI研习社
24+阅读 · 2019年6月5日
完备的 AI 学习路线,最详细的资源整理!
新智元
18+阅读 · 2019年5月4日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
18+阅读 · 2014年12月31日
VIP会员
最新内容
重新思考无人机时代的生存能力
专知会员服务
4+阅读 · 今天7:44
装甲突击旅:现代战争思考、战斗与组织
专知会员服务
4+阅读 · 今天7:28
在人工智能加速决策环境中拓展OODA循环
专知会员服务
4+阅读 · 今天7:18
军事欺骗:供作战战术指挥官使用的工具
专知会员服务
4+阅读 · 今天7:03
综述 | 世界动作模型:少做梦,多行动
专知会员服务
5+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
10+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
5+阅读 · 6月23日
相关基金
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
18+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员