Long-horizon omnimodal question answering answers questions by reasoning over text, images, audio, and video. Despite recent progress on OmniLLMs, low-resource long audio-video QA still suffers from costly dense encoding, weak fine-grained retrieval, limited proactive planning, and no clear end-to-end optimization.To address these issues, we propose OmniRAG-Agent, an agentic omnimodal QA method for budgeted long audio-video reasoning. It builds an image-audio retrieval-augmented generation module that lets an OmniLLM fetch short, relevant frames and audio snippets from external banks. Moreover, it uses an agent loop that plans, calls tools across turns, and merges retrieved evidence to answer complex queries. Furthermore, we apply group relative policy optimization to jointly improve tool use and answer quality over time. Experiments on OmniVideoBench, WorldSense, and Daily-Omni show that OmniRAG-Agent consistently outperforms prior methods under low-resource settings and achieves strong results, with ablations validating each component.


翻译:长视野全模态问答通过融合文本、图像、音频和视频进行推理来回答问题。尽管全模态大语言模型(OmniLLMs)近期取得了进展,但低资源长音频-视频问答仍面临密集编码成本高昂、细粒度检索能力弱、主动规划有限以及缺乏清晰的端到端优化等问题。为解决这些问题,我们提出了OmniRAG-Agent,一种面向预算受限长音频-视频推理的智能体式全模态问答方法。该方法构建了一个图像-音频检索增强生成模块,使OmniLLM能够从外部知识库中获取简短、相关的视频帧和音频片段。此外,它采用了一个智能体循环机制,能够跨轮次进行规划、调用工具并融合检索到的证据以回答复杂查询。进一步地,我们应用了分组相对策略优化方法,以联合提升工具使用效率和随时间推移的答案质量。在OmniVideoBench、WorldSense和Daily-Omni数据集上的实验表明,OmniRAG-Agent在低资源设置下持续优于现有方法,并取得了优异的结果,消融实验验证了各组件的作用。

0
下载
关闭预览

相关内容

大语言模型的智能体化推理
专知会员服务
32+阅读 · 1月21日
Video-LMM后训练:多模态大模型的视频推理深度解析
专知会员服务
14+阅读 · 2025年10月7日
高效大语言模型推理服务综述
专知会员服务
18+阅读 · 2025年4月30日
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
VIP会员
相关资讯
相关基金
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员