Multimodal Large Language Models excel at offline audio-visual understanding, but their ability to serve as mobile assistants in continuous real-world streams remains underexplored. In daily phone use, mobile assistants must track streaming audio-visual inputs and respond at the right time, yet existing benchmarks are often restricted to multiple-choice questions or use shorter videos. In this paper, we introduce PhoStream, the first mobile-centric streaming benchmark that unifies on-screen and off-screen scenarios to evaluate video, audio, and temporal reasoning. PhoStream contains 5,572 open-ended QA pairs from 578 videos across 4 scenarios and 10 capabilities. We build it with an Automated Generative Pipeline backed by rigorous human verification, and evaluate models using a realistic Online Inference Pipeline and LLM-as-a-Judge evaluation for open-ended responses. Experiments reveal a temporal asymmetry in LLM-judged scores (0-100): models perform well on Instant and Backward tasks (Gemini 3 Pro exceeds 80), but drop sharply on Forward tasks (16.40), largely due to early responses before the required visual and audio cues appear. This highlights a fundamental limitation: current MLLMs struggle to decide when to speak, not just what to say. Code and datasets used in this work will be made publicly accessible at https://github.com/Lucky-Lance/PhoStream.


翻译:多模态大语言模型在离线音视频理解方面表现出色,但其在连续真实世界流式场景中作为移动助手的能力仍未得到充分探索。在日常手机使用中,移动助手必须持续追踪流式音视频输入并在适当时机作出响应,然而现有基准测试往往局限于多项选择题或使用较短视频。本文提出PhoStream——首个以移动设备为中心、统一屏上与屏下场景的流式基准测试,用于评估视频、音频及时序推理能力。PhoStream包含来自578个视频的5,572个开放式问答对,涵盖4种场景与10项能力维度。我们通过自动化生成流程构建该数据集,并辅以严格的人工验证;同时采用真实在线推理流程与基于大语言模型的开放式答案评判机制进行评估。实验揭示了基于大语言模型评分(0-100分)的时序不对称现象:模型在即时任务与后向任务中表现良好(Gemini 3 Pro超过80分),但在前向任务中得分骤降(16.40分),这主要源于模型在必要视听线索出现前过早响应。这凸显了当前多模态大语言模型存在根本性局限:其不仅难以决定说什么,更难以判断何时该说。本工作使用的代码与数据集将在 https://github.com/Lucky-Lance/PhoStream 公开。

0
下载
关闭预览

相关内容

《5G/6G毫米波测试技术白皮书》未来移动通信论坛
专知会员服务
17+阅读 · 2022年4月15日
视频目标检测:Flow-based
极市平台
22+阅读 · 2019年5月27日
爱奇艺基于AI的移动端自动化测试框架的设计
前端之巅
18+阅读 · 2019年2月27日
【大数据】StreamSets:一个大数据采集工具
产业智能官
40+阅读 · 2018年12月5日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员