Desktop interaction streams provide a continuous, privacy-sensitive record of interleaved user tasks. Transforming these streams into task-organized personal logs on-device faces two main challenges: exhaustive Vision-Language Model (VLM) processing strains local resources, and global stream processing causes cross-task context pollution. We present FOCAL (Filtered On-device Continuous Activity Logging), a privacy-first multi-agent system utilizing a unified filter-plan-log architecture. It cascades a lightweight Filter Agent for noise suppression, a text-only Brain Agent for task attribution, a Record Agent for selective visual reasoning, and a task-isolated Memory Agent for context-coherent summarization. Experiments on DesktopBench (comprising 2,572 screenshots across 420 complex sessions) show FOCAL reduces total token consumption by 60.4% and VLM call count by 72.3% versus a baseline, while boosting Key Information Recall (KIR) from 0.38 to 0.61. Crucially, under $A{\to}B{\to}A$ task interruptions, FOCAL maintains Task Acc 0.81 and KIR 0.80, whereas the baseline collapses to Task Acc 0.03. FOCAL pioneers the efficient, on-device summarization of instruction-free desktop streams into multi-perspective personal logs.


翻译:桌面交互流提供了交织用户任务的连续且隐私敏感的记录。将这些流转换为设备端按任务组织的个人日志面临两大挑战:穷举式视觉-语言模型(Vision-Language Model, VLM)处理会消耗本地资源,而全局流处理则会导致跨任务上下文污染。我们提出FOCAL(过滤式设备端持续活动日志记录),一个采用统一“过滤-计划-记录”架构的隐私优先多智能体系统。该系统级联了用于噪声抑制的轻量级过滤智能体(Filter Agent)、用于任务归因的纯文本大脑智能体(Brain Agent)、用于选择性视觉推理的记录智能体(Record Agent)以及用于上下文连贯摘要的任务隔离记忆智能体(Memory Agent)。在DesktopBench(包含420个复杂会话中的2,572张截图)上的实验表明,与基线相比,FOCAL将总令牌消耗降低了60.4%,VLM调用次数减少了72.3%,同时将关键信息召回率(Key Information Recall, KIR)从0.38提升至0.61。至关重要的是,在A→B→A任务中断场景下,FOCAL保持了0.81的任务准确率(Task Acc)和0.80的KIR,而基线则崩溃至Task Acc 0.03。FOCAL开创了将无指令桌面流高效设备端摘要为多视角个人日志的先河。

0
下载
关闭预览

相关内容

CLIP通用提示学习的简要概述
专知会员服务
17+阅读 · 2025年3月13日
【Flink】基于 Flink 的流式数据实时去重
AINLP
14+阅读 · 2020年9月29日
视觉里程计:起源、优势、对比、应用
计算机视觉life
18+阅读 · 2017年7月17日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
重新思考无人机时代的生存能力
专知会员服务
3+阅读 · 今天7:44
装甲突击旅:现代战争思考、战斗与组织
专知会员服务
3+阅读 · 今天7:28
在人工智能加速决策环境中拓展OODA循环
专知会员服务
4+阅读 · 今天7:18
军事欺骗:供作战战术指挥官使用的工具
专知会员服务
4+阅读 · 今天7:03
综述 | 世界动作模型:少做梦,多行动
专知会员服务
5+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
10+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
5+阅读 · 6月23日
相关VIP内容
CLIP通用提示学习的简要概述
专知会员服务
17+阅读 · 2025年3月13日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员