Many everyday tasks rely on external tutorials such as manuals and videos, requiring users to constantly switch between reading instructions and performing actions, which disrupts workflow and increases cognitive load. Augmented reality (AR) enables in-situ guidance, while recent advances in large language models (LLMs) and vision-language models (VLMs) make it possible to automatically generate such guidance. However, existing AI-powered AR tutorial systems primarily focus on physical procedural tasks and provide limited support for hybrid physical and virtual workspaces. To address this gap, we conduct a formative study of cross-reality tasks and identify key requirements for state awareness and cross-reality coordination. We present JARVIS, a VLM-driven AR instruction system that generates contextual, step-by-step guidance from a single prompt, with real-time state verification and adaptive visual feedback. To inform the system design, we conducted a formative study to understand guidance needs across cross-reality tasks, which we categorize into four types, real-to-real (R2R), real-to-virtual (R2V), virtual-to-real (V2R), and virtual-to-virtual (V2V). A within-subjects study (N=14) across four domains shows JARVIS improves usability, workload, success rate, and visualization effectiveness over baselines.


翻译:许多日常任务依赖外部教程(如手册和视频),用户需在阅读指令与执行操作间持续切换,这打断了工作流程并增加了认知负荷。增强现实(AR)能够提供原位引导,而近期大语言模型(LLM)和视觉语言模型(VLM)的进展使得自动生成此类指导成为可能。然而,现有基于AI的AR教程系统主要聚焦于物理操作任务,对物理-虚拟混合工作空间的支持有限。为填补这一空白,我们通过跨现实任务的预研研究,识别出状态感知与跨现实协调的关键需求。我们提出JARVIS——一种基于VLM驱动的AR指导系统,该系统可通过单次提示生成上下文相关的分步指导,并具备实时状态验证与自适应视觉反馈功能。为设计该系统,我们开展了预研研究以理解跨现实任务中的指导需求,并将其归纳为四种类型:实境到实境(R2R)、实境到虚拟(R2V)、虚拟到实境(V2R)和虚拟到虚拟(V2V)。跨四个领域的被试内研究(N=14)表明,与基线方法相比,JARVIS在可用性、工作负荷、任务成功率及可视化有效性方面均有显著提升。

0
下载
关闭预览

相关内容

视觉语言建模导论
专知会员服务
38+阅读 · 2024年5月30日
增强现实(AR)技术在增强型指挥与控制中的应用
专知会员服务
56+阅读 · 2022年6月9日
专知会员服务
22+阅读 · 2021年10月9日
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
视觉里程计:起源、优势、对比、应用
计算机视觉life
18+阅读 · 2017年7月17日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
VIP会员
最新内容
ICML2026 | 重新思考顺序知识编辑中的正则化
专知会员服务
0+阅读 · 今天15:44
《用于兵力发展选项优先排序的成本效益模型》
专知会员服务
3+阅读 · 今天15:43
AutoResearch AI综述:迈向AI驱动的科学发现自动化
《Palantir边缘人工智能》手册
专知会员服务
19+阅读 · 5月26日
美军“国防自主作战群”(DAWG)概念解析
专知会员服务
3+阅读 · 5月26日
“史诗怒火”行动中的无人机与反无人机作战
专知会员服务
15+阅读 · 5月25日
相关基金
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员