JARVIS: A Just-in-Time Augmented Reality VLM-Powered Instruction System for Cross-Reality Task Guidance - 专知论文

会员服务 ·

0

Guidance · 增强现实（AR） · MoDELS · 教程 · Performer ·

JARVIS: A Just-in-Time Augmented Reality VLM-Powered Instruction System for Cross-Reality Task Guidance

翻译：JARVIS：一种面向跨现实任务指导的即时增强现实VLM驱动指令系统

Yusi Sun,Ying Jiang,Jiayin Lu,Yin yang,Yong-Hong Kuo,Chenfanfu Jiang

from arxiv, 14 pages, 11 figures, 2 tables

Many everyday tasks rely on external tutorials such as manuals and videos, requiring users to constantly switch between reading instructions and performing actions, which disrupts workflow and increases cognitive load. Augmented reality (AR) enables in-situ guidance, while recent advances in large language models (LLMs) and vision-language models (VLMs) make it possible to automatically generate such guidance. However, existing AI-powered AR tutorial systems primarily focus on physical procedural tasks and provide limited support for hybrid physical and virtual workspaces. To address this gap, we conduct a formative study of cross-reality tasks and identify key requirements for state awareness and cross-reality coordination. We present JARVIS, a VLM-driven AR instruction system that generates contextual, step-by-step guidance from a single prompt, with real-time state verification and adaptive visual feedback. To inform the system design, we conducted a formative study to understand guidance needs across cross-reality tasks, which we categorize into four types, real-to-real (R2R), real-to-virtual (R2V), virtual-to-real (V2R), and virtual-to-virtual (V2V). A within-subjects study (N=14) across four domains shows JARVIS improves usability, workload, success rate, and visualization effectiveness over baselines.

翻译：许多日常任务依赖外部教程（如手册和视频），要求用户持续在阅读指令与执行操作之间切换，这打断了工作流程并增加了认知负荷。增强现实（AR）能够实现原位指导，而大规模语言模型和视觉语言模型的最新进展使得自动生成此类指导成为可能。然而，现有基于AI的AR教程系统主要关注物理程序性任务，对混合物理与虚拟工作空间的支持有限。为弥补这一空白，我们开展了跨现实任务的形成性研究，确定了状态感知与跨现实协调的关键需求。我们提出JARVIS——一种VLM驱动的AR指令系统，可从单一提示生成上下文感知的逐步指导，并具备实时状态验证与自适应视觉反馈功能。为支撑系统设计，我们通过形成性研究理解了跨现实任务（可分为四类：实到实、实到虚、虚到实、虚到虚）中的指导需求。一项跨四个领域的受试者内实验（N=14）表明，JARVIS在可用性、工作负荷、成功率及可视化有效性方面均优于基线系统。

0

相关内容

Guidance

构建面向终端的 AI 编程智能体：脚手架、测试环境、上下文工程及实践经验

构建面向终端的 AI 编程智能体：脚手架、测试环境、上下文工程及实践经验

专知会员服务

25+阅读 · 3月8日

下一代战术训练：沉浸式VR与AR模拟系统

下一代战术训练：沉浸式VR与AR模拟系统

专知会员服务

18+阅读 · 2025年12月28日

实时无人机指令处理：一种面向无人机系统的大语言模型方法

实时无人机指令处理：一种面向无人机系统的大语言模型方法

专知会员服务

20+阅读 · 2025年10月24日

《战术训练虚拟士兵：一种用于自适应军事模拟的生成式人工智能框架》最新文献

《战术训练虚拟士兵：一种用于自适应军事模拟的生成式人工智能框架》最新文献

专知会员服务

28+阅读 · 2025年9月24日

重新定义防空：先进指挥与控制，实现卓越态势感知能力

重新定义防空：先进指挥与控制，实现卓越态势感知能力

专知会员服务

35+阅读 · 2025年2月3日

如何构建真正的智能助手？148页Meta最新WWW2023《面向下一代智能助手》教程

如何构建真正的智能助手？148页Meta最新WWW2023《面向下一代智能助手》教程

专知会员服务

39+阅读 · 2023年5月9日

《了解AR/VR培训效果现状》14页slides，美国海军研究实验室支持项目

《了解AR/VR培训效果现状》14页slides，美国海军研究实验室支持项目

专知会员服务

32+阅读 · 2022年10月21日

《视觉Transformer》最新简明综述，概述视觉Transformers 的不同架构设计和训练技巧

《视觉Transformer》最新简明综述，概述视觉Transformers 的不同架构设计和训练技巧

专知会员服务

67+阅读 · 2022年7月8日

增强现实（AR）技术在增强型指挥与控制中的应用

增强现实（AR）技术在增强型指挥与控制中的应用

专知会员服务

57+阅读 · 2022年6月9日

面向移动增强现实的实时深度学习目标检测方法综述

专知会员服务

22+阅读 · 2021年10月9日

推荐！【中文版】《利用人工智能辅助指挥官进行复杂决策》美国海陆空军10位技术专家联合撰写

推荐！【中文版】《利用人工智能辅助指挥官进行复杂决策》美国海陆空军10位技术专家联合撰写

专知

84+阅读 · 2022年8月29日

推荐！【中文版】《人工智能在指挥和控制系统中的决策支持》瑞典国防研究局

推荐！【中文版】《人工智能在指挥和控制系统中的决策支持》瑞典国防研究局

专知

36+阅读 · 2022年7月31日

《面向军事应用的数据驱动的行为建模》荷兰应用科学研究组织（NTO）

《面向军事应用的数据驱动的行为建模》荷兰应用科学研究组织（NTO）

专知

56+阅读 · 2022年6月2日

Transformers就是图神经网络？NTU-Chaitanya Joshi论述: 是GNN的一个特例

Transformers就是图神经网络？NTU-Chaitanya Joshi论述: 是GNN的一个特例

专知

20+阅读 · 2020年3月1日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

PlaNet 简介：用于强化学习的深度规划网络

PlaNet 简介：用于强化学习的深度规划网络

谷歌开发者

13+阅读 · 2019年3月16日

【泡泡图灵智库】DS-SLAM:一种面向动态环境的语义视觉SLAM(arXiv)

【泡泡图灵智库】DS-SLAM:一种面向动态环境的语义视觉SLAM(arXiv)

泡泡机器人SLAM

27+阅读 · 2018年12月14日

【仿真】生产系统仿真软件，实现数字化工厂的利器！

【仿真】生产系统仿真软件，实现数字化工厂的利器！

产业智能官

15+阅读 · 2018年11月1日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

推荐｜使用 OpenCV和Python基于深度学习实现实时视频目标检测!

推荐｜使用 OpenCV和Python基于深度学习实现实时视频目标检测!

全球人工智能

10+阅读 · 2017年12月19日

基于DASH的交互式三维视频系统建模

国家自然科学基金

1+阅读 · 2015年12月31日

2D/3D视觉信息融合仿生SLAM关键问题研究

国家自然科学基金

3+阅读 · 2015年12月31日

移动增强现实中基于视觉—惯性传感器的混合跟踪方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于强化学习的分布参数系统数据驱动控制

国家自然科学基金

7+阅读 · 2015年12月31日

基于虚拟原型的信息物理融合系统高效可信构造研究

国家自然科学基金

8+阅读 · 2015年12月31日

基于压缩感知的高精度实时视觉跟踪方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

移动与可穿戴计算中Eyes-Free交互界面研究

国家自然科学基金

0+阅读 · 2014年12月31日

移动终端视频目标快速识别技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

数据和模型混合驱动的虚拟人群行为仿真技术研究及其在军事中的应用

国家自然科学基金

10+阅读 · 2011年12月31日

MagicSim: A Unified Infrastructure for Executable Embodied Interaction

Arxiv

0+阅读 · 6月16日

VisualClaw: A Real-Time, Personalized Agent for the Physical World

Arxiv

0+阅读 · 6月15日

EPIC: A System Framework for Efficient Egocentric Perception on Embodied AR Glasses

Arxiv

0+阅读 · 6月14日

From Prompt to Service: An SLM-Based Agent Orchestration Gateway for AI-Driven Virtual Worlds

Arxiv

0+阅读 · 6月2日

AlgoTouch: An Execution-Centered Approach to Incremental Construction of Imperative Programs

Arxiv

0+阅读 · 6月2日

Synchronized Realities: Towards Magic Mobile Experiences through Aligned AR

Arxiv

0+阅读 · 5月15日

Hot Wire 5D+: Evaluating Cognitive and Motor Trade-offs of Visual Feedback for 5D Augmented Reality Trajectories

Arxiv

0+阅读 · 5月8日

Sparkle: Realizing Lively Instruction-Guided Video Background Replacement via Decoupled Guidance

Arxiv

0+阅读 · 5月7日

JARVIS: An Evidence-Grounded Retrieval System for Interpretable Deceptive Reviews Adjudication

Arxiv

0+阅读 · 5月7日

VISOR: Agentic Visual Retrieval-Augmented Generation via Iterative Search and Over-horizon Reasoning

Arxiv

0+阅读 · 4月10日

VIP会员

文章信息

相关主题

增强现实（AR）

最新内容

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

1+阅读 · 今天14:49

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

1+阅读 · 今天14:47

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

1+阅读 · 今天14:45

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

3+阅读 · 今天14:22

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

5+阅读 · 今天13:50

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

3+阅读 · 今天13:33

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

3+阅读 · 今天13:30

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

3+阅读 · 今天13:28

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

3+阅读 · 今天13:13

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

专知会员服务

2+阅读 · 今天13:10

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

专知会员服务

5+阅读 · 6月16日

多模态代码智能综述：从视觉输入到可执行代码系统

多模态代码智能综述：从视觉输入到可执行代码系统

专知会员服务

7+阅读 · 6月16日

美国马六甲“三重网”概念：安全网、威慑网与杀伤网

美国马六甲“三重网”概念：安全网、威慑网与杀伤网

专知会员服务

5+阅读 · 6月16日

《面向导弹有效发射时机的监督机器学习方法：基于超视距空战仿真》

《面向导弹有效发射时机的监督机器学习方法：基于超视距空战仿真》

专知会员服务

5+阅读 · 6月16日

《通用大语言模型：无人机指挥与控制接口》最新40页

《通用大语言模型：无人机指挥与控制接口》最新40页

专知会员服务

15+阅读 · 6月16日

相关VIP内容

构建面向终端的 AI 编程智能体：脚手架、测试环境、上下文工程及实践经验

构建面向终端的 AI 编程智能体：脚手架、测试环境、上下文工程及实践经验

专知会员服务

25+阅读 · 3月8日

下一代战术训练：沉浸式VR与AR模拟系统

下一代战术训练：沉浸式VR与AR模拟系统

专知会员服务

18+阅读 · 2025年12月28日

实时无人机指令处理：一种面向无人机系统的大语言模型方法

实时无人机指令处理：一种面向无人机系统的大语言模型方法

专知会员服务

20+阅读 · 2025年10月24日

《战术训练虚拟士兵：一种用于自适应军事模拟的生成式人工智能框架》最新文献

《战术训练虚拟士兵：一种用于自适应军事模拟的生成式人工智能框架》最新文献

专知会员服务

28+阅读 · 2025年9月24日

重新定义防空：先进指挥与控制，实现卓越态势感知能力

重新定义防空：先进指挥与控制，实现卓越态势感知能力

专知会员服务

35+阅读 · 2025年2月3日

如何构建真正的智能助手？148页Meta最新WWW2023《面向下一代智能助手》教程

如何构建真正的智能助手？148页Meta最新WWW2023《面向下一代智能助手》教程

专知会员服务

39+阅读 · 2023年5月9日

《了解AR/VR培训效果现状》14页slides，美国海军研究实验室支持项目

《了解AR/VR培训效果现状》14页slides，美国海军研究实验室支持项目

专知会员服务

32+阅读 · 2022年10月21日

《视觉Transformer》最新简明综述，概述视觉Transformers 的不同架构设计和训练技巧

《视觉Transformer》最新简明综述，概述视觉Transformers 的不同架构设计和训练技巧

专知会员服务

67+阅读 · 2022年7月8日

增强现实（AR）技术在增强型指挥与控制中的应用

增强现实（AR）技术在增强型指挥与控制中的应用

专知会员服务

57+阅读 · 2022年6月9日

面向移动增强现实的实时深度学习目标检测方法综述

专知会员服务

22+阅读 · 2021年10月9日

热门VIP内容

开通专知VIP会员享更多权益服务

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

学习数据的几何：形状空间分析数学综述

相关资讯

推荐！【中文版】《利用人工智能辅助指挥官进行复杂决策》美国海陆空军10位技术专家联合撰写

推荐！【中文版】《利用人工智能辅助指挥官进行复杂决策》美国海陆空军10位技术专家联合撰写

专知

84+阅读 · 2022年8月29日

推荐！【中文版】《人工智能在指挥和控制系统中的决策支持》瑞典国防研究局

推荐！【中文版】《人工智能在指挥和控制系统中的决策支持》瑞典国防研究局

专知

36+阅读 · 2022年7月31日

《面向军事应用的数据驱动的行为建模》荷兰应用科学研究组织（NTO）

《面向军事应用的数据驱动的行为建模》荷兰应用科学研究组织（NTO）

专知

56+阅读 · 2022年6月2日

Transformers就是图神经网络？NTU-Chaitanya Joshi论述: 是GNN的一个特例

Transformers就是图神经网络？NTU-Chaitanya Joshi论述: 是GNN的一个特例

专知

20+阅读 · 2020年3月1日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

PlaNet 简介：用于强化学习的深度规划网络

PlaNet 简介：用于强化学习的深度规划网络

谷歌开发者

13+阅读 · 2019年3月16日

【泡泡图灵智库】DS-SLAM:一种面向动态环境的语义视觉SLAM(arXiv)

【泡泡图灵智库】DS-SLAM:一种面向动态环境的语义视觉SLAM(arXiv)

泡泡机器人SLAM

27+阅读 · 2018年12月14日

【仿真】生产系统仿真软件，实现数字化工厂的利器！

【仿真】生产系统仿真软件，实现数字化工厂的利器！

产业智能官

15+阅读 · 2018年11月1日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

推荐｜使用 OpenCV和Python基于深度学习实现实时视频目标检测!

推荐｜使用 OpenCV和Python基于深度学习实现实时视频目标检测!

全球人工智能

10+阅读 · 2017年12月19日

相关论文

MagicSim: A Unified Infrastructure for Executable Embodied Interaction

Arxiv

0+阅读 · 6月16日

VisualClaw: A Real-Time, Personalized Agent for the Physical World

Arxiv

0+阅读 · 6月15日

EPIC: A System Framework for Efficient Egocentric Perception on Embodied AR Glasses

Arxiv

0+阅读 · 6月14日

From Prompt to Service: An SLM-Based Agent Orchestration Gateway for AI-Driven Virtual Worlds

Arxiv

0+阅读 · 6月2日

AlgoTouch: An Execution-Centered Approach to Incremental Construction of Imperative Programs

Arxiv

0+阅读 · 6月2日

Synchronized Realities: Towards Magic Mobile Experiences through Aligned AR

Arxiv

0+阅读 · 5月15日

Hot Wire 5D+: Evaluating Cognitive and Motor Trade-offs of Visual Feedback for 5D Augmented Reality Trajectories

Arxiv

0+阅读 · 5月8日

Sparkle: Realizing Lively Instruction-Guided Video Background Replacement via Decoupled Guidance

Arxiv

0+阅读 · 5月7日

JARVIS: An Evidence-Grounded Retrieval System for Interpretable Deceptive Reviews Adjudication

Arxiv

0+阅读 · 5月7日

VISOR: Agentic Visual Retrieval-Augmented Generation via Iterative Search and Over-horizon Reasoning

Arxiv

0+阅读 · 4月10日

相关基金

基于DASH的交互式三维视频系统建模

国家自然科学基金

1+阅读 · 2015年12月31日

2D/3D视觉信息融合仿生SLAM关键问题研究

国家自然科学基金

3+阅读 · 2015年12月31日

移动增强现实中基于视觉—惯性传感器的混合跟踪方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于强化学习的分布参数系统数据驱动控制

国家自然科学基金

7+阅读 · 2015年12月31日

基于虚拟原型的信息物理融合系统高效可信构造研究

国家自然科学基金

8+阅读 · 2015年12月31日

基于压缩感知的高精度实时视觉跟踪方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

移动与可穿戴计算中Eyes-Free交互界面研究

国家自然科学基金

0+阅读 · 2014年12月31日

移动终端视频目标快速识别技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

数据和模型混合驱动的虚拟人群行为仿真技术研究及其在军事中的应用

国家自然科学基金

10+阅读 · 2011年12月31日

微信扫码咨询专知VIP会员