EPIC: A System Framework for Efficient Egocentric Perception on Embodied AR Glasses - 专知论文

会员服务 ·

0

系统 · 增强现实（AR） · 视频 · 高分辨 · 高分辨率 ·

EPIC: A System Framework for Efficient Egocentric Perception on Embodied AR Glasses

翻译：EPIC: 一种面向具身智能AR眼镜的高效自我中心感知系统框架

Tianhua Xia,Haiyu Wang,Jiajing Zheng,Su Chen,Sai Qian Zhang

Modern smart AR glasses are evolving into intelligent systems that support foundation model-based assistance through continuous perception of the user and surrounding environment. However, this perception-first design creates major bottlenecks. Continuously capturing, processing, and storing rich perceptual streams, especially high-resolution egocentric video, imposes substantial power and memory overhead, which is difficult to sustain on resource-constrained AR glasses. In this work, we propose EPIC, an efficient egocentric perception system for embodied intelligence on smart AR glasses. EPIC is an algorithm-hardware co-optimization framework that leverages gaze, pose, and inertial signals to infer user intent and retain only the most informative parts of high-resolution perceptual input, greatly reducing perception overhead. Our results show that EPIC reduces memory footprint by $27.5\times$ and energy consumption by $24.3\times$ on average compared with full video baseline solution, while preserving intelligent assistance accuracy on egocentric video understanding tasks, a key application scenario for embodied intelligence on smart glasses.

翻译：现代智能AR眼镜正逐步演变为智能系统，通过持续感知用户及周围环境来支持基于基础模型的辅助功能。然而，这种以感知为先的设计带来了重大瓶颈。持续捕获、处理并存储丰富的感知数据流（特别是高分辨率自我中心视频）会产生巨大的功耗与内存开销，这在资源受限的AR眼镜上难以维持。本文提出EPIC——一种面向智能AR眼镜具身智能的高效自我中心感知系统。EPIC是一种算法-硬件协同优化框架，利用注视、姿态与惯性信号来推断用户意图，仅保留高分辨率感知输入中最具信息量的部分，从而大幅降低感知开销。实验结果表明，与全视频基线方案相比，EPIC平均将内存占用降低27.5倍，能耗降低24.3倍，同时保持自我中心视频理解任务（智能眼镜具身智能的关键应用场景）中的智能辅助准确性。

0

相关内容

[ICML26] 破局长视频理解！快手推出统一框架实现视频定位与深度理解，多项基准测试性能全面提升

[ICML26] 破局长视频理解！快手推出统一框架实现视频定位与深度理解，多项基准测试性能全面提升

专知会员服务

8+阅读 · 5月24日

《一种用于GNSS拒止环境中执行情报、监视与侦察任务集的无人机设计任务工程框架》

《一种用于GNSS拒止环境中执行情报、监视与侦察任务集的无人机设计任务工程框架》

专知会员服务

22+阅读 · 3月3日

OpenEarthAgent：一种面向工具增强型地理空间智能体的统一框架

OpenEarthAgent：一种面向工具增强型地理空间智能体的统一框架

专知会员服务

16+阅读 · 2月20日

AI 智能体系统：体系架构、应用场景及评估范式

AI 智能体系统：体系架构、应用场景及评估范式

专知会员服务

70+阅读 · 1月6日

仿生感存算一体视觉系统：仿生机制、设计原理及其应用

仿生感存算一体视觉系统：仿生机制、设计原理及其应用

专知会员服务

30+阅读 · 2023年11月30日

如何构建真正的智能助手？148页Meta最新WWW2023《面向下一代智能助手》教程

如何构建真正的智能助手？148页Meta最新WWW2023《面向下一代智能助手》教程

专知会员服务

39+阅读 · 2023年5月9日

中国增强现实（AR）行业研究报告（附报告），67页ppt

中国增强现实（AR）行业研究报告（附报告），67页ppt

专知会员服务

44+阅读 · 2023年3月17日

混合增强视觉认知架构及其关键技术进展

混合增强视觉认知架构及其关键技术进展

专知会员服务

46+阅读 · 2021年11月20日

面向移动增强现实的实时深度学习目标检测方法综述

专知会员服务

22+阅读 · 2021年10月9日

AR洞察及应用实践白皮书，48页pdf

专知会员服务

48+阅读 · 2021年6月27日

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

专知

23+阅读 · 2023年4月8日

重磅！AI框架发展白皮书（2022年）,44页pdf

重磅！AI框架发展白皮书（2022年）,44页pdf

专知

28+阅读 · 2022年2月27日

【浙大博士论文】面向复杂场景理解的视觉内容识别、检测与推理方法研究

【浙大博士论文】面向复杂场景理解的视觉内容识别、检测与推理方法研究

专知

27+阅读 · 2020年7月26日

蚂蚁金服人工智能部论文《AGL:可扩展工业图机器学习系统》，处理十亿节点千亿边图数据的GNNs训练推理

蚂蚁金服人工智能部论文《AGL:可扩展工业图机器学习系统》，处理十亿节点千亿边图数据的GNNs训练推理

专知

33+阅读 · 2020年3月9日

浅谈群体智能——新一代AI的重要方向

浅谈群体智能——新一代AI的重要方向

中国科学院自动化研究所

44+阅读 · 2019年10月16日

MediaPipe：Google Research 开源的跨平台多媒体机器学习模型应用框架

MediaPipe：Google Research 开源的跨平台多媒体机器学习模型应用框架

AI100

17+阅读 · 2019年9月14日

论文浅尝 | 虚拟知识图谱：软件系统和应用案例综述

论文浅尝 | 虚拟知识图谱：软件系统和应用案例综述

开放知识图谱

15+阅读 · 2019年5月7日

爱奇艺基于AI的移动端自动化测试框架的设计

爱奇艺基于AI的移动端自动化测试框架的设计

前端之巅

18+阅读 · 2019年2月27日

三维感知与三维数据分析最新进展 - 3D传感&人工智能前沿科技论坛

三维感知与三维数据分析最新进展 - 3D传感&人工智能前沿科技论坛

AI科技评论

10+阅读 · 2019年2月2日

【分析】图像分类、目标检测、图像分割、图像生成……一文「计算机视觉」全分析

【分析】图像分类、目标检测、图像分割、图像生成……一文「计算机视觉」全分析

GAN生成式对抗网络

23+阅读 · 2017年9月14日

无人驾驶中4D场景实时解析算法研究

国家自然科学基金

12+阅读 · 2017年12月31日

复合型移动群智感知关键技术研究

国家自然科学基金

9+阅读 · 2017年12月31日

支持智能终端通信的物联网管控机制研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于软件定义的智能光载无线组网模型与控制机理研究

国家自然科学基金

0+阅读 · 2015年12月31日

多目主动相机智能监控关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于数据挖掘和感知分析的非对称失真视觉质量评价模型研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向智能穿戴设备的三维图形网格简化与渐进显示方法

国家自然科学基金

1+阅读 · 2015年12月31日

移动与可穿戴计算中Eyes-Free交互界面研究

国家自然科学基金

0+阅读 · 2014年12月31日

高数值孔径曲面复眼成像体系研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

GOT-JEPA: Generic Object Tracking with Model Adaptation and Occlusion Handling using Joint-Embedding Predictive Architecture

Arxiv

0+阅读 · 6月16日

PROSE: Training-Free Egocentric Scene Registration with Vision-Language Models

Arxiv

0+阅读 · 6月15日

VAIC: Vision-Guided Humanoid Agile Object Interaction Control via Decoupled Commands

Arxiv

0+阅读 · 6月8日

OpenGlass: Open-Source Smart Glasses for On-Device Event-Based Gesture Recognition

Arxiv

0+阅读 · 6月5日

Toward a Modular Architecture for Embedded AI Agent Systems at the Edge

Arxiv

0+阅读 · 6月1日

ESI-Bench: Towards Embodied Spatial Intelligence that Closes the Perception-Action Loop

Arxiv

0+阅读 · 5月18日

EPIC: Abstraction and Polymorphism of In-Network Collectives on Ethernet

Arxiv

0+阅读 · 5月18日

JARVIS: A Just-in-Time Augmented Reality VLM-Powered Instruction System for Cross-Reality Task Guidance

Arxiv

0+阅读 · 5月17日

EgoForce: Forearm-Guided Camera-Space 3D Hand Pose from a Monocular Egocentric Camera

Arxiv

0+阅读 · 5月12日

AuthGlass: Benchmarking Voice Liveness Detection and Authentication on Smart Glasses via Comprehensive Acoustic Features

Arxiv

0+阅读 · 5月10日

VIP会员

文章信息

相关主题

增强现实（AR）

最新内容

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

1+阅读 · 今天2:06

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

1+阅读 · 今天1:37

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

2+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

2+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

2+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

5+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

6+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

3+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

4+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

4+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

4+阅读 · 6月17日

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

专知会员服务

3+阅读 · 6月17日

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

专知会员服务

5+阅读 · 6月16日

多模态代码智能综述：从视觉输入到可执行代码系统

多模态代码智能综述：从视觉输入到可执行代码系统

专知会员服务

7+阅读 · 6月16日

美国马六甲“三重网”概念：安全网、威慑网与杀伤网

美国马六甲“三重网”概念：安全网、威慑网与杀伤网

专知会员服务

6+阅读 · 6月16日

相关VIP内容

[ICML26] 破局长视频理解！快手推出统一框架实现视频定位与深度理解，多项基准测试性能全面提升

[ICML26] 破局长视频理解！快手推出统一框架实现视频定位与深度理解，多项基准测试性能全面提升

专知会员服务

8+阅读 · 5月24日

《一种用于GNSS拒止环境中执行情报、监视与侦察任务集的无人机设计任务工程框架》

《一种用于GNSS拒止环境中执行情报、监视与侦察任务集的无人机设计任务工程框架》

专知会员服务

22+阅读 · 3月3日

OpenEarthAgent：一种面向工具增强型地理空间智能体的统一框架

OpenEarthAgent：一种面向工具增强型地理空间智能体的统一框架

专知会员服务

16+阅读 · 2月20日

AI 智能体系统：体系架构、应用场景及评估范式

AI 智能体系统：体系架构、应用场景及评估范式

专知会员服务

70+阅读 · 1月6日

仿生感存算一体视觉系统：仿生机制、设计原理及其应用

仿生感存算一体视觉系统：仿生机制、设计原理及其应用

专知会员服务

30+阅读 · 2023年11月30日

如何构建真正的智能助手？148页Meta最新WWW2023《面向下一代智能助手》教程

如何构建真正的智能助手？148页Meta最新WWW2023《面向下一代智能助手》教程

专知会员服务

39+阅读 · 2023年5月9日

中国增强现实（AR）行业研究报告（附报告），67页ppt

中国增强现实（AR）行业研究报告（附报告），67页ppt

专知会员服务

44+阅读 · 2023年3月17日

混合增强视觉认知架构及其关键技术进展

混合增强视觉认知架构及其关键技术进展

专知会员服务

46+阅读 · 2021年11月20日

面向移动增强现实的实时深度学习目标检测方法综述

专知会员服务

22+阅读 · 2021年10月9日

AR洞察及应用实践白皮书，48页pdf

专知会员服务

48+阅读 · 2021年6月27日

热门VIP内容

开通专知VIP会员享更多权益服务

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

相关资讯

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

专知

23+阅读 · 2023年4月8日

重磅！AI框架发展白皮书（2022年）,44页pdf

重磅！AI框架发展白皮书（2022年）,44页pdf

专知

28+阅读 · 2022年2月27日

【浙大博士论文】面向复杂场景理解的视觉内容识别、检测与推理方法研究

【浙大博士论文】面向复杂场景理解的视觉内容识别、检测与推理方法研究

专知

27+阅读 · 2020年7月26日

蚂蚁金服人工智能部论文《AGL:可扩展工业图机器学习系统》，处理十亿节点千亿边图数据的GNNs训练推理

蚂蚁金服人工智能部论文《AGL:可扩展工业图机器学习系统》，处理十亿节点千亿边图数据的GNNs训练推理

专知

33+阅读 · 2020年3月9日

浅谈群体智能——新一代AI的重要方向

浅谈群体智能——新一代AI的重要方向

中国科学院自动化研究所

44+阅读 · 2019年10月16日

MediaPipe：Google Research 开源的跨平台多媒体机器学习模型应用框架

MediaPipe：Google Research 开源的跨平台多媒体机器学习模型应用框架

AI100

17+阅读 · 2019年9月14日

论文浅尝 | 虚拟知识图谱：软件系统和应用案例综述

论文浅尝 | 虚拟知识图谱：软件系统和应用案例综述

开放知识图谱

15+阅读 · 2019年5月7日

爱奇艺基于AI的移动端自动化测试框架的设计

爱奇艺基于AI的移动端自动化测试框架的设计

前端之巅

18+阅读 · 2019年2月27日

三维感知与三维数据分析最新进展 - 3D传感&人工智能前沿科技论坛

三维感知与三维数据分析最新进展 - 3D传感&人工智能前沿科技论坛

AI科技评论

10+阅读 · 2019年2月2日

【分析】图像分类、目标检测、图像分割、图像生成……一文「计算机视觉」全分析

【分析】图像分类、目标检测、图像分割、图像生成……一文「计算机视觉」全分析

GAN生成式对抗网络

23+阅读 · 2017年9月14日

相关论文

GOT-JEPA: Generic Object Tracking with Model Adaptation and Occlusion Handling using Joint-Embedding Predictive Architecture

Arxiv

0+阅读 · 6月16日

PROSE: Training-Free Egocentric Scene Registration with Vision-Language Models

Arxiv

0+阅读 · 6月15日

VAIC: Vision-Guided Humanoid Agile Object Interaction Control via Decoupled Commands

Arxiv

0+阅读 · 6月8日

OpenGlass: Open-Source Smart Glasses for On-Device Event-Based Gesture Recognition

Arxiv

0+阅读 · 6月5日

Toward a Modular Architecture for Embedded AI Agent Systems at the Edge

Arxiv

0+阅读 · 6月1日

ESI-Bench: Towards Embodied Spatial Intelligence that Closes the Perception-Action Loop

Arxiv

0+阅读 · 5月18日

EPIC: Abstraction and Polymorphism of In-Network Collectives on Ethernet

Arxiv

0+阅读 · 5月18日

JARVIS: A Just-in-Time Augmented Reality VLM-Powered Instruction System for Cross-Reality Task Guidance

Arxiv

0+阅读 · 5月17日

EgoForce: Forearm-Guided Camera-Space 3D Hand Pose from a Monocular Egocentric Camera

Arxiv

0+阅读 · 5月12日

AuthGlass: Benchmarking Voice Liveness Detection and Authentication on Smart Glasses via Comprehensive Acoustic Features

Arxiv

0+阅读 · 5月10日

相关基金

无人驾驶中4D场景实时解析算法研究

国家自然科学基金

12+阅读 · 2017年12月31日

复合型移动群智感知关键技术研究

国家自然科学基金

9+阅读 · 2017年12月31日

支持智能终端通信的物联网管控机制研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于软件定义的智能光载无线组网模型与控制机理研究

国家自然科学基金

0+阅读 · 2015年12月31日

多目主动相机智能监控关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于数据挖掘和感知分析的非对称失真视觉质量评价模型研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向智能穿戴设备的三维图形网格简化与渐进显示方法

国家自然科学基金

1+阅读 · 2015年12月31日

移动与可穿戴计算中Eyes-Free交互界面研究

国家自然科学基金

0+阅读 · 2014年12月31日

高数值孔径曲面复眼成像体系研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员