The goal of creating intelligent, human-centered wearable systems for continuous activity understanding faces a fundamental trade-off: Egocentric video-based models capture rich semantic information and have demonstrated strong performance in human activity recognition (HAR), but their high power consumption, privacy concerns, and dependence on lighting limit their feasibility for continuous on-device recognition. In contrast, inertial measurement unit (IMU) sensors offer an energy-efficient, privacy-preserving alternative, yet lack large-scale annotated datasets, leading to weaker generalization. To bridge this gap, we propose COMODO, a cross-modal self-supervised distillation framework that transfers semantic knowledge from video to IMU without requiring labels. COMODO leverages a pretrained and frozen video encoder to construct a dynamic instance queue to align the feature distributions of video and IMU embeddings. This enables the IMU encoder to inherit rich semantic structure from video while maintaining its efficiency for real-world applications. Experiments on multiple egocentric HAR datasets show that COMODO consistently improves downstream performance, matching or surpassing fully supervised models, and demonstrating strong cross-dataset generalization. Benefiting from its simplicity and flexibility, COMODO is compatible with diverse pretrained video and time-series models, offering the potential to leverage more powerful teacher and student foundation models in future ubiquitous computing research. The code is available at this repository: https://github.com/cruiseresearchgroup/COMODO.


翻译:构建用于持续活动理解的智能、以人为中心的可穿戴系统面临一个根本性权衡:基于自我中心视频的模型能够捕捉丰富的语义信息,并在人体活动识别(HAR)中展现出强大性能,但其高功耗、隐私问题以及对光照的依赖限制了其在持续设备端识别中的可行性。相比之下,惯性测量单元(IMU)传感器提供了一种能效高、隐私保护性好的备选方案,却缺乏大规模标注数据集,导致泛化能力较弱。为弥合这一差距,我们提出COMODO——一种无需标签即可将视频中的语义知识迁移至IMU的跨模态自监督蒸馏框架。COMODO利用预训练且参数冻结的视频编码器构建动态实例队列,以对齐视频和IMU嵌入的特征分布,从而使IMU编码器在保持实际应用效率的同时,继承视频的丰富语义结构。在多个自我中心HAR数据集上的实验表明,COMODO持续提升下游性能,达到或超越全监督模型,并展现出强大的跨数据集泛化能力。凭借其简洁性与灵活性,COMODO兼容多种预训练视频与时序模型,为未来普适计算研究中利用更强大的教师与学生基础模型提供了潜力。代码已开源至:https://github.com/cruiseresearchgroup/COMODO。

0
下载
关闭预览

相关内容

具身智能中的心理世界建模:深度综述
专知会员服务
39+阅读 · 1月10日
【CMU博士论文】多感官人工智能的基础
专知会员服务
40+阅读 · 2024年5月3日
【CVPR2022】以人为中心感知的多模态预训练
专知会员服务
30+阅读 · 2022年3月28日
专知会员服务
68+阅读 · 2021年10月15日
【紫冬声音】基于人体骨架的行为识别
中国自动化学会
17+阅读 · 2019年1月30日
基于人体骨架的行为识别【附PPT与视频资料】
人工智能前沿讲习班
31+阅读 · 2019年1月15日
干货|基于双流递归神经网络的人体骨架行为识别!
全球人工智能
13+阅读 · 2017年12月15日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
5+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员