The research introduces a reproducible framework for transforming raw, heterogeneous sensor streams into aligned, semantically meaningful representations for multimodal human activity recognition. Grounded in the Carnegie Mellon University Multi-Modal Activity Database (CMU-MMAC) database and focused on the naturalistic Subject 07 Brownie session, the study traces the full pipeline from data ingestion to modeling and interpretation. Unlike black box preprocessing, a unified preprocessing workflow is proposed that temporally aligns video, audio, and RFID through resampling, grayscale conversion, sliding-window segmentation, and modality-specific normalization, producing standardized fused tensors suitable for downstream learning. Building on this foundation, the work systematically compares early, late, and hybrid fusion strategies using LSTM-based models implemented with PyTorch and TensorFlow, showing that late fusion consistently achieves the highest validation accuracy, with hybrid fusion outperforming early fusion. To evaluate interpretability and modality contribution, PCA and t-SNE visualizations reveal coherent temporal structure and confirm that the video carries stronger discriminative power than audio, while their combination yields substantial performance gains. Incorporating sparse, asynchronous RFID signals further improves accuracy by over 50% and boosts macro-averaged ROC-AUC, demonstrating the added value of object-interaction cues. Overall, the framework contributes a modular, empirically validated approach to multimodal fusion that links preprocessing design, fusion architecture, and interpretability, offering a transferable template for intelligent systems operating in complex, real-world activity settings.


翻译:本研究提出一种可复现框架,用于将原始异构传感器流转化为对齐且具有语义意义的多模态人体活动识别表征。基于卡内基梅隆大学多模态活动数据库(CMU-MMAC),聚焦自然场景下的Subject 07 Brownie实验会话,完整追踪从数据采集到建模与解释的全流程。为避免黑箱预处理弊端,提出统一预处理工作流:通过重采样、灰度转换、滑动窗口分割及模态特定归一化,实现视频、音频与RFID信号的时间对齐,生成标准化融合张量供下游学习使用。在此基础上,系统比较了基于LSTM模型(分别采用PyTorch与TensorFlow实现)的早期融合、晚期融合与混合融合策略,结果表明晚期融合始终获得最高验证准确率,混合融合性能优于早期融合。在可解释性与模态贡献评估方面,PCA与t-SNE可视化揭示了连贯的时间结构,证实视频比音频具有更强判别力,二者组合可显著提升性能。融入稀疏异步RFID信号后,准确率提升超50%,宏平均ROC-AUC值同步提高,充分体现物体交互线索的附加价值。总体而言,本框架构建了连接预处理设计、融合架构与可解释性的模块化经验验证方法,为复杂真实活动场景下的智能系统提供了可迁移的通用模板。

0
下载
关闭预览

相关内容

多模态对话情感识别:方法、趋势、挑战与前景综述
专知会员服务
20+阅读 · 2025年5月28日
多模态基础模型的机制可解释性综述
专知会员服务
43+阅读 · 2025年2月28日
《深度多模态学习的身体语言识别与生成》综述
专知会员服务
27+阅读 · 2023年8月27日
多模态人机交互综述
专知会员服务
150+阅读 · 2022年7月3日
专家报告|深度学习+图像多模态融合
中国图象图形学报
12+阅读 · 2019年10月23日
MaskFusion: 多运动目标实时识别、跟踪和重建
计算机视觉life
11+阅读 · 2019年4月20日
基于人体骨架的行为识别【附PPT与视频资料】
人工智能前沿讲习班
31+阅读 · 2019年1月15日
干货|基于双流递归神经网络的人体骨架行为识别!
全球人工智能
13+阅读 · 2017年12月15日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
24+阅读 · 2011年12月31日
Arxiv
11+阅读 · 2023年5月15日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
4+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
24+阅读 · 2011年12月31日
Top
微信扫码咨询专知VIP会员