Just Recognizable Difference (JRD) boosts coding efficiency for machine vision through visibility threshold modeling, but is currently limited to a single-task scenario. To address this issue, we propose a Multi-Task JRD (MT-JRD) dataset and an Attribute-assisted MT-JRD (AMT-JRD) model for Video Coding for Machines (VCM), enhancing both prediction accuracy and coding efficiency. First, we construct a dataset comprising 27,264 JRD annotations from machines, supporting three representative tasks including object detection, instance segmentation, and keypoint detection. Secondly, we propose the AMT-JRD prediction model, which integrates Generalized Feature Extraction Module (GFEM) and Specialized Feature Extraction Module (SFEM) to facilitate joint learning across multiple tasks. Thirdly, we innovatively incorporate object attribute information into object-wise JRD prediction through the Attribute Feature Fusion Module (AFFM), which introduces prior knowledge about object size and location. This design effectively compensates for the limitations of relying solely on image features and enhances the model's capacity to represent the perceptual mechanisms of machine vision. Finally, we apply the AMT-JRD model to VCM, where the accurately predicted JRDs are applied to reduce the coding bit rate while preserving accuracy across multiple machine vision tasks. Extensive experimental results demonstrate that AMT-JRD achieves precise and robust multi-task prediction with a mean absolute error of 3.781 and error variance of 5.332 across three tasks, outperforming the state-of-the-art single-task prediction model by 6.7% and 6.3%, respectively. Coding experiments further reveal that compared to the baseline VVC and JPEG, the AMT-JRD-based VCM improves an average of 3.861% and 7.886% Bjontegaard Delta-mean Average Precision (BD-mAP), respectively.


翻译:最小可察觉差异(JRD)通过可见度阈值建模提升了机器视觉的编码效率,但目前仅局限于单任务场景。为解决这一问题,我们针对机器视频编码(VCM)提出多任务JRD(MT-JRD)数据集及属性辅助MT-JRD(AMT-JRD)模型,从而同时提升预测精度与编码效率。首先,我们构建包含27,264个来自机器的JRD标注的数据集,支持目标检测、实例分割和关键点检测三类代表性任务。其次,我们提出AMT-JRD预测模型,该模型整合了通用特征提取模块(GFEM)与专用特征提取模块(SFEM),以促进多任务联合学习。第三,我们通过属性特征融合模块(AFFM)创新性地将目标属性信息融入目标级JRD预测,该模块引入了关于目标尺寸与位置的先验知识。这一设计有效弥补了仅依赖图像特征的局限性,并增强了模型表征机器视觉感知机制的能力。最后,我们将AMT-JRD模型应用于VCM,通过精确预测的JRD降低编码比特率,同时保持多类机器视觉任务的精度。大量实验结果表明,AMT-JRD在三类任务上实现了精确且鲁棒的多任务预测,平均绝对误差为3.781,误差方差为5.332,分别比最先进的单任务预测模型提升6.7%和6.3%。编码实验进一步表明,与基准VVC和JPEG相比,基于AMT-JRD的VCM的Bjontegaard Delta-平均精度均值(BD-mAP)分别平均提升3.861%和7.886%。

0
下载
关闭预览

相关内容

多模态融合与视觉-语言模型:面向机器人视觉的综述
专知会员服务
35+阅读 · 2025年4月5日
【博士论文】学习视觉-语言表示以实现多模态理解
专知会员服务
28+阅读 · 2025年2月8日
【CVPR2024】掩码自解码器是有效的多任务视觉通用模型
专知会员服务
20+阅读 · 2024年3月16日
机器视觉专题报告: AI+机器视觉,应用场景持续拓展
专知会员服务
61+阅读 · 2023年6月20日
用于识别任务的视觉 Transformer 综述
专知会员服务
75+阅读 · 2023年2月25日
【Google】多模态Transformer视频检索,Multi-modal Transformer
专知会员服务
103+阅读 · 2020年7月22日
计算机视觉方向简介 | 多目标跟踪算法(附源码)
计算机视觉life
15+阅读 · 2019年6月26日
这可能是「多模态机器学习」最通俗易懂的介绍
计算机视觉life
113+阅读 · 2018年12月20日
深度学习与计算机视觉任务应用综述
深度学习与NLP
51+阅读 · 2018年12月18日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
6+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员