Estimating object mass from visual input is challenging because mass depends jointly on geometric volume and material-dependent density, neither of which is directly observable from RGB appearance. Consequently, mass prediction from pixels is ill-posed and therefore benefits from physically meaningful representations to constrain the space of plausible solutions. We propose a physically structured framework for single-image mass estimation that addresses this ambiguity by aligning visual cues with the physical factors governing mass. From a single RGB image, we recover object-centric three-dimensional geometry via monocular depth estimation to inform volume and extract coarse material semantics using a vision-language model to guide density-related reasoning. These geometry, semantic, and appearance representations are fused through an instance-adaptive gating mechanism, and two physically guided latent factors (volume- and density-related) are predicted through separate regression heads under mass-only supervision. Experiments on image2mass and ABO-500 show that the proposed method consistently outperforms state-of-the-art methods.


翻译:从视觉输入估计物体质量具有挑战性,因为质量同时依赖于几何体积和材料相关的密度,而两者均无法从RGB外观直接观测。因此,基于像素的质量预测是一个病态问题,需要借助物理有意义的表示来约束合理解空间。我们提出了一种面向单幅图像质量估计的物理结构化框架,通过将视觉线索与支配质量的物理因子对齐来解决这一歧义性。从单幅RGB图像出发,我们通过单目深度估计恢复以物体为中心的三维几何信息以获取体积,并利用视觉语言模型提取粗粒度材料语义以指导密度相关推理。这些几何、语义和外观表示通过实例自适应门控机制融合,并在仅依赖质量监督的条件下,通过独立回归头预测两个物理引导的潜在因子(体积相关与密度相关因子)。在image2mass和ABO-500数据集上的实验表明,所提方法持续优于现有最先进方法。

0
下载
关闭预览

相关内容

MASS:IEEE International Conference on Mobile Ad-hoc and Sensor Systems。 Explanation:移动Ad hoc和传感器系统IEEE国际会议。 Publisher:IEEE。 SIT: http://dblp.uni-trier.de/db/conf/mass/index.html
迈向深度基础模型:基于视觉的深度估计最新趋势
专知会员服务
23+阅读 · 2025年7月16日
基于深度学习的物体姿态估计综述
专知会员服务
26+阅读 · 2024年5月15日
【AAAI2022】基于特征纯化的视线估计算法
专知会员服务
10+阅读 · 2022年2月11日
【博士论文】基于深度学习的单目场景深度估计方法研究
专知会员服务
34+阅读 · 2021年9月29日
无参考图像质量评价研究进展
专知会员服务
31+阅读 · 2021年2月14日
一行命令搞定图像质量评价
计算机视觉life
12+阅读 · 2019年12月31日
深度学习应用在图像匹配的效果如何?
中国图象图形学报
10+阅读 · 2019年6月11日
CVPR 2019 | 无监督领域特定单图像去模糊
PaperWeekly
14+阅读 · 2019年3月20日
无参考图像质量评价研究进展综述
人工智能前沿讲习班
47+阅读 · 2019年2月15日
图像美学质量评价技术发展趋势
科技导报
19+阅读 · 2018年6月25日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
专知会员服务
1+阅读 · 今天14:45
综述 | 世界动作模型:少做梦,多行动
专知会员服务
1+阅读 · 今天14:43
美以伊冲突:无人机与人工智能的运用
专知会员服务
3+阅读 · 今天14:31
《特种部队在透明战场中的生存力》最新报告
专知会员服务
2+阅读 · 今天14:11
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关VIP内容
迈向深度基础模型:基于视觉的深度估计最新趋势
专知会员服务
23+阅读 · 2025年7月16日
基于深度学习的物体姿态估计综述
专知会员服务
26+阅读 · 2024年5月15日
【AAAI2022】基于特征纯化的视线估计算法
专知会员服务
10+阅读 · 2022年2月11日
【博士论文】基于深度学习的单目场景深度估计方法研究
专知会员服务
34+阅读 · 2021年9月29日
无参考图像质量评价研究进展
专知会员服务
31+阅读 · 2021年2月14日
相关资讯
一行命令搞定图像质量评价
计算机视觉life
12+阅读 · 2019年12月31日
深度学习应用在图像匹配的效果如何?
中国图象图形学报
10+阅读 · 2019年6月11日
CVPR 2019 | 无监督领域特定单图像去模糊
PaperWeekly
14+阅读 · 2019年3月20日
无参考图像质量评价研究进展综述
人工智能前沿讲习班
47+阅读 · 2019年2月15日
图像美学质量评价技术发展趋势
科技导报
19+阅读 · 2018年6月25日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员