Early in development, infants learn to extract surprisingly complex aspects of visual scenes. This early learning comes together with an initial understanding of the extracted concepts, such as their implications, causality, and using them to predict likely future events. In many cases, this learning is obtained with little or no supervision, and from relatively few examples, compared to current network models. Empirical studies of visual perception in early development have shown that in the domain of objects and human-object interactions, early-acquired concepts are often used in the process of learning additional, more complex concepts. In the current work, we model how early-acquired concepts are used in the learning of subsequent concepts, and compare the results with standard deep network modeling. We focused in particular on the use of the concepts of animacy and goal attribution in learning to predict future events in dynamic visual scenes. We show that the use of early concepts in the learning of new concepts leads to better learning (higher accuracy) and more efficient learning (requiring less data), and that the combination of early and new concepts shapes the representation of the concepts acquired by the model and improves its generalization. We further compare advanced vision-language models to a human study in a task that requires an understanding of the behavior of animate vs. inanimate agents, with results supporting the contribution of early concepts to visual understanding. We finally briefly discuss the possible benefits of incorporating aspects of human-like visual learning into computer vision models.


翻译:在发育早期,婴儿便能从视觉场景中提取出令人惊讶的复杂特征。这种早期学习伴随着对所提取概念的初步理解,例如其蕴含意义、因果关系,以及利用这些概念预测未来可能发生的事件。与当前网络模型相比,这种学习通常在无监督或极弱监督条件下完成,且所需样本量相对较少。针对早期发育中视觉感知的实证研究表明,在物体与人-物交互领域,早期习得的概念常被用于学习其他更复杂概念的过程中。本研究通过建模分析了早期习得概念如何用于后续概念学习,并与标准深度网络模型进行了对比。我们特别聚焦于将"生命性"和"目标归因"概念应用于动态视觉场景中未来事件预测的学习过程。研究显示,将早期概念融入新概念学习不仅能提升学习效果(更高准确率),还能提高学习效率(减少数据需求),同时早期概念与新概念的组合会重塑模型所习得概念的表征方式,并增强其泛化能力。我们进一步将先进的视觉-语言模型与人类行为研究进行对比,通过要求理解生命体与非生命体行为差异的任务,验证了早期概念对视觉理解的促进作用。最后,简要讨论了将类人视觉学习机制融入计算机视觉模型的潜在优势。

0
下载
关闭预览

相关内容

提示学习在计算机视觉中的分类、应用及展望
专知会员服务
19+阅读 · 2025年6月18日
【博士论文】学习视觉-语言表示以实现多模态理解
专知会员服务
28+阅读 · 2025年2月8日
专知会员服务
22+阅读 · 2021年8月23日
深度学习模型可解释性的研究进展
专知
26+阅读 · 2020年8月1日
这可能是「多模态机器学习」最通俗易懂的介绍
计算机视觉life
113+阅读 · 2018年12月20日
交互设计理论:视觉感知、认知摩擦、认知负荷和情境认知
人人都是产品经理
20+阅读 · 2018年5月10日
基于信息理论的机器学习
专知
22+阅读 · 2017年11月23日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
VIP会员
最新内容
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
学习数据的几何:形状空间分析数学综述
专知会员服务
10+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
12+阅读 · 6月17日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员