A fundamental question in cognitive science and AI concerns whether different learning modalities: language, vision, and action, give rise to distinct or shared internal representations. Traditional views assume that models trained on different data types develop specialized, non-transferable representations. However, recent evidence suggests unexpected convergence: models optimized for distinct tasks may develop similar representational geometries. We investigate whether this convergence extends to embodied action learning by training a transformer-based agent to execute goal-directed behaviors in response to natural language instructions. Using behavioral cloning on the BabyAI platform, we generated action-grounded language embeddings shaped exclusively by sensorimotor control requirements. We then compared these representations with those extracted from state-of-the-art large language models (LLaMA, Qwen, DeepSeek, BERT) and vision-language models (CLIP, BLIP). Despite substantial differences in training data, modality, and objectives, we observed robust cross-modal alignment. Action representations aligned strongly with decoder-only language models and BLIP (precision@15: 0.70-0.73), approaching the alignment observed among language models themselves. Alignment with CLIP and BERT was significantly weaker. These findings indicate that linguistic, visual, and action representations converge toward partially shared semantic structures, supporting modality-independent semantic organization and highlighting potential for cross-domain transfer in embodied AI systems.


翻译:认知科学与人工智能领域的一个基本问题在于:语言、视觉与动作等不同学习模态是否会产生各自独立或共享的内部表征。传统观点认为,基于不同类型数据训练的模型会形成专门化且不可迁移的表征。然而,近期证据表明存在意料之外的趋同性:为不同任务优化的模型可能发展出相似的表征几何结构。本研究通过训练一个基于Transformer的智能体,使其能够根据自然语言指令执行目标导向行为,来探究这种趋同性是否延伸至具身动作学习。我们在BabyAI平台上采用行为克隆方法,生成了完全由感觉运动控制需求塑造的动作锚定语言嵌入。随后,我们将这些表征与从先进的大语言模型(LLaMA、Qwen、DeepSeek、BERT)及视觉语言模型(CLIP、BLIP)中提取的表征进行比较。尽管在训练数据、模态和目标上存在显著差异,我们观察到了稳健的跨模态对齐。动作表征与仅解码器语言模型及BLIP表现出强烈对齐(精度@15:0.70-0.73),接近语言模型内部自身的对齐程度。而与CLIP和BERT的对齐则显著较弱。这些发现表明,语言、视觉和动作表征趋向于部分共享的语义结构,支持了模态无关的语义组织方式,并凸显了具身人工智能系统中跨领域迁移的潜力。

0
下载
关闭预览

相关内容

面向具身操作的视觉-语言-动作模型综述
专知会员服务
28+阅读 · 2025年8月23日
视觉语言动作模型:概念、进展、应用与挑战
专知会员服务
19+阅读 · 2025年5月18日
【博士论文】学习视觉-语言表示以实现多模态理解
专知会员服务
28+阅读 · 2025年2月8日
《面向具身智能的视觉-语言-动作模型》综述
专知会员服务
66+阅读 · 2024年5月24日
多模态视觉语言表征学习研究综述
专知会员服务
195+阅读 · 2020年12月3日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
【论文】图上的表示学习综述
机器学习研究会
15+阅读 · 2017年9月24日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员