T-REN: Learning Text-Aligned Region Tokens Improves Dense Vision-Language Alignment and Scalability - 专知论文

会员服务 ·

0

对齐 · 视频 · 扩展性 · 表示 · 可扩展性 ·

T-REN: Learning Text-Aligned Region Tokens Improves Dense Vision-Language Alignment and Scalability

翻译：T-REN：学习文本对齐的区域标记提升稠密视觉-语言对齐与可扩展性

Savya Khosla,Sethuraman T,Aryan Chadha,Alex Schwing,Derek Hoiem

Despite recent progress, vision-language encoders struggle with two core limitations: (1) weak alignment between language and dense vision features, which hurts tasks like open-vocabulary semantic segmentation; and (2) high token counts for fine-grained visual representations, which limits scalability to long videos. This work addresses both limitations. We propose T-REN (Text-aligned Region Encoder Network), an efficient encoder that maps visual data to a compact set of text-aligned region-level representations (or region tokens). T-REN achieves this through a lightweight network added on top of a frozen vision backbone, trained to pool patch-level representations within each semantic region into region tokens and align them with region-level text annotations. With only 3.7% additional parameters compared to the vision-language backbone, this design yields substantially stronger dense cross-modal understanding while reducing the token count by orders of magnitude. Specifically, T-REN delivers +5.9 mIoU on ADE20K open-vocabulary segmentation, +18.4% recall on COCO object-level text-image retrieval, +15.6% recall on Ego4D video object localization, and +17.6% mIoU on VSPW video scene parsing, all while reducing token counts by more than 24x for images and 187x for videos compared to the patch-based vision-language backbone. The code and model are available at https://github.com/savya08/T-REN.

翻译：尽管近期取得了进展，视觉-语言编码器仍面临两个核心局限：（1）语言与稠密视觉特征之间的弱对齐，这影响了开放词汇语义分割等任务；（2）细粒度视觉表示的高标记数量，限制了其在长视频上的可扩展性。本研究同时解决这两个局限。我们提出T-REN（文本对齐区域编码器网络），一种高效编码器，可将视觉数据映射为紧凑的文本对齐区域级表示（即区域标记）。T-REN通过在冻结的视觉骨干网络上添加轻量级网络实现，该网络将每个语义区域内基于图块的表示汇集成区域标记，并与区域级文本标注对齐。与视觉-语言骨干网络相比，仅增加3.7%参数，该设计显著增强了稠密跨模态理解能力，同时将标记数量减少数个数量级。具体而言，T-REN在ADE20K开放词汇分割任务上提升+5.9 mIoU，在COCO物体级文本-图像检索任务上提升+18.4%召回率，在Ego4D视频物体定位任务上提升+15.6%召回率，在VSPW视频场景解析任务上提升+17.6% mIoU，同时与基于图块的视觉-语言骨干网络相比，将图像标记数量减少24倍以上、视频标记数量减少187倍。代码与模型已开源：https://github.com/savya08/T-REN。

0

相关内容

【ICML2025】层级对齐：在视觉语言模型中检验图像编码器层的安全对齐

【ICML2025】层级对齐：在视觉语言模型中检验图像编码器层的安全对齐

专知会员服务

7+阅读 · 2025年5月2日

【CVPR2025】《文本到视频生成技术能否促进视频-语言对齐？》

【CVPR2025】《文本到视频生成技术能否促进视频-语言对齐？》

专知会员服务

10+阅读 · 2025年3月25日

【博士论文】学习视觉-语言表示以实现多模态理解

【博士论文】学习视觉-语言表示以实现多模态理解

专知会员服务

28+阅读 · 2025年2月8日

大规模视觉-语言模型的对齐与失齐：从可解释性的视角进行的综述

大规模视觉-语言模型的对齐与失齐：从可解释性的视角进行的综述

专知会员服务

24+阅读 · 2025年1月4日

【TPAMI2024】增强视频-语言表示的结构时空对齐方法

【TPAMI2024】增强视频-语言表示的结构时空对齐方法

专知会员服务

24+阅读 · 2024年6月30日

【CVPR2024】RegionGPT: 向着区域理解视觉语言模型发展

【CVPR2024】RegionGPT: 向着区域理解视觉语言模型发展

专知会员服务

21+阅读 · 2024年3月9日

【CVPR2022】三元组对比学习的视觉-语言预训练

【CVPR2022】三元组对比学习的视觉-语言预训练

专知会员服务

33+阅读 · 2022年3月3日

【CVPR2021】基于端到端预训练的视觉-语言表征学习

【CVPR2021】基于端到端预训练的视觉-语言表征学习

专知会员服务

38+阅读 · 2021年4月9日

【领域对抗学习的低资源文本分类】Low-Resource Text Classification using Domain-Adversarial Learning

【领域对抗学习的低资源文本分类】Low-Resource Text Classification using Domain-Adversarial Learning

专知会员服务

23+阅读 · 2020年4月22日

【微软亚洲研究院】无监督词嵌入对齐的几何感知域自适应，Geometry-aware Domain Adaptation for Unsupervised Alignment of Word Embeddings

【微软亚洲研究院】无监督词嵌入对齐的几何感知域自适应，Geometry-aware Domain Adaptation for Unsupervised Alignment of Word Embeddings

专知会员服务

23+阅读 · 2020年4月21日

[CVPR 2021] 序列到序列对比学习的文本识别

[CVPR 2021] 序列到序列对比学习的文本识别

专知

10+阅读 · 2021年4月14日

论文浅尝 | 基于图匹配神经网络的跨语言知识图对齐 (ACL 2019)

论文浅尝 | 基于图匹配神经网络的跨语言知识图对齐 (ACL 2019)

开放知识图谱

15+阅读 · 2019年11月30日

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

专知

50+阅读 · 2019年10月20日

用Attention玩转CV，一文总览自注意力语义分割进展

用Attention玩转CV，一文总览自注意力语义分割进展

机器之心

14+阅读 · 2019年8月26日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

【GitHub项目推荐】文本分类最好的几个深度学习方法 TensorFlow 实践

【GitHub项目推荐】文本分类最好的几个深度学习方法 TensorFlow 实践

专知

39+阅读 · 2018年11月27日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

图像和文本的融合表示学习——Text2Image和Image2Text

图像和文本的融合表示学习——Text2Image和Image2Text

专知

125+阅读 · 2018年6月11日

【计算机视觉必读干货】图像分类、定位、检测，语义分割和实例分割方法梳理

【计算机视觉必读干货】图像分类、定位、检测，语义分割和实例分割方法梳理

新智元

35+阅读 · 2018年1月24日

学界 | 对比对齐模型：神经机器翻译中的注意力到底在注意什么

学界 | 对比对齐模型：神经机器翻译中的注意力到底在注意什么

机器之心

10+阅读 · 2017年10月15日

基于区分型码本的图像表示的研究与应用

国家自然科学基金

1+阅读 · 2015年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于生态演替的文本大数据特征学习研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于视觉差异特征的跨域图像匹配方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于记忆的不变图像特征学习方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于发音特征的汉语语音识别分层解码方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

结合图像块联合聚类加权和混合分类器的非对齐稀疏表示识别方法

国家自然科学基金

1+阅读 · 2015年12月31日

图像感兴趣区域提取及加密研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于字典学习的小样本高光谱遥感图像稀疏表示分类精度研究与应用

国家自然科学基金

3+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

DualToken: Towards Unifying Visual Understanding and Generation with Dual Visual Vocabularies

Arxiv

0+阅读 · 4月20日

CLEAR: Cross-Lingual Enhancement in Alignment via Reverse-training

Arxiv

0+阅读 · 4月14日

BRIDGE: Multimodal-to-Text Retrieval via Reinforcement-Learned Query Alignment

Arxiv

0+阅读 · 4月8日

CLEAR: Cross-Lingual Enhancement in Alignment via Reverse-training

Arxiv

0+阅读 · 4月7日

Improving Semantic Proximity in Information Retrieval through Cross-Lingual Alignment

Arxiv

0+阅读 · 4月7日

Beyond Attention Magnitude: Leveraging Inter-layer Rank Consistency for Efficient Vision-Language-Action Models

Arxiv

0+阅读 · 3月26日

Retrieving Counterfactuals Improves Visual In-Context Learning

Arxiv

0+阅读 · 3月17日

CASA: Cross-Attention over Self-Attention for Efficient Vision-Language Fusion

Arxiv

0+阅读 · 3月6日

PyraTok: Language-Aligned Pyramidal Tokenizer for Video Understanding and Generation

Arxiv

0+阅读 · 2月23日

LGQ: Learning Discretization Geometry for Scalable and Stable Image Tokenization

Arxiv

0+阅读 · 2月20日

VIP会员

文章信息

相关主题

最新内容

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

6+阅读 · 6月21日

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

2+阅读 · 6月21日

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

4+阅读 · 6月21日

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

18+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

5+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

8+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

7+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

9+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

13+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

12+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

8+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

13+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

9+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

23+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

12+阅读 · 6月17日

相关VIP内容

【ICML2025】层级对齐：在视觉语言模型中检验图像编码器层的安全对齐

【ICML2025】层级对齐：在视觉语言模型中检验图像编码器层的安全对齐

专知会员服务

7+阅读 · 2025年5月2日

【CVPR2025】《文本到视频生成技术能否促进视频-语言对齐？》

【CVPR2025】《文本到视频生成技术能否促进视频-语言对齐？》

专知会员服务

10+阅读 · 2025年3月25日

【博士论文】学习视觉-语言表示以实现多模态理解

【博士论文】学习视觉-语言表示以实现多模态理解

专知会员服务

28+阅读 · 2025年2月8日

大规模视觉-语言模型的对齐与失齐：从可解释性的视角进行的综述

大规模视觉-语言模型的对齐与失齐：从可解释性的视角进行的综述

专知会员服务

24+阅读 · 2025年1月4日

【TPAMI2024】增强视频-语言表示的结构时空对齐方法

【TPAMI2024】增强视频-语言表示的结构时空对齐方法

专知会员服务

24+阅读 · 2024年6月30日

【CVPR2024】RegionGPT: 向着区域理解视觉语言模型发展

【CVPR2024】RegionGPT: 向着区域理解视觉语言模型发展

专知会员服务

21+阅读 · 2024年3月9日

【CVPR2022】三元组对比学习的视觉-语言预训练

【CVPR2022】三元组对比学习的视觉-语言预训练

专知会员服务

33+阅读 · 2022年3月3日

【CVPR2021】基于端到端预训练的视觉-语言表征学习

【CVPR2021】基于端到端预训练的视觉-语言表征学习

专知会员服务

38+阅读 · 2021年4月9日

【领域对抗学习的低资源文本分类】Low-Resource Text Classification using Domain-Adversarial Learning

【领域对抗学习的低资源文本分类】Low-Resource Text Classification using Domain-Adversarial Learning

专知会员服务

23+阅读 · 2020年4月22日

【微软亚洲研究院】无监督词嵌入对齐的几何感知域自适应，Geometry-aware Domain Adaptation for Unsupervised Alignment of Word Embeddings

【微软亚洲研究院】无监督词嵌入对齐的几何感知域自适应，Geometry-aware Domain Adaptation for Unsupervised Alignment of Word Embeddings

专知会员服务

23+阅读 · 2020年4月21日

热门VIP内容

开通专知VIP会员享更多权益服务

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

美国从乌克兰无人机战争中学习经验

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

相关资讯

[CVPR 2021] 序列到序列对比学习的文本识别

[CVPR 2021] 序列到序列对比学习的文本识别

专知

10+阅读 · 2021年4月14日

论文浅尝 | 基于图匹配神经网络的跨语言知识图对齐 (ACL 2019)

论文浅尝 | 基于图匹配神经网络的跨语言知识图对齐 (ACL 2019)

开放知识图谱

15+阅读 · 2019年11月30日

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

专知

50+阅读 · 2019年10月20日

用Attention玩转CV，一文总览自注意力语义分割进展

用Attention玩转CV，一文总览自注意力语义分割进展

机器之心

14+阅读 · 2019年8月26日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

【GitHub项目推荐】文本分类最好的几个深度学习方法 TensorFlow 实践

【GitHub项目推荐】文本分类最好的几个深度学习方法 TensorFlow 实践

专知

39+阅读 · 2018年11月27日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

图像和文本的融合表示学习——Text2Image和Image2Text

图像和文本的融合表示学习——Text2Image和Image2Text

专知

125+阅读 · 2018年6月11日

【计算机视觉必读干货】图像分类、定位、检测，语义分割和实例分割方法梳理

【计算机视觉必读干货】图像分类、定位、检测，语义分割和实例分割方法梳理

新智元

35+阅读 · 2018年1月24日

学界 | 对比对齐模型：神经机器翻译中的注意力到底在注意什么

学界 | 对比对齐模型：神经机器翻译中的注意力到底在注意什么

机器之心

10+阅读 · 2017年10月15日

相关论文

DualToken: Towards Unifying Visual Understanding and Generation with Dual Visual Vocabularies

Arxiv

0+阅读 · 4月20日

CLEAR: Cross-Lingual Enhancement in Alignment via Reverse-training

Arxiv

0+阅读 · 4月14日

BRIDGE: Multimodal-to-Text Retrieval via Reinforcement-Learned Query Alignment

Arxiv

0+阅读 · 4月8日

CLEAR: Cross-Lingual Enhancement in Alignment via Reverse-training

Arxiv

0+阅读 · 4月7日

Improving Semantic Proximity in Information Retrieval through Cross-Lingual Alignment

Arxiv

0+阅读 · 4月7日

Beyond Attention Magnitude: Leveraging Inter-layer Rank Consistency for Efficient Vision-Language-Action Models

Arxiv

0+阅读 · 3月26日

Retrieving Counterfactuals Improves Visual In-Context Learning

Arxiv

0+阅读 · 3月17日

CASA: Cross-Attention over Self-Attention for Efficient Vision-Language Fusion

Arxiv

0+阅读 · 3月6日

PyraTok: Language-Aligned Pyramidal Tokenizer for Video Understanding and Generation

Arxiv

0+阅读 · 2月23日

LGQ: Learning Discretization Geometry for Scalable and Stable Image Tokenization

Arxiv

0+阅读 · 2月20日

相关基金

基于区分型码本的图像表示的研究与应用

国家自然科学基金

1+阅读 · 2015年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于生态演替的文本大数据特征学习研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于视觉差异特征的跨域图像匹配方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于记忆的不变图像特征学习方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于发音特征的汉语语音识别分层解码方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

结合图像块联合聚类加权和混合分类器的非对齐稀疏表示识别方法

国家自然科学基金

1+阅读 · 2015年12月31日

图像感兴趣区域提取及加密研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于字典学习的小样本高光谱遥感图像稀疏表示分类精度研究与应用

国家自然科学基金

3+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员