Self-Supervised Flow Matching for Scalable Multi-Modal Synthesis - 专知论文

会员服务 ·

0

监督 · 模态 · 表示 · 多模 · 语义表示 ·

Self-Supervised Flow Matching for Scalable Multi-Modal Synthesis

翻译：自监督流匹配：面向可扩展多模态合成的框架

Hila Chefer,Patrick Esser,Dominik Lorenz,Dustin Podell,Vikash Raja,Vinh Tong,Antonio Torralba,Robin Rombach

from arxiv, project webpage: https://bfl.ai/research/self-flow

Strong semantic representations improve the convergence and generation quality of diffusion and flow models. Existing approaches largely rely on external models, which require separate training, operate on misaligned objectives, and exhibit unexpected scaling behavior. We argue that this dependence arises from the model's training objective, which poses a denoising task with little incentive to learn semantic representations. We introduce Self-Flow: a self-supervised flow matching paradigm that integrates representation learning within the generative framework. Our key mechanism, Dual-Timestep Scheduling, applies heterogeneous noise levels across tokens, creating an information asymmetry that forces the model to infer missing information from corrupted inputs. This drives learning strong representations alongside generative capabilities without external supervision. Our method generalizes across modalities and enables multi-modal training while following expected scaling laws, achieving superior image, video, and audio generation.

翻译：强大的语义表示能够提升扩散模型与流模型的收敛速度与生成质量。现有方法主要依赖外部模型，这些模型需要独立训练、目标函数存在偏差，且呈现出非预期的缩放特性。我们认为这种依赖性源于模型训练目标本身——其设定的去噪任务缺乏学习语义表示的内在驱动力。本文提出Self-Flow：一种将表示学习整合到生成框架中的自监督流匹配范式。我们的核心机制——双时间步调度——通过对不同令牌施加异构噪声水平，构建信息不对称性，迫使模型从受损输入中推断缺失信息。该方法在无需外部监督的条件下，驱动模型同步学习强语义表示与生成能力。我们的方法具有跨模态泛化特性，支持多模态联合训练，同时遵循预期的缩放规律，在图像、视频及音频生成任务中均取得了优越性能。

0

相关内容

【ETHZ博士论文】融合领域知识的自监督表示学习：在聚类与异常检测中的应用

【ETHZ博士论文】融合领域知识的自监督表示学习：在聚类与异常检测中的应用

专知会员服务

13+阅读 · 3月11日

【HKUST博士论文】增强扩散采样与通过架构研究解读自监督学习

【HKUST博士论文】增强扩散采样与通过架构研究解读自监督学习

专知会员服务

14+阅读 · 2025年1月18日

多模态可控扩散模型综述

多模态可控扩散模型综述

专知会员服务

39+阅读 · 2024年7月20日

【CVPR2024】GroupContrast：语义感知的自监督表示学习用于三维理解

【CVPR2024】GroupContrast：语义感知的自监督表示学习用于三维理解

专知会员服务

18+阅读 · 2024年3月15日

【牛津大学博士论文】变分自编码器: 监督、校准和多模态学习的变分自编码器，179页pdf

【牛津大学博士论文】变分自编码器: 监督、校准和多模态学习的变分自编码器，179页pdf

专知会员服务

38+阅读 · 2023年6月21日

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

专知会员服务

84+阅读 · 2023年4月6日

【牛津大学博士论文】多模态自监督学习，172页pdf

【牛津大学博士论文】多模态自监督学习，172页pdf

专知会员服务

136+阅读 · 2022年10月4日

多模态时序数据如何自监督？墨尔本理工等最新《自监督表示学习：多模态与时序数据》，全面阐述最新方法体系

多模态时序数据如何自监督？墨尔本理工等最新《自监督表示学习：多模态与时序数据》，全面阐述最新方法体系

专知会员服务

92+阅读 · 2022年6月13日

【KDD2020】通用文档预训练模型LayoutLM：文档结构信息和视觉信息进行建模，让模型在预训练阶段进行多模态对齐。

【KDD2020】通用文档预训练模型LayoutLM：文档结构信息和视觉信息进行建模，让模型在预训练阶段进行多模态对齐。

专知会员服务

32+阅读 · 2020年8月23日

【CVPR2020-中科院计算所】弱监督语义分割的自监督等价注意力机制，Self-supervised Equivariant Attention Mechanism for Weakly Supervised Semantic Segmentation

【CVPR2020-中科院计算所】弱监督语义分割的自监督等价注意力机制，Self-supervised Equivariant Attention Mechanism for Weakly Supervised Semantic Segmentation

专知会员服务

76+阅读 · 2020年4月10日

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

专知

10+阅读 · 2023年4月6日

【深度语义匹配模型】原理篇二：交互篇

【深度语义匹配模型】原理篇二：交互篇

AINLP

16+阅读 · 2020年5月18日

FAIR和牛津大学VGG组最新论文：多模态自监督学习

FAIR和牛津大学VGG组最新论文：多模态自监督学习

CVer

11+阅读 · 2020年3月29日

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

专知

133+阅读 · 2020年3月18日

无所不能的Self-Attention！洛桑理工ICLR2020论文验证「自注意力可以表达任何CNN卷积滤波层」

无所不能的Self-Attention！洛桑理工ICLR2020论文验证「自注意力可以表达任何CNN卷积滤波层」

专知

24+阅读 · 2020年1月12日

【泡泡图灵智库】竞争协作：深度，相机运动，光流和运动分割的联合无监督学习（CVPR）

【泡泡图灵智库】竞争协作：深度，相机运动，光流和运动分割的联合无监督学习（CVPR）

泡泡机器人SLAM

11+阅读 · 2019年6月23日

开发 | 谷歌对无监督解耦方法进行了大规模评估，还开源了用来实验的开发库！

开发 | 谷歌对无监督解耦方法进行了大规模评估，还开源了用来实验的开发库！

AI科技评论

10+阅读 · 2019年5月13日

自然语言处理中的自注意力机制（Self-Attention Mechanism）

自然语言处理中的自注意力机制（Self-Attention Mechanism）

PaperWeekly

22+阅读 · 2018年3月28日

【VALSE 前沿技术选介17-09期】自监督学习近期进展

【VALSE 前沿技术选介17-09期】自监督学习近期进展

VALSE

13+阅读 · 2017年10月20日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

基于图的半监督学习算法研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于Grassmann流形的粒子滤波多目标跟踪方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

自适应快速模拟细节丰富的流体技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

可压缩多介质流体的真正多维高保真算法

国家自然科学基金

0+阅读 · 2015年12月31日

基于多模态信息集成的组合预测模型及其应用研究

国家自然科学基金

6+阅读 · 2015年12月31日

面向构建过程的范畴学习模型及其适应性机制研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于框架提升变换的多源图像融合研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向大规模数据流的集成学习模型与方法研究

国家自然科学基金

5+阅读 · 2014年12月31日

流程监控与评估中多元数据整合研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

17+阅读 · 2008年12月31日

Flow-Factory: A Unified Framework for Reinforcement Learning in Flow-Matching Models

Arxiv

0+阅读 · 3月2日

Active Flow Matching

Arxiv

0+阅读 · 3月1日

Compression then Matching: An Efficient Pre-training Paradigm for Multimodal Embedding

Arxiv

0+阅读 · 2月25日

TeFlow: Enabling Multi-frame Supervision for Self-Supervised Feed-forward Scene Flow Estimation

Arxiv

0+阅读 · 2月22日

Flow Matching with Injected Noise for Offline-to-Online Reinforcement Learning

Arxiv

0+阅读 · 2月20日

Improving Efficiency of Diffusion Models via Multi-Stage Framework and Tailored Multi-Decoder Architectures

Arxiv

0+阅读 · 2月12日

FastFlow: Accelerating The Generative Flow Matching Models with Bandit Inference

Arxiv

0+阅读 · 2月11日

Shifting the Breaking Point of Flow Matching for Multi-Instance Editing

Arxiv

0+阅读 · 2月10日

A-FloPS: Accelerating Diffusion Models via Adaptive Flow Path Sampler

Arxiv

0+阅读 · 2月8日

Multi-agent Coordination via Flow Matching

Arxiv

0+阅读 · 1月30日

VIP会员

文章信息

相关主题

最新内容

主权智能前沿：战略霸权与算法战争代差的比较分析——第二部分

主权智能前沿：战略霸权与算法战争代差的比较分析——第二部分

专知会员服务

3+阅读 · 今天11:17

万亿美元智能竞赛：OpenAI的主权崛起与数字神经系统的高风险博弈——第一部分

万亿美元智能竞赛：OpenAI的主权崛起与数字神经系统的高风险博弈——第一部分

专知会员服务

3+阅读 · 今天11:09

《忠诚僚机、人工智能与认知增强：对赛博格-无人机战争的警示》

《忠诚僚机、人工智能与认知增强：对赛博格-无人机战争的警示》

专知会员服务

3+阅读 · 今天4:55

《化繁为简：军事模拟器配置的对话式方法》报告

《化繁为简：军事模拟器配置的对话式方法》报告

专知会员服务

4+阅读 · 今天4:33

《人机协同研究报告——衡量与预测技术流利性：知识、技能、能力及其他行为如何促成技术精通》146页

《人机协同研究报告——衡量与预测技术流利性：知识、技能、能力及其他行为如何促成技术精通》146页

专知会员服务

8+阅读 · 今天4:29

《新兴技术武器化及其对全球风险的影响》

《新兴技术武器化及其对全球风险的影响》

专知会员服务

5+阅读 · 今天4:27

《帕兰泰尔平台介绍：信息分析平台》

《帕兰泰尔平台介绍：信息分析平台》

专知会员服务

13+阅读 · 今天4:20

Maven智能系统（MSS）如何赋能第三方解决方案：北约视角

Maven智能系统（MSS）如何赋能第三方解决方案：北约视角

专知会员服务

8+阅读 · 今天2:39

【伯克利博士论文】深度解析 AI 智能体的失配问题

【伯克利博士论文】深度解析 AI 智能体的失配问题

专知会员服务

6+阅读 · 4月28日

智能体化世界建模：基础、能力、规律及展望

智能体化世界建模：基础、能力、规律及展望

专知会员服务

9+阅读 · 4月28日

MIT人机协同水下作业关键技术研究——集成适配至美国海军现役AUV

MIT人机协同水下作业关键技术研究——集成适配至美国海军现役AUV

专知会员服务

8+阅读 · 4月28日

美海警海上态势感知无人系统

美海警海上态势感知无人系统

专知会员服务

6+阅读 · 4月28日

安杜里尔Lattice平台的发展演变：美军多域自主作战的核心软件架构

安杜里尔Lattice平台的发展演变：美军多域自主作战的核心软件架构

专知会员服务

10+阅读 · 4月28日

《释放自主力量：将人工智能驱动无人机融入现代军事战略》

《释放自主力量：将人工智能驱动无人机融入现代军事战略》

专知会员服务

15+阅读 · 4月28日

《智能作战任务规划技术：实验流程与发现》50页报告

《智能作战任务规划技术：实验流程与发现》50页报告

专知会员服务

27+阅读 · 4月28日

相关VIP内容

【ETHZ博士论文】融合领域知识的自监督表示学习：在聚类与异常检测中的应用

【ETHZ博士论文】融合领域知识的自监督表示学习：在聚类与异常检测中的应用

专知会员服务

13+阅读 · 3月11日

【HKUST博士论文】增强扩散采样与通过架构研究解读自监督学习

【HKUST博士论文】增强扩散采样与通过架构研究解读自监督学习

专知会员服务

14+阅读 · 2025年1月18日

多模态可控扩散模型综述

多模态可控扩散模型综述

专知会员服务

39+阅读 · 2024年7月20日

【CVPR2024】GroupContrast：语义感知的自监督表示学习用于三维理解

【CVPR2024】GroupContrast：语义感知的自监督表示学习用于三维理解

专知会员服务

18+阅读 · 2024年3月15日

【牛津大学博士论文】变分自编码器: 监督、校准和多模态学习的变分自编码器，179页pdf

【牛津大学博士论文】变分自编码器: 监督、校准和多模态学习的变分自编码器，179页pdf

专知会员服务

38+阅读 · 2023年6月21日

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

专知会员服务

84+阅读 · 2023年4月6日

【牛津大学博士论文】多模态自监督学习，172页pdf

【牛津大学博士论文】多模态自监督学习，172页pdf

专知会员服务

136+阅读 · 2022年10月4日

多模态时序数据如何自监督？墨尔本理工等最新《自监督表示学习：多模态与时序数据》，全面阐述最新方法体系

多模态时序数据如何自监督？墨尔本理工等最新《自监督表示学习：多模态与时序数据》，全面阐述最新方法体系

专知会员服务

92+阅读 · 2022年6月13日

【KDD2020】通用文档预训练模型LayoutLM：文档结构信息和视觉信息进行建模，让模型在预训练阶段进行多模态对齐。

【KDD2020】通用文档预训练模型LayoutLM：文档结构信息和视觉信息进行建模，让模型在预训练阶段进行多模态对齐。

专知会员服务

32+阅读 · 2020年8月23日

【CVPR2020-中科院计算所】弱监督语义分割的自监督等价注意力机制，Self-supervised Equivariant Attention Mechanism for Weakly Supervised Semantic Segmentation

【CVPR2020-中科院计算所】弱监督语义分割的自监督等价注意力机制，Self-supervised Equivariant Attention Mechanism for Weakly Supervised Semantic Segmentation

专知会员服务

76+阅读 · 2020年4月10日

热门VIP内容

开通专知VIP会员享更多权益服务

万亿美元智能竞赛：OpenAI的主权崛起与数字神经系统的高风险博弈——第一部分

《化繁为简：军事模拟器配置的对话式方法》报告

主权智能前沿：战略霸权与算法战争代差的比较分析——第二部分

《忠诚僚机、人工智能与认知增强：对赛博格-无人机战争的警示》

相关资讯

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

专知

10+阅读 · 2023年4月6日

【深度语义匹配模型】原理篇二：交互篇

【深度语义匹配模型】原理篇二：交互篇

AINLP

16+阅读 · 2020年5月18日

FAIR和牛津大学VGG组最新论文：多模态自监督学习

FAIR和牛津大学VGG组最新论文：多模态自监督学习

CVer

11+阅读 · 2020年3月29日

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集

专知

133+阅读 · 2020年3月18日

无所不能的Self-Attention！洛桑理工ICLR2020论文验证「自注意力可以表达任何CNN卷积滤波层」

无所不能的Self-Attention！洛桑理工ICLR2020论文验证「自注意力可以表达任何CNN卷积滤波层」

专知

24+阅读 · 2020年1月12日

【泡泡图灵智库】竞争协作：深度，相机运动，光流和运动分割的联合无监督学习（CVPR）

【泡泡图灵智库】竞争协作：深度，相机运动，光流和运动分割的联合无监督学习（CVPR）

泡泡机器人SLAM

11+阅读 · 2019年6月23日

开发 | 谷歌对无监督解耦方法进行了大规模评估，还开源了用来实验的开发库！

开发 | 谷歌对无监督解耦方法进行了大规模评估，还开源了用来实验的开发库！

AI科技评论

10+阅读 · 2019年5月13日

自然语言处理中的自注意力机制（Self-Attention Mechanism）

自然语言处理中的自注意力机制（Self-Attention Mechanism）

PaperWeekly

22+阅读 · 2018年3月28日

【VALSE 前沿技术选介17-09期】自监督学习近期进展

【VALSE 前沿技术选介17-09期】自监督学习近期进展

VALSE

13+阅读 · 2017年10月20日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

相关论文

Flow-Factory: A Unified Framework for Reinforcement Learning in Flow-Matching Models

Arxiv

0+阅读 · 3月2日

Active Flow Matching

Arxiv

0+阅读 · 3月1日

Compression then Matching: An Efficient Pre-training Paradigm for Multimodal Embedding

Arxiv

0+阅读 · 2月25日

TeFlow: Enabling Multi-frame Supervision for Self-Supervised Feed-forward Scene Flow Estimation

Arxiv

0+阅读 · 2月22日

Flow Matching with Injected Noise for Offline-to-Online Reinforcement Learning

Arxiv

0+阅读 · 2月20日

Improving Efficiency of Diffusion Models via Multi-Stage Framework and Tailored Multi-Decoder Architectures

Arxiv

0+阅读 · 2月12日

FastFlow: Accelerating The Generative Flow Matching Models with Bandit Inference

Arxiv

0+阅读 · 2月11日

Shifting the Breaking Point of Flow Matching for Multi-Instance Editing

Arxiv

0+阅读 · 2月10日

A-FloPS: Accelerating Diffusion Models via Adaptive Flow Path Sampler

Arxiv

0+阅读 · 2月8日

Multi-agent Coordination via Flow Matching

Arxiv

0+阅读 · 1月30日

相关基金

基于图的半监督学习算法研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于Grassmann流形的粒子滤波多目标跟踪方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

自适应快速模拟细节丰富的流体技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

可压缩多介质流体的真正多维高保真算法

国家自然科学基金

0+阅读 · 2015年12月31日

基于多模态信息集成的组合预测模型及其应用研究

国家自然科学基金

6+阅读 · 2015年12月31日

面向构建过程的范畴学习模型及其适应性机制研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于框架提升变换的多源图像融合研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向大规模数据流的集成学习模型与方法研究

国家自然科学基金

5+阅读 · 2014年12月31日

流程监控与评估中多元数据整合研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

17+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员