MegaFlow: Zero-Shot Large Displacement Optical Flow - 专知论文

会员服务 ·

0

样本 · 光流 · 零样本 · 泛化 · 基准 ·

MegaFlow: Zero-Shot Large Displacement Optical Flow

翻译：MegaFlow：零样本大位移光流

Dingxi Zhang,Fangjinhua Wang,Marc Pollefeys,Haofei Xu

from arxiv, Project Page: https://kristen-z.github.io/projects/megaflow Code: https://github.com/cvg/megaflow

Accurate estimation of large displacement optical flow remains a critical challenge. Existing methods typically rely on iterative local search or/and domain-specific fine-tuning, which severely limits their performance in large displacement and zero-shot generalization scenarios. To overcome this, we introduce MegaFlow, a simple yet powerful model for zero-shot large displacement optical flow. Rather than relying on highly complex, task-specific architectural designs, MegaFlow adapts powerful pre-trained vision priors to produce temporally consistent motion fields. In particular, we formulate flow estimation as a global matching problem by leveraging pre-trained global Vision Transformer features, which naturally capture large displacements. This is followed by a few lightweight iterative refinements to further improve the sub-pixel accuracy. Extensive experiments demonstrate that MegaFlow achieves state-of-the-art zero-shot performance across multiple optical flow benchmarks. Moreover, our model also delivers highly competitive zero-shot performance on long-range point tracking benchmarks, demonstrating its robust transferability and suggesting a unified paradigm for generalizable motion estimation. Our project page is at: https://kristen-z.github.io/projects/megaflow.

翻译：大位移光流的精确估计仍是一项关键挑战。现有方法通常依赖迭代局部搜索和/或领域特定的微调，这严重限制了其在零样本泛化和大位移场景下的性能。为此，我们提出了MegaFlow——一种简洁而强大的零样本大位移光流模型。MegaFlow不依赖高度复杂、任务特定的架构设计，而是通过适配强大的预训练视觉先验来生成时间一致的运动场。具体而言，我们利用预训练的全局Vision Transformer特征将光流估计建模为全局匹配问题，该特征天然能够捕捉大位移。随后通过少量轻量级迭代优化进一步提升亚像素精度。大量实验表明，MegaFlow在多个光流基准上达到了零样本的最优性能。此外，我们的模型在长程点跟踪基准上也展现出极具竞争力的零样本性能，验证了其强大的可迁移性，并暗示了一种可泛化运动估计的统一范式。项目主页：https://kristen-z.github.io/projects/megaflow。

0

相关内容

【ICCV2025】FlowSeek：借助深度基础模型与运动基实现更简易的光流估计

【ICCV2025】FlowSeek：借助深度基础模型与运动基实现更简易的光流估计

专知会员服务

9+阅读 · 2025年9月8日

国产大模型DeepSeek-V3一夜火爆全球，《DeepSeek-V3技术报告》，53页pdf

国产大模型DeepSeek-V3一夜火爆全球，《DeepSeek-V3技术报告》，53页pdf

专知会员服务

88+阅读 · 2024年12月27日

低资源如何合成图像？华东理工等最新《有限数据下的图像合成》综述，详述图像合成技术进展

低资源如何合成图像？华东理工等最新《有限数据下的图像合成》综述，详述图像合成技术进展

专知会员服务

29+阅读 · 2023年8月7日

【Yoshua Bengio】生成式流网络，Generative Flow Networks

【Yoshua Bengio】生成式流网络，Generative Flow Networks

专知会员服务

32+阅读 · 2022年3月19日

【Yoshua Bengio最新一作论文】GFlowNet基础，GFlowNet Foundations

【Yoshua Bengio最新一作论文】GFlowNet基础，GFlowNet Foundations

专知会员服务

26+阅读 · 2021年11月22日

【ICCV 2021】HCFlow：使用一个统一的框架处理图像超分辨率和图像再缩放

专知会员服务

15+阅读 · 2021年10月4日

【Google】大迁移：通用视觉表示学习，General Visual Representation Learning

【Google】大迁移：通用视觉表示学习，General Visual Representation Learning

专知会员服务

37+阅读 · 2020年5月9日

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

专知会员服务

37+阅读 · 2020年2月27日

TensorFlow Lite指南实战《TensorFlow Lite A primer》，附48页PPT

TensorFlow Lite指南实战《TensorFlow Lite A primer》，附48页PPT

专知会员服务

70+阅读 · 2020年1月17日

【Google无监督大规模视觉表示迁移】Large Scale Learning of General Visual Representations for Transfer

【Google无监督大规模视觉表示迁移】Large Scale Learning of General Visual Representations for Transfer

专知会员服务

12+阅读 · 2020年1月7日

CVPR 2020 论文大盘点-光流篇

CVPR 2020 论文大盘点-光流篇

计算机视觉life

10+阅读 · 2020年7月17日

DeepMind开源最牛无监督学习BigBiGAN预训练模型

DeepMind开源最牛无监督学习BigBiGAN预训练模型

新智元

10+阅读 · 2019年10月10日

让半监督学习再次伟大！谷歌最新无监督数据增强研究，全面超越现有半监督学习方法

让半监督学习再次伟大！谷歌最新无监督数据增强研究，全面超越现有半监督学习方法

新智元

20+阅读 · 2019年7月11日

DeepMind爆出无监督表示学习模型BigBiGAN，GAN之父点赞！

DeepMind爆出无监督表示学习模型BigBiGAN，GAN之父点赞！

新智元

13+阅读 · 2019年7月9日

港中大等打造光流预测新模型SelFlow，自监督学习攻克遮挡难题 | CVPR 2019

港中大等打造光流预测新模型SelFlow，自监督学习攻克遮挡难题 | CVPR 2019

新智元

10+阅读 · 2019年7月2日

谷歌EfficientNet缩放模型，PyTorch实现登热榜

谷歌EfficientNet缩放模型，PyTorch实现登热榜

机器学习算法与Python学习

11+阅读 · 2019年6月4日

TensorFlow官方发布剪枝优化工具：参数减少80%，精度几乎不变

TensorFlow官方发布剪枝优化工具：参数减少80%，精度几乎不变

量子位

11+阅读 · 2019年5月15日

FAGAN：完全注意力机制（Full Attention）GAN，Self-attention+GAN

FAGAN：完全注意力机制（Full Attention）GAN，Self-attention+GAN

专知

32+阅读 · 2018年8月14日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

详述DeepMind wavenet原理及其TensorFlow实现

详述DeepMind wavenet原理及其TensorFlow实现

深度学习每日摘要

12+阅读 · 2017年6月26日

非对称完美涡旋光场的产生、调控及在微粒操纵中的应用

国家自然科学基金

0+阅读 · 2017年12月31日

涡旋光束在海洋湍流传输中的闪烁现象的研究

国家自然科学基金

0+阅读 · 2015年12月31日

宽带硅纳米波导相位敏感光参量放大器的机理与技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

光纤超连续谱光源在湍流大气中传输特性的研究

国家自然科学基金

0+阅读 · 2015年12月31日

使用GPU加速银道面尘埃辐射图像的高分辨率模拟与多参数反演

国家自然科学基金

0+阅读 · 2015年12月31日

基于液晶的多层湍流大气成像过程模拟技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于飞秒激光多普勒效应的流速传感新方法

国家自然科学基金

0+阅读 · 2015年12月31日

湍流大气中微运动粗糙目标散斑场高阶矩和动态特性研究

国家自然科学基金

0+阅读 · 2015年12月31日

高采样率、高量化分辨率一体化全光模数转换关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于铒掺杂纳米晶的高增益聚合物光波导放大器

国家自然科学基金

0+阅读 · 2014年12月31日

MeshFlow: Efficient Artistic Mesh Generation via MeshVAE and Flow-based Diffusion Transformer

Arxiv

0+阅读 · 6月15日

Ultra Flash: Scaling Real-Time Streaming Video Generation to High Resolutions

Arxiv

0+阅读 · 6月15日

Zero-shot generalization of transformer neural operators to larger domains

Arxiv

0+阅读 · 6月12日

PolyFlow: Safe and Efficient Polytope-Constrained Flow Matching with Constraint Embedding and Projection-free Update

Arxiv

0+阅读 · 6月11日

A fully GPU-based workflow for building physics emulators of hypersonic flows

Arxiv

0+阅读 · 6月11日

AnyMod-LLVE: Low-Light Video Enhancement with Modality-Agnostic Inference

Arxiv

0+阅读 · 6月9日

Crazyflow: An Accurate, GPU-Accelerated, Differentiable Drone Simulator in JAX

Arxiv

0+阅读 · 6月5日

MaCo-GAN: Manifold-Contrastive Adversarial Learning for Single Image Super-Resolution

Arxiv

0+阅读 · 6月3日

MeshFlow: Efficient Artistic Mesh Generation via MeshVAE and Flow-based Diffusion Transformer

Arxiv

0+阅读 · 6月3日

Mega-ASR: Towards In-the-wild^2 Speech Recognition via Scaling up Real-world Acoustic Simulation

Arxiv

0+阅读 · 5月19日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

4+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

6+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

6+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

5+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

6+阅读 · 6月22日

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

7+阅读 · 6月21日

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

5+阅读 · 6月21日

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

8+阅读 · 6月21日

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

22+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

5+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

8+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

7+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

9+阅读 · 6月18日

相关VIP内容

【ICCV2025】FlowSeek：借助深度基础模型与运动基实现更简易的光流估计

【ICCV2025】FlowSeek：借助深度基础模型与运动基实现更简易的光流估计

专知会员服务

9+阅读 · 2025年9月8日

国产大模型DeepSeek-V3一夜火爆全球，《DeepSeek-V3技术报告》，53页pdf

国产大模型DeepSeek-V3一夜火爆全球，《DeepSeek-V3技术报告》，53页pdf

专知会员服务

88+阅读 · 2024年12月27日

低资源如何合成图像？华东理工等最新《有限数据下的图像合成》综述，详述图像合成技术进展

低资源如何合成图像？华东理工等最新《有限数据下的图像合成》综述，详述图像合成技术进展

专知会员服务

29+阅读 · 2023年8月7日

【Yoshua Bengio】生成式流网络，Generative Flow Networks

【Yoshua Bengio】生成式流网络，Generative Flow Networks

专知会员服务

32+阅读 · 2022年3月19日

【Yoshua Bengio最新一作论文】GFlowNet基础，GFlowNet Foundations

【Yoshua Bengio最新一作论文】GFlowNet基础，GFlowNet Foundations

专知会员服务

26+阅读 · 2021年11月22日

【ICCV 2021】HCFlow：使用一个统一的框架处理图像超分辨率和图像再缩放

专知会员服务

15+阅读 · 2021年10月4日

【Google】大迁移：通用视觉表示学习，General Visual Representation Learning

【Google】大迁移：通用视觉表示学习，General Visual Representation Learning

专知会员服务

37+阅读 · 2020年5月9日

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

专知会员服务

37+阅读 · 2020年2月27日

TensorFlow Lite指南实战《TensorFlow Lite A primer》，附48页PPT

TensorFlow Lite指南实战《TensorFlow Lite A primer》，附48页PPT

专知会员服务

70+阅读 · 2020年1月17日

【Google无监督大规模视觉表示迁移】Large Scale Learning of General Visual Representations for Transfer

【Google无监督大规模视觉表示迁移】Large Scale Learning of General Visual Representations for Transfer

专知会员服务

12+阅读 · 2020年1月7日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 3D场景图：开放挑战与未来方向

21世纪的无人机战争

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

相关资讯

CVPR 2020 论文大盘点-光流篇

CVPR 2020 论文大盘点-光流篇

计算机视觉life

10+阅读 · 2020年7月17日

DeepMind开源最牛无监督学习BigBiGAN预训练模型

DeepMind开源最牛无监督学习BigBiGAN预训练模型

新智元

10+阅读 · 2019年10月10日

让半监督学习再次伟大！谷歌最新无监督数据增强研究，全面超越现有半监督学习方法

让半监督学习再次伟大！谷歌最新无监督数据增强研究，全面超越现有半监督学习方法

新智元

20+阅读 · 2019年7月11日

DeepMind爆出无监督表示学习模型BigBiGAN，GAN之父点赞！

DeepMind爆出无监督表示学习模型BigBiGAN，GAN之父点赞！

新智元

13+阅读 · 2019年7月9日

港中大等打造光流预测新模型SelFlow，自监督学习攻克遮挡难题 | CVPR 2019

港中大等打造光流预测新模型SelFlow，自监督学习攻克遮挡难题 | CVPR 2019

新智元

10+阅读 · 2019年7月2日

谷歌EfficientNet缩放模型，PyTorch实现登热榜

谷歌EfficientNet缩放模型，PyTorch实现登热榜

机器学习算法与Python学习

11+阅读 · 2019年6月4日

TensorFlow官方发布剪枝优化工具：参数减少80%，精度几乎不变

TensorFlow官方发布剪枝优化工具：参数减少80%，精度几乎不变

量子位

11+阅读 · 2019年5月15日

FAGAN：完全注意力机制（Full Attention）GAN，Self-attention+GAN

FAGAN：完全注意力机制（Full Attention）GAN，Self-attention+GAN

专知

32+阅读 · 2018年8月14日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

详述DeepMind wavenet原理及其TensorFlow实现

详述DeepMind wavenet原理及其TensorFlow实现

深度学习每日摘要

12+阅读 · 2017年6月26日

相关论文

MeshFlow: Efficient Artistic Mesh Generation via MeshVAE and Flow-based Diffusion Transformer

Arxiv

0+阅读 · 6月15日

Ultra Flash: Scaling Real-Time Streaming Video Generation to High Resolutions

Arxiv

0+阅读 · 6月15日

Zero-shot generalization of transformer neural operators to larger domains

Arxiv

0+阅读 · 6月12日

PolyFlow: Safe and Efficient Polytope-Constrained Flow Matching with Constraint Embedding and Projection-free Update

Arxiv

0+阅读 · 6月11日

A fully GPU-based workflow for building physics emulators of hypersonic flows

Arxiv

0+阅读 · 6月11日

AnyMod-LLVE: Low-Light Video Enhancement with Modality-Agnostic Inference

Arxiv

0+阅读 · 6月9日

Crazyflow: An Accurate, GPU-Accelerated, Differentiable Drone Simulator in JAX

Arxiv

0+阅读 · 6月5日

MaCo-GAN: Manifold-Contrastive Adversarial Learning for Single Image Super-Resolution

Arxiv

0+阅读 · 6月3日

MeshFlow: Efficient Artistic Mesh Generation via MeshVAE and Flow-based Diffusion Transformer

Arxiv

0+阅读 · 6月3日

Mega-ASR: Towards In-the-wild^2 Speech Recognition via Scaling up Real-world Acoustic Simulation

Arxiv

0+阅读 · 5月19日

相关基金

非对称完美涡旋光场的产生、调控及在微粒操纵中的应用

国家自然科学基金

0+阅读 · 2017年12月31日

涡旋光束在海洋湍流传输中的闪烁现象的研究

国家自然科学基金

0+阅读 · 2015年12月31日

宽带硅纳米波导相位敏感光参量放大器的机理与技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

光纤超连续谱光源在湍流大气中传输特性的研究

国家自然科学基金

0+阅读 · 2015年12月31日

使用GPU加速银道面尘埃辐射图像的高分辨率模拟与多参数反演

国家自然科学基金

0+阅读 · 2015年12月31日

基于液晶的多层湍流大气成像过程模拟技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于飞秒激光多普勒效应的流速传感新方法

国家自然科学基金

0+阅读 · 2015年12月31日

湍流大气中微运动粗糙目标散斑场高阶矩和动态特性研究

国家自然科学基金

0+阅读 · 2015年12月31日

高采样率、高量化分辨率一体化全光模数转换关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于铒掺杂纳米晶的高增益聚合物光波导放大器

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员