【ECCV2020-牛津大学】基于自监督学习的视频音视觉物体结构化 - 专知VIP

会员服务 ·

5

自监督学习 · ECCV 2020 · 视频结构化 ·

2020 年 8 月 11 日

【ECCV2020-牛津大学】基于自监督学习的视频音视觉物体结构化

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

我们的目标是利用自监督学习将视频转换成一组离散的视听对象。为此，我们介绍了一个模型，它使用注意力来定位和分组声源，以及光流来随时间聚合信息。我们通过使用我们的模型学习的视听对象嵌入四个下游的面向语音的任务(a)多说话人的声源分离，(b)定位和跟踪说话人，(c)纠正不正确的视听数据，和(d)主动说话人检测的有效性。利用我们的表示法，这些任务完全可以通过训练未标记的视频来解决，而不需要物体检测器的帮助。我们还通过将我们的方法应用于非人类演讲者，包括卡通和木偶，来展示我们方法的普遍性。我们的模型显著优于其他自监督方法，并获得与使用监督人脸检测方法竞争的性能。

Self-Supervised Learning of Audio-Visual Objects from Video

https://arxiv.org/abs/2008.04237

成为VIP会员查看完整内容

20

相关内容

自监督学习

自监督学习

自监督学习（self-supervised learning）可以被看作是机器学习的一种“理想状态”，模型直接从无标签数据中自行学习，无需标注数据。

【ACM Multimedia 2020】共同注意力网络的自监督视听表示学习

【ACM Multimedia 2020】共同注意力网络的自监督视听表示学习

专知会员服务

28+阅读 · 2020年8月14日

【视频】几何数据嵌入表示学习，74页ppt

【视频】几何数据嵌入表示学习，74页ppt

专知会员服务

35+阅读 · 2020年7月24日

【牛津大学&DeepMind】自监督学习教程，141页ppt

【牛津大学&DeepMind】自监督学习教程，141页ppt

专知会员服务

182+阅读 · 2020年5月29日

少标签数据学习，54页ppt

少标签数据学习，54页ppt

专知会员服务

205+阅读 · 2020年5月22日

【CVPR2020-Facebook AI】前置不变表示的自监督学习

【CVPR2020-Facebook AI】前置不变表示的自监督学习

专知会员服务

47+阅读 · 2020年4月19日

【CVPR2020-斯坦福】知识蒸馏时空图的视频描述，Spatio-Temporal Graph

【CVPR2020-斯坦福】知识蒸馏时空图的视频描述，Spatio-Temporal Graph

专知会员服务

34+阅读 · 2020年4月2日

[CVPR2020-Oral-FAIR-UIUC]使用原力，卢克!学习通过模拟效应来预测物理力

[CVPR2020-Oral-FAIR-UIUC]使用原力，卢克!学习通过模拟效应来预测物理力

专知会员服务

10+阅读 · 2020年3月27日

【CVPR2020】通过潦草注释的弱监督显著目标检测，Weakly-Supervised Salient Object Detection via Scribble Annotations

【CVPR2020】通过潦草注释的弱监督显著目标检测，Weakly-Supervised Salient Object Detection via Scribble Annotations

专知会员服务

39+阅读 · 2020年3月19日

【DeepMind-牛津-CMU-CVPR2020】无监督词映射视觉基准，Visual Grounding in Video

【DeepMind-牛津-CMU-CVPR2020】无监督词映射视觉基准，Visual Grounding in Video

专知会员服务

12+阅读 · 2020年3月13日

【CVPR2020】从未标记的视频中学习视频对象分割，Learning Video Object Segmentation from Unlabeled Videos

【CVPR2020】从未标记的视频中学习视频对象分割，Learning Video Object Segmentation from Unlabeled Videos

专知会员服务

36+阅读 · 2020年3月12日

AAAI 2020 | 北大：图卷积中的多阶段自监督学习算法

AAAI 2020 | 北大：图卷积中的多阶段自监督学习算法

AI科技评论

8+阅读 · 2020年1月12日

【泡泡点云时空】基于分割方法的物体六维姿态估计

【泡泡点云时空】基于分割方法的物体六维姿态估计

泡泡机器人SLAM

18+阅读 · 2019年9月15日

文本+视觉，多篇 Visual/Video BERT 论文介绍

文本+视觉，多篇 Visual/Video BERT 论文介绍

AI科技评论

22+阅读 · 2019年8月30日

【泡泡图灵智库】自动驾驶中的基于立体视觉的3D语义物体和相机运动追踪（ECCV）

【泡泡图灵智库】自动驾驶中的基于立体视觉的3D语义物体和相机运动追踪（ECCV）

泡泡机器人SLAM

10+阅读 · 2019年4月18日

【泡泡图灵智库】不基于传感器的深度估计: 利用单目视频进行结构性的无监督学习（CVPR）

【泡泡图灵智库】不基于传感器的深度估计: 利用单目视频进行结构性的无监督学习（CVPR）

泡泡机器人SLAM

3+阅读 · 2019年4月16日

Google提出Grasp2Vec模型：利用自监督方法学习物体表示

Google提出Grasp2Vec模型：利用自监督方法学习物体表示

AI前线

3+阅读 · 2019年1月3日

通过视频着色进行自监督跟踪

通过视频着色进行自监督跟踪

谷歌开发者

3+阅读 · 2018年7月11日

学界 | 悉尼科技大学CVPR 2018论文：无监督学习下的增强人脸关键点检测器

学界 | 悉尼科技大学CVPR 2018论文：无监督学习下的增强人脸关键点检测器

AI科技评论

4+阅读 · 2018年7月5日

牛津大学提出全新生成式模型「SQAIR」，用于移动目标的视频理解

牛津大学提出全新生成式模型「SQAIR」，用于移动目标的视频理解

全球人工智能

4+阅读 · 2018年6月25日

专栏 | CVPR 2017论文解读：基于视频的无监督深度和车辆运动估计

专栏 | CVPR 2017论文解读：基于视频的无监督深度和车辆运动估计

机器之心

3+阅读 · 2017年7月27日

Action Segmentation with Joint Self-Supervised Temporal Domain Adaptation

Arxiv

6+阅读 · 2020年3月18日

Fine-tune BERT for Extractive Summarization

Arxiv

21+阅读 · 2019年3月25日

Multi-Stage Self-Supervised Learning for Graph Convolutional Networks

Arxiv

7+阅读 · 2019年2月28日

End-to-end Active Object Tracking via Reinforcement Learning

Arxiv

3+阅读 · 2018年6月1日

Hierarchical Reinforcement Learning with Deep Nested Agents

Arxiv

3+阅读 · 2018年5月18日

Visual Tracking via Dynamic Graph Learning

Arxiv

5+阅读 · 2018年4月30日

Efficient and Deep Person Re-Identification using Multi-Level Similarity

Arxiv

4+阅读 · 2018年4月2日

End-to-End Video Captioning with Multitask Reinforcement Learning

Arxiv

5+阅读 · 2018年3月21日

Zero-Shot Detection

Arxiv

7+阅读 · 2018年3月19日

Appearance-and-Relation Networks for Video Classification

Arxiv

3+阅读 · 2017年11月24日

VIP会员

相关主题

自监督学习

视频结构化

最新内容

《火线上的后勤保障：对抗环境下的随机规划模型研究——俄乌场景案例分析》99页

《火线上的后勤保障：对抗环境下的随机规划模型研究——俄乌场景案例分析》99页

专知会员服务

10+阅读 · 7月16日

《无人地面战车（UGV）的崛起》报告

《无人地面战车（UGV）的崛起》报告

专知会员服务

6+阅读 · 7月16日

《无人机参数化与集群飞行创新项目的监控流程管理：模型、策略及自适应解决方案》

《无人机参数化与集群飞行创新项目的监控流程管理：模型、策略及自适应解决方案》

专知会员服务

5+阅读 · 7月16日

《美军开放式任务系统（OMS）定义与文档（D&D）——Java关键抽象层（CAL）接口生成规范》47页标准

《美军开放式任务系统（OMS）定义与文档（D&D）——Java关键抽象层（CAL）接口生成规范》47页标准

专知会员服务

11+阅读 · 7月16日

美陆军任务式指挥人工智能解决方案

美陆军任务式指挥人工智能解决方案

专知会员服务

10+阅读 · 7月16日

ICML 2026 | 理论级自动形式化：从孤立命题到统一形式化知识库

ICML 2026 | 理论级自动形式化：从孤立命题到统一形式化知识库

专知会员服务

7+阅读 · 7月16日

综述 | 现代智能体自我改进，从模型更新到脚手架演化

综述 | 现代智能体自我改进，从模型更新到脚手架演化

专知会员服务

13+阅读 · 7月16日

美国陆军宣布“项目融合-顶点6”：现代化进程的关键里程碑

美国陆军宣布“项目融合-顶点6”：现代化进程的关键里程碑

专知会员服务

12+阅读 · 7月15日

五角大楼新版反无人机手册：内容解析与战略影响（附手册100页原件）

五角大楼新版反无人机手册：内容解析与战略影响（附手册100页原件）

专知会员服务

15+阅读 · 7月15日

《军事基地能源韧性与经济性权衡评估方法研究》

《军事基地能源韧性与经济性权衡评估方法研究》

专知会员服务

7+阅读 · 7月15日

ACM MM 2026 | UNIT：释放大语言模型在图持续学习中的潜力

ACM MM 2026 | UNIT：释放大语言模型在图持续学习中的潜力

专知会员服务

9+阅读 · 7月15日

综述 | 具身视觉语言导航：系统综述与真实世界评测

综述 | 具身视觉语言导航：系统综述与真实世界评测

专知会员服务

12+阅读 · 7月15日

应对第1、2类无人机威胁的推荐战术、技术与程序

应对第1、2类无人机威胁的推荐战术、技术与程序

专知会员服务

12+阅读 · 7月15日

《反制多无人机集群攻城：序贯斯塔克伯格安全博弈方法研究》59页

《反制多无人机集群攻城：序贯斯塔克伯格安全博弈方法研究》59页

专知会员服务

13+阅读 · 7月15日

博士论文 | 可扩展、自我改进的大语言模型智能体

博士论文 | 可扩展、自我改进的大语言模型智能体

专知会员服务

15+阅读 · 7月14日

相关VIP内容

【ACM Multimedia 2020】共同注意力网络的自监督视听表示学习

【ACM Multimedia 2020】共同注意力网络的自监督视听表示学习

专知会员服务

28+阅读 · 2020年8月14日

【视频】几何数据嵌入表示学习，74页ppt

【视频】几何数据嵌入表示学习，74页ppt

专知会员服务

35+阅读 · 2020年7月24日

【牛津大学&DeepMind】自监督学习教程，141页ppt

【牛津大学&DeepMind】自监督学习教程，141页ppt

专知会员服务

182+阅读 · 2020年5月29日

少标签数据学习，54页ppt

少标签数据学习，54页ppt

专知会员服务

205+阅读 · 2020年5月22日

【CVPR2020-Facebook AI】前置不变表示的自监督学习

【CVPR2020-Facebook AI】前置不变表示的自监督学习

专知会员服务

47+阅读 · 2020年4月19日

【CVPR2020-斯坦福】知识蒸馏时空图的视频描述，Spatio-Temporal Graph

【CVPR2020-斯坦福】知识蒸馏时空图的视频描述，Spatio-Temporal Graph

专知会员服务

34+阅读 · 2020年4月2日

[CVPR2020-Oral-FAIR-UIUC]使用原力，卢克!学习通过模拟效应来预测物理力

[CVPR2020-Oral-FAIR-UIUC]使用原力，卢克!学习通过模拟效应来预测物理力

专知会员服务

10+阅读 · 2020年3月27日

【CVPR2020】通过潦草注释的弱监督显著目标检测，Weakly-Supervised Salient Object Detection via Scribble Annotations

【CVPR2020】通过潦草注释的弱监督显著目标检测，Weakly-Supervised Salient Object Detection via Scribble Annotations

专知会员服务

39+阅读 · 2020年3月19日

【DeepMind-牛津-CMU-CVPR2020】无监督词映射视觉基准，Visual Grounding in Video

【DeepMind-牛津-CMU-CVPR2020】无监督词映射视觉基准，Visual Grounding in Video

专知会员服务

12+阅读 · 2020年3月13日

【CVPR2020】从未标记的视频中学习视频对象分割，Learning Video Object Segmentation from Unlabeled Videos

【CVPR2020】从未标记的视频中学习视频对象分割，Learning Video Object Segmentation from Unlabeled Videos

专知会员服务

36+阅读 · 2020年3月12日

热门VIP内容

开通专知VIP会员享更多权益服务

《无人地面战车（UGV）的崛起》报告

《美军开放式任务系统（OMS）定义与文档（D&D）——Java关键抽象层（CAL）接口生成规范》47页标准

《火线上的后勤保障：对抗环境下的随机规划模型研究——俄乌场景案例分析》99页

《无人机参数化与集群飞行创新项目的监控流程管理：模型、策略及自适应解决方案》

相关资讯

AAAI 2020 | 北大：图卷积中的多阶段自监督学习算法

AAAI 2020 | 北大：图卷积中的多阶段自监督学习算法

AI科技评论

8+阅读 · 2020年1月12日

【泡泡点云时空】基于分割方法的物体六维姿态估计

【泡泡点云时空】基于分割方法的物体六维姿态估计

泡泡机器人SLAM

18+阅读 · 2019年9月15日

文本+视觉，多篇 Visual/Video BERT 论文介绍

文本+视觉，多篇 Visual/Video BERT 论文介绍

AI科技评论

22+阅读 · 2019年8月30日

【泡泡图灵智库】自动驾驶中的基于立体视觉的3D语义物体和相机运动追踪（ECCV）

【泡泡图灵智库】自动驾驶中的基于立体视觉的3D语义物体和相机运动追踪（ECCV）

泡泡机器人SLAM

10+阅读 · 2019年4月18日

【泡泡图灵智库】不基于传感器的深度估计: 利用单目视频进行结构性的无监督学习（CVPR）

【泡泡图灵智库】不基于传感器的深度估计: 利用单目视频进行结构性的无监督学习（CVPR）

泡泡机器人SLAM

3+阅读 · 2019年4月16日

Google提出Grasp2Vec模型：利用自监督方法学习物体表示

Google提出Grasp2Vec模型：利用自监督方法学习物体表示

AI前线

3+阅读 · 2019年1月3日

通过视频着色进行自监督跟踪

通过视频着色进行自监督跟踪

谷歌开发者

3+阅读 · 2018年7月11日

学界 | 悉尼科技大学CVPR 2018论文：无监督学习下的增强人脸关键点检测器

学界 | 悉尼科技大学CVPR 2018论文：无监督学习下的增强人脸关键点检测器

AI科技评论

4+阅读 · 2018年7月5日

牛津大学提出全新生成式模型「SQAIR」，用于移动目标的视频理解

牛津大学提出全新生成式模型「SQAIR」，用于移动目标的视频理解

全球人工智能

4+阅读 · 2018年6月25日

专栏 | CVPR 2017论文解读：基于视频的无监督深度和车辆运动估计

专栏 | CVPR 2017论文解读：基于视频的无监督深度和车辆运动估计

机器之心

3+阅读 · 2017年7月27日

相关论文

Action Segmentation with Joint Self-Supervised Temporal Domain Adaptation

Arxiv

6+阅读 · 2020年3月18日

Fine-tune BERT for Extractive Summarization

Arxiv

21+阅读 · 2019年3月25日

Multi-Stage Self-Supervised Learning for Graph Convolutional Networks

Arxiv

7+阅读 · 2019年2月28日

End-to-end Active Object Tracking via Reinforcement Learning

Arxiv

3+阅读 · 2018年6月1日

Hierarchical Reinforcement Learning with Deep Nested Agents

Arxiv

3+阅读 · 2018年5月18日

Visual Tracking via Dynamic Graph Learning

Arxiv

5+阅读 · 2018年4月30日

Efficient and Deep Person Re-Identification using Multi-Level Similarity

Arxiv

4+阅读 · 2018年4月2日

End-to-End Video Captioning with Multitask Reinforcement Learning

Arxiv

5+阅读 · 2018年3月21日

Zero-Shot Detection

Arxiv

7+阅读 · 2018年3月19日

Appearance-and-Relation Networks for Video Classification

Arxiv

3+阅读 · 2017年11月24日

微信扫码咨询专知VIP会员