Cross-Modal Retrieval for Motion and Text via DropTriple Loss - 专知论文

会员服务 ·

0

损失 · 模态 · 样本 · 跨模态 · 跨模态检索 ·

Cross-Modal Retrieval for Motion and Text via DropTriple Loss

翻译：基于DropTriple损失的运动与文本跨模态检索

Sheng Yan,Yang Liu,Haoqiang Wang,Xin Du,Mengyuan Liu,Hong Liu

from arxiv, This paper has been accepted by ACM MM Asia 2023 (Best Paper Candidate)

Cross-modal retrieval of image-text and video-text is a prominent research area in computer vision and natural language processing. However, there has been insufficient attention given to cross-modal retrieval between human motion and text, despite its wide-ranging applicability. To address this gap, we utilize a concise yet effective dual-unimodal transformer encoder for tackling this task. Recognizing that overlapping atomic actions in different human motion sequences can lead to semantic conflicts between samples, we explore a novel triplet loss function called DropTriple Loss. This loss function discards false negative samples from the negative sample set and focuses on mining remaining genuinely hard negative samples for triplet training, thereby reducing violations they cause. We evaluate our model and approach on the HumanML3D and KIT Motion-Language datasets. On the latest HumanML3D dataset, we achieve a recall of 62.9% for motion retrieval and 71.5% for text retrieval (both based on R@10). The source code for our approach is publicly available at https://github.com/eanson023/rehamot.

翻译：图像-文本与视频-文本的跨模态检索是计算机视觉与自然语言处理领域的重要研究方向。然而，尽管具有广泛的应用前景，人体运动与文本之间的跨模态检索尚未得到充分关注。为填补这一空白，我们采用一种简洁高效的双单模态Transformer编码器来处理此任务。针对不同人体运动序列中重叠的原子动作可能导致样本间语义冲突的问题，我们探索了一种新颖的三元组损失函数，称为DropTriple损失。该损失函数从负样本集中剔除假阴性样本，并专注于挖掘剩余的真正困难负样本进行三元组训练，从而减少其导致的违规情况。我们在HumanML3D和KIT Motion-Language数据集上评估了我们的模型与方法。在最新的HumanML3D数据集上，我们实现了运动检索62.9%和文本检索71.5%的召回率（均基于R@10）。本方法的源代码已公开于https://github.com/eanson023/rehamot。

0

相关内容

实值无标签图文跨模态检索研究综述

实值无标签图文跨模态检索研究综述

专知会员服务

14+阅读 · 2024年9月22日

多模态复合编辑与检索综述

多模态复合编辑与检索综述

专知会员服务

25+阅读 · 2024年9月14日

《文本到图像跨模态生成》一项系统性综述

《文本到图像跨模态生成》一项系统性综述

专知会员服务

32+阅读 · 2024年1月26日

【ICCV2021】多层次对比学习的跨模态检索方法

【ICCV2021】多层次对比学习的跨模态检索方法

专知会员服务

23+阅读 · 2021年10月24日

跨模态检索研究进展综述

专知会员服务

53+阅读 · 2021年8月13日

基于深度学习的跨模态检索综述

专知会员服务

62+阅读 · 2021年3月25日

【CVPR2021】跨模态检索的概率嵌入

【CVPR2021】跨模态检索的概率嵌入

专知会员服务

20+阅读 · 2021年3月2日

【Google】多模态Transformer视频检索，Multi-modal Transformer

【Google】多模态Transformer视频检索，Multi-modal Transformer

专知会员服务

103+阅读 · 2020年7月22日

【CVPR 2020-人大】基于层次图推理的细粒度文本视频跨模态检索

【CVPR 2020-人大】基于层次图推理的细粒度文本视频跨模态检索

专知会员服务

67+阅读 · 2020年4月5日

【CCL 2019】多模态--基于视觉的跨模态文本生成，复旦大学副教授魏忠钰

【CCL 2019】多模态--基于视觉的跨模态文本生成，复旦大学副教授魏忠钰

专知会员服务

74+阅读 · 2019年11月12日

300+篇文献！一文详解基于Transformer的多模态学习最新进展

300+篇文献！一文详解基于Transformer的多模态学习最新进展

PaperWeekly

13+阅读 · 2022年7月1日

【CVPR2021】跨模态检索的概率嵌入

【CVPR2021】跨模态检索的概率嵌入

专知

17+阅读 · 2021年3月2日

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

专知

10+阅读 · 2020年3月31日

【IEEE Fellow何晓东&邓力】多模态智能论文综述：表示学习，信息融合与应用，259篇文献带你了解AI热点技

【IEEE Fellow何晓东&邓力】多模态智能论文综述：表示学习，信息融合与应用，259篇文献带你了解AI热点技

专知

53+阅读 · 2019年12月1日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

计算机视觉方向简介 | 基于自然语言的跨模态行人re-id的SOTA方法（上）

计算机视觉方向简介 | 基于自然语言的跨模态行人re-id的SOTA方法（上）

计算机视觉life

12+阅读 · 2019年6月29日

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

AI前线

15+阅读 · 2019年3月21日

干货｜当深度学习遇见自动文本摘要，seq2seq+attention

干货｜当深度学习遇见自动文本摘要，seq2seq+attention

机器学习算法与Python学习

10+阅读 · 2018年5月28日

免费 | 从文本匹配到图文匹配:所见所想所找 - 基于生成模型的多模态检索

免费 | 从文本匹配到图文匹配:所见所想所找 - 基于生成模型的多模态检索

AI研习社

44+阅读 · 2018年3月23日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

图文混合跨媒体知识单元的模糊分类方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

复杂运动场景视频大数据中异常事件检测研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于反馈型级联连接模型的多模态语义SFM方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于改进型视觉注意模型的多模态极相似图像检索方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向在线检索的医学影像多特征降维方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于跨媒体可视分析的三维对象关联检索方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于生态演替的文本大数据特征学习研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于视觉差异特征的跨域图像匹配方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于概率图的文本检索模型及算法研究

国家自然科学基金

2+阅读 · 2014年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

InterEdit: Navigating Text-Guided Multi-Human 3D Motion Editing

Arxiv

0+阅读 · 3月13日

Fine-grained Motion Retrieval via Joint-Angle Motion Images and Token-Patch Late Interaction

Arxiv

0+阅读 · 3月10日

Beyond Text: Aligning Vision and Language for Multimodal E-Commerce Retrieval

Arxiv

0+阅读 · 3月5日

Beyond Global Similarity: Towards Fine-Grained, Multi-Condition Multimodal Retrieval

Arxiv

0+阅读 · 3月1日

Cross-Modal Mapping: Mitigating the Modality Gap for Few-Shot Image Classification

Arxiv

0+阅读 · 2月15日

Enhancing Weakly Supervised Multimodal Video Anomaly Detection through Text Guidance

Arxiv

0+阅读 · 2月11日

TriC-Motion: Tri-Domain Causal Modeling Grounded Text-to-Motion Generation

Arxiv

0+阅读 · 2月9日

LILaC: Late Interacting in Layered Component Graph for Open-domain Multimodal Multihop Retrieval

Arxiv

0+阅读 · 2月4日

Beyond Global Alignment: Fine-Grained Motion-Language Retrieval via Pyramidal Shapley-Taylor Learning

Arxiv

0+阅读 · 2月2日

Learning Adaptive Cross-Embodiment Visuomotor Policy with Contrastive Prompt Orchestration

Arxiv

0+阅读 · 2月1日

VIP会员

文章信息

相关主题

跨模态检索

最新内容

2026“人工智能+”行业发展蓝皮书（附下载）

2026“人工智能+”行业发展蓝皮书（附下载）

专知会员服务

7+阅读 · 今天12:11

《强化学习数学基础》

《强化学习数学基础》

专知会员服务

4+阅读 · 今天12:07

何为下一代指挥与控制？美陆军选择第四步兵师进行快速原型NGC2开发

何为下一代指挥与控制？美陆军选择第四步兵师进行快速原型NGC2开发

专知会员服务

6+阅读 · 今天10:06

《低成本自杀式无人机战争的军事战略影响：以乌克兰和伊朗为案例研究》

《低成本自杀式无人机战争的军事战略影响：以乌克兰和伊朗为案例研究》

专知会员服务

3+阅读 · 今天9:11

深入Maven智能系统：Palantir基于Claude打造的军事大脑

深入Maven智能系统：Palantir基于Claude打造的军事大脑

专知会员服务

10+阅读 · 今天8:18

“Maven计划”的发展演变之“Maven智能系统”应用

“Maven计划”的发展演变之“Maven智能系统”应用

专知会员服务

9+阅读 · 今天8:03

伊朗的无人机蜂群策略如何挑战美国防御系统：人工智能驱动的无人机战争与现代冲突的转型

伊朗的无人机蜂群策略如何挑战美国防御系统：人工智能驱动的无人机战争与现代冲突的转型

专知会员服务

6+阅读 · 今天7:39

《将小型无人机系统与巡飞弹集成至连及以下级别战术机动》（美陆军最新报告中文版）

《将小型无人机系统与巡飞弹集成至连及以下级别战术机动》（美陆军最新报告中文版）

专知会员服务

6+阅读 · 今天6:58

加拿大国防部发布项目需求：用于高级态势决策的多模态人工智能

加拿大国防部发布项目需求：用于高级态势决策的多模态人工智能

专知会员服务

5+阅读 · 今天6:54

《无人机革命：来自俄乌战场的启示》（报告）

《无人机革命：来自俄乌战场的启示》（报告）

专知会员服务

9+阅读 · 今天6:48

《实现联合作战能力所需的技术》58页报告

《实现联合作战能力所需的技术》58页报告

专知会员服务

5+阅读 · 今天6:30

《算法化目标定位：人工智能在以色列加沙打击行动中的作用及其伦理影响》（中文版）

《算法化目标定位：人工智能在以色列加沙打击行动中的作用及其伦理影响》（中文版）

专知会员服务

7+阅读 · 今天6:22

以色列运用人工智能优化空袭警报系统

以色列运用人工智能优化空袭警报系统

专知会员服务

5+阅读 · 今天6:20

以色列在多条战线部署AI智能体

以色列在多条战线部署AI智能体

专知会员服务

7+阅读 · 今天6:12

《将形式化方法工具应用于电子战代码库（经验报告）》

《将形式化方法工具应用于电子战代码库（经验报告）》

专知会员服务

6+阅读 · 今天6:09

相关VIP内容

实值无标签图文跨模态检索研究综述

实值无标签图文跨模态检索研究综述

专知会员服务

14+阅读 · 2024年9月22日

多模态复合编辑与检索综述

多模态复合编辑与检索综述

专知会员服务

25+阅读 · 2024年9月14日

《文本到图像跨模态生成》一项系统性综述

《文本到图像跨模态生成》一项系统性综述

专知会员服务

32+阅读 · 2024年1月26日

【ICCV2021】多层次对比学习的跨模态检索方法

【ICCV2021】多层次对比学习的跨模态检索方法

专知会员服务

23+阅读 · 2021年10月24日

跨模态检索研究进展综述

专知会员服务

53+阅读 · 2021年8月13日

基于深度学习的跨模态检索综述

专知会员服务

62+阅读 · 2021年3月25日

【CVPR2021】跨模态检索的概率嵌入

【CVPR2021】跨模态检索的概率嵌入

专知会员服务

20+阅读 · 2021年3月2日

【Google】多模态Transformer视频检索，Multi-modal Transformer

【Google】多模态Transformer视频检索，Multi-modal Transformer

专知会员服务

103+阅读 · 2020年7月22日

【CVPR 2020-人大】基于层次图推理的细粒度文本视频跨模态检索

【CVPR 2020-人大】基于层次图推理的细粒度文本视频跨模态检索

专知会员服务

67+阅读 · 2020年4月5日

【CCL 2019】多模态--基于视觉的跨模态文本生成，复旦大学副教授魏忠钰

【CCL 2019】多模态--基于视觉的跨模态文本生成，复旦大学副教授魏忠钰

专知会员服务

74+阅读 · 2019年11月12日

热门VIP内容

开通专知VIP会员享更多权益服务

《强化学习数学基础》

《低成本自杀式无人机战争的军事战略影响：以乌克兰和伊朗为案例研究》

2026“人工智能+”行业发展蓝皮书（附下载）

何为下一代指挥与控制？美陆军选择第四步兵师进行快速原型NGC2开发

相关资讯

300+篇文献！一文详解基于Transformer的多模态学习最新进展

300+篇文献！一文详解基于Transformer的多模态学习最新进展

PaperWeekly

13+阅读 · 2022年7月1日

【CVPR2021】跨模态检索的概率嵌入

【CVPR2021】跨模态检索的概率嵌入

专知

17+阅读 · 2021年3月2日

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

专知

10+阅读 · 2020年3月31日

【IEEE Fellow何晓东&邓力】多模态智能论文综述：表示学习，信息融合与应用，259篇文献带你了解AI热点技

【IEEE Fellow何晓东&邓力】多模态智能论文综述：表示学习，信息融合与应用，259篇文献带你了解AI热点技

专知

53+阅读 · 2019年12月1日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

计算机视觉方向简介 | 基于自然语言的跨模态行人re-id的SOTA方法（上）

计算机视觉方向简介 | 基于自然语言的跨模态行人re-id的SOTA方法（上）

计算机视觉life

12+阅读 · 2019年6月29日

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

AI前线

15+阅读 · 2019年3月21日

干货｜当深度学习遇见自动文本摘要，seq2seq+attention

干货｜当深度学习遇见自动文本摘要，seq2seq+attention

机器学习算法与Python学习

10+阅读 · 2018年5月28日

免费 | 从文本匹配到图文匹配:所见所想所找 - 基于生成模型的多模态检索

免费 | 从文本匹配到图文匹配:所见所想所找 - 基于生成模型的多模态检索

AI研习社

44+阅读 · 2018年3月23日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

相关论文

InterEdit: Navigating Text-Guided Multi-Human 3D Motion Editing

Arxiv

0+阅读 · 3月13日

Fine-grained Motion Retrieval via Joint-Angle Motion Images and Token-Patch Late Interaction

Arxiv

0+阅读 · 3月10日

Beyond Text: Aligning Vision and Language for Multimodal E-Commerce Retrieval

Arxiv

0+阅读 · 3月5日

Beyond Global Similarity: Towards Fine-Grained, Multi-Condition Multimodal Retrieval

Arxiv

0+阅读 · 3月1日

Cross-Modal Mapping: Mitigating the Modality Gap for Few-Shot Image Classification

Arxiv

0+阅读 · 2月15日

Enhancing Weakly Supervised Multimodal Video Anomaly Detection through Text Guidance

Arxiv

0+阅读 · 2月11日

TriC-Motion: Tri-Domain Causal Modeling Grounded Text-to-Motion Generation

Arxiv

0+阅读 · 2月9日

LILaC: Late Interacting in Layered Component Graph for Open-domain Multimodal Multihop Retrieval

Arxiv

0+阅读 · 2月4日

Beyond Global Alignment: Fine-Grained Motion-Language Retrieval via Pyramidal Shapley-Taylor Learning

Arxiv

0+阅读 · 2月2日

Learning Adaptive Cross-Embodiment Visuomotor Policy with Contrastive Prompt Orchestration

Arxiv

0+阅读 · 2月1日

相关基金

图文混合跨媒体知识单元的模糊分类方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

复杂运动场景视频大数据中异常事件检测研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于反馈型级联连接模型的多模态语义SFM方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于改进型视觉注意模型的多模态极相似图像检索方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向在线检索的医学影像多特征降维方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于跨媒体可视分析的三维对象关联检索方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于生态演替的文本大数据特征学习研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于视觉差异特征的跨域图像匹配方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于概率图的文本检索模型及算法研究

国家自然科学基金

2+阅读 · 2014年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员