Food image-to-recipe aims to learn an embedded space linking the rich semantics in recipes with the visual content in food image for cross-modal retrieval. The existing research works carry out the learning of such space by assuming that all the image-recipe training example pairs belong to the same cuisine. As a result, despite the excellent performance reported in the literature, such space is not transferable for retrieving recipes of different cuisine. In this paper, we aim to address this issue by cross-domain food image-to-recipe retrieval, such that by leveraging abundant image-recipe pairs in source domain (one cuisine), the embedding space is generalizable to a target domain (the other cuisine) that does not have images to pair with recipes for training. With the intuition that the importance of different source samples should vary, this paper proposes two novel mechanisms for cross-domain food image-to-recipe retrieval, i.e., source data selector and weighted cross-modal adversarial learning. The former aims to select source samples similar to the target data and filter out distinctive ones for training. The latter is capable to assign higher weights to the source samples more similar to the target data and lower weights to suppress the distinctive ones for both cross-modal and adversarial learning. The weights are computed from the recipe features extracted from a pre-trained source model. Experiments on three different cuisines (Chuan, Yue and Washoku) demonstrate that the proposed method manages to achieve state-of-the-art performances in all the transfers.


翻译:食物图像到食谱检索旨在学习一个嵌入空间,将食谱中的丰富语义与食物图像中的视觉内容关联起来,以实现跨模态检索。现有研究在假设所有图像-食谱训练样本对属于同一种菜系的条件下进行该空间的学习。因此,尽管文献中报告了优异性能,但该空间无法迁移用于检索不同菜系的食谱。本文旨在通过跨领域食物图像到食谱检索解决这一问题,使得利用源领域(一种菜系)中丰富的图像-食谱对,嵌入空间能够泛化到没有图像与食谱配对用于训练的目标领域(另一种菜系)。基于不同源样本的重要性应有所不同的直觉,本文提出了两种新颖的跨领域食物图像到食谱检索机制,即源数据选择器和加权跨模态对抗学习。前者旨在选择与目标数据相似的源样本,并过滤掉差异显著的样本用于训练。后者能够为与目标数据更相似的源样本分配更高权重,并为抑制差异显著的样本降低权重,同时用于跨模态和对抗学习。这些权重根据从预训练源模型中提取的食谱特征计算得出。在三种不同菜系(川菜、粤菜、和食)上的实验表明,所提出的方法在所有迁移任务中均取得了最先进的性能。

0
下载
关闭预览

相关内容

对抗学习是一种机器学习技术,旨在通过提供欺骗性输入来欺骗模型。最常见的原因是导致机器学习模型出现故障。大多数机器学习技术旨在处理特定的问题集,其中从相同的统计分布(IID)生成训练和测试数据。当这些模型应用于现实世界时,对手可能会提供违反该统计假设的数据。可以安排此数据来利用特定漏洞并破坏结果。
强化学习最新教程,17页pdf
专知会员服务
182+阅读 · 2019年10月11日
IJCAI 2022 | 使用陈述句进行视觉问答的Prompt Tuning
LibRec 精选:推荐系统的常用数据集
LibRec智能推荐
17+阅读 · 2019年2月15日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
2+阅读 · 2008年12月31日
Arxiv
16+阅读 · 2021年11月27日
Adversarial Mutual Information for Text Generation
Arxiv
13+阅读 · 2020年6月30日
Adversarial Transfer Learning
Arxiv
12+阅读 · 2018年12月6日
A Survey on Deep Transfer Learning
Arxiv
11+阅读 · 2018年8月6日
VIP会员
最新内容
【剑桥博士论文】智能体-环境协同优化
专知会员服务
3+阅读 · 今天14:33
为初级军官战术训练设计生成式人工智能平台
专知会员服务
5+阅读 · 今天6:43
《美军条令:作战伤员后送保障》
专知会员服务
4+阅读 · 今天6:38
《美空军条令出版物 4-0,维持》
专知会员服务
4+阅读 · 今天6:32
《基于仿真的空军任务规划优化》
专知会员服务
4+阅读 · 今天6:21
相关资讯
IJCAI 2022 | 使用陈述句进行视觉问答的Prompt Tuning
LibRec 精选:推荐系统的常用数据集
LibRec智能推荐
17+阅读 · 2019年2月15日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
2+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员