本文研究了多模态模型与生成模型的可解释性与可操控性,并重点关注文本-图像表征模型及文本生成图像(Text-to-Image)扩散系统。 首先,我们解决了 CLIP 多模态嵌入中的局限性,即图像中视觉概念与文本概念的耦合(Entanglement)问题。我们论证了这种耦合在生成任务与判别任务中产生的负面影响,并提出了一种实现视觉与文本表征解耦的方法。实验表明,这种解耦嵌入在抵御排版攻击(Typographic Attack)、提升图像生成质量以及增强域外 OCR 检测的稳健性方面具有显著效用。 在此基础上,我们探索了增强扩散模型可操控性的方法。首先,针对冗余概念生成(Unwanted Concept Generation)的挑战,我们提出了一项仅需概念名称即可消除特定视觉概念的技术。该技术利用负向提示词(Negative Prompts)与指引(Guidance)机制抑制目标内容,无需修改训练数据或重新训练模型。此方法增强了模型的伦理对齐(Ethical Alignment),并赋予用户在生成系统更强的控制力。 随后,我们转向其互补性问题:新概念的引入。我们提出了一种用于视频生成模型的**少样本动作定制(Few-shot Motion Customization)技术,能够将动作模式从少量示例迁移至新主体。该方法在保持基础模型泛化能力的同时,实现了具备主体无关性、身份一致性以及时序连贯性(Temporal Coherence)的动画生成。 为了实现对视觉输出的精细化控制,我们提出了一种图像属性的连续操纵(Continuous Manipulation)方法。该框架引入了平滑且直观的控制机制,允许对生成的图像进行动态、连续的引导。与提示词工程(Prompt Engineering)或词元级干预(Token-level Interventions)不同,我们的方法在不牺牲输出逼真度的前提下提供了实时调节能力。 最后,我们探讨了扩散模型中的艺术风格是依赖于大规模预训练,还是可以通过轻量化的后期训练获得。为此,我们在无艺术数据(Art-free Data)上训练了一个基础模型,并引入了一种紧凑的适配器(Adapter)**方法,从少量示例作品中学习风格概念。我们的研究结果表明,艺术领域知识可以高效且符合伦理地整合进模型,而无需依赖网络规模的抓取数据集。

成为VIP会员查看完整内容
10

相关内容

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下,选择自己能够把握和驾驭的潜在的研究方向,开辟新的研究领域。由此可见,这就对作者提出了较高要求,它要求作者必须在本学科的专业领域具备大量的理论知识,并对所学专业的理论知识有相当深入的理解和思考,同时还要具有相当水平的独立科学研究能力,能够为在学科领域提出独创性的见解和有价值的科研成果。因而,较之学士论文、硕士论文,博士论文具有更高的学术价值,对学科的发展具有重要的推动作用。
【CMU博士论文】迈向数据高效的多模态学习
专知会员服务
21+阅读 · 1月17日
144页ppt《扩散模型》,Google DeepMind Sander Dieleman
专知会员服务
50+阅读 · 2025年11月21日
大规模视觉-语言模型的基准、评估、应用与挑战
专知会员服务
18+阅读 · 2025年2月10日
【博士论文】解释大型视觉模型方面的进展
专知会员服务
27+阅读 · 2025年2月7日
【MIT博士论文】合成数据的视觉表示学习
专知会员服务
27+阅读 · 2024年8月25日
【MIT博士论文】垂直领域生成式模型,107页pdf
专知会员服务
68+阅读 · 2023年11月13日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
深度多模态表示学习综述论文,22页pdf
专知
33+阅读 · 2020年6月21日
专家报告|深度学习+图像多模态融合
中国图象图形学报
12+阅读 · 2019年10月23日
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
VIP会员
相关VIP内容
【CMU博士论文】迈向数据高效的多模态学习
专知会员服务
21+阅读 · 1月17日
144页ppt《扩散模型》,Google DeepMind Sander Dieleman
专知会员服务
50+阅读 · 2025年11月21日
大规模视觉-语言模型的基准、评估、应用与挑战
专知会员服务
18+阅读 · 2025年2月10日
【博士论文】解释大型视觉模型方面的进展
专知会员服务
27+阅读 · 2025年2月7日
【MIT博士论文】合成数据的视觉表示学习
专知会员服务
27+阅读 · 2024年8月25日
【MIT博士论文】垂直领域生成式模型,107页pdf
专知会员服务
68+阅读 · 2023年11月13日
相关基金
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
微信扫码咨询专知VIP会员