【MIT博士论文】大规模视觉引导：从模型权重到训练数据

本文研究了多模态模型与生成模型的可解释性与可操控性，并重点关注文本-图像表征模型及文本生成图像（Text-to-Image）扩散系统。首先，我们解决了 CLIP 多模态嵌入中的局限性，即图像中视觉概念与文本概念的耦合（Entanglement）问题。我们论证了这种耦合在生成任务与判别任务中产生的负面影响，并提出了一种实现视觉与文本表征解耦的方法。实验表明，这种解耦嵌入在抵御排版攻击（Typographic Attack）、提升图像生成质量以及增强域外 OCR 检测的稳健性方面具有显著效用。在此基础上，我们探索了增强扩散模型可操控性的方法。首先，针对冗余概念生成（Unwanted Concept Generation）的挑战，我们提出了一项仅需概念名称即可消除特定视觉概念的技术。该技术利用负向提示词（Negative Prompts）与指引（Guidance）机制抑制目标内容，无需修改训练数据或重新训练模型。此方法增强了模型的伦理对齐（Ethical Alignment），并赋予用户在生成系统更强的控制力。随后，我们转向其互补性问题：新概念的引入。我们提出了一种用于视频生成模型的**少样本动作定制（Few-shot Motion Customization）技术，能够将动作模式从少量示例迁移至新主体。该方法在保持基础模型泛化能力的同时，实现了具备主体无关性、身份一致性以及时序连贯性（Temporal Coherence）的动画生成。为了实现对视觉输出的精细化控制，我们提出了一种图像属性的连续操纵（Continuous Manipulation）方法。该框架引入了平滑且直观的控制机制，允许对生成的图像进行动态、连续的引导。与提示词工程（Prompt Engineering）或词元级干预（Token-level Interventions）不同，我们的方法在不牺牲输出逼真度的前提下提供了实时调节能力。最后，我们探讨了扩散模型中的艺术风格是依赖于大规模预训练，还是可以通过轻量化的后期训练获得。为此，我们在无艺术数据（Art-free Data）上训练了一个基础模型，并引入了一种紧凑的适配器（Adapter）**方法，从少量示例作品中学习风格概念。我们的研究结果表明，艺术领域知识可以高效且符合伦理地整合进模型，而无需依赖网络规模的抓取数据集。

成为VIP会员查看完整内容

相关内容

博士论文

关注 132

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下，选择自己能够把握和驾驭的潜在的研究方向，开辟新的研究领域。由此可见，这就对作者提出了较高要求，它要求作者必须在本学科的专业领域具备大量的理论知识，并对所学专业的理论知识有相当深入的理解和思考，同时还要具有相当水平的独立科学研究能力，能够为在学科领域提出独创性的见解和有价值的科研成果。因而，较之学士论文、硕士论文，博士论文具有更高的学术价值，对学科的发展具有重要的推动作用。

【CMU博士论文】迈向数据高效的多模态学习

专知会员服务

25+阅读 · 1月17日

144页ppt《扩散模型》，Google DeepMind Sander Dieleman

专知会员服务

51+阅读 · 2025年11月21日

【MIT博士论文】从数据到模型，再回到数据：构建可预测且可靠的机器学习系统”

专知会员服务

24+阅读 · 2025年6月19日

大规模视觉-语言模型的基准、评估、应用与挑战

专知会员服务

18+阅读 · 2025年2月10日