This paper presents GenDet, a novel framework that redefines object detection as an image generation task. In contrast to traditional approaches, GenDet adopts a pioneering approach by leveraging generative modeling: it conditions on the input image and directly generates bounding boxes with semantic annotations in the original image space. GenDet establishes a conditional generation architecture built upon the large-scale pre-trained Stable Diffusion model, formulating the detection task as semantic constraints within the latent space. It enables precise control over bounding box positions and category attributes, while preserving the flexibility of the generative model. This novel methodology effectively bridges the gap between generative models and discriminative tasks, providing a fresh perspective for constructing unified visual understanding systems. Systematic experiments demonstrate that GenDet achieves competitive accuracy compared to discriminative detectors, while retaining the flexibility characteristic of generative methods.


翻译:本文提出GenDet,一种将目标检测重新定义为图像生成任务的新颖框架。与传统方法不同,GenDet采用了一种开创性方法:它基于输入图像进行条件化,直接在原始图像空间中生成带有语义标注的边界框。GenDet构建了一个基于大规模预训练Stable Diffusion模型的条件生成架构,将检测任务表述为潜在空间中的语义约束。该框架能够精确控制边界框位置和类别属性,同时保持生成模型的灵活性。这种新颖方法有效弥合了生成模型与判别任务之间的差距,为构建统一的视觉理解系统提供了全新视角。系统实验表明,与判别式检测器相比,GenDet在保持生成方法灵活性的同时,实现了具有竞争力的检测精度。

0
下载
关闭预览

相关内容

图增强生成(GraphRAG)
专知会员服务
35+阅读 · 2025年1月4日
【学界】 李飞飞学生最新论文:利用场景图生成图像
GAN生成式对抗网络
15+阅读 · 2018年4月9日
实战|手把手教你实现图象边缘检测!
全球人工智能
10+阅读 · 2018年1月19日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
VIP会员
最新内容
美以伊冲突:无人机与人工智能的运用
专知会员服务
1+阅读 · 13分钟前
《特种部队在透明战场中的生存力》最新报告
专知会员服务
1+阅读 · 33分钟前
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
7+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关VIP内容
图增强生成(GraphRAG)
专知会员服务
35+阅读 · 2025年1月4日
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员