Visual Set Program Synthesizer - 专知论文

会员服务 ·

0

合成 · 程序合成 · 视觉推理 · 对准 · AI ·

Visual Set Program Synthesizer

翻译：视觉集合程序合成器

Zehua Cheng,Wei Dai,Wenhu Zhang,Thomas Lukasiewicz,Jiahao Sun

from arxiv, 10 pages, IEEE International Conference on Multimedia and Expo 2026

A user pointing their phone at a supermarket shelf and asking "Which soda has the least sugar?" poses a difficult challenge for current visual Al assistants. Such queries require not only object recognition, but explicit set-based reasoning such as filtering, comparison, and aggregation. Standard endto-end MLLMs often fail at these tasks because they lack an explicit mechanism for compositional logic. We propose treating visual reasoning as Visual Program Synthesis, where the model first generates a symbolic program that is executed by a separate engine grounded in visual scenes. We also introduce Set-VQA, a new benchmark designed specifically for evaluating set-based visual reasoning. Experiments show that our approach significantly outperforms state-of-the-art baselines on complex reasoning tasks, producing more systematic and transparent behavior while substantially improving answer accuracy. These results demonstrate that program-driven reasoning provides a principled alternative to black-box visual-language inference.

翻译：用户将手机对准超市货架并询问“哪种苏打水含糖量最低？”，这对当前的视觉AI助手构成了一个难题。此类查询不仅需要物体识别，还需要明确的基于集合的推理，如筛选、比较和聚合。标准的端到端多模态大语言模型往往会在此类任务中失败，因为它们缺乏用于组合逻辑的显式机制。我们提出将视觉推理视为视觉程序合成，即模型首先生成一个符号程序，由另一个基于视觉场景的引擎执行。我们还引入了Set-VQA，这是一个专门为评估基于集合的视觉推理而设计的新基准。实验表明，我们的方法在复杂推理任务上显著优于当前最先进的基线模型，产生了更系统化和透明的行为，同时大幅提高了答案的准确性。这些结果表明，程序驱动的推理为黑箱视觉语言推理提供了一种原则性的替代方案。

0

相关内容

在回答之前先解释：组合视觉推理综述

在回答之前先解释：组合视觉推理综述

专知会员服务

15+阅读 · 2025年8月27日

【MIT博士论文】合成数据的视觉表示学习

【MIT博士论文】合成数据的视觉表示学习

专知会员服务

27+阅读 · 2024年8月25日

【NeurIPS2023】大型语言模型是视觉推理协调器

【NeurIPS2023】大型语言模型是视觉推理协调器

专知会员服务

30+阅读 · 2023年10月24日

CVPR 2023开会了！UIUC等最新《知识驱动的视觉语言编码》教程，附ppt

CVPR 2023开会了！UIUC等最新《知识驱动的视觉语言编码》教程，附ppt

专知会员服务

34+阅读 · 2023年6月24日

预训练模型如何用在视觉任务？南洋理工最新《视觉语言模型》综述，全面概述视觉语言模型方法体系

预训练模型如何用在视觉任务？南洋理工最新《视觉语言模型》综述，全面概述视觉语言模型方法体系

专知会员服务

53+阅读 · 2023年4月4日

【CVPR2023】提示、生成、然后缓存:基础模型的级联生成强大的少样本学习器

【CVPR2023】提示、生成、然后缓存:基础模型的级联生成强大的少样本学习器

专知会员服务

37+阅读 · 2023年3月8日

神经模型中组合求解器和离散分布的集成，77页ppt

神经模型中组合求解器和离散分布的集成，77页ppt

专知会员服务

23+阅读 · 2022年12月30日

【CVPR2020-英伟达】从图像集合中学习自监督视点，Self-Supervised Viewpoint Learning From Image Collections

【CVPR2020-英伟达】从图像集合中学习自监督视点，Self-Supervised Viewpoint Learning From Image Collections

专知会员服务

24+阅读 · 2020年4月4日

【CVPR2020-Oral-牛津-Facebook】从单个图像进行端到端的视图合成，SynSin-View Synthesis

【CVPR2020-Oral-牛津-Facebook】从单个图像进行端到端的视图合成，SynSin-View Synthesis

专知会员服务

29+阅读 · 2020年3月26日

【论文推荐】小样本视频合成，Few-shot Video-to-Video Synthesis

【论文推荐】小样本视频合成，Few-shot Video-to-Video Synthesis

专知会员服务

24+阅读 · 2019年12月15日

国内外优秀的计算机视觉团队汇总｜最新版

国内外优秀的计算机视觉团队汇总｜最新版

计算机视觉life

12+阅读 · 2020年7月20日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

视频目标识别资源集合

视频目标识别资源集合

专知

25+阅读 · 2019年6月15日

计算机视觉精品资料

计算机视觉精品资料

平均机器

11+阅读 · 2019年4月7日

【论文推荐】最新五篇视觉问答相关论文—深度学习评价、交互注意融合、VizWiz、引导注意力、

【论文推荐】最新五篇视觉问答相关论文—深度学习评价、交互注意融合、VizWiz、引导注意力、

专知

10+阅读 · 2018年6月8日

详解计算机视觉五大技术：图像分类、对象检测、目标跟踪、语义分割和实例分割

详解计算机视觉五大技术：图像分类、对象检测、目标跟踪、语义分割和实例分割

极市平台

10+阅读 · 2018年4月27日

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

CreateAMind

12+阅读 · 2018年4月7日

OpenCV特征提取与图像检索实现（附代码）

OpenCV特征提取与图像检索实现（附代码）

AI100

14+阅读 · 2018年3月3日

【机器视觉】计算机视觉必读：图像分类、定位、检测，语义分割和实例分割方法梳理

【机器视觉】计算机视觉必读：图像分类、定位、检测，语义分割和实例分割方法梳理

产业智能官

29+阅读 · 2018年2月3日

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

专知

15+阅读 · 2018年2月3日

高性能低比特视觉搜索及芯片结构研究

国家自然科学基金

1+阅读 · 2016年12月31日

面向计算机视觉问题的图匹配算法研究与应用

国家自然科学基金

1+阅读 · 2015年12月31日

有效融合多源异构数据的集成分类器研究

国家自然科学基金

5+阅读 · 2015年12月31日

主被动视角联合的细粒度行为识别

国家自然科学基金

1+阅读 · 2015年12月31日

2D/3D视觉信息融合仿生SLAM关键问题研究

国家自然科学基金

3+阅读 · 2015年12月31日

云环境下结合视觉特征的图像视频集编码与传输

国家自然科学基金

1+阅读 · 2015年12月31日

糖尿病信息管理系统中视网膜图像互操作与CAD-SR研究

国家自然科学基金

0+阅读 · 2015年12月31日

成像系统的光学/数字处理联合设计方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

稀疏性多维联合优化在线视觉跟踪方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

移动终端视频目标快速识别技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

Vibe Visualizing: How Visualization Novices Try (and Fail) to Generate and Interpret Visualizations with Conversational AI

Arxiv

0+阅读 · 6月8日

Generative Refinement Networks for Visual Synthesis

Arxiv

0+阅读 · 4月14日

VisionFoundry: Teaching VLMs Visual Perception with Synthetic Images

Arxiv

0+阅读 · 4月10日

VISOR: Agentic Visual Retrieval-Augmented Generation via Iterative Search and Over-horizon Reasoning

Arxiv

0+阅读 · 4月10日

Image Diffusion Preview with Consistency Solver

Arxiv

0+阅读 · 4月7日

Boosting Document Parsing Efficiency and Performance with Coarse-to-Fine Visual Processing

Arxiv

0+阅读 · 4月3日

Visual Decoding Operators: Towards a Compositional Theory of Visualization Perception

Arxiv

0+阅读 · 4月2日

Mixing Visual and Textual Code

Arxiv

0+阅读 · 3月27日

VTC-Bench: Evaluating Agentic Multimodal Models via Compositional Visual Tool Chaining

Arxiv

0+阅读 · 3月19日

Activation Quantization of Vision Encoders Needs Prefixing Registers

Arxiv

0+阅读 · 3月19日

VIP会员

文章信息

相关主题

最新内容

深入Project Maven：为何人工智能在战场上依然失灵

深入Project Maven：为何人工智能在战场上依然失灵

专知会员服务

4+阅读 · 今天15:21

锻造未来士兵：外骨骼、基因工程与赛博格

锻造未来士兵：外骨骼、基因工程与赛博格

专知会员服务

0+阅读 · 今天15:12

《无人机系统（UAS）通信网状网络试验性部署》50页报告

《无人机系统（UAS）通信网状网络试验性部署》50页报告

专知会员服务

2+阅读 · 今天15:06

《无人机蜂群通信技术研究》50页

《无人机蜂群通信技术研究》50页

专知会员服务

4+阅读 · 今天14:55

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

专知会员服务

9+阅读 · 7月18日

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

专知会员服务

7+阅读 · 7月18日

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

专知会员服务

9+阅读 · 7月18日

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

专知会员服务

6+阅读 · 7月18日

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

专知会员服务

9+阅读 · 7月17日

《边缘端实时无线感知赋能现场多机器人部署》200页

《边缘端实时无线感知赋能现场多机器人部署》200页

专知会员服务

9+阅读 · 7月17日

战力倍增器：自主武器系统与乌克兰及加沙冲突

战力倍增器：自主武器系统与乌克兰及加沙冲突

专知会员服务

5+阅读 · 7月17日

人工智能赋能战场情报：提速决策进程

人工智能赋能战场情报：提速决策进程

专知会员服务

3+阅读 · 7月17日

《拥抱新兴技术：面向未来军官的教育革新》

《拥抱新兴技术：面向未来军官的教育革新》

专知会员服务

7+阅读 · 7月17日

ACM MM 2026 | MAR-GRPO：稳定混合图像生成的强化学习训练

ACM MM 2026 | MAR-GRPO：稳定混合图像生成的强化学习训练

专知会员服务

5+阅读 · 7月17日

综述 | 大模型水印理论与部署：来源追踪、攻击鲁棒与可信治理

综述 | 大模型水印理论与部署：来源追踪、攻击鲁棒与可信治理

专知会员服务

6+阅读 · 7月17日

相关VIP内容

在回答之前先解释：组合视觉推理综述

在回答之前先解释：组合视觉推理综述

专知会员服务

15+阅读 · 2025年8月27日

【MIT博士论文】合成数据的视觉表示学习

【MIT博士论文】合成数据的视觉表示学习

专知会员服务

27+阅读 · 2024年8月25日

【NeurIPS2023】大型语言模型是视觉推理协调器

【NeurIPS2023】大型语言模型是视觉推理协调器

专知会员服务

30+阅读 · 2023年10月24日

CVPR 2023开会了！UIUC等最新《知识驱动的视觉语言编码》教程，附ppt

CVPR 2023开会了！UIUC等最新《知识驱动的视觉语言编码》教程，附ppt

专知会员服务

34+阅读 · 2023年6月24日

预训练模型如何用在视觉任务？南洋理工最新《视觉语言模型》综述，全面概述视觉语言模型方法体系

预训练模型如何用在视觉任务？南洋理工最新《视觉语言模型》综述，全面概述视觉语言模型方法体系

专知会员服务

53+阅读 · 2023年4月4日

【CVPR2023】提示、生成、然后缓存:基础模型的级联生成强大的少样本学习器

【CVPR2023】提示、生成、然后缓存:基础模型的级联生成强大的少样本学习器

专知会员服务

37+阅读 · 2023年3月8日

神经模型中组合求解器和离散分布的集成，77页ppt

神经模型中组合求解器和离散分布的集成，77页ppt

专知会员服务

23+阅读 · 2022年12月30日

【CVPR2020-英伟达】从图像集合中学习自监督视点，Self-Supervised Viewpoint Learning From Image Collections

【CVPR2020-英伟达】从图像集合中学习自监督视点，Self-Supervised Viewpoint Learning From Image Collections

专知会员服务

24+阅读 · 2020年4月4日

【CVPR2020-Oral-牛津-Facebook】从单个图像进行端到端的视图合成，SynSin-View Synthesis

【CVPR2020-Oral-牛津-Facebook】从单个图像进行端到端的视图合成，SynSin-View Synthesis

专知会员服务

29+阅读 · 2020年3月26日

【论文推荐】小样本视频合成，Few-shot Video-to-Video Synthesis

【论文推荐】小样本视频合成，Few-shot Video-to-Video Synthesis

专知会员服务

24+阅读 · 2019年12月15日

热门VIP内容

开通专知VIP会员享更多权益服务

锻造未来士兵：外骨骼、基因工程与赛博格

《无人机蜂群通信技术研究》50页

深入Project Maven：为何人工智能在战场上依然失灵

《无人机系统（UAS）通信网状网络试验性部署》50页报告

相关资讯

国内外优秀的计算机视觉团队汇总｜最新版

国内外优秀的计算机视觉团队汇总｜最新版

计算机视觉life

12+阅读 · 2020年7月20日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

视频目标识别资源集合

视频目标识别资源集合

专知

25+阅读 · 2019年6月15日

计算机视觉精品资料

计算机视觉精品资料

平均机器

11+阅读 · 2019年4月7日

【论文推荐】最新五篇视觉问答相关论文—深度学习评价、交互注意融合、VizWiz、引导注意力、

【论文推荐】最新五篇视觉问答相关论文—深度学习评价、交互注意融合、VizWiz、引导注意力、

专知

10+阅读 · 2018年6月8日

详解计算机视觉五大技术：图像分类、对象检测、目标跟踪、语义分割和实例分割

详解计算机视觉五大技术：图像分类、对象检测、目标跟踪、语义分割和实例分割

极市平台

10+阅读 · 2018年4月27日

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

CreateAMind

12+阅读 · 2018年4月7日

OpenCV特征提取与图像检索实现（附代码）

OpenCV特征提取与图像检索实现（附代码）

AI100

14+阅读 · 2018年3月3日

【机器视觉】计算机视觉必读：图像分类、定位、检测，语义分割和实例分割方法梳理

【机器视觉】计算机视觉必读：图像分类、定位、检测，语义分割和实例分割方法梳理

产业智能官

29+阅读 · 2018年2月3日

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

专知

15+阅读 · 2018年2月3日

相关论文

Vibe Visualizing: How Visualization Novices Try (and Fail) to Generate and Interpret Visualizations with Conversational AI

Arxiv

0+阅读 · 6月8日

Generative Refinement Networks for Visual Synthesis

Arxiv

0+阅读 · 4月14日

VisionFoundry: Teaching VLMs Visual Perception with Synthetic Images

Arxiv

0+阅读 · 4月10日

VISOR: Agentic Visual Retrieval-Augmented Generation via Iterative Search and Over-horizon Reasoning

Arxiv

0+阅读 · 4月10日

Image Diffusion Preview with Consistency Solver

Arxiv

0+阅读 · 4月7日

Boosting Document Parsing Efficiency and Performance with Coarse-to-Fine Visual Processing

Arxiv

0+阅读 · 4月3日

Visual Decoding Operators: Towards a Compositional Theory of Visualization Perception

Arxiv

0+阅读 · 4月2日

Mixing Visual and Textual Code

Arxiv

0+阅读 · 3月27日

VTC-Bench: Evaluating Agentic Multimodal Models via Compositional Visual Tool Chaining

Arxiv

0+阅读 · 3月19日

Activation Quantization of Vision Encoders Needs Prefixing Registers

Arxiv

0+阅读 · 3月19日

相关基金

高性能低比特视觉搜索及芯片结构研究

国家自然科学基金

1+阅读 · 2016年12月31日

面向计算机视觉问题的图匹配算法研究与应用

国家自然科学基金

1+阅读 · 2015年12月31日

有效融合多源异构数据的集成分类器研究

国家自然科学基金

5+阅读 · 2015年12月31日

主被动视角联合的细粒度行为识别

国家自然科学基金

1+阅读 · 2015年12月31日

2D/3D视觉信息融合仿生SLAM关键问题研究

国家自然科学基金

3+阅读 · 2015年12月31日

云环境下结合视觉特征的图像视频集编码与传输

国家自然科学基金

1+阅读 · 2015年12月31日

糖尿病信息管理系统中视网膜图像互操作与CAD-SR研究

国家自然科学基金

0+阅读 · 2015年12月31日

成像系统的光学/数字处理联合设计方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

稀疏性多维联合优化在线视觉跟踪方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

移动终端视频目标快速识别技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员