Physics-Based Benchmarking Metrics for Multimodal Synthetic Images - 专知论文

会员服务 ·

0

约束 · 多模 · 模态 · 物理约束 · 评测指标 ·

Physics-Based Benchmarking Metrics for Multimodal Synthetic Images

翻译：基于物理约束的多模态合成图像基准评测指标

Kishor Datta Gupta,Marufa Kamal,Md. Mahfuzur Rahman,Fahad Rahman,Mohd Ariful Haque,Sunzida Siddique

Current state of the art measures like BLEU, CIDEr, VQA score, SigLIP-2 and CLIPScore are often unable to capture semantic or structural accuracy, especially for domain-specific or context-dependent scenarios. For this, this paper proposes a Physics-Constrained Multimodal Data Evaluation (PCMDE) metric combining large language models with reasoning, knowledge based mapping and vision-language models to overcome these limitations. The architecture is comprised of three main stages: (1) feature extraction of spatial and semantic information with multimodal features through object detection and VLMs; (2) Confidence-Weighted Component Fusion for adaptive component-level validation; and (3) physics-guided reasoning using large language models for structural and relational constraints (e.g., alignment, position, consistency) enforcement.

翻译：当前最先进的评测指标如BLEU、CIDEr、VQA分数、SigLIP-2和CLIPScore往往难以捕捉语义或结构准确性，特别是在领域特定或上下文依赖的场景中。为此，本文提出一种物理约束多模态数据评估（PCMDE）指标，通过将大语言模型与推理能力、基于知识的映射以及视觉语言模型相结合来克服这些局限性。该架构包含三个主要阶段：（1）通过目标检测和视觉语言模型提取具有多模态特征的空间与语义信息；（2）采用置信度加权组件融合进行自适应组件级验证；（3）利用大语言模型进行物理引导推理，以强化结构及关系约束（如对齐关系、位置关系、一致性）。

0

相关内容

【WWW2026】用于多模态推荐的基础模型个性化参数高效微调研究

【WWW2026】用于多模态推荐的基础模型个性化参数高效微调研究

专知会员服务

5+阅读 · 2月20日

多模态指代分割综述

多模态指代分割综述

专知会员服务

17+阅读 · 2025年8月4日

【WWW2025】ImageScope：通过大型多模态模型集体推理统一语言引导的图像检索

【WWW2025】ImageScope：通过大型多模态模型集体推理统一语言引导的图像检索

专知会员服务

12+阅读 · 2025年4月22日

MME-Survey：多模态大型语言模型评估的综合性调查

MME-Survey：多模态大型语言模型评估的综合性调查

专知会员服务

43+阅读 · 2024年12月1日

多模态大规模语言模型基准的综述

多模态大规模语言模型基准的综述

专知会员服务

41+阅读 · 2024年8月25日

KG如何结合多模态？《知识图谱遇见多模态学习》综述，55页pdf

KG如何结合多模态？《知识图谱遇见多模态学习》综述，55页pdf

专知会员服务

63+阅读 · 2024年2月9日

多模态预训练模型综述

多模态预训练模型综述

专知会员服务

94+阅读 · 2023年11月20日

多模态认知计算

多模态认知计算

专知会员服务

182+阅读 · 2022年9月16日

【TPAMI2022】关联关系驱动的多模态分类，AF: An Association-based Fusion Method for Multi-Modal Classification

【TPAMI2022】关联关系驱动的多模态分类，AF: An Association-based Fusion Method for Multi-Modal Classification

专知会员服务

27+阅读 · 2022年3月22日

【Meta AI】多模态理解研究进展，Advances in multimodal understanding research at Meta AI

【Meta AI】多模态理解研究进展，Advances in multimodal understanding research at Meta AI

专知会员服务

68+阅读 · 2022年3月20日

数据受限条件下的多模态处理技术综述

数据受限条件下的多模态处理技术综述

专知

22+阅读 · 2022年7月16日

【CIKM2020】多模态知识图谱推荐系统，Multi-modal KG for RS

【CIKM2020】多模态知识图谱推荐系统，Multi-modal KG for RS

专知

33+阅读 · 2020年8月24日

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

专知

11+阅读 · 2020年3月17日

AAAI 2020 | 多模态基准指导的生成式多模态自动文摘

AAAI 2020 | 多模态基准指导的生成式多模态自动文摘

AI科技评论

16+阅读 · 2020年1月5日

专家报告|深度学习+图像多模态融合

专家报告|深度学习+图像多模态融合

中国图象图形学报

12+阅读 · 2019年10月23日

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

专知

50+阅读 · 2019年10月20日

西北工业大学发布最新遥感图像目标检测综述论文和Benchmark，带你全面了解遥感图像检测方法

西北工业大学发布最新遥感图像目标检测综述论文和Benchmark，带你全面了解遥感图像检测方法

专知

23+阅读 · 2019年9月5日

图像美学质量评价技术发展趋势

图像美学质量评价技术发展趋势

科技导报

19+阅读 · 2018年6月25日

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

专知

15+阅读 · 2018年6月11日

【论文推荐】最新5篇目标检测相关论文——显著目标检测、弱监督One-Shot检测、多框检测器、携带物体检测、假彩色图像检测

【论文推荐】最新5篇目标检测相关论文——显著目标检测、弱监督One-Shot检测、多框检测器、携带物体检测、假彩色图像检测

专知

74+阅读 · 2018年1月16日

基于非直观光波参数光折变晶体干涉测量的物质结构及声场多维超分辨动态成像

国家自然科学基金

0+阅读 · 2015年12月31日

基于多传感器数据融合的超精密复杂曲面几何误差评定理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于多模态信息集成的组合预测模型及其应用研究

国家自然科学基金

6+阅读 · 2015年12月31日

基于图像属性和深度学习的大规模物体检测研究与应用

国家自然科学基金

1+阅读 · 2015年12月31日

普适计算对象感知多模态不精确性数据融合算法研究

国家自然科学基金

5+阅读 · 2014年12月31日

复杂数据下带有形状约束的半参数模型统计推断

国家自然科学基金

3+阅读 · 2014年12月31日

测量误差数据下约束线性模型的有偏估计及变量选择研究

国家自然科学基金

0+阅读 · 2014年12月31日

多尺度NED/DEM生成的数字综合理论和关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

超光谱、全偏振、立体形貌的多模态成像研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于组合Hodge理论的图像视频质量评价方法

国家自然科学基金

0+阅读 · 2014年12月31日

CMT-Benchmark: A Benchmark for Condensed Matter Theory Built by Expert Researchers

Arxiv

0+阅读 · 2月27日

FewMMBench: A Benchmark for Multimodal Few-Shot Learning

Arxiv

0+阅读 · 2月25日

MathScape: Benchmarking Multimodal Large Language Models in Real-World Mathematical Contexts

Arxiv

0+阅读 · 2月23日

KorMedMCQA-V: A Multimodal Benchmark for Evaluating Vision-Language Models on the Korean Medical Licensing Examination

Arxiv

0+阅读 · 2月14日

Human-Aligned MLLM Judges for Fine-Grained Image Editing Evaluation: A Benchmark, Framework, and Analysis

Arxiv

0+阅读 · 2月13日

PhyCritic: Multimodal Critic Models for Physical AI

Arxiv

0+阅读 · 2月11日

AdaptMMBench: Benchmarking Adaptive Multimodal Reasoning for Mode Selection and Reasoning Process

Arxiv

0+阅读 · 2月10日

PhysicsAgentABM: Physics-Guided Generative Agent-Based Modeling

Arxiv

0+阅读 · 2月6日

MM-SCALE: Grounded Multimodal Moral Reasoning via Scalar Judgment and Listwise Alignment

Arxiv

0+阅读 · 2月3日

FinMTM: A Multi-Turn Multimodal Benchmark for Financial Reasoning and Agent Evaluation

Arxiv

0+阅读 · 2月3日

VIP会员

文章信息

相关主题

最新内容

大语言模型平台在国防情报应用中的对比

大语言模型平台在国防情报应用中的对比

专知会员服务

1+阅读 · 28分钟前

美陆军“增强任务分析”实验：将人工智能集成到军事决策流程中

美陆军“增强任务分析”实验：将人工智能集成到军事决策流程中

专知会员服务

1+阅读 · 40分钟前

《面向安全态势自适应决策的情报信息系统与机器学习算法研究》

《面向安全态势自适应决策的情报信息系统与机器学习算法研究》

专知会员服务

1+阅读 · 44分钟前

《杀伤链中人类判断的终结？论AI智能体对主动权与解释权的重置》

《杀伤链中人类判断的终结？论AI智能体对主动权与解释权的重置》

专知会员服务

1+阅读 · 56分钟前

《仿真互操作性标准：实时平台参考联邦对象模型指南、原理与互操作性模式标准》300页

《仿真互操作性标准：实时平台参考联邦对象模型指南、原理与互操作性模式标准》300页

专知会员服务

2+阅读 · 今天2:37

《自主远程巡飞弹药打击系统的嵌入式人工智能感知框架》

《自主远程巡飞弹药打击系统的嵌入式人工智能感知框架》

专知会员服务

1+阅读 · 今天2:22

美海军“超配项目”

美海军“超配项目”

专知会员服务

1+阅读 · 今天2:13

《美陆军条例：陆军指挥政策（2026版）》

《美陆军条例：陆军指挥政策（2026版）》

专知会员服务

10+阅读 · 4月21日

《提升美军全域城市作战训练最佳实践的案例研究》366页

《提升美军全域城市作战训练最佳实践的案例研究》366页

专知会员服务

12+阅读 · 4月21日

《军用自主人工智能系统的治理与安全》

《军用自主人工智能系统的治理与安全》

专知会员服务

7+阅读 · 4月21日

美海军数字作战负责人：如何利用数据快速生成战斗力

美海军数字作战负责人：如何利用数据快速生成战斗力

专知会员服务

8+阅读 · 4月21日

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

专知会员服务

11+阅读 · 4月20日

《系统簇式多域作战规划范畴论框架》

《系统簇式多域作战规划范畴论框架》

专知会员服务

10+阅读 · 4月20日

《美国防部指令6130.03，第2卷服役医疗标准：保留》

《美国防部指令6130.03，第2卷服役医疗标准：保留》

专知会员服务

6+阅读 · 4月20日

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

专知会员服务

4+阅读 · 4月20日

相关VIP内容

【WWW2026】用于多模态推荐的基础模型个性化参数高效微调研究

【WWW2026】用于多模态推荐的基础模型个性化参数高效微调研究

专知会员服务

5+阅读 · 2月20日

多模态指代分割综述

多模态指代分割综述

专知会员服务

17+阅读 · 2025年8月4日

【WWW2025】ImageScope：通过大型多模态模型集体推理统一语言引导的图像检索

【WWW2025】ImageScope：通过大型多模态模型集体推理统一语言引导的图像检索

专知会员服务

12+阅读 · 2025年4月22日

MME-Survey：多模态大型语言模型评估的综合性调查

MME-Survey：多模态大型语言模型评估的综合性调查

专知会员服务

43+阅读 · 2024年12月1日

多模态大规模语言模型基准的综述

多模态大规模语言模型基准的综述

专知会员服务

41+阅读 · 2024年8月25日

KG如何结合多模态？《知识图谱遇见多模态学习》综述，55页pdf

KG如何结合多模态？《知识图谱遇见多模态学习》综述，55页pdf

专知会员服务

63+阅读 · 2024年2月9日

多模态预训练模型综述

多模态预训练模型综述

专知会员服务

94+阅读 · 2023年11月20日

多模态认知计算

多模态认知计算

专知会员服务

182+阅读 · 2022年9月16日

【TPAMI2022】关联关系驱动的多模态分类，AF: An Association-based Fusion Method for Multi-Modal Classification

【TPAMI2022】关联关系驱动的多模态分类，AF: An Association-based Fusion Method for Multi-Modal Classification

专知会员服务

27+阅读 · 2022年3月22日

【Meta AI】多模态理解研究进展，Advances in multimodal understanding research at Meta AI

【Meta AI】多模态理解研究进展，Advances in multimodal understanding research at Meta AI

专知会员服务

68+阅读 · 2022年3月20日

热门VIP内容

开通专知VIP会员享更多权益服务

美陆军“增强任务分析”实验：将人工智能集成到军事决策流程中

《杀伤链中人类判断的终结？论AI智能体对主动权与解释权的重置》

大语言模型平台在国防情报应用中的对比

《面向安全态势自适应决策的情报信息系统与机器学习算法研究》

相关资讯

数据受限条件下的多模态处理技术综述

数据受限条件下的多模态处理技术综述

专知

22+阅读 · 2022年7月16日

【CIKM2020】多模态知识图谱推荐系统，Multi-modal KG for RS

【CIKM2020】多模态知识图谱推荐系统，Multi-modal KG for RS

专知

33+阅读 · 2020年8月24日

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

专知

11+阅读 · 2020年3月17日

AAAI 2020 | 多模态基准指导的生成式多模态自动文摘

AAAI 2020 | 多模态基准指导的生成式多模态自动文摘

AI科技评论

16+阅读 · 2020年1月5日

专家报告|深度学习+图像多模态融合

专家报告|深度学习+图像多模态融合

中国图象图形学报

12+阅读 · 2019年10月23日

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

专知

50+阅读 · 2019年10月20日

西北工业大学发布最新遥感图像目标检测综述论文和Benchmark，带你全面了解遥感图像检测方法

西北工业大学发布最新遥感图像目标检测综述论文和Benchmark，带你全面了解遥感图像检测方法

专知

23+阅读 · 2019年9月5日

图像美学质量评价技术发展趋势

图像美学质量评价技术发展趋势

科技导报

19+阅读 · 2018年6月25日

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

专知

15+阅读 · 2018年6月11日

【论文推荐】最新5篇目标检测相关论文——显著目标检测、弱监督One-Shot检测、多框检测器、携带物体检测、假彩色图像检测

【论文推荐】最新5篇目标检测相关论文——显著目标检测、弱监督One-Shot检测、多框检测器、携带物体检测、假彩色图像检测

专知

74+阅读 · 2018年1月16日

相关论文

CMT-Benchmark: A Benchmark for Condensed Matter Theory Built by Expert Researchers

Arxiv

0+阅读 · 2月27日

FewMMBench: A Benchmark for Multimodal Few-Shot Learning

Arxiv

0+阅读 · 2月25日

MathScape: Benchmarking Multimodal Large Language Models in Real-World Mathematical Contexts

Arxiv

0+阅读 · 2月23日

KorMedMCQA-V: A Multimodal Benchmark for Evaluating Vision-Language Models on the Korean Medical Licensing Examination

Arxiv

0+阅读 · 2月14日

Human-Aligned MLLM Judges for Fine-Grained Image Editing Evaluation: A Benchmark, Framework, and Analysis

Arxiv

0+阅读 · 2月13日

PhyCritic: Multimodal Critic Models for Physical AI

Arxiv

0+阅读 · 2月11日

AdaptMMBench: Benchmarking Adaptive Multimodal Reasoning for Mode Selection and Reasoning Process

Arxiv

0+阅读 · 2月10日

PhysicsAgentABM: Physics-Guided Generative Agent-Based Modeling

Arxiv

0+阅读 · 2月6日

MM-SCALE: Grounded Multimodal Moral Reasoning via Scalar Judgment and Listwise Alignment

Arxiv

0+阅读 · 2月3日

FinMTM: A Multi-Turn Multimodal Benchmark for Financial Reasoning and Agent Evaluation

Arxiv

0+阅读 · 2月3日

相关基金

基于非直观光波参数光折变晶体干涉测量的物质结构及声场多维超分辨动态成像

国家自然科学基金

0+阅读 · 2015年12月31日

基于多传感器数据融合的超精密复杂曲面几何误差评定理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于多模态信息集成的组合预测模型及其应用研究

国家自然科学基金

6+阅读 · 2015年12月31日

基于图像属性和深度学习的大规模物体检测研究与应用

国家自然科学基金

1+阅读 · 2015年12月31日

普适计算对象感知多模态不精确性数据融合算法研究

国家自然科学基金

5+阅读 · 2014年12月31日

复杂数据下带有形状约束的半参数模型统计推断

国家自然科学基金

3+阅读 · 2014年12月31日

测量误差数据下约束线性模型的有偏估计及变量选择研究

国家自然科学基金

0+阅读 · 2014年12月31日

多尺度NED/DEM生成的数字综合理论和关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

超光谱、全偏振、立体形貌的多模态成像研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于组合Hodge理论的图像视频质量评价方法

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员