Geometric problem solving (GPS) requires precise multimodal understanding and rigorous, step-by-step logical reasoning. However, developing capable Multimodal Large Language Models (MLLMs) for GPS is heavily bottlenecked by the scarcity of high-quality, verifiable data. Existing data acquisition paradigms either suffer from modality incompleteness and unverified logical gaps ("leaps-of-faith"), or rely on formal engines that generate rigid, structurally homogeneous data, failing to produce high-difficulty problems or foster genuine natural-language reasoning. To overcome these limitations, we introduce TrustGeoGen, an autonomous and formalized geometric data generation engine. TrustGeoGen strictly guarantees reasoning trustworthiness through formal verification while generating multimodally integrated data, including premises, visual diagrams, and solutions. To systematically scale problem difficulty, we incorporates difficulty-aware filtering and iterative bootstrapping mechanism. Furthermore, we propose "connection thinking" to bridge the semantic gap between rigid formal logic and fluent human-like reasoning, ensuring coherent logical transitions. We also introduce the GeoExplore family of sampling algorithms to extract diverse problem-solving trajectories based on various thinking templates. Extensive experiments demonstrate that training models on our synthesized dataset, GeoTrust, substantially enhances deep geometric reasoning capabilities and yields significant performance gains across out-of-distribution (OOD) benchmarks, including GeoQA, Geometry3K, and OlympiadBench.Our code and data can be found at https://github.com/InternScience/TrustGeoGen


翻译:几何问题求解(GPS)需要精确的多模态理解与严谨、步进式的逻辑推理。然而,开发适用于GPS的多模态大语言模型(MLLM)严重受限于高质量、可验证数据的匮乏。现有数据获取范式要么存在模态不完整及未经验证的逻辑跳跃("信仰之跃"),要么依赖形式化引擎生成结构僵化、单一的数据,既难以产生高难度问题,也无法促进自然的语言推理。为解决上述局限,我们提出TrustGeoGen——一种自主化、形式化的几何数据生成引擎。该引擎在生成包含前提、视觉图示与解决方案的多模态整合数据的同时,通过形式化验证严格保障推理可信性。为系统化扩展问题难度,我们引入难度感知过滤与迭代自举机制。进一步,我们提出"连接思维"以弥合刚性形式逻辑与流畅类人推理之间的语义鸿沟,确保连贯的逻辑过渡。同时,我们提出GeoExplore系列采样算法,基于多种思维模板提取多样化的解题轨迹。大量实验表明,在我们合成的数据集GeoTrust上训练的模型,显著增强了深度几何推理能力,并在包括GeoQA、Geometry3K和OlympiadBench在内的跨分布(OOD)基准测试中取得显著性能提升。我们的代码与数据可通过https://github.com/InternScience/TrustGeoGen获取。

0
下载
关闭预览

相关内容

多模态幻觉的评估与检测综述
专知会员服务
18+阅读 · 2025年7月28日
《高效多模态大型语言模型》综述
专知会员服务
73+阅读 · 2024年5月20日
【工大SCIR笔记】多模态信息抽取简述
深度学习自然语言处理
19+阅读 · 2020年4月3日
专家报告|深度学习+图像多模态融合
中国图象图形学报
12+阅读 · 2019年10月23日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Arxiv
25+阅读 · 2023年6月23日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
1+阅读 · 今天15:00
21世纪的无人机战争
专知会员服务
2+阅读 · 今天14:05
《量子技术的军事任务技术适配与利用》
专知会员服务
2+阅读 · 今天13:51
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员