Multimodal learning has revolutionized general domain tasks, yet its application in scientific discovery is hindered by the profound semantic gap between complex scientific imagery and sparse textual descriptions. We present S1-MMAlign, a large-scale, multi-disciplinary multimodal dataset comprising over 15.5 million high-quality image-text pairs derived from 2.5 million open-access scientific papers. Spanning disciplines from physics and biology to engineering, the dataset captures diverse visual modalities including experimental setups, heatmaps, and microscopic imagery. To address the pervasive issue of weak alignment in raw scientific captions, we introduce an AI-ready semantic enhancement pipeline that utilizes the Qwen-VL multimodal large model series to recaption images by synthesizing context from paper abstracts and citation contexts. Technical validation demonstrates that this enhancement significantly improves data quality: SciBERT-based pseudo-perplexity metrics show reduced semantic ambiguity, while CLIP scores indicate an 18.21% improvement in image-text alignment. S1-MMAlign provides a foundational resource for advancing scientific reasoning and cross-modal understanding in the era of AI for Science. The dataset is publicly available at https://huggingface.co/datasets/ScienceOne-AI/S1-MMAlign.


翻译:多模态学习已经革新了通用领域的任务,但其在科学发现中的应用却因复杂科学图像与稀疏文本描述之间深刻的语义鸿沟而受阻。我们提出了S1-MMAlign,这是一个大规模、多学科的多模态数据集,包含从250万篇开放获取科学论文中提取的超过1550万个高质量图文对。该数据集涵盖从物理学、生物学到工程学等多个学科,捕捉了包括实验装置图、热力图和显微图像在内的多种视觉模态。针对原始科学图注中普遍存在的弱对齐问题,我们引入了一个AI就绪的语义增强流程,该流程利用Qwen-VL多模态大模型系列,通过综合论文摘要和引用上下文来为图像重新生成图注。技术验证表明,这种增强显著提高了数据质量:基于SciBERT的伪困惑度指标显示语义模糊性降低,而CLIP分数则表明图文对齐度提升了18.21%。S1-MMAlign为在“AI for Science”时代推进科学推理和跨模态理解提供了基础资源。该数据集已在 https://huggingface.co/datasets/ScienceOne-AI/S1-MMAlign 公开提供。

0
下载
关闭预览

相关内容

【NeurIPS2022】SparCL:边缘稀疏持续学习
专知会员服务
24+阅读 · 2022年9月22日
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员