天气报告是公众日常生活和农业决策的重要依据,然而,传统生成流程高度依赖气象专家手动分析海量数值预报数据。这种“人工多源数据融合”模式不仅效率低下,还容易引入主观偏差,导致报告不一致。香港科技大学(广州)、香港中文大学、腾讯与国家超级计算深圳中心的研究团队联合提出了一项新任务——天气报告生成(Weather Forecasting Report, WFR),并构建了首个指令微调数据集 WSInstruct,覆盖美国 31 个城市、8 大天气方面。
该工作的核心创新在于:将再分析气象数据转化为可视化热力图,与专业气象报告配对,通过三阶段训练策略微调多模态大语言模型(MLLM),开发出首个专用模型 WeatherSyn。实验表明,WeatherSyn 在多个自动评估指标上一致超越 GPT-4V 等领先闭源 MLLM,尤其在结构复杂的天气方面(如锋面系统、风场)表现突出,并在不同地理区域展现出强大的零样本泛化能力。这篇论文于 ICML 2026 发表,代码已开源,是气象 AI 与多模态大模型交叉领域的重要进展,值得关注。
准确的天气报告有助于个人和社区更好地规划日常活动及农业作业。然而,当前报告流程主要依赖人工分析多源数据,导致信息过载和效率低下。随着多模态大语言模型(MLLM)的发展,利用数据驱动模型在天气领域进行分析和报告生成仍鲜有探索。本文提出了天气报告生成(WFR)任务,并构建了首个指令微调数据集 WSInstruct,覆盖美国 31 个城市、8 个天气方面。基于该语料库,我们开发了首个专用模型 WeatherSyn。在数据集上的多指标评估显示,WeatherSyn 持续优于领先的闭源 MLLM,尤其在结构复杂的天气方面表现更为突出。我们进一步分析了模型在不同地理区域和天气方面的表现。WeatherSyn 展现出强大的跨区域迁移能力,突显了其零样本泛化性能。这项工作为开发天气报告生成专用 MLLM 提供了宝贵的见解。
传统天气报告生成流程依赖气象专家手动分析多源数据,包括数值天气预报(NWP)模型输出的数百个变量、卫星云图、雷达观测等。这一流程面临严峻挑战:信息过载导致分析效率低下,主观判断的引入造成报告不一致。尽管近期 MLLM 已被应用于天气描述任务(如 WeatherQA 聚焦极端事件、OmniEarth-Bench 关注大气状态描述、Omni-Weather 聚焦雷达降水短临预报),但这些工作并未解决通用天气报告生成问题。其根本原因在于两大瓶颈:一是公开可用的配对视觉数据与文本报告数据集极度稀缺;二是现有 MLLM 对复杂多变量气象输入的领域推理能力有限。
为填补这一空白,本文首次提出天气报告生成(WFR)任务:直接从给定时间 t 和位置 p 的初始大气状态生成人类可读的天气报告。通过消除对中间数值预报的依赖,该方法简化了预报流程,有助于向公众提供更及时、易访问的信息。论文构建了首个 WFR 指令微调数据集 WSInstruct,并开发了首个专用模型 WeatherSyn,旨在验证 MLLM 在通用天气报告生成中的可行性。
WSInstruct 是首个为天气报告生成任务构建的指令微调数据集。其核心思想是将 ERA5 再分析数据转换为城市级变量热力图,并配以气象专家撰写的专业报告。
论文选取了 ERA5 再分析资料中 12 个关键天气变量,这些变量覆盖了大气温度、湿度、风场、气压、云量等核心要素。每个变量以城市为中心,生成空间热力图表示其在区域内的分布。数据集覆盖美国 31 个城市,分布在不同气候区,以保证地理多样性。
通过分析专业气象报告的语言特征,论文将报告内容归纳为 8 个天气方面(Weather Aspect),包括:锋面系统(Frontal System)、压力系统(Pressure System)、风场(Wind Flow System)、波动模式(Wave Pattern)、温度(Temperature)、湿度(Humidity)、降水(Precipitation)和天气事件(Event)。每个方面进一步细化为共 18 个 claim 类别,用于精确标注报告中的陈述类型。这一分类体系为模型学习结构化推理提供了清晰的指导。
将同一城市、同一时间的初始场热力图和对应的专家报告组成 (图像, 文本) 对,并按照指令微调格式组织成“问题-答案”对。问题通常为“请根据图像为 [城市] 生成今日天气报告”,答案为原始报告文本。 Figure 2. Construction of the WSInstruct weather forecast report dataset and the three-stage training strategy 来源:原论文 PDF 第 3 页。
论文采用三阶段训练策略来微调 MLLM(如图 2 所示)。具体阶段如下:
利用大规模通用图像-文本对(如遥感图像与描述),训练模型将气象热力图特征映射到语言模型输入空间,使基础模型具备初步的多模态理解能力。
在 WSInstruct 数据集上进行指令微调,让模型学习生成符合气象领域规范、涵盖多个天气方面、结构完整的报告。训练过程中,模型仅以初始时刻的状态图像作为输入。
原文未明确说明该阶段的具体细节,但整体策略旨在进一步提升模型在复杂结构(如锋面系统、波动模式)上的生成质量。 需要说明的是,论文未公开模型基础架构的具体细节(如基座 MLLM 的选择、参数量、训练超参数等),也未明确说明是否使用 LoRA 等参数高效微调方法。
Figure 1. The pipeline of the weather forecast reporting process and the challenges in open-ended weather forecast report generation 来源:原论文 PDF 第 2 页。
Figure 3. Weighted F1 scores of generated weather reports across different forecast days (Day 1–Day 4) for three weather aspects. 来源:原论文 PDF 第 8 页。
Figure 4. Performances with increasing number of reports for each question 来源:原论文 PDF 第 8 页。
原文未明确说明数据集的具体划分比例、训练超参数、以及用于对比的基线模型的版本细节。仅提及在 WSInstruct 数据集上进行评估,并与闭源 MLLM(如 GPT-4V)进行对比。
论文采用多种自动评估指标,包括:
WeatherSyn 在多个评估指标上一致优于包括 GPT-4V 在内的领先闭源 MLLM。尤其值得关注的是,在结构复杂的天气方面(如锋面系统、风场、波动模式),WeatherSyn 的优势更加显著,表明模型学会了捕捉空间关系和多变量相互作用。
论文进行了细致的结果分析:
论文未进行其他类型的消融实验(如去除某训练阶段、改变输入模态等),因此无法分析各组件对最终性能的独立贡献。
原文明确列举了两点不足:
WeatherSyn 的工作表明,精心构建的领域专用指令微调数据集与适配的训练策略,能够大幅提升 MLLM 在特定专业任务上的表现。这为气象、遥感等垂直领域的智能辅助报告系统开发提供了可复制的范式。未来工作可扩展至全球覆盖、引入时序预报输入,以及融合多源数据(如雷达、卫星图像)以增强推理能力。