【ICML2026】WeatherSyn：面向天气报告生成的指令微调多模态大语言模型

天气报告是公众日常生活和农业决策的重要依据，然而，传统生成流程高度依赖气象专家手动分析海量数值预报数据。这种“人工多源数据融合”模式不仅效率低下，还容易引入主观偏差，导致报告不一致。香港科技大学（广州）、香港中文大学、腾讯与国家超级计算深圳中心的研究团队联合提出了一项新任务——天气报告生成（Weather Forecasting Report, WFR），并构建了首个指令微调数据集 WSInstruct，覆盖美国 31 个城市、8 大天气方面。

该工作的核心创新在于：将再分析气象数据转化为可视化热力图，与专业气象报告配对，通过三阶段训练策略微调多模态大语言模型（MLLM），开发出首个专用模型 WeatherSyn。实验表明，WeatherSyn 在多个自动评估指标上一致超越 GPT-4V 等领先闭源 MLLM，尤其在结构复杂的天气方面（如锋面系统、风场）表现突出，并在不同地理区域展现出强大的零样本泛化能力。这篇论文于 ICML 2026 发表，代码已开源，是气象 AI 与多模态大模型交叉领域的重要进展，值得关注。

论文基本信息

摘要

准确的天气报告有助于个人和社区更好地规划日常活动及农业作业。然而，当前报告流程主要依赖人工分析多源数据，导致信息过载和效率低下。随着多模态大语言模型（MLLM）的发展，利用数据驱动模型在天气领域进行分析和报告生成仍鲜有探索。本文提出了天气报告生成（WFR）任务，并构建了首个指令微调数据集 WSInstruct，覆盖美国 31 个城市、8 个天气方面。基于该语料库，我们开发了首个专用模型 WeatherSyn。在数据集上的多指标评估显示，WeatherSyn 持续优于领先的闭源 MLLM，尤其在结构复杂的天气方面表现更为突出。我们进一步分析了模型在不同地理区域和天气方面的表现。WeatherSyn 展现出强大的跨区域迁移能力，突显了其零样本泛化性能。这项工作为开发天气报告生成专用 MLLM 提供了宝贵的见解。

引言：论文要解决什么问题

传统天气报告生成流程依赖气象专家手动分析多源数据，包括数值天气预报（NWP）模型输出的数百个变量、卫星云图、雷达观测等。这一流程面临严峻挑战：信息过载导致分析效率低下，主观判断的引入造成报告不一致。尽管近期 MLLM 已被应用于天气描述任务（如 WeatherQA 聚焦极端事件、OmniEarth-Bench 关注大气状态描述、Omni-Weather 聚焦雷达降水短临预报），但这些工作并未解决通用天气报告生成问题。其根本原因在于两大瓶颈：一是公开可用的配对视觉数据与文本报告数据集极度稀缺；二是现有 MLLM 对复杂多变量气象输入的领域推理能力有限。

为填补这一空白，本文首次提出天气报告生成（WFR）任务：直接从给定时间 t 和位置 p 的初始大气状态生成人类可读的天气报告。通过消除对中间数值预报的依赖，该方法简化了预报流程，有助于向公众提供更及时、易访问的信息。论文构建了首个 WFR 指令微调数据集 WSInstruct，并开发了首个专用模型 WeatherSyn，旨在验证 MLLM 在通用天气报告生成中的可行性。

方法：核心思路与技术路线

数据集构建：WSInstruct

WSInstruct 是首个为天气报告生成任务构建的指令微调数据集。其核心思想是将 ERA5 再分析数据转换为城市级变量热力图，并配以气象专家撰写的专业报告。

# 12 个天气变量与 31 个美国城市

论文选取了 ERA5 再分析资料中 12 个关键天气变量，这些变量覆盖了大气温度、湿度、风场、气压、云量等核心要素。每个变量以城市为中心，生成空间热力图表示其在区域内的分布。数据集覆盖美国 31 个城市，分布在不同气候区，以保证地理多样性。

# 8 个天气方面与 18 个 claim 类别

通过分析专业气象报告的语言特征，论文将报告内容归纳为 8 个天气方面（Weather Aspect），包括：锋面系统（Frontal System）、压力系统（Pressure System）、风场（Wind Flow System）、波动模式（Wave Pattern）、温度（Temperature）、湿度（Humidity）、降水（Precipitation）和天气事件（Event）。每个方面进一步细化为共 18 个 claim 类别，用于精确标注报告中的陈述类型。这一分类体系为模型学习结构化推理提供了清晰的指导。

# 数据配对

将同一城市、同一时间的初始场热力图和对应的专家报告组成 (图像, 文本) 对，并按照指令微调格式组织成“问题-答案”对。问题通常为“请根据图像为 [城市] 生成今日天气报告”，答案为原始报告文本。 Figure 2. Construction of the WSInstruct weather forecast report dataset and the three-stage training strategy 来源：原论文 PDF 第 3 页。

三阶段训练策略

论文采用三阶段训练策略来微调 MLLM（如图 2 所示）。具体阶段如下：

阶段一：视觉-语言对齐预训练

利用大规模通用图像-文本对（如遥感图像与描述），训练模型将气象热力图特征映射到语言模型输入空间，使基础模型具备初步的多模态理解能力。

阶段二：领域指令微调

在 WSInstruct 数据集上进行指令微调，让模型学习生成符合气象领域规范、涵盖多个天气方面、结构完整的报告。训练过程中，模型仅以初始时刻的状态图像作为输入。

阶段三：适应性调优（可选）

原文未明确说明该阶段的具体细节，但整体策略旨在进一步提升模型在复杂结构（如锋面系统、波动模式）上的生成质量。需要说明的是，论文未公开模型基础架构的具体细节（如基座 MLLM 的选择、参数量、训练超参数等），也未明确说明是否使用 LoRA 等参数高效微调方法。

配图：方法结构

Figure 1. The pipeline of the weather forecast reporting process and the challenges in open-ended weather forecast report generation 来源：原论文 PDF 第 2 页。 Figure 3. Weighted F1 scores of generated weather reports across different forecast days (Day 1–Day 4) for three weather aspects. 来源：原论文 PDF 第 8 页。 Figure 4. Performances with increasing number of reports for each question 来源：原论文 PDF 第 8 页。

实验：设置、指标与结果

实验设置

原文未明确说明数据集的具体划分比例、训练超参数、以及用于对比的基线模型的版本细节。仅提及在 WSInstruct 数据集上进行评估，并与闭源 MLLM（如 GPT-4V）进行对比。

评估指标

论文采用多种自动评估指标，包括：

加权 F1 分数（Weighted F1） 针对每个天气方面，评估模型生成报告中 claim 类别的准确性，考虑类别不平衡。
其他指标 原文未明确说明是否使用了 BLEU、ROUGE 等传统文本生成指标，但主要结论基于加权 F1 分数。

主要结果

WeatherSyn 在多个评估指标上一致优于包括 GPT-4V 在内的领先闭源 MLLM。尤其值得关注的是，在结构复杂的天气方面（如锋面系统、风场、波动模式），WeatherSyn 的优势更加显著，表明模型学会了捕捉空间关系和多变量相互作用。

分析与消融

论文进行了细致的结果分析：

不同天气方面的加权 F1 WeatherSyn 在 8 个天气方面上均表现良好，但在高频方面（如温度、湿度）和低频方面（如锋面系统、事件）之间存在性能差异。模型在低频但结构复杂的方面上提升最大。
不同地理区域的迁移能力 将模型在部分城市训练后，直接推理其他未见过的城市，WeatherSyn 仍能保持较高性能，显示出零样本泛化能力。
预报天数（Day 1–Day 4） 如图 3 所示，随着预报天数的增加，所有模型性能均下降，但 WeatherSyn 的下降幅度小于闭源 MLLM，在长期预报中更具竞争力。
每个问题报告数量 如图 4 所示，训练时每个问题配对多条报告有助于提升模型性能，但边际收益随报告数量增加而递减。

论文未进行其他类型的消融实验（如去除某训练阶段、改变输入模态等），因此无法分析各组件对最终性能的独立贡献。

结论：贡献、局限与启发

主要贡献

首次提出天气报告生成（WFR）任务，将多模态大语言模型引入通用天气报告生成方向。
构建并公开了首个 WFR 指令微调数据集 WSInstruct，覆盖美国 31 个城市、8 个天气方面、18 个 claim 类别。
开发了首个专用 MLLM——WeatherSyn，采用三阶段训练策略。
在多项指标上一致超越 GPT-4V 等闭源模型，尤其是在结构复杂的天气方面。
展示了强大的零样本跨区域泛化能力，为实际部署提供了可行性证据。

局限性

原文明确列举了两点不足：

数据仅限于美国城市，模型在其他国家或地区的通用性尚未验证。
当前方法仅使用初始天气状态作为输入，未引入多步预报图像来提供更丰富的上下文信息。

启发

WeatherSyn 的工作表明，精心构建的领域专用指令微调数据集与适配的训练策略，能够大幅提升 MLLM 在特定专业任务上的表现。这为气象、遥感等垂直领域的智能辅助报告系统开发提供了可复制的范式。未来工作可扩展至全球覆盖、引入时序预报输入，以及融合多源数据（如雷达、卫星图像）以增强推理能力。

成为VIP会员查看完整内容