天气报告是公众日常生活和农业决策的重要依据,然而,传统生成流程高度依赖气象专家手动分析海量数值预报数据。这种“人工多源数据融合”模式不仅效率低下,还容易引入主观偏差,导致报告不一致。香港科技大学(广州)、香港中文大学、腾讯与国家超级计算深圳中心的研究团队联合提出了一项新任务——天气报告生成(Weather Forecasting Report, WFR),并构建了首个指令微调数据集 WSInstruct,覆盖美国 31 个城市、8 大天气方面。

该工作的核心创新在于:将再分析气象数据转化为可视化热力图,与专业气象报告配对,通过三阶段训练策略微调多模态大语言模型(MLLM),开发出首个专用模型 WeatherSyn。实验表明,WeatherSyn 在多个自动评估指标上一致超越 GPT-4V 等领先闭源 MLLM,尤其在结构复杂的天气方面(如锋面系统、风场)表现突出,并在不同地理区域展现出强大的零样本泛化能力。这篇论文于 ICML 2026 发表,代码已开源,是气象 AI 与多模态大模型交叉领域的重要进展,值得关注。

论文基本信息

摘要

准确的天气报告有助于个人和社区更好地规划日常活动及农业作业。然而,当前报告流程主要依赖人工分析多源数据,导致信息过载和效率低下。随着多模态大语言模型(MLLM)的发展,利用数据驱动模型在天气领域进行分析和报告生成仍鲜有探索。本文提出了天气报告生成(WFR)任务,并构建了首个指令微调数据集 WSInstruct,覆盖美国 31 个城市、8 个天气方面。基于该语料库,我们开发了首个专用模型 WeatherSyn。在数据集上的多指标评估显示,WeatherSyn 持续优于领先的闭源 MLLM,尤其在结构复杂的天气方面表现更为突出。我们进一步分析了模型在不同地理区域和天气方面的表现。WeatherSyn 展现出强大的跨区域迁移能力,突显了其零样本泛化性能。这项工作为开发天气报告生成专用 MLLM 提供了宝贵的见解。

引言:论文要解决什么问题

传统天气报告生成流程依赖气象专家手动分析多源数据,包括数值天气预报(NWP)模型输出的数百个变量、卫星云图、雷达观测等。这一流程面临严峻挑战:信息过载导致分析效率低下,主观判断的引入造成报告不一致。尽管近期 MLLM 已被应用于天气描述任务(如 WeatherQA 聚焦极端事件、OmniEarth-Bench 关注大气状态描述、Omni-Weather 聚焦雷达降水短临预报),但这些工作并未解决通用天气报告生成问题。其根本原因在于两大瓶颈:一是公开可用的配对视觉数据与文本报告数据集极度稀缺;二是现有 MLLM 对复杂多变量气象输入的领域推理能力有限。

为填补这一空白,本文首次提出天气报告生成(WFR)任务:直接从给定时间 t 和位置 p 的初始大气状态生成人类可读的天气报告。通过消除对中间数值预报的依赖,该方法简化了预报流程,有助于向公众提供更及时、易访问的信息。论文构建了首个 WFR 指令微调数据集 WSInstruct,并开发了首个专用模型 WeatherSyn,旨在验证 MLLM 在通用天气报告生成中的可行性。

方法:核心思路与技术路线

数据集构建:WSInstruct

WSInstruct 是首个为天气报告生成任务构建的指令微调数据集。其核心思想是将 ERA5 再分析数据转换为城市级变量热力图,并配以气象专家撰写的专业报告。

# 12 个天气变量与 31 个美国城市

论文选取了 ERA5 再分析资料中 12 个关键天气变量,这些变量覆盖了大气温度、湿度、风场、气压、云量等核心要素。每个变量以城市为中心,生成空间热力图表示其在区域内的分布。数据集覆盖美国 31 个城市,分布在不同气候区,以保证地理多样性。

# 8 个天气方面与 18 个 claim 类别

通过分析专业气象报告的语言特征,论文将报告内容归纳为 8 个天气方面(Weather Aspect),包括:锋面系统(Frontal System)、压力系统(Pressure System)、风场(Wind Flow System)、波动模式(Wave Pattern)、温度(Temperature)、湿度(Humidity)、降水(Precipitation)和天气事件(Event)。每个方面进一步细化为共 18 个 claim 类别,用于精确标注报告中的陈述类型。这一分类体系为模型学习结构化推理提供了清晰的指导。

# 数据配对

将同一城市、同一时间的初始场热力图和对应的专家报告组成 (图像, 文本) 对,并按照指令微调格式组织成“问题-答案”对。问题通常为“请根据图像为 [城市] 生成今日天气报告”,答案为原始报告文本。 Figure 2. Construction of the WSInstruct weather forecast report dataset and the three-stage training strategy 来源:原论文 PDF 第 3 页。

三阶段训练策略

论文采用三阶段训练策略来微调 MLLM(如图 2 所示)。具体阶段如下:

  • 阶段一:视觉-语言对齐预训练

利用大规模通用图像-文本对(如遥感图像与描述),训练模型将气象热力图特征映射到语言模型输入空间,使基础模型具备初步的多模态理解能力。

  • 阶段二:领域指令微调

在 WSInstruct 数据集上进行指令微调,让模型学习生成符合气象领域规范、涵盖多个天气方面、结构完整的报告。训练过程中,模型仅以初始时刻的状态图像作为输入。

  • 阶段三:适应性调优(可选)

原文未明确说明该阶段的具体细节,但整体策略旨在进一步提升模型在复杂结构(如锋面系统、波动模式)上的生成质量。 需要说明的是,论文未公开模型基础架构的具体细节(如基座 MLLM 的选择、参数量、训练超参数等),也未明确说明是否使用 LoRA 等参数高效微调方法。

配图:方法结构

Figure 1. The pipeline of the weather forecast reporting process and the challenges in open-ended weather forecast report generation 来源:原论文 PDF 第 2 页。 Figure 3. Weighted F1 scores of generated weather reports across different forecast days (Day 1–Day 4) for three weather aspects. 来源:原论文 PDF 第 8 页。 Figure 4. Performances with increasing number of reports for each question 来源:原论文 PDF 第 8 页。

实验:设置、指标与结果

实验设置

原文未明确说明数据集的具体划分比例、训练超参数、以及用于对比的基线模型的版本细节。仅提及在 WSInstruct 数据集上进行评估,并与闭源 MLLM(如 GPT-4V)进行对比。

评估指标

论文采用多种自动评估指标,包括:

  • 加权 F1 分数(Weighted F1) 针对每个天气方面,评估模型生成报告中 claim 类别的准确性,考虑类别不平衡。
  • 其他指标 原文未明确说明是否使用了 BLEU、ROUGE 等传统文本生成指标,但主要结论基于加权 F1 分数。

主要结果

WeatherSyn 在多个评估指标上一致优于包括 GPT-4V 在内的领先闭源 MLLM。尤其值得关注的是,在结构复杂的天气方面(如锋面系统、风场、波动模式),WeatherSyn 的优势更加显著,表明模型学会了捕捉空间关系和多变量相互作用。

分析与消融

论文进行了细致的结果分析:

  • 不同天气方面的加权 F1 WeatherSyn 在 8 个天气方面上均表现良好,但在高频方面(如温度、湿度)和低频方面(如锋面系统、事件)之间存在性能差异。模型在低频但结构复杂的方面上提升最大。
  • 不同地理区域的迁移能力 将模型在部分城市训练后,直接推理其他未见过的城市,WeatherSyn 仍能保持较高性能,显示出零样本泛化能力。
  • 预报天数(Day 1–Day 4) 如图 3 所示,随着预报天数的增加,所有模型性能均下降,但 WeatherSyn 的下降幅度小于闭源 MLLM,在长期预报中更具竞争力。
  • 每个问题报告数量 如图 4 所示,训练时每个问题配对多条报告有助于提升模型性能,但边际收益随报告数量增加而递减。

论文未进行其他类型的消融实验(如去除某训练阶段、改变输入模态等),因此无法分析各组件对最终性能的独立贡献。

结论:贡献、局限与启发

主要贡献

  • 首次提出天气报告生成(WFR)任务,将多模态大语言模型引入通用天气报告生成方向。
  • 构建并公开了首个 WFR 指令微调数据集 WSInstruct,覆盖美国 31 个城市、8 个天气方面、18 个 claim 类别。
  • 开发了首个专用 MLLM——WeatherSyn,采用三阶段训练策略。
  • 在多项指标上一致超越 GPT-4V 等闭源模型,尤其是在结构复杂的天气方面。
  • 展示了强大的零样本跨区域泛化能力,为实际部署提供了可行性证据。

局限性

原文明确列举了两点不足:

  • 数据仅限于美国城市,模型在其他国家或地区的通用性尚未验证。
  • 当前方法仅使用初始天气状态作为输入,未引入多步预报图像来提供更丰富的上下文信息。

启发

WeatherSyn 的工作表明,精心构建的领域专用指令微调数据集与适配的训练策略,能够大幅提升 MLLM 在特定专业任务上的表现。这为气象、遥感等垂直领域的智能辅助报告系统开发提供了可复制的范式。未来工作可扩展至全球覆盖、引入时序预报输入,以及融合多源数据(如雷达、卫星图像)以增强推理能力。

成为VIP会员查看完整内容
0

相关内容

VIP会员
最新内容
智能体技能综合综述:分类、技术与应用
专知会员服务
0+阅读 · 今天15:00
《美战争部人工智能计划》27页slides
专知会员服务
14+阅读 · 今天3:33
下一代高超音速能力
专知会员服务
5+阅读 · 今天3:10
【ICML2026】大型视觉语言模型在注意力中迷失
专知会员服务
9+阅读 · 5月10日
美海军EA-18G“咆哮者”与电子攻击的崛起
专知会员服务
9+阅读 · 5月10日
微信扫码咨询专知VIP会员