近期多模态大语言模型的发展展示了其在理解和生成文本-图像内容方面的卓越能力。然而,它们在专业领域——特别是那些需要资源高效和领域特定适应性的领域——的有效性仍然有限。本文引入了一个轻量级多模态语言模型,命名为SAMChat,专门用于分析偏远地区的遥感影像,包括具有挑战性的导弹发射场。通过专家审查核实数百幅航空影像,编译了一个新的数据集SAMData,并通过详细描述突出了微妙的军事设施。在一个20亿参数的开源多模态大语言模型上进行了带思维链推理标注的监督微调,从而实现更准确和可解释的说明。此外,利用了组相对策略优化来增强模型检测关键领域特定线索(如防御布局和关键军事结构)的能力,同时最大程度地减少对民用场景的误报。通过实证评估,结果表明SAMChat在开放式描述和分类指标上,显著优于更大的通用多模态模型和现有的遥感适应方法。在新提出的SAMData基准测试上,达到了超过80%的召回率和98%的精度,突显了在专业现实应用中有针对性的微调和强化学习的效力。代码、数据集和模型可在 github获取。
最近的人工智能进展通过大语言模型和多模态大语言模型,彻底变革了自然语言处理和计算机视觉。这些模型在文本生成和视觉处理方面表现出色。过去一年中,GPT-4V展示了卓越的图像理解和推理能力,而像Qwen2-VL和InternVL2这样的开源模型已经媲美甚至超越了专有替代方案。
然而,这些模型通常是通用型的,限制了它们在专业任务中的有效性。它们的高计算需求也阻碍了在资源受限环境中的部署。这推动了对更高效替代方案的关注——小语言模型和多模态小语言模型。这些紧凑模型通过领域适应实现了强大的性能,同时降低了计算开销,使其成为需要隐私、低延迟和能效的应用的理想选择。
一个关键问题随之产生:一个在目标数据上经过微调的小型多模态模型,能否超越在零样本设置下使用的更大模型?微调使领域适应成为可能,可能为专业模型带来优势。最近的NLP研究支持这一观点,表明有时经过微调的较小模型能够超越未经微调使用的更大模型。OpenAI报告称,经过微调的GPT-3.5 Turbo在专业任务上可以“匹配甚至超越”基础版GPT-4——这表明策略性的专业化有时可能比单纯的模型规模更有效。
对于复杂任务,思维链推理提高了准确性。为了减轻错误传播,强化学习和过程监督增强了自我纠正和可靠性。无论是闭源模型(如OpenAI的o系列)还是开源工作(如DeepSeek-R1,得到组相对策略优化的辅助)的进展都表明,即使较小的模型也能适应于专业的多模态推理。
图1. 提出的SAMChat,一个由思维链和GRPO驱动的遥感语言模型,在偏远地区描述任务,特别是在军事区域和导弹发射场方面,提供了显著的改进。
随着多模态大语言模型在视觉任务中表现出色,人们对其在遥感影像分析中的应用兴趣日益增长。一些遥感专用的多模态大语言模型处理包括视觉问答、检测和定位在内的任务。然而,它们主要在提示引导的任务上表现良好,但在开放式问题上存在困难。大多数模型也仅在容易描述的居住区数据上训练,限制了它们在偏远地区的有效性。为解决这些挑战,本研究评估了多模态大语言模型在偏远地区的性能,重点关注导弹发射场。一个开源多模态大语言模型为经过专家核实的航空影像添加描述,创建了SAMData-300基准。一个更小的多模态小语言模型被微调为SAMChat-Base,其描述被转换为思维链答案以改进推理。通过使用GRPO,最终模型SAMChat-R1能够为航空影像生成简洁的解释。
基于实验,领先的通用多模态大语言模型和遥感专用模型在应对偏远地区航空影像时遇到困难。然而,提出的SAMChat-R1在SAMData测试集上表现出鲁棒性,召回率超过80%,精度达到98%。通过采用DeepSeek-R1的方法,在推理数据上进行监督微调并使用GRPO,SAMChat-R1能有效解释任何航空影像,同时保持轻量级,适用于军事和居住环境中的边缘设备。其参数为20亿,是最紧凑的可部署于边缘的遥感专用语言模型。本文的贡献如下:
• 我们引入了SAMData,这是一个具有挑战性的数据集,包含对经过专家核实的偏远地区(特别是导弹发射场)卫星影像的描述。这些地点高度多样化,并且由于其复杂性,包含难以解读的区域。
• 我们提出了一种基于GRPO的关键词奖励函数,据我们所知,这是首个用于遥感专用多模态语言模型的基于强化学习的训练方法。
• 我们介绍了SAMChat模型系列,这是一组任务特定的20亿参数多模态小语言模型,旨在回答关于航空影像的开放性问题。
• 通过严格的实验,我们证明在开放式问题上——通过基于关键词的精度和召回率分数衡量——我们的模型优于现有的通用和遥感专用的多模态大语言模型,即使是那些参数量显著更大的模型。