Large language models (LLMs) and multimodal models have become powerful general-purpose reasoning systems. However, radio-frequency (RF) signals, which underpin wireless systems, are still not natively supported by these models. Existing LLM-based approaches for telecom focus mainly on text and structured data, while conventional RF deep-learning models are built separately for specific signal-processing tasks, highlighting a clear gap between RF perception and high-level reasoning. To bridge this gap, we introduce RF-GPT, a radio-frequency language model (RFLM) that utilizes the visual encoders of multimodal LLMs to process and understand RF spectrograms. In this framework, complex in-phase/quadrature (IQ) waveforms are mapped to time-frequency spectrograms and then passed to pretrained visual encoders. The resulting representations are injected as RF tokens into a decoder-only LLM, which generates RF-grounded answers, explanations, and structured outputs. To train RF-GPT, we perform supervised instruction fine-tuning of a pretrained multimodal LLM using a fully synthetic RF corpus. Standards-compliant waveform generators produce wideband scenes for six wireless technologies, from which we derive time-frequency spectrograms, exact configuration metadata, and dense captions. A text-only LLM then converts these captions into RF-grounded instruction-answer pairs, yielding roughly 12,000 RF scenes and 0.625 million instruction examples without any manual labeling. Across benchmarks for wideband modulation classification, overlap analysis, wireless-technology recognition, WLAN user counting, and 5G NR information extraction, RF-GPT achieves strong multi-task performance, whereas general-purpose VLMs with no RF grounding largely fail.


翻译:大型语言模型(LLM)与多模态模型已成为强大的通用推理系统。然而,作为无线系统基础的射频(RF)信号,目前仍未被这些模型原生支持。现有的基于LLM的电信应用主要聚焦于文本与结构化数据,而传统的射频深度学习模型则针对特定信号处理任务分别构建,这凸显了射频感知与高层推理之间的明显鸿沟。为弥合这一差距,我们提出了RF-GPT,一种利用多模态LLM的视觉编码器来处理和理解射频频谱图的射频语言模型(RFLM)。在此框架中,复杂的同相/正交(IQ)波形被映射至时频谱图,随后输入预训练的视觉编码器。生成的表征作为射频标记注入仅解码器架构的LLM中,由该模型生成基于射频的答案、解释与结构化输出。为训练RF-GPT,我们使用完全合成的射频语料库对预训练的多模态LLM进行监督式指令微调。符合标准的波形发生器为六种无线技术生成宽带场景,并从中导出时频谱图、精确的配置元数据及密集描述。随后,一个纯文本LLM将这些描述转化为基于射频的指令-答案对,无需任何人工标注即可产生约12,000个射频场景及62.5万个指令样本。在宽带调制分类、重叠信号分析、无线技术识别、WLAN用户计数及5G NR信息提取等基准测试中,RF-GPT展现出强大的多任务性能,而缺乏射频基础知识的通用视觉语言模型则基本无法胜任。

0
下载
关闭预览

相关内容

北大新技术:利用WiFi设备进行人体行为识别!
全球人工智能
12+阅读 · 2018年2月7日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员