Accurate radio-frequency (RF) material parameters are essential for electromagnetic digital twins in 6G systems, yet gradient-based inverse ray tracing (RT) remains sensitive to initialization and costly under limited measurements. This paper proposes a vision-language-model (VLM) guided framework that accelerates and stabilizes multi-material parameter estimation in a differentiable RT (DRT) engine. A VLM parses scene images to infer material categories and maps them to quantitative priors via an ITU-R material table, yielding informed conductivity initializations. The VLM further selects informative transmitter/receiver placements that promote diverse, material-discriminative paths. Starting from these priors, the DRT performs gradient-based refinement using measured received signal strengths. Experiments in NVIDIA Sionna on indoor scenes show 2-4$\times$ faster convergence and 10-100$\times$ lower final parameter error compared with uniform or random initialization and random placement baselines, achieving sub-0.1\% mean relative error with only a few receivers. Complexity analyses indicate per-iteration time scales near-linearly with the number of materials and measurement setups, while VLM-guided placement reduces the measurements required for accurate recovery. Ablations over RT depth and ray counts confirm further accuracy gains without significant per-iteration overhead. Results demonstrate that semantic priors from VLMs effectively guide physics-based optimization for fast and reliable RF material estimation.


翻译:精确的射频材料参数对于6G系统中的电磁数字孪生至关重要,然而基于梯度的逆光线追踪方法对初始值敏感且在有限测量条件下计算成本高昂。本文提出一种基于视觉-语言模型(VLM)的框架,能够在可微光线追踪引擎中加速并稳定多材料参数估计。VLM解析场景图像以推断材料类别,并通过国际电信联盟射频材料表将其映射为定量先验知识,从而生成具有信息量的电导率初始值。VLM进一步选择能产生多样化且具有材料辨别性路径的发射/接收位置。基于这些先验,可微光线追踪利用测量接收信号强度进行梯度优化的参数精调。在NVIDIA Sionna平台上的室内场景实验中,该方法相比均匀/随机初始化及随机放置基线,实现了2-4倍的收敛速度提升和10-100倍的最终参数误差降低,仅需少量接收器即可达到低于0.1%的平均相对误差。复杂度分析表明,每轮迭代时间与材料数量和测量配置数呈近线性关系,而VLM引导的放置策略减少了精确恢复所需的测量量。对光线追踪深度和射线数的消融实验证实,该方法能在不显著增加迭代开销的情况下进一步提升精度。结果表明,VLM提供的语义先验能有效指导基于物理的优化,实现快速可靠的射频材料估计。

0
下载
关闭预览

相关内容

视觉语言建模遇见遥感:模型、数据集与前景展望
专知会员服务
17+阅读 · 2025年5月21日
基于视觉-语言模型的3D物体检测综述
专知会员服务
15+阅读 · 2025年4月29日
高效视觉语言模型研究综述
专知会员服务
14+阅读 · 2025年4月18日
大规模视觉-语言模型的基准、评估、应用与挑战
专知会员服务
18+阅读 · 2025年2月10日
跨多种数据模态的视觉目标跟踪:综述
专知会员服务
30+阅读 · 2024年12月16日
视觉语言建模导论
专知会员服务
38+阅读 · 2024年5月30日
计算机视觉方向简介 | 多目标跟踪算法(附源码)
计算机视觉life
15+阅读 · 2019年6月26日
视频中的多目标跟踪【附PPT与视频资料】
人工智能前沿讲习班
30+阅读 · 2018年11月29日
视觉里程计:起源、优势、对比、应用
计算机视觉life
18+阅读 · 2017年7月17日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
4+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关VIP内容
视觉语言建模遇见遥感:模型、数据集与前景展望
专知会员服务
17+阅读 · 2025年5月21日
基于视觉-语言模型的3D物体检测综述
专知会员服务
15+阅读 · 2025年4月29日
高效视觉语言模型研究综述
专知会员服务
14+阅读 · 2025年4月18日
大规模视觉-语言模型的基准、评估、应用与挑战
专知会员服务
18+阅读 · 2025年2月10日
跨多种数据模态的视觉目标跟踪:综述
专知会员服务
30+阅读 · 2024年12月16日
视觉语言建模导论
专知会员服务
38+阅读 · 2024年5月30日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员