Vision Language Models for Optimization-Driven Intent Processing in Autonomous Networks - 专知论文

会员服务 ·

0

代码 · GPT-5 · 语言模型 · 图处理 · 操作 ·

Vision Language Models for Optimization-Driven Intent Processing in Autonomous Networks

翻译：基于意图的网络中视觉语言模型用于优化驱动意图处理的研究

Tasnim Ahmed,Yifan Zhu,Salimur Choudhury

from arxiv, Accepted for presentation at The IEEE International Conference on Communications (ICC) 2026

Intent-Based Networking (IBN) allows operators to specify high-level network goals rather than low-level configurations. While recent work demonstrates that large language models can automate configuration tasks, a distinct class of intents requires generating optimization code to compute provably optimal solutions for traffic engineering, routing, and resource allocation. Current systems assume text-based intent expression, requiring operators to enumerate topologies and parameters in prose. Network practitioners naturally reason about structure through diagrams, yet whether Vision-Language Models (VLMs) can process annotated network sketches into correct optimization code remains unexplored. We present IntentOpt, a benchmark of 85 optimization problems across 17 categories, evaluating four VLMs (GPT-5-Mini, Claude-Haiku-4.5, Gemini-2.5-Flash, Llama-3.2-11B-Vision) under three prompting strategies on multimodal versus text-only inputs. Our evaluation shows that visual parameter extraction reduces execution success by 12-21 percentage points (pp), with GPT-5-Mini dropping from 93% to 72%. Program-of-thought prompting decreases performance by up to 13 pp, and open-source models lag behind closed-source ones, with Llama-3.2-11B-Vision reaching 18% compared to 75% for GPT-5-Mini. These results establish baseline capabilities and limitations of current VLMs for optimization code generation within an IBN system. We also demonstrate practical feasibility through a case study that deploys VLM-generated code to network testbed infrastructure using Model Context Protocol.

翻译：意图驱动网络允许操作员指定高层次网络目标，而非低层配置。尽管近期研究表明大型语言模型可自动化配置任务，但存在一类特殊意图需要生成优化代码，以便为流量工程、路由和资源分配问题计算可证明的最优解。现有系统通常假设意图以文本形式表达，要求操作员用文字描述拓扑和参数。网络从业者惯于通过图表理解结构，然而视觉语言模型能否将带标注的网络示意图转化为正确的优化代码仍是未知领域。本文提出IntentOpt基准测试集，涵盖17个类别的85个优化问题，在三种提示策略下评估四种VLM模型（GPT-5-Mini、Claude-Haiku-4.5、Gemini-2.5-Flash、Llama-3.2-11B-Vision）处理多模态与纯文本输入的表现。评估表明：视觉参数提取使执行成功率降低12-21个百分点，其中GPT-5-Mini从93%降至72%；思维链编程提示导致性能下降达13个百分点；开源模型表现滞后于闭源模型，Llama-3.2-11B-Vision仅达18%，而GPT-5-Mini为75%。这些结果为当前VLM在IBN系统中生成优化代码的能力与局限建立了基准。我们通过案例研究进一步验证了实际可行性：利用模型上下文协议将VLM生成的代码部署至网络测试平台基础设施。

0

相关内容

代码（Code）是专知网的一个重要知识资料文档板块，旨在整理收录论文源代码、复现代码，经典工程代码等，便于用户查阅下载使用。

《基于大型语言模型的软件工程自动化研究》最新264页

《基于大型语言模型的软件工程自动化研究》最新264页

专知会员服务

39+阅读 · 2025年7月14日

高效视觉语言模型研究综述

高效视觉语言模型研究综述

专知会员服务

14+阅读 · 2025年4月18日

【博士论文】学习视觉-语言表示以实现多模态理解

【博士论文】学习视觉-语言表示以实现多模态理解

专知会员服务

28+阅读 · 2025年2月8日

大语言模型在规划与调度问题上的应用

大语言模型在规划与调度问题上的应用

专知会员服务

53+阅读 · 2025年1月12日

博士论文 |《用于提高可解释性和效率的图神经网络》中佛罗里达大学

博士论文 |《用于提高可解释性和效率的图神经网络》中佛罗里达大学

专知会员服务

40+阅读 · 2023年2月19日

图神经网络在自然语言处理中的应用(中文版）,23页pdf

专知会员服务

92+阅读 · 2021年4月18日

【图机器学习论文】图神经网络的逻辑表达性（Logical Expressiveness of Graph Neural Networks）

【图机器学习论文】图神经网络的逻辑表达性（Logical Expressiveness of Graph Neural Networks）

专知会员服务

41+阅读 · 2019年12月30日

【WSDM 2020 论文】基于自关注网络的动态图表示学习（Dynamic graph representation learning via self-attention networks），Visa Research的研究员武延宏等

【WSDM 2020 论文】基于自关注网络的动态图表示学习（Dynamic graph representation learning via self-attention networks），Visa Research的研究员武延宏等

专知会员服务

98+阅读 · 2019年11月20日

【CCL 2019】表示学习--自然语言处理中的图神经网络（Graph Neural Networks in NLP），西湖大学长聘副教授张岳

【CCL 2019】表示学习--自然语言处理中的图神经网络（Graph Neural Networks in NLP），西湖大学长聘副教授张岳

专知会员服务

64+阅读 · 2019年11月12日

图神经网络在自然语言处理领域的前沿应用，北京邮电大学杨成博士，第八届全国社会媒体处理大会SMP2019

图神经网络在自然语言处理领域的前沿应用，北京邮电大学杨成博士，第八届全国社会媒体处理大会SMP2019

专知会员服务

87+阅读 · 2019年10月21日

【论文笔记】通过自注意力网络的动态图表示学习

【论文笔记】通过自注意力网络的动态图表示学习

专知

90+阅读 · 2019年12月2日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

【报告分享】图神经网络在自然语言处理领域的前沿应用

【报告分享】图神经网络在自然语言处理领域的前沿应用

专知

47+阅读 · 2019年10月22日

图神经网络最近十篇论文，来自KDD、IJCAI、ICML等，附PDF下载

图神经网络最近十篇论文，来自KDD、IJCAI、ICML等，附PDF下载

专知

50+阅读 · 2019年6月7日

图神经网络开发必备组件，NetworkX、稀疏矩阵、稀疏Tensor等

图神经网络开发必备组件，NetworkX、稀疏矩阵、稀疏Tensor等

专知

48+阅读 · 2019年5月10日

关系图注意力网络-Relational Graph Attention Networks

关系图注意力网络-Relational Graph Attention Networks

专知

142+阅读 · 2019年4月22日

自注意力机制在计算机视觉中的应用

自注意力机制在计算机视觉中的应用

GAN生成式对抗网络

19+阅读 · 2018年12月20日

图神经网络最近这么火，不妨看看我们精选的这七篇

图神经网络最近这么火，不妨看看我们精选的这七篇

人工智能前沿讲习班

37+阅读 · 2018年12月10日

自然语言处理中的自注意力机制（Self-Attention Mechanism）

自然语言处理中的自注意力机制（Self-Attention Mechanism）

PaperWeekly

22+阅读 · 2018年3月28日

基于注意力机制的图卷积网络

基于注意力机制的图卷积网络

科技创新与创业

74+阅读 · 2017年11月8日

软件定义网络（SDN）环境下基于机器学习的路由预规划研究

国家自然科学基金

6+阅读 · 2015年12月31日

基于视觉特性的目标检测算法研究

国家自然科学基金

4+阅读 · 2015年12月31日

面向计算机视觉问题的图匹配算法研究与应用

国家自然科学基金

1+阅读 · 2015年12月31日

结合知识图谱的概率话题模型研究

国家自然科学基金

10+阅读 · 2015年12月31日

有向图谱理论在图像匹配中应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

深度学习框架下基于情境线索的视觉注意研究

国家自然科学基金

2+阅读 · 2015年12月31日

数据驱动的人体图像语义分割研究

国家自然科学基金

5+阅读 · 2014年12月31日

神经元网络系统的斑图动力学行为分析及控制

国家自然科学基金

0+阅读 · 2014年12月31日

基于视觉注意与眼动跟踪的地图认知计算模型与方法研究

国家自然科学基金

6+阅读 · 2014年12月31日

概率图模型学习及其在数据分析中的应用研究

国家自然科学基金

16+阅读 · 2013年12月31日

Replanning Human-Robot Collaborative Tasks with Vision-Language Models via Semantic and Physical Dual-Correction

Arxiv

0+阅读 · 2月16日

Leveraging Large Language Models for Automated Reproduction of Networking Research Results

Arxiv

0+阅读 · 2月13日

Leveraging Large Language Models for Automated Reproduction of Networking Research Results

Arxiv

0+阅读 · 2月11日

VISOR: VIsual Spatial Object Reasoning for Language-driven Object Navigation

Arxiv

0+阅读 · 2月7日

Generative AI for Intent-Driven Network Management in 6G RAN: A Case Study on the Mamba Model

Arxiv

0+阅读 · 2月5日

Network-Optimised Spiking Neural Network for Event-Driven Networking

Arxiv

0+阅读 · 1月24日

Vision-Language Models Align with Human Neural Representations in Concept Processing

Arxiv

0+阅读 · 1月22日

Efficient Code Analysis via Graph-Guided Large Language Models

Arxiv

0+阅读 · 1月22日

AutoDriDM: An Explainable Benchmark for Decision-Making of Vision-Language Models in Autonomous Driving

Arxiv

0+阅读 · 1月21日

DriveRX: A Vision-Language Reasoning Model for Cross-Task Autonomous Driving

Arxiv

0+阅读 · 1月13日

VIP会员

文章信息

相关主题

最新内容

综述 | 从问答到任务完成：Agent系统与Harness设计

综述 | 从问答到任务完成：Agent系统与Harness设计

专知会员服务

1+阅读 · 今天16:54

Agentic RL：框架、实践与长程智能体训练

Agentic RL：框架、实践与长程智能体训练

专知会员服务

1+阅读 · 今天16:52

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

专知会员服务

6+阅读 · 今天8:00

重新思考无人机时代的生存能力

重新思考无人机时代的生存能力

专知会员服务

5+阅读 · 今天7:44

装甲突击旅：现代战争思考、战斗与组织

装甲突击旅：现代战争思考、战斗与组织

专知会员服务

4+阅读 · 今天7:28

在人工智能加速决策环境中拓展OODA循环

在人工智能加速决策环境中拓展OODA循环

专知会员服务

4+阅读 · 今天7:18

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

专知会员服务

5+阅读 · 今天7:07

军事欺骗：供作战战术指挥官使用的工具

军事欺骗：供作战战术指挥官使用的工具

专知会员服务

4+阅读 · 今天7:03

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

4+阅读 · 6月23日

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

6+阅读 · 6月23日

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

10+阅读 · 6月23日

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

4+阅读 · 6月23日

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

5+阅读 · 6月23日

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

8+阅读 · 6月23日

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

7+阅读 · 6月23日

相关VIP内容

《基于大型语言模型的软件工程自动化研究》最新264页

《基于大型语言模型的软件工程自动化研究》最新264页

专知会员服务

39+阅读 · 2025年7月14日

高效视觉语言模型研究综述

高效视觉语言模型研究综述

专知会员服务

14+阅读 · 2025年4月18日

【博士论文】学习视觉-语言表示以实现多模态理解

【博士论文】学习视觉-语言表示以实现多模态理解

专知会员服务

28+阅读 · 2025年2月8日

大语言模型在规划与调度问题上的应用

大语言模型在规划与调度问题上的应用

专知会员服务

53+阅读 · 2025年1月12日

博士论文 |《用于提高可解释性和效率的图神经网络》中佛罗里达大学

博士论文 |《用于提高可解释性和效率的图神经网络》中佛罗里达大学

专知会员服务

40+阅读 · 2023年2月19日

图神经网络在自然语言处理中的应用(中文版）,23页pdf

专知会员服务

92+阅读 · 2021年4月18日

【图机器学习论文】图神经网络的逻辑表达性（Logical Expressiveness of Graph Neural Networks）

【图机器学习论文】图神经网络的逻辑表达性（Logical Expressiveness of Graph Neural Networks）

专知会员服务

41+阅读 · 2019年12月30日

【WSDM 2020 论文】基于自关注网络的动态图表示学习（Dynamic graph representation learning via self-attention networks），Visa Research的研究员武延宏等

【WSDM 2020 论文】基于自关注网络的动态图表示学习（Dynamic graph representation learning via self-attention networks），Visa Research的研究员武延宏等

专知会员服务

98+阅读 · 2019年11月20日

【CCL 2019】表示学习--自然语言处理中的图神经网络（Graph Neural Networks in NLP），西湖大学长聘副教授张岳

【CCL 2019】表示学习--自然语言处理中的图神经网络（Graph Neural Networks in NLP），西湖大学长聘副教授张岳

专知会员服务

64+阅读 · 2019年11月12日

图神经网络在自然语言处理领域的前沿应用，北京邮电大学杨成博士，第八届全国社会媒体处理大会SMP2019

图神经网络在自然语言处理领域的前沿应用，北京邮电大学杨成博士，第八届全国社会媒体处理大会SMP2019

专知会员服务

87+阅读 · 2019年10月21日

热门VIP内容

开通专知VIP会员享更多权益服务

Agentic RL：框架、实践与长程智能体训练

重新思考无人机时代的生存能力

综述 | 从问答到任务完成：Agent系统与Harness设计

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

相关资讯

【论文笔记】通过自注意力网络的动态图表示学习

【论文笔记】通过自注意力网络的动态图表示学习

专知

90+阅读 · 2019年12月2日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

【报告分享】图神经网络在自然语言处理领域的前沿应用

【报告分享】图神经网络在自然语言处理领域的前沿应用

专知

47+阅读 · 2019年10月22日

图神经网络最近十篇论文，来自KDD、IJCAI、ICML等，附PDF下载

图神经网络最近十篇论文，来自KDD、IJCAI、ICML等，附PDF下载

专知

50+阅读 · 2019年6月7日

图神经网络开发必备组件，NetworkX、稀疏矩阵、稀疏Tensor等

图神经网络开发必备组件，NetworkX、稀疏矩阵、稀疏Tensor等

专知

48+阅读 · 2019年5月10日

关系图注意力网络-Relational Graph Attention Networks

关系图注意力网络-Relational Graph Attention Networks

专知

142+阅读 · 2019年4月22日

自注意力机制在计算机视觉中的应用

自注意力机制在计算机视觉中的应用

GAN生成式对抗网络

19+阅读 · 2018年12月20日

图神经网络最近这么火，不妨看看我们精选的这七篇

图神经网络最近这么火，不妨看看我们精选的这七篇

人工智能前沿讲习班

37+阅读 · 2018年12月10日

自然语言处理中的自注意力机制（Self-Attention Mechanism）

自然语言处理中的自注意力机制（Self-Attention Mechanism）

PaperWeekly

22+阅读 · 2018年3月28日

基于注意力机制的图卷积网络

基于注意力机制的图卷积网络

科技创新与创业

74+阅读 · 2017年11月8日

相关论文

Replanning Human-Robot Collaborative Tasks with Vision-Language Models via Semantic and Physical Dual-Correction

Arxiv

0+阅读 · 2月16日

Leveraging Large Language Models for Automated Reproduction of Networking Research Results

Arxiv

0+阅读 · 2月13日

Leveraging Large Language Models for Automated Reproduction of Networking Research Results

Arxiv

0+阅读 · 2月11日

VISOR: VIsual Spatial Object Reasoning for Language-driven Object Navigation

Arxiv

0+阅读 · 2月7日

Generative AI for Intent-Driven Network Management in 6G RAN: A Case Study on the Mamba Model

Arxiv

0+阅读 · 2月5日

Network-Optimised Spiking Neural Network for Event-Driven Networking

Arxiv

0+阅读 · 1月24日

Vision-Language Models Align with Human Neural Representations in Concept Processing

Arxiv

0+阅读 · 1月22日

Efficient Code Analysis via Graph-Guided Large Language Models

Arxiv

0+阅读 · 1月22日

AutoDriDM: An Explainable Benchmark for Decision-Making of Vision-Language Models in Autonomous Driving

Arxiv

0+阅读 · 1月21日

DriveRX: A Vision-Language Reasoning Model for Cross-Task Autonomous Driving

Arxiv

0+阅读 · 1月13日

相关基金

软件定义网络（SDN）环境下基于机器学习的路由预规划研究

国家自然科学基金

6+阅读 · 2015年12月31日

基于视觉特性的目标检测算法研究

国家自然科学基金

4+阅读 · 2015年12月31日

面向计算机视觉问题的图匹配算法研究与应用

国家自然科学基金

1+阅读 · 2015年12月31日

结合知识图谱的概率话题模型研究

国家自然科学基金

10+阅读 · 2015年12月31日

有向图谱理论在图像匹配中应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

深度学习框架下基于情境线索的视觉注意研究

国家自然科学基金

2+阅读 · 2015年12月31日

数据驱动的人体图像语义分割研究

国家自然科学基金

5+阅读 · 2014年12月31日

神经元网络系统的斑图动力学行为分析及控制

国家自然科学基金

0+阅读 · 2014年12月31日

基于视觉注意与眼动跟踪的地图认知计算模型与方法研究

国家自然科学基金

6+阅读 · 2014年12月31日

概率图模型学习及其在数据分析中的应用研究

国家自然科学基金

16+阅读 · 2013年12月31日

微信扫码咨询专知VIP会员