WISV: Wireless-Informed Semantic Verification for Distributed Speculative Decoding in Device-Edge LLM Inference - 专知论文

会员服务 ·

0

WISV: Wireless-Informed Semantic Verification for Distributed Speculative Decoding in Device-Edge LLM Inference

翻译：WISV：面向设备-边缘大语言模型推理中分布式推测解码的无线感知语义验证

Zixuan Liu,Zhiyong Chen,Nan Xue,Shengkang Chen,Jiangchao Yao,Meixia Tao,Wenjun Zhang

from arxiv, submitted to IEEE Trans

While distributed device-edge speculative decoding enhances resource utilization across heterogeneous nodes, its performance is often bottlenecked by conventional token-level verification strategies. Such rigid alignment leads to excessive rejections, significantly diminishing the accepted sequence length and increasing interaction rounds under fluctuating wireless conditions. In this paper, we propose WISV (Wireless-Informed Semantic Verification), a novel distributed speculative decoding framework that goes beyond strict token-level matching via a channel-aware semantic acceptance policy. WISV integrates a lightweight decision head into the edge-side target LLM to dynamically evaluate speculative tokens by synthesizing high-dimensional hidden representations with instantaneous channel state information (CSI). To optimize the trade-off between verification fidelity and communication overhead, we further design two tailored communication protocols: full-hidden upload and mismatch-first selective-hidden upload. Extensive simulations using a 1B drafter and an 8B target model demonstrate that WISV achieves up to a 60.8% increase in accepted length, a 37.3% reduction in interaction rounds, and a 31.4% improvement in end-to-end latency compared to vanilla speculative decoding across tested settings, while maintaining a negligible task accuracy drop (<1%). Finally, we validate WISV on a hardware testbed comprising an NVIDIA Jetson AGX Orin and an A40-equipped server, confirming its real-world efficacy in accelerating edge-deployed LLM inference.

翻译：尽管分布式设备-边缘推测解码可提升跨异构节点的资源利用率，其性能常受限于传统的词元级验证策略。这种刚性对齐导致过多拒绝，显著缩短接受序列长度，并在波动无线环境下增加交互轮次。本文提出WISV（无线感知语义验证）——一种新型分布式推测解码框架，通过信道感知语义接受策略突破严格的词元级匹配约束。WISV在边缘侧目标大语言模型中集成轻量级决策头，通过融合高维隐式表征与瞬时信道状态信息（CSI）动态评估推测词元。为优化验证保真度与通信开销间的权衡，我们进一步设计两种定制化通信协议：全隐藏层上传与失配优先选择性隐藏层上传。基于1B草稿模型与8B目标模型的仿真实验表明，在各类测试设置下，相比原始推测解码，WISV的接受长度提升最高达60.8%，交互轮次减少37.3%，端到端延迟降低31.4%，同时任务精度损失可忽略（<1%）。最后，我们在由NVIDIA Jetson AGX Orin和配备A40的服务器组成的硬件测试平台上验证了WISV，证实其在加速边缘部署大语言模型推理中的实际效能。

0

相关内容

《战场物联网中边缘设备：基于大语言模型的自然语言交互》

《战场物联网中边缘设备：基于大语言模型的自然语言交互》

专知会员服务

29+阅读 · 2025年6月15日

【WWW2025】G-Refer：基于图检索增强的大型语言模型用于可解释推荐

【WWW2025】G-Refer：基于图检索增强的大型语言模型用于可解释推荐

专知会员服务

13+阅读 · 2025年4月8日

【博士论文】边缘分布式深度神经网络推理

【博士论文】边缘分布式深度神经网络推理

专知会员服务

27+阅读 · 2025年2月26日

移动边缘智能与大型语言模型综述

移动边缘智能与大型语言模型综述

专知会员服务

42+阅读 · 2024年7月31日

【AAAI2023】深度神经网络的可解释性验证

【AAAI2023】深度神经网络的可解释性验证

专知会员服务

49+阅读 · 2022年12月6日

【蜂群无人机控制关键技术】《基于深度学习进行无线电信号和协议分类以自动发现波形漏洞》2022最新102页报告，美国空军研究实验室

【蜂群无人机控制关键技术】《基于深度学习进行无线电信号和协议分类以自动发现波形漏洞》2022最新102页报告，美国空军研究实验室

专知会员服务

94+阅读 · 2022年12月2日

什么是鸟瞰图感知(BEV)?上海AI实验室与商汤等最新《鸟瞰图视觉感知》综述，26页pdf阐述BEV 最新回顾、评价与方法

什么是鸟瞰图感知(BEV)?上海AI实验室与商汤等最新《鸟瞰图视觉感知》综述，26页pdf阐述BEV 最新回顾、评价与方法

专知会员服务

71+阅读 · 2022年9月14日

【CVPR2020-清华大学】分辨率自适应网络的有效推理，Resolution Adaptive Networks

【CVPR2020-清华大学】分辨率自适应网络的有效推理，Resolution Adaptive Networks

专知会员服务

22+阅读 · 2020年3月17日

【上海交通大学-张拳石】可解释CNN，Interpretable CNNs for Object Classification

【上海交通大学-张拳石】可解释CNN，Interpretable CNNs for Object Classification

专知会员服务

46+阅读 · 2020年3月13日

【WSDM 2020】RecVAE:一种新的变分自编码器，用于具有隐式反馈的Top-N推荐（RecVAE: a New Variational Autoencoder for Top-NRecommendations with Implicit Feedback）

【WSDM 2020】RecVAE:一种新的变分自编码器，用于具有隐式反馈的Top-N推荐（RecVAE: a New Variational Autoencoder for Top-NRecommendations with Implicit Feedback）

专知会员服务

32+阅读 · 2019年12月26日

【蜂群无人机控制关键技术】《基于深度学习进行无线电信号和协议分类以自动发现波形漏洞》2022最新102页报告，美国空军研究实验室

【蜂群无人机控制关键技术】《基于深度学习进行无线电信号和协议分类以自动发现波形漏洞》2022最新102页报告，美国空军研究实验室

专知

69+阅读 · 2022年12月3日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

全球人工智能

13+阅读 · 2019年4月30日

【论文笔记和代码梳理】RippleNet：基于知识图谱的用户偏好传播

【论文笔记和代码梳理】RippleNet：基于知识图谱的用户偏好传播

专知

42+阅读 · 2019年4月9日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

【论文推荐】最新八篇情感分析相关论文—Pair-wise判别器、多模态情感分析、上下文语境、Gated 卷积网络

【论文推荐】最新八篇情感分析相关论文—Pair-wise判别器、多模态情感分析、上下文语境、Gated 卷积网络

专知

20+阅读 · 2018年6月29日

NetworkMiner - 网络取证分析工具

NetworkMiner - 网络取证分析工具

黑白之道

16+阅读 · 2018年6月29日

Facebook AI发布新版本FairSeq序列到序列(Seq2Seq)学习工具，可生成故事与快速推断

Facebook AI发布新版本FairSeq序列到序列(Seq2Seq)学习工具，可生成故事与快速推断

专知

23+阅读 · 2018年6月17日

变分自编码器VAE：原来是这么一回事 | 附开源代码

变分自编码器VAE：原来是这么一回事 | 附开源代码

PaperWeekly

12+阅读 · 2018年3月23日

北大新技术：利用WiFi设备进行人体行为识别！

北大新技术：利用WiFi设备进行人体行为识别！

全球人工智能

12+阅读 · 2018年2月7日

海上认知无线通信系统非授权频谱感知与资源分配算法研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向事件检测的感知数据处理方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向无线多媒体传感器网络的高效压缩视频感知

国家自然科学基金

0+阅读 · 2015年12月31日

噪声不确定下基于计算智能的多跳认知无线电网络协作频谱感知优化

国家自然科学基金

0+阅读 · 2015年12月31日

无线认知传感器网络中时空相关频谱感知算法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于跨层网络编码感知的无线传感器网络节能路由协议研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于免疫机制的无线传感器网络攻击协同检测研究与设计

国家自然科学基金

0+阅读 · 2015年12月31日

基于Wyner-Ziv分布式编码的无线视频通信端到端失真度估算

国家自然科学基金

0+阅读 · 2014年12月31日

基于无线传感器网络的智能电网状态监测系统信息安全关键技术研究

国家自然科学基金

2+阅读 · 2014年12月31日

分布式频谱监测无线传感器网络构建与拓扑控制技术研究

国家自然科学基金

1+阅读 · 2014年12月31日

HiFiNet: Hierarchical Fault Identification in Wireless Sensor Networks via Edge-Based Classification and Graph Aggregation

Arxiv

0+阅读 · 5月4日

SpecFed: Accelerating Federated LLM Inference with Speculative Decoding and Compressed Transmission

Arxiv

0+阅读 · 4月28日

HiFiNet: Hierarchical Fault Identification in Wireless Sensor Networks via Edge-Based Classification and Graph Aggregation

Arxiv

0+阅读 · 4月14日

DisCEdge: Distributed Context Management for Large Language Models at the Edge

Arxiv

0+阅读 · 4月8日

WISP: Waste- and Interference-Suppressed Distributed Speculative LLM Serving at the Edge via Dynamic Drafting and SLO-Aware Batching

Arxiv

0+阅读 · 4月7日

Trust-Aware Routing for Distributed Generative AI Inference at the Edge

Arxiv

0+阅读 · 3月30日

SAFT: Sensitivity-Aware Filtering and Transmission for Adaptive 3D Point Cloud Communication over Wireless Channels

Arxiv

0+阅读 · 3月27日

WirelessBench: A Tolerance-Aware LLM Agent Benchmark for Wireless Network Intelligence

Arxiv

0+阅读 · 3月22日

SLA-Aware Distributed LLM Inference Across Device-RAN-Cloud

Arxiv

0+阅读 · 2月27日

Nightjar: Dynamic Adaptive Speculative Decoding for Large Language Models Serving

Arxiv

0+阅读 · 2月22日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

1+阅读 · 今天15:02

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

1+阅读 · 今天15:00

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

2+阅读 · 今天14:30

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

2+阅读 · 今天14:05

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

2+阅读 · 今天13:55

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

2+阅读 · 今天13:51

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

2+阅读 · 今天13:48

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

7+阅读 · 6月21日

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

5+阅读 · 6月21日

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

7+阅读 · 6月21日

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

20+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

5+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

8+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

7+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

9+阅读 · 6月18日

相关VIP内容

《战场物联网中边缘设备：基于大语言模型的自然语言交互》

《战场物联网中边缘设备：基于大语言模型的自然语言交互》

专知会员服务

29+阅读 · 2025年6月15日

【WWW2025】G-Refer：基于图检索增强的大型语言模型用于可解释推荐

【WWW2025】G-Refer：基于图检索增强的大型语言模型用于可解释推荐

专知会员服务

13+阅读 · 2025年4月8日

【博士论文】边缘分布式深度神经网络推理

【博士论文】边缘分布式深度神经网络推理

专知会员服务

27+阅读 · 2025年2月26日

移动边缘智能与大型语言模型综述

移动边缘智能与大型语言模型综述

专知会员服务

42+阅读 · 2024年7月31日

【AAAI2023】深度神经网络的可解释性验证

【AAAI2023】深度神经网络的可解释性验证

专知会员服务

49+阅读 · 2022年12月6日

【蜂群无人机控制关键技术】《基于深度学习进行无线电信号和协议分类以自动发现波形漏洞》2022最新102页报告，美国空军研究实验室

【蜂群无人机控制关键技术】《基于深度学习进行无线电信号和协议分类以自动发现波形漏洞》2022最新102页报告，美国空军研究实验室

专知会员服务

94+阅读 · 2022年12月2日

什么是鸟瞰图感知(BEV)?上海AI实验室与商汤等最新《鸟瞰图视觉感知》综述，26页pdf阐述BEV 最新回顾、评价与方法

什么是鸟瞰图感知(BEV)?上海AI实验室与商汤等最新《鸟瞰图视觉感知》综述，26页pdf阐述BEV 最新回顾、评价与方法

专知会员服务

71+阅读 · 2022年9月14日

【CVPR2020-清华大学】分辨率自适应网络的有效推理，Resolution Adaptive Networks

【CVPR2020-清华大学】分辨率自适应网络的有效推理，Resolution Adaptive Networks

专知会员服务

22+阅读 · 2020年3月17日

【上海交通大学-张拳石】可解释CNN，Interpretable CNNs for Object Classification

【上海交通大学-张拳石】可解释CNN，Interpretable CNNs for Object Classification

专知会员服务

46+阅读 · 2020年3月13日

【WSDM 2020】RecVAE:一种新的变分自编码器，用于具有隐式反馈的Top-N推荐（RecVAE: a New Variational Autoencoder for Top-NRecommendations with Implicit Feedback）

【WSDM 2020】RecVAE:一种新的变分自编码器，用于具有隐式反馈的Top-N推荐（RecVAE: a New Variational Autoencoder for Top-NRecommendations with Implicit Feedback）

专知会员服务

32+阅读 · 2019年12月26日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 3D场景图：开放挑战与未来方向

21世纪的无人机战争

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

相关资讯

【蜂群无人机控制关键技术】《基于深度学习进行无线电信号和协议分类以自动发现波形漏洞》2022最新102页报告，美国空军研究实验室

【蜂群无人机控制关键技术】《基于深度学习进行无线电信号和协议分类以自动发现波形漏洞》2022最新102页报告，美国空军研究实验室

专知

69+阅读 · 2022年12月3日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

全球人工智能

13+阅读 · 2019年4月30日

【论文笔记和代码梳理】RippleNet：基于知识图谱的用户偏好传播

【论文笔记和代码梳理】RippleNet：基于知识图谱的用户偏好传播

专知

42+阅读 · 2019年4月9日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

【论文推荐】最新八篇情感分析相关论文—Pair-wise判别器、多模态情感分析、上下文语境、Gated 卷积网络

【论文推荐】最新八篇情感分析相关论文—Pair-wise判别器、多模态情感分析、上下文语境、Gated 卷积网络

专知

20+阅读 · 2018年6月29日

NetworkMiner - 网络取证分析工具

NetworkMiner - 网络取证分析工具

黑白之道

16+阅读 · 2018年6月29日

Facebook AI发布新版本FairSeq序列到序列(Seq2Seq)学习工具，可生成故事与快速推断

Facebook AI发布新版本FairSeq序列到序列(Seq2Seq)学习工具，可生成故事与快速推断

专知

23+阅读 · 2018年6月17日

变分自编码器VAE：原来是这么一回事 | 附开源代码

变分自编码器VAE：原来是这么一回事 | 附开源代码

PaperWeekly

12+阅读 · 2018年3月23日

北大新技术：利用WiFi设备进行人体行为识别！

北大新技术：利用WiFi设备进行人体行为识别！

全球人工智能

12+阅读 · 2018年2月7日

相关论文

HiFiNet: Hierarchical Fault Identification in Wireless Sensor Networks via Edge-Based Classification and Graph Aggregation

Arxiv

0+阅读 · 5月4日

SpecFed: Accelerating Federated LLM Inference with Speculative Decoding and Compressed Transmission

Arxiv

0+阅读 · 4月28日

HiFiNet: Hierarchical Fault Identification in Wireless Sensor Networks via Edge-Based Classification and Graph Aggregation

Arxiv

0+阅读 · 4月14日

DisCEdge: Distributed Context Management for Large Language Models at the Edge

Arxiv

0+阅读 · 4月8日

WISP: Waste- and Interference-Suppressed Distributed Speculative LLM Serving at the Edge via Dynamic Drafting and SLO-Aware Batching

Arxiv

0+阅读 · 4月7日

Trust-Aware Routing for Distributed Generative AI Inference at the Edge

Arxiv

0+阅读 · 3月30日

SAFT: Sensitivity-Aware Filtering and Transmission for Adaptive 3D Point Cloud Communication over Wireless Channels

Arxiv

0+阅读 · 3月27日

WirelessBench: A Tolerance-Aware LLM Agent Benchmark for Wireless Network Intelligence

Arxiv

0+阅读 · 3月22日

SLA-Aware Distributed LLM Inference Across Device-RAN-Cloud

Arxiv

0+阅读 · 2月27日

Nightjar: Dynamic Adaptive Speculative Decoding for Large Language Models Serving

Arxiv

0+阅读 · 2月22日

相关基金

海上认知无线通信系统非授权频谱感知与资源分配算法研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向事件检测的感知数据处理方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向无线多媒体传感器网络的高效压缩视频感知

国家自然科学基金

0+阅读 · 2015年12月31日

噪声不确定下基于计算智能的多跳认知无线电网络协作频谱感知优化

国家自然科学基金

0+阅读 · 2015年12月31日

无线认知传感器网络中时空相关频谱感知算法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于跨层网络编码感知的无线传感器网络节能路由协议研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于免疫机制的无线传感器网络攻击协同检测研究与设计

国家自然科学基金

0+阅读 · 2015年12月31日

基于Wyner-Ziv分布式编码的无线视频通信端到端失真度估算

国家自然科学基金

0+阅读 · 2014年12月31日

基于无线传感器网络的智能电网状态监测系统信息安全关键技术研究

国家自然科学基金

2+阅读 · 2014年12月31日

分布式频谱监测无线传感器网络构建与拓扑控制技术研究

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员