Delay-Robust Deep Reinforcement Learning for Ranging-Free Channel Access under Mobility in Underwater Acoustic Networks - 专知论文

会员服务 ·

0

水下 · MAC · 距离测度 · 鲁棒 · 移动节点 ·

Delay-Robust Deep Reinforcement Learning for Ranging-Free Channel Access under Mobility in Underwater Acoustic Networks

翻译：延迟鲁棒的水下声学网络中移动节点无距离测度信道接入的深度强化学习方法

Huaisheng Ye,Xiaowen Ye,Liqun Fu

from arxiv, 6 pages, 7 figures, submitted to Globecom 2026

Long propagation delays in underwater acoustic networks (UWANs) cause spatio-temporal uncertainty, constraining channel utilization in medium access control (MAC) protocols. Node mobility within autonomous underwater vehicle scenarios exacerbates these challenges by introducing dynamic propagation delays and varying spatial topologies. We present MobiU-MAC, a deep reinforcement learning (DRL)-based MAC protocol for mobile node access in UWANs that maximizes throughput via autonomous learning. MobiU-MAC incorporates CHILL-STER, a novel DRL algorithm optimized for UWANs that is both ranging-free and delay-robust. CHILL-STER employs a credit horizon-limited $λ$-return (CHILL-Return) mechanism to achieve stable learning under asynchronous delayed rewards, while the companion spatio-temporal experience replay (STER) mechanism addresses topological changes arising from node mobility. This work also demonstrates theoretically that DRL attains optimal policy learning equivalent to a standard Markov decision process under long propagation delays without requiring ranging. Performance evaluations indicate that MobiU-MAC outperforms existing DRL-based MAC protocols for UWANs by leveraging the maximum system delay boundary without ranging overhead, supporting the effectiveness of the proposed theory and algorithm in complex underwater dynamic environments.

翻译：水下声学网络（UWANs）中的长传播延迟会导致时空不确定性，从而制约介质访问控制（MAC）协议的信道利用率。在自主水下航行器场景中，节点移动性会引入动态传播延迟和变化的空间拓扑，进一步加剧这些挑战。本文提出MobiU-MAC——一种基于深度强化学习（DRL）的水下移动节点接入MAC协议，通过自主学习实现吞吐量最大化。MobiU-MAC创新性地引入了CHILL-STER，一种专为UWANs优化的无距离测度且延迟鲁棒的DRL算法。CHILL-STER采用信用时限限制的λ-回报（CHILL-Return）机制，可在异步延迟奖励下实现稳定学习，同时辅以时空经验回放（STER）机制应对节点移动引起的拓扑变化。本文还从理论上证明，在无需距离测度的条件下，DRL可在长传播延迟环境中实现与标准马尔可夫决策过程等价的最优策略学习。性能评估表明，MobiU-MAC通过利用系统最大延迟边界且无需测距开销，在复杂水下动态环境中优于现有基于DRL的UWANs MAC协议，有效验证了所提理论与算法的有效性。

0

相关内容

《抗干扰协同无人机中继网络的多智能体深度强化学习》

《抗干扰协同无人机中继网络的多智能体深度强化学习》

专知会员服务

28+阅读 · 2025年12月31日

多智能体强化学习中的稳健且高效的通信

多智能体强化学习中的稳健且高效的通信

专知会员服务

25+阅读 · 2025年11月17日

《深度学习技术在海战舰船声景分类中的应用研究》最新63页

《深度学习技术在海战舰船声景分类中的应用研究》最新63页

专知会员服务

28+阅读 · 2025年5月20日

《非视距水下光学无线通信》156页

《非视距水下光学无线通信》156页

专知会员服务

29+阅读 · 2025年1月9日

《基于深度强化学习的安全约束分布式多无人机协同》最新130页博士论文

《基于深度强化学习的安全约束分布式多无人机协同》最新130页博士论文

专知会员服务

69+阅读 · 2024年11月19日

《利用深度强化学习实现自主水下航行器的自适应编队运动规划和控制》2023最新33页

《利用深度强化学习实现自主水下航行器的自适应编队运动规划和控制》2023最新33页

专知会员服务

46+阅读 · 2023年12月26日

【ICML2022】DRIBO:基于多视图信息瓶颈的鲁棒深度强化学习

【ICML2022】DRIBO:基于多视图信息瓶颈的鲁棒深度强化学习

专知会员服务

17+阅读 · 2022年8月13日

宽带声纳散射数据中物体分类的深度学习方法，66页pdf，加拿大国防研究与发展部

宽带声纳散射数据中物体分类的深度学习方法，66页pdf，加拿大国防研究与发展部

专知会员服务

25+阅读 · 2022年5月18日

【AI+军事】洛马AI中心paper速读：基于深度学习的多目标跟踪、轨迹预测，Multi-Object Tracking with Deep Learning Ensemble for Unmanned Aerial System Applications

【AI+军事】洛马AI中心paper速读：基于深度学习的多目标跟踪、轨迹预测，Multi-Object Tracking with Deep Learning Ensemble for Unmanned Aerial System Applications

专知会员服务

66+阅读 · 2022年3月22日

【KDD 2019|Tutorial】应用在交通中的强化学习 Deep Reinforcement Learning with Applications in Transportation，滴滴 AI Labs

【KDD 2019|Tutorial】应用在交通中的强化学习 Deep Reinforcement Learning with Applications in Transportation，滴滴 AI Labs

专知会员服务

65+阅读 · 2019年8月8日

【蜂群无人机控制关键技术】《基于深度学习进行无线电信号和协议分类以自动发现波形漏洞》2022最新102页报告，美国空军研究实验室

【蜂群无人机控制关键技术】《基于深度学习进行无线电信号和协议分类以自动发现波形漏洞》2022最新102页报告，美国空军研究实验室

专知

69+阅读 · 2022年12月3日

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

专知

27+阅读 · 2022年11月24日

将U-Net用于图像去雾任务，一种具有密集特征融合的多尺度增强去雾网络 | CVPR2020

将U-Net用于图像去雾任务，一种具有密集特征融合的多尺度增强去雾网络 | CVPR2020

CVer

12+阅读 · 2020年6月30日

当深度强化学习遇见图神经网络

当深度强化学习遇见图神经网络

专知

227+阅读 · 2019年10月21日

【泡泡点云时空】GeoNet：基于测地距离的点云分析深度网络

【泡泡点云时空】GeoNet：基于测地距离的点云分析深度网络

泡泡机器人SLAM

11+阅读 · 2019年5月8日

【斯坦福李飞飞等人Nature论文】基于深度学习检测ICU中的患者移动

【斯坦福李飞飞等人Nature论文】基于深度学习检测ICU中的患者移动

专知

20+阅读 · 2019年3月2日

【边缘智能】边缘计算驱动的深度学习加速技术

【边缘智能】边缘计算驱动的深度学习加速技术

产业智能官

20+阅读 · 2019年2月8日

当前最好的非深度迁移学习方法：流形空间下的分布对齐

当前最好的非深度迁移学习方法：流形空间下的分布对齐

PaperWeekly

11+阅读 · 2018年7月31日

【迁移学习】简述迁移学习在深度学习中的应用

【迁移学习】简述迁移学习在深度学习中的应用

产业智能官

15+阅读 · 2018年1月9日

迁移学习在深度学习中的应用

迁移学习在深度学习中的应用

专知

24+阅读 · 2017年12月24日

基于盲双迭代策略的高可靠变速移动水声多用户通信理论和方法

国家自然科学基金

0+阅读 · 2017年12月31日

水声信号检测与识别中信号处理和特征约简的新方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于马尔科夫信道模型的无线网络通信系统时延性能研究

国家自然科学基金

0+阅读 · 2015年12月31日

动态不确定性条件下基于混杂约束满足问题的水下移动传感器网络节点自定位方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

时频双选水声信道下高谱效OQAM-OFDM通信的关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

动态稀疏双扩展信道下的多用户通信研究

国家自然科学基金

0+阅读 · 2015年12月31日

测距优化与能量有效覆盖的三维水声传感器网络目标定位跟踪技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

通信网络在不确定业务流量需求下的路由鲁棒性优化研究

国家自然科学基金

1+阅读 · 2015年12月31日

噪声不确定下基于计算智能的多跳认知无线电网络协作频谱感知优化

国家自然科学基金

0+阅读 · 2015年12月31日

基于体绘制的UUV水声探测波束仿真方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

Towards End to End Motion Planning and Execution for Autonomous Underwater Vehicles Using Reinforcement Learning

Arxiv

0+阅读 · 6月7日

Robust Shielding for Safe Reinforcement Learning

Arxiv

0+阅读 · 5月29日

LLM-ALSO: LLM-Driven Adaptive Learning-Signal Optimization for Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 5月28日

Delay-Aware Reinforcement Learning for Highway On-Ramp Merging under Stochastic Communication Latency

Arxiv

0+阅读 · 5月27日

Communication Gain and Delay Cost Under Cross-Timestep Delays in Cooperative Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 5月26日

Decoupled Delay Compensation: Enhancing Pre-trained MARL Policies via Learned Dynamics Filtering

Arxiv

0+阅读 · 5月25日

Decoupling Communication from Policy: Robust MARL under Bandwidth Constraints

Arxiv

0+阅读 · 5月20日

GeoGS-CE: Learning Delay--Beam Channel Priors with 3D Gaussians for High-Mobility Scenarios

Arxiv

0+阅读 · 5月15日

Demystifying Deep Reinforcement Learning: A Neuro-Symbolic Framework for Interpretable Open RAN Automation

Arxiv

0+阅读 · 5月12日

A Policy-Driven DRL Framework for System-Level Tradeoff Control in NR-U/Wi-Fi Coexistence

Arxiv

0+阅读 · 5月6日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

3+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

4+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

6+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

5+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

5+阅读 · 6月22日

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

7+阅读 · 6月21日

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

5+阅读 · 6月21日

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

8+阅读 · 6月21日

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

21+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

5+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

8+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

7+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

9+阅读 · 6月18日

相关VIP内容

《抗干扰协同无人机中继网络的多智能体深度强化学习》

《抗干扰协同无人机中继网络的多智能体深度强化学习》

专知会员服务

28+阅读 · 2025年12月31日

多智能体强化学习中的稳健且高效的通信

多智能体强化学习中的稳健且高效的通信

专知会员服务

25+阅读 · 2025年11月17日

《深度学习技术在海战舰船声景分类中的应用研究》最新63页

《深度学习技术在海战舰船声景分类中的应用研究》最新63页

专知会员服务

28+阅读 · 2025年5月20日

《非视距水下光学无线通信》156页

《非视距水下光学无线通信》156页

专知会员服务

29+阅读 · 2025年1月9日

《基于深度强化学习的安全约束分布式多无人机协同》最新130页博士论文

《基于深度强化学习的安全约束分布式多无人机协同》最新130页博士论文

专知会员服务

69+阅读 · 2024年11月19日

《利用深度强化学习实现自主水下航行器的自适应编队运动规划和控制》2023最新33页

《利用深度强化学习实现自主水下航行器的自适应编队运动规划和控制》2023最新33页

专知会员服务

46+阅读 · 2023年12月26日

【ICML2022】DRIBO:基于多视图信息瓶颈的鲁棒深度强化学习

【ICML2022】DRIBO:基于多视图信息瓶颈的鲁棒深度强化学习

专知会员服务

17+阅读 · 2022年8月13日

宽带声纳散射数据中物体分类的深度学习方法，66页pdf，加拿大国防研究与发展部

宽带声纳散射数据中物体分类的深度学习方法，66页pdf，加拿大国防研究与发展部

专知会员服务

25+阅读 · 2022年5月18日

【AI+军事】洛马AI中心paper速读：基于深度学习的多目标跟踪、轨迹预测，Multi-Object Tracking with Deep Learning Ensemble for Unmanned Aerial System Applications

【AI+军事】洛马AI中心paper速读：基于深度学习的多目标跟踪、轨迹预测，Multi-Object Tracking with Deep Learning Ensemble for Unmanned Aerial System Applications

专知会员服务

66+阅读 · 2022年3月22日

【KDD 2019|Tutorial】应用在交通中的强化学习 Deep Reinforcement Learning with Applications in Transportation，滴滴 AI Labs

【KDD 2019|Tutorial】应用在交通中的强化学习 Deep Reinforcement Learning with Applications in Transportation，滴滴 AI Labs

专知会员服务

65+阅读 · 2019年8月8日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 3D场景图：开放挑战与未来方向

21世纪的无人机战争

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

相关资讯

【蜂群无人机控制关键技术】《基于深度学习进行无线电信号和协议分类以自动发现波形漏洞》2022最新102页报告，美国空军研究实验室

【蜂群无人机控制关键技术】《基于深度学习进行无线电信号和协议分类以自动发现波形漏洞》2022最新102页报告，美国空军研究实验室

专知

69+阅读 · 2022年12月3日

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

专知

27+阅读 · 2022年11月24日

将U-Net用于图像去雾任务，一种具有密集特征融合的多尺度增强去雾网络 | CVPR2020

将U-Net用于图像去雾任务，一种具有密集特征融合的多尺度增强去雾网络 | CVPR2020

CVer

12+阅读 · 2020年6月30日

当深度强化学习遇见图神经网络

当深度强化学习遇见图神经网络

专知

227+阅读 · 2019年10月21日

【泡泡点云时空】GeoNet：基于测地距离的点云分析深度网络

【泡泡点云时空】GeoNet：基于测地距离的点云分析深度网络

泡泡机器人SLAM

11+阅读 · 2019年5月8日

【斯坦福李飞飞等人Nature论文】基于深度学习检测ICU中的患者移动

【斯坦福李飞飞等人Nature论文】基于深度学习检测ICU中的患者移动

专知

20+阅读 · 2019年3月2日

【边缘智能】边缘计算驱动的深度学习加速技术

【边缘智能】边缘计算驱动的深度学习加速技术

产业智能官

20+阅读 · 2019年2月8日

当前最好的非深度迁移学习方法：流形空间下的分布对齐

当前最好的非深度迁移学习方法：流形空间下的分布对齐

PaperWeekly

11+阅读 · 2018年7月31日

【迁移学习】简述迁移学习在深度学习中的应用

【迁移学习】简述迁移学习在深度学习中的应用

产业智能官

15+阅读 · 2018年1月9日

迁移学习在深度学习中的应用

迁移学习在深度学习中的应用

专知

24+阅读 · 2017年12月24日

相关论文

Towards End to End Motion Planning and Execution for Autonomous Underwater Vehicles Using Reinforcement Learning

Arxiv

0+阅读 · 6月7日

Robust Shielding for Safe Reinforcement Learning

Arxiv

0+阅读 · 5月29日

LLM-ALSO: LLM-Driven Adaptive Learning-Signal Optimization for Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 5月28日

Delay-Aware Reinforcement Learning for Highway On-Ramp Merging under Stochastic Communication Latency

Arxiv

0+阅读 · 5月27日

Communication Gain and Delay Cost Under Cross-Timestep Delays in Cooperative Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 5月26日

Decoupled Delay Compensation: Enhancing Pre-trained MARL Policies via Learned Dynamics Filtering

Arxiv

0+阅读 · 5月25日

Decoupling Communication from Policy: Robust MARL under Bandwidth Constraints

Arxiv

0+阅读 · 5月20日

GeoGS-CE: Learning Delay--Beam Channel Priors with 3D Gaussians for High-Mobility Scenarios

Arxiv

0+阅读 · 5月15日

Demystifying Deep Reinforcement Learning: A Neuro-Symbolic Framework for Interpretable Open RAN Automation

Arxiv

0+阅读 · 5月12日

A Policy-Driven DRL Framework for System-Level Tradeoff Control in NR-U/Wi-Fi Coexistence

Arxiv

0+阅读 · 5月6日

相关基金

基于盲双迭代策略的高可靠变速移动水声多用户通信理论和方法

国家自然科学基金

0+阅读 · 2017年12月31日

水声信号检测与识别中信号处理和特征约简的新方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于马尔科夫信道模型的无线网络通信系统时延性能研究

国家自然科学基金

0+阅读 · 2015年12月31日

动态不确定性条件下基于混杂约束满足问题的水下移动传感器网络节点自定位方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

时频双选水声信道下高谱效OQAM-OFDM通信的关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

动态稀疏双扩展信道下的多用户通信研究

国家自然科学基金

0+阅读 · 2015年12月31日

测距优化与能量有效覆盖的三维水声传感器网络目标定位跟踪技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

通信网络在不确定业务流量需求下的路由鲁棒性优化研究

国家自然科学基金

1+阅读 · 2015年12月31日

噪声不确定下基于计算智能的多跳认知无线电网络协作频谱感知优化

国家自然科学基金

0+阅读 · 2015年12月31日

基于体绘制的UUV水声探测波束仿真方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

微信扫码咨询专知VIP会员