Massive internet of things microservices require integrating renewable energy harvesting into mobile edge computing (MEC) for sustainable eScience infrastructures. Spatiotemporal mismatches between stochastic task arrivals and intermittent green energy along with complex inter-user interference in multi-antenna (MIMO) uplinks complicate real-time resource management. Traditional centralized optimization and off-policy reinforcement learning struggle with scalability and signaling overhead in dense networks. This paper proposes CADDTO-PPO, a carbon-aware decentralized dynamic task offloading framework based on multi-agent proximal policy optimization. The multi-user MIMO-MEC system is modeled as a Decentralized Partially Observable Markov Decision Process (DEC-POMDP) to jointly minimize carbon emissions and buffer latency and energy wastage. A scalable architecture utilizes decentralized execution with parameter sharing (DEPS), which enables autonomous IoT agents to make fine-grained power control and offloading decisions based solely on local observations. Additionally, a carbon-first reward structure adaptively prioritizes green time slots for data transmission to decouple system throughput from grid-dependent carbon footprints. Finally, experimental results demonstrate CADDTO-PPO outperforms deep deterministic policy gradient (DDPG) and lyapunov-based baselines. The framework achieves the lowest carbon intensity and maintains near-zero packet overflow rates under extreme traffic loads. Architectural profiling validates the framework to demonstrate a constant $O(1)$ inference complexity and theoretical lightweight feasibility for future generation sustainable IoT deployments.


翻译:海量物联网微服务需将可再生能源收集与移动边缘计算(MEC)相结合,以构建可持续的电子科学基础设施。随机任务到达与间歇性绿色能源间的时空失配,加之多天线(MIMO)上行链路中复杂的用户间干扰,使得实时资源管理变得复杂。传统集中式优化与离线策略强化学习在密集网络中面临可扩展性与信令开销的挑战。本文提出CADDTO-PPO,一种基于多智能体近端策略优化的碳感知去中心化动态任务卸载框架。该系统将多用户MIMO-MEC建模为去中心化部分可观测马尔可夫决策过程(DEC-POMDP),以协同优化碳排放、缓冲延迟及能源浪费。该可扩展架构采用参数共享的去中心化执行(DEPS)机制,使物联网智能体能够仅依据局部观测自主做出细粒度功率控制与卸载决策。此外,一种碳优先奖励结构自适应地优先分配绿色时隙进行数据传输,从而将系统吞吐量与依赖电网的碳足迹解耦。实验结果表明,CADDTO-PPO在性能上优于深度确定性策略梯度(DDPG)与基于李雅普诺夫的基线方法。该框架实现了最低的碳强度,并在极端流量负载下保持接近零的数据包溢出率。架构性能分析验证了该框架具有恒定的$O(1)$推理复杂度,为未来可持续物联网部署提供了理论上的轻量化可行性。

0
下载
关闭预览

相关内容

卸载从硬盘删除程序文件和文件夹以及从注册表删除相关数据的操作
多智能体强化学习中的稳健且高效的通信
专知会员服务
25+阅读 · 2025年11月17日
自动驾驶中的多智能体强化学习综述
专知会员服务
47+阅读 · 2024年8月20日
【2023新书】移动边缘计算,123页pdf
专知会员服务
108+阅读 · 2023年11月18日
《网络战仿真中的多智能体强化学习》最新42页报告
专知会员服务
46+阅读 · 2023年7月11日
基于多智能体深度强化学习的体系任务分配方法
专知会员服务
157+阅读 · 2023年5月4日
移动边缘网络中联邦学习效率优化综述
专知会员服务
50+阅读 · 2022年7月9日
专知会员服务
37+阅读 · 2021年7月8日
「基于通信的多智能体强化学习」 进展综述
【综述】多智能体强化学习算法理论研究
深度强化学习实验室
15+阅读 · 2020年9月9日
联邦学习或将助力IoT走出“数据孤岛”?
中国计算机学会
20+阅读 · 2019年3月16日
深度学习中Attention Mechanism详细介绍:原理、分类及应用
深度学习与NLP
10+阅读 · 2019年2月18日
【边缘智能】边缘计算驱动的深度学习加速技术
产业智能官
20+阅读 · 2019年2月8日
边缘计算应用:传感数据异常实时检测算法
计算机研究与发展
11+阅读 · 2018年4月10日
边缘计算:万物互联时代新型计算模型
计算机研究与发展
15+阅读 · 2017年5月19日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
24+阅读 · 2011年12月31日
VIP会员
相关VIP内容
多智能体强化学习中的稳健且高效的通信
专知会员服务
25+阅读 · 2025年11月17日
自动驾驶中的多智能体强化学习综述
专知会员服务
47+阅读 · 2024年8月20日
【2023新书】移动边缘计算,123页pdf
专知会员服务
108+阅读 · 2023年11月18日
《网络战仿真中的多智能体强化学习》最新42页报告
专知会员服务
46+阅读 · 2023年7月11日
基于多智能体深度强化学习的体系任务分配方法
专知会员服务
157+阅读 · 2023年5月4日
移动边缘网络中联邦学习效率优化综述
专知会员服务
50+阅读 · 2022年7月9日
专知会员服务
37+阅读 · 2021年7月8日
相关资讯
「基于通信的多智能体强化学习」 进展综述
【综述】多智能体强化学习算法理论研究
深度强化学习实验室
15+阅读 · 2020年9月9日
联邦学习或将助力IoT走出“数据孤岛”?
中国计算机学会
20+阅读 · 2019年3月16日
深度学习中Attention Mechanism详细介绍:原理、分类及应用
深度学习与NLP
10+阅读 · 2019年2月18日
【边缘智能】边缘计算驱动的深度学习加速技术
产业智能官
20+阅读 · 2019年2月8日
边缘计算应用:传感数据异常实时检测算法
计算机研究与发展
11+阅读 · 2018年4月10日
边缘计算:万物互联时代新型计算模型
计算机研究与发展
15+阅读 · 2017年5月19日
相关基金
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
24+阅读 · 2011年12月31日
Top
微信扫码咨询专知VIP会员