The need for an intelligent, real-time spoilage prediction system has become critical in modern IoT-driven food supply chains, where perishable goods are highly susceptible to environmental conditions. Existing methods often lack adaptability to dynamic conditions and fail to optimize decision making in real time. To address these challenges, we propose a hybrid reinforcement learning framework integrating Long Short-Term Memory (LSTM) and Recurrent Neural Networks (RNN) for enhanced spoilage prediction. This hybrid architecture captures temporal dependencies within sensor data, enabling robust and adaptive decision making. In alignment with interpretable artificial intelligence principles, a rule-based classifier environment is employed to provide transparent ground truth labeling of spoilage levels based on domain-specific thresholds. This structured design allows the agent to operate within clearly defined semantic boundaries, supporting traceable and interpretable decisions. Model behavior is monitored using interpretability-driven metrics, including spoilage accuracy, reward-to-step ratio, loss reduction rate, and exploration decay. These metrics provide both quantitative performance evaluation and insights into learning dynamics. A class-wise spoilage distribution visualization is used to analyze the agents decision profile and policy behavior. Extensive evaluations on simulated and real-time hardware data demonstrate that the LSTM and RNN based agent outperforms alternative reinforcement learning approaches in prediction accuracy and decision efficiency while maintaining interpretability. The results highlight the potential of hybrid deep reinforcement learning with integrated interpretability for scalable IoT-based food monitoring systems.


翻译:在物联网驱动的现代食品供应链中,易腐商品对环境条件高度敏感,智能实时腐败预测系统的需求变得至关重要。现有方法通常缺乏对动态条件的适应性,且无法实时优化决策。为应对这些挑战,我们提出一种混合强化学习框架,该框架整合了长短期记忆网络(LSTM)和循环神经网络(RNN),以增强腐败预测能力。此混合架构能够捕捉传感器数据中的时间依赖性,从而实现鲁棒且自适应的决策。遵循可解释人工智能原则,我们采用基于规则的分类器环境,根据特定领域阈值对腐败程度提供透明的真实标签标注。这种结构化设计使得智能体能够在明确定义的语义边界内运行,支持可追溯且可解释的决策。模型行为通过可解释性驱动的指标进行监控,包括腐败准确率、奖励-步数比、损失降低率和探索衰减率。这些指标既提供了定量性能评估,也揭示了学习动态的深层洞察。我们使用类别级腐败分布可视化来分析智能体的决策特征与策略行为。在模拟和实时硬件数据上的广泛评估表明,基于LSTM和RNN的智能体在预测准确性和决策效率上优于其他强化学习方法,同时保持了可解释性。研究结果凸显了集成可解释性的混合深度强化学习在可扩展的物联网食品监控系统中的巨大潜力。

0
下载
关闭预览

相关内容

国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员