Sequential decision-making is central to sustainable agricultural management and precision agriculture, where resource inputs must be optimized under uncertainty and over time. However, such decisions must often be made with limited observations, whereas classical bandit and reinforcement learning approaches typically rely on either linear or black-box reward models that may misrepresent domain knowledge or require large amounts of data. We propose a family of \emph{nonlinear, model-based bandit algorithms} that embed domain-specific response curves directly into the exploration-exploitation loop. By coupling (i) principled uncertainty quantification with (ii) closed-form or rapidly computable profit optima, these algorithms achieve sublinear regret and near-optimal sample complexity while preserving interpretability. Theoretical analysis establishes regret and sample complexity bounds, and extensive simulations emulating real-world fertilizer-rate decisions show consistent improvements over both linear and nonparametric baselines (such as linear UCB and $k$-NN UCB) in the low-sample regime, under both well-specified and shape-compatible misspecified models. Because our approach leverages mechanistic insight rather than large data volumes, it is especially suited to resource-constrained settings, supporting sustainable, inclusive, and transparent sequential decision-making across agriculture, environmental management, and allied applications.


翻译:序贯决策是可持续农业管理和精准农业的核心,需要在不确定性和时间维度下优化资源投入。然而,此类决策通常只能在有限观测条件下进行,而经典的赌博机与强化学习方法通常依赖于线性或黑盒奖励模型,这些模型可能无法准确表征领域知识或需要大量数据。我们提出了一类**非线性、基于模型的赌博机算法**,将特定领域的响应曲线直接嵌入探索-利用循环中。通过将(i)基于原理的不确定性量化与(ii)闭式解或可快速计算的利润最优解相结合,这些算法在保持可解释性的同时,实现了次线性遗憾和接近最优的样本复杂度。理论分析确立了遗憾与样本复杂度的界,模拟真实世界施肥量决策的大量仿真实验表明,在小样本条件下,无论对于设定正确模型还是形状兼容的误设模型,该方法均一致优于线性和非参数基线方法(如线性UCB和$k$-NN UCB)。由于我们的方法利用的是机理洞察而非海量数据,因此特别适用于资源受限的场景,可支持农业、环境管理及相关应用领域实现可持续、包容且透明的序贯决策。

0
下载
关闭预览

相关内容

序贯决策(Sequential Decision)是指按时间顺序排列起来,以得到按顺序的各种决策(策略),是用于随机性或不确定性动态系统最优化的决策方法。
决策智能中的时间序列预测大模型
专知会员服务
33+阅读 · 2025年5月8日
《战略智能体与有限反馈下的序贯决策》211页
专知会员服务
37+阅读 · 2025年5月7日
【斯坦福博士论文】在复杂环境中决策学习内容
专知会员服务
34+阅读 · 2025年4月14日
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
【AGV】仓库内多AGV协作的全局路径规划算法的研究
产业智能官
28+阅读 · 2018年11月10日
推荐|机器学习中的模型评价、模型选择和算法选择!
全球人工智能
10+阅读 · 2018年2月5日
推荐算法:Match与Rank模型的交织配合
从0到1
15+阅读 · 2017年12月18日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
专知会员服务
1+阅读 · 今天14:45
综述 | 世界动作模型:少做梦,多行动
专知会员服务
1+阅读 · 今天14:43
美以伊冲突:无人机与人工智能的运用
专知会员服务
3+阅读 · 今天14:31
《特种部队在透明战场中的生存力》最新报告
专知会员服务
2+阅读 · 今天14:11
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关VIP内容
决策智能中的时间序列预测大模型
专知会员服务
33+阅读 · 2025年5月8日
《战略智能体与有限反馈下的序贯决策》211页
专知会员服务
37+阅读 · 2025年5月7日
【斯坦福博士论文】在复杂环境中决策学习内容
专知会员服务
34+阅读 · 2025年4月14日
相关基金
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员