Crowdsourcing platforms face a four-way tension between allocation quality, workforce sustainability, operational feasibility, and strategic contractor behaviour--a dilemma we formalise as the Cold-Start, Burnout, Utilisation, and Strategic Agency Dilemma. Existing methods resolve at most two of these tensions simultaneously: greedy heuristics and multi-criteria decision making (MCDM) methods achieve Day-1 quality but cause catastrophic burnout, while bandit algorithms eliminate burnout only through operationally infeasible 100% workforce utilisation.To address this, we introduce FORGE, a physics-grounded $K+1$ multi-agent simulator in which each contractor is a rational agent that declares its own load-acceptance threshold based on its fatigue state, converting the standard passive Restless Multi-Armed Bandit (RMAB) into a genuine Stackelberg game. Operating within FORGE, we propose a Neural-Linear UCB allocator that fuses a Two-Tower embedding network with a Physics-Informed Covariance Prior derived from offline simulator interactions. The prior simultaneously warm-starts skill-cluster geometry and UCB exploration landscape, providing a geometry-aware belief state from episode 1 that measurably reduces cold-start regret.Over $T = 200$ cold-start episodes, the proposed method achieves the highest reward of all non-oracle methods ($\text{LRew} = 0.555 \pm 0.041$) at only 7.6% workforce utilisation--a combination no conventional baseline achieves--while maintaining robustness to workforce turnover up to 50% and observation noise up to $σ= 0.20$.


翻译:众包平台面临分配质量、劳动力可持续性、操作可行性及承包商策略行为之间的四重矛盾——我们将其形式化为冷启动困境、倦怠困境、利用率困境与策略代理困境。现有方法最多只能同时解决其中两个矛盾:贪婪启发式算法与多准则决策方法虽能实现首日质量,却会导致灾难性倦怠;而赌博机算法虽能消除倦怠,却仅通过操作上不可行的100%劳动力利用率来实现。为解决此问题,我们提出FORGE——一个基于物理建模的$K+1$多智能体仿真环境,其中每位承包商均为理性智能体,根据其疲劳状态自主声明负载接受阈值,从而将标准被动式"不安定多臂赌博机"问题转化为真正的斯塔克尔伯格博弈。在FORGE框架内,我们提出一种神经线性上置信界分配器,该分配器融合了双塔嵌入网络与通过离线仿真交互推导的物理信息协方差先验。该先验同时预热技能聚类几何结构与上置信界探索空间,从第一轮任务开始即提供具备几何感知的信念状态,可度量地降低冷启动遗憾。在$T = 200$轮冷启动任务中,所提方法以仅7.6%的劳动力利用率实现了所有非先知方法中的最高奖励($\text{LRew} = 0.555 \pm 0.041$)——这是任何传统基线方法均未实现的组合效果——同时保持对高达50%的劳动力流动率及高达$σ= 0.20$的观测噪声的鲁棒性。

0
下载
关闭预览

相关内容

中文版 | 集中式与分布式多智能体AI协调策略
专知会员服务
19+阅读 · 2025年5月8日
《信息在多智能体决策中的作用》214页
专知会员服务
63+阅读 · 2024年11月20日
基于大模型的群体智能解决方案
专知会员服务
68+阅读 · 2024年7月5日
多智能体博弈中的分布式学习: 原理与算法
专知会员服务
54+阅读 · 2024年6月13日
多智能体协同决策方法研究
专知会员服务
134+阅读 · 2022年12月15日
专知会员服务
15+阅读 · 2020年12月12日
专知会员服务
32+阅读 · 2020年5月20日
「基于通信的多智能体强化学习」 进展综述
浅谈群体智能——新一代AI的重要方向
中国科学院自动化研究所
44+阅读 · 2019年10月16日
基于车路协同的群体智能协同
智能交通技术
10+阅读 · 2019年1月23日
群体智能:新一代人工智能的重要方向
走向智能论坛
12+阅读 · 2017年8月16日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 3月2日
Arxiv
0+阅读 · 2月9日
VIP会员
最新内容
《深度强化学习在兵棋推演中的应用》40页报告
专知会员服务
4+阅读 · 今天5:37
《多域作战面临复杂现实》
专知会员服务
3+阅读 · 今天5:35
《印度的多域作战:条令与能力发展》报告
专知会员服务
2+阅读 · 今天5:24
人工智能赋能无人机:俄乌战争(万字长文)
专知会员服务
6+阅读 · 4月23日
国外海军作战管理系统与作战训练系统
专知会员服务
3+阅读 · 4月23日
美军条令《海军陆战队规划流程(2026版)》
专知会员服务
10+阅读 · 4月23日
《压缩式分布式交互仿真标准》120页
专知会员服务
4+阅读 · 4月23日
《电子战数据交换模型研究报告》
专知会员服务
6+阅读 · 4月23日
相关VIP内容
中文版 | 集中式与分布式多智能体AI协调策略
专知会员服务
19+阅读 · 2025年5月8日
《信息在多智能体决策中的作用》214页
专知会员服务
63+阅读 · 2024年11月20日
基于大模型的群体智能解决方案
专知会员服务
68+阅读 · 2024年7月5日
多智能体博弈中的分布式学习: 原理与算法
专知会员服务
54+阅读 · 2024年6月13日
多智能体协同决策方法研究
专知会员服务
134+阅读 · 2022年12月15日
专知会员服务
15+阅读 · 2020年12月12日
专知会员服务
32+阅读 · 2020年5月20日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员