Personal AI assistants are beginning to act as delegates with access to calendars, inboxes, and user preferences. Calendar scheduling makes the trust problem concrete: an assistant must coordinate with other assistants while deciding what to reveal about the person it represents. We introduce CalBench, a controlled benchmark for multi-agent calendar scheduling under private information. In each task, $N$ agents manage separate private calendars and schedule a stream of $M$ incoming meetings while minimizing disruption costs. Because no agent can inspect another agent's calendar, success requires language-mediated coordination rather than centralized planning. CalBench generates solvable scenarios with CP-SAT oracle solutions and decentralized non-LLM reference protocols, enabling evaluation of task success, excess cost, communication efficiency, burden fairness, and privacy leakage under matched information constraints. Across seven model families, we find that completion alone misses important failures: agents leave avoidable cost on the table, communication volume does not predict lower regret, and privacy-preserving silence can deprive teammates of cost information needed for fair burden allocation. CalBench provides a reproducible testbed for studying whether autonomous assistants can coordinate on behalf of users before deployment at scale.


翻译:个人AI助手正开始扮演代表用户的代理角色,能够访问日历、收件箱及用户偏好。日历调度使信任问题具体化:助手在决定透露其代表用户的信息时,必须与其他助手进行协调。我们提出了CalBench,一个面向私有信息下多智能体日历调度的受控基准测试。在每项任务中,$N$个智能体分别管理各自的私有日历,并安排$M$个即将到来的会议,同时最小化干扰成本。由于没有智能体可以查看其他智能体的日历,成功执行任务需要基于语言的协调而非集中式规划。CalBench通过CP-SAT精确解和去中心化非大语言模型参考协议生成可解场景,从而能够在匹配信息约束条件下评估任务成功率、超额成本、通信效率、负担公平性及隐私泄露。在七个模型系列上,我们发现仅靠完成率指标会遗漏重要失败情形:智能体留下了可避免的成本,通信量并不能预测更低的遗憾值,而保护隐私的沉默可能导致队友缺乏公平负担分配所需的成本信息。CalBench为研究自主助手在大规模部署前能否代表用户进行协调提供了可复现的测试平台。

0
下载
关闭预览

相关内容

智能体,顾名思义,就是具有智能的实体,英文名是Agent。
智能体评判者(Agent-as-a-Judge)研究综述
专知会员服务
37+阅读 · 1月9日
多智能体协作机制:大语言模型综述
专知会员服务
86+阅读 · 2025年1月14日
大型语言模型代理的安全与隐私综述
专知会员服务
30+阅读 · 2024年8月5日
AI Agent:基于大模型的自主智能体
专知会员服务
250+阅读 · 2023年9月9日
八个不容错过的 GitHub Copilot 功能!
CSDN
11+阅读 · 2022年9月22日
浅谈最广泛应用的金融风控算法-评分卡
凡人机器学习
10+阅读 · 2020年8月3日
浅谈群体智能——新一代AI的重要方向
中国科学院自动化研究所
44+阅读 · 2019年10月16日
NetworkMiner - 网络取证分析工具
黑白之道
16+阅读 · 2018年6月29日
腾讯:机器学习构建通用的数据异常检测平台
全球人工智能
11+阅读 · 2018年5月1日
推荐|caffe-orc主流ocr算法:CNN+BLSTM+CTC架构实现!
全球人工智能
19+阅读 · 2017年10月29日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Arxiv
14+阅读 · 2023年8月7日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
4+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关VIP内容
智能体评判者(Agent-as-a-Judge)研究综述
专知会员服务
37+阅读 · 1月9日
多智能体协作机制:大语言模型综述
专知会员服务
86+阅读 · 2025年1月14日
大型语言模型代理的安全与隐私综述
专知会员服务
30+阅读 · 2024年8月5日
AI Agent:基于大模型的自主智能体
专知会员服务
250+阅读 · 2023年9月9日
相关资讯
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员