We often assume that agent-to-agent interaction will mirror human conversation. However, agents operate fundamentally differently. What if they could develop communication patterns that are more efficient and better aligned with their capabilities? While cryptographic primitives that could profoundly improve everyday interactions already exist, humans can't use them because they are too complex and the math can't be done in one's head. Examples range from proving your age (or other attributes) without showing your ID, to filing an anonymous report within a group while proving you are a legitimate member, to splitting a dinner bill fairly without revealing salaries. What if agents could create protocols "on the fly" by recognizing which primitive fits an everyday situation, proposing it to an agentic counterpart, persuading them to participate, and then executing the protocol correctly using appropriate computation tools? Protocol Agent frames this problem by introducing a benchmark that spans: (1) cryptographic primitive recognition, (2) negotiation skills, (3) implementation correctness, (4) correct computation and (5) security strength. We evaluate current open-weight and state-of-the-art models on this benchmark, propose a dataset-generation approach to improve these capabilities, and measure the impact of supervised fine-tuning (SFT) on benchmark performance, with tuned models outperforming base models by a wide margin.


翻译:我们通常假设智能体间的交互会模仿人类对话。然而,智能体的运作方式存在根本差异。如果它们能够发展出更高效、更契合其自身能力的通信模式呢?尽管能够深刻改善日常交互的密码学原语已经存在,但人类无法使用它们,因为这些原语过于复杂,其数学运算无法仅凭人脑完成。例子包括:无需出示身份证件即可证明年龄(或其他属性);在群体内提交匿名报告的同时证明自己是合法成员;在不透露薪资的情况下公平分摊餐费。如果智能体能够通过识别哪种密码学原语适用于日常情境,即时创建协议,将其提议给另一个智能体,说服对方参与,然后使用适当的计算工具正确执行协议,那会怎样?Protocol Agent 通过引入一个涵盖以下维度的基准来界定这一问题:(1) 密码学原语识别,(2) 协商技能,(3) 实现正确性,(4) 计算正确性,以及 (5) 安全强度。我们在此基准上评估了当前的开源权重模型和最先进模型,提出了一种改进这些能力的数据集生成方法,并测量了监督微调对基准性能的影响,结果表明经过微调的模型性能远超基础模型。

0
下载
关闭预览

相关内容

智能体工程(Agent Engineering)
专知会员服务
27+阅读 · 2025年12月31日
Agent AI:多模态交互的新地平线
专知会员服务
21+阅读 · 2025年5月26日
谷歌《智能体Agent》白皮书,42页pdf
专知会员服务
108+阅读 · 2025年1月5日
走向通用虚拟智能体
专知会员服务
74+阅读 · 2023年11月26日
探索(Exploration)还是利用(Exploitation)?强化学习如何tradeoff?
深度强化学习实验室
13+阅读 · 2020年8月23日
浅谈群体智能——新一代AI的重要方向
中国科学院自动化研究所
44+阅读 · 2019年10月16日
【混合智能】人机混合智能的哲学思考
产业智能官
12+阅读 · 2018年10月28日
人工智能对网络空间安全的影响
走向智能论坛
21+阅读 · 2018年6月7日
一文读懂智能对话系统
数据派THU
16+阅读 · 2018年1月27日
群体智能:新一代人工智能的重要方向
走向智能论坛
12+阅读 · 2017年8月16日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员