Large language model (LLM)-based agents are increasingly expected to negotiate, coordinate, and transact autonomously, yet existing benchmarks lack principled settings for evaluating language-mediated economic interaction among multiple agents. We introduce AgenticPay, a benchmark and simulation framework for multi-agent buyer-seller negotiation driven by natural language. AgenticPay models markets in which buyers and sellers possess private constraints and product-dependent valuations, and must reach agreements through multi-round linguistic negotiation rather than numeric bidding alone. The framework supports a diverse suite of over 110 tasks ranging from bilateral bargaining to many-to-many markets, with structured action extraction and metrics for feasibility, efficiency, and welfare. Benchmarking state-of-the-art proprietary and open-weight LLMs reveals substantial gaps in negotiation performance and highlights challenges in long-horizon strategic reasoning, establishing AgenticPay as a foundation for studying agentic commerce and language-based market interaction. Code and dataset are available at the link: https://github.com/SafeRL-Lab/AgenticPay.


翻译:基于大语言模型(LLM)的智能体被日益期望能够自主进行协商、协调与交易,然而现有基准测试缺乏用于评估多智能体间语言驱动经济交互的原则性设定。本文提出AgenticPay——一个面向自然语言驱动的多智能体买卖协商的基准测试与仿真框架。AgenticPay对买卖双方拥有私有约束和产品依赖估值的市场进行建模,要求智能体必须通过多轮语言协商(而非仅依靠数值竞价)达成协议。该框架支持涵盖双边议价到多对多市场的110余项多样化任务,并提供结构化行为提取及可行性、效率与福利等评估指标。通过对前沿闭源与开源权重LLM的基准测试,本研究揭示了协商性能存在的显著差距,凸显了长程战略推理面临的挑战,从而确立AgenticPay作为研究智能体商务与基于语言的市场交互的基础平台。代码与数据集可通过以下链接获取:https://github.com/SafeRL-Lab/AgenticPay。

0
下载
关闭预览

相关内容

多智能体协作机制:大语言模型综述
专知会员服务
68+阅读 · 2025年3月4日
Al Agent--大模型时代重要落地方向
专知会员服务
106+阅读 · 2024年4月8日
AI Agent,大模型时代重要落地方向, 42页ppt
专知会员服务
290+阅读 · 2023年10月12日
AI Agent:基于大模型的自主智能体
专知会员服务
249+阅读 · 2023年9月9日
基于车路协同的群体智能协同
智能交通技术
10+阅读 · 2019年1月23日
一文读懂智能对话系统
数据派THU
16+阅读 · 2018年1月27日
用Rasa NLU构建自己的中文NLU系统
待字闺中
18+阅读 · 2017年9月18日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
47+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
19+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
最新内容
最新“指挥控制”领域出版物合集(简介)
专知会员服务
1+阅读 · 今天15:19
面向军事作战需求开发的人工智能(RAIMOND)
专知会员服务
3+阅读 · 今天15:13
软件定义多域战术网络:基础与未来方向(综述)
水下战战术决策中的气象与海洋预报(50页报告)
远程空中优势:新一代超视距导弹的兴起
专知会员服务
1+阅读 · 今天14:45
大语言模型溯因推理的统一分类学与综述
专知会员服务
0+阅读 · 今天12:07
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
47+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
19+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员