Federated learning (FL) allows collaborative model training across healthcare sites without sharing sensitive patient data. However, real-world FL deployment is often hindered by complex operational challenges that demand substantial human efforts. This includes: (a) selecting appropriate clients (hospitals), (b) coordinating between the central server and clients, (c) client-level data pre-processing, (d) harmonizing non-standardized data and labels across clients, and (e) selecting FL algorithms based on user instructions and cross-client data characteristics. However, the existing FL works overlook these practical orchestration challenges. These operational bottlenecks motivate the need for autonomous, agent-driven FL systems, where intelligent agents at each hospital client and the central server agent collaboratively manage FL setup and model training with minimal human intervention. To this end, we first introduce an agent-driven FL framework that captures key phases of real-world FL workflows from client selection to training completion and a benchmark dubbed FedAgentBench that evaluates the ability of LLM agents to autonomously coordinate healthcare FL. Our framework incorporates 40 FL algorithms, each tailored to address diverse task-specific requirements and cross-client characteristics. Furthermore, we introduce a diverse set of complex tasks across 201 carefully curated datasets, simulating 6 modality-specific real-world healthcare environments, viz., Dermatoscopy, Ultrasound, Fundus, Histopathology, MRI, and X-Ray. We assess the agentic performance of 14 open-source and 10 proprietary LLMs spanning small, medium, and large model scales. While some agent cores such as GPT-4.1 and DeepSeek V3 can automate various stages of the FL pipeline, our results reveal that more complex, interdependent tasks based on implicit goals remain challenging for even the strongest models.


翻译:联邦学习(FL)使得跨医疗站点无需共享敏感患者数据即可进行协作式模型训练。然而,现实世界中的FL部署常因复杂的操作挑战而受阻,这些挑战需要大量人力投入。具体包括:(a) 选择合适的客户端(医院),(b) 协调中央服务器与客户端之间的交互,(c) 客户端级数据预处理,(d) 协调跨客户端的非标准化数据与标签,以及(e) 基于用户指令和跨客户端数据特征选择FL算法。然而,现有的FL研究忽视了这些实际的组织协调挑战。这些操作瓶颈催生了对自主、智能体驱动的FL系统的需求,其中每个医院客户端和中央服务器的智能体能够以最少的人工干预协作管理FL设置与模型训练。为此,我们首先提出了一个智能体驱动的FL框架,该框架涵盖了从客户端选择到训练完成的现实世界FL工作流关键阶段,并引入了一个名为FedAgentBench的基准测试,用于评估LLM智能体自主协调医疗FL的能力。我们的框架整合了40种FL算法,每种算法均针对不同的任务特定需求和跨客户端特征进行了定制。此外,我们基于201个精心策划的数据集引入了一系列多样化复杂任务,模拟了6种模态特定的现实世界医疗环境,即皮肤镜、超声、眼底、组织病理学、磁共振成像和X射线。我们评估了涵盖小、中、大模型规模的14个开源和10个专有LLM的智能体性能。虽然部分智能体核心(如GPT-4.1和DeepSeek V3)能够自动化FL流程的多个阶段,但我们的结果表明,基于隐含目标的更复杂、相互依赖的任务即使对最强大的模型而言仍具挑战性。

0
下载
关闭预览

相关内容

FlowQA: Grasping Flow in History for Conversational Machine Comprehension
专知会员服务
34+阅读 · 2019年10月18日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
163+阅读 · 2019年10月12日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
STRCF for Visual Object Tracking
统计学习与视觉计算组
15+阅读 · 2018年5月29日
Focal Loss for Dense Object Detection
统计学习与视觉计算组
12+阅读 · 2018年3月15日
IJCAI | Cascade Dynamics Modeling with Attention-based RNN
KingsGarden
13+阅读 · 2017年7月16日
国家自然科学基金
13+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
VIP会员
相关资讯
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
STRCF for Visual Object Tracking
统计学习与视觉计算组
15+阅读 · 2018年5月29日
Focal Loss for Dense Object Detection
统计学习与视觉计算组
12+阅读 · 2018年3月15日
IJCAI | Cascade Dynamics Modeling with Attention-based RNN
KingsGarden
13+阅读 · 2017年7月16日
相关基金
国家自然科学基金
13+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员