Purpose: To develop and evaluate a multi-agent framework (ReclAIm) for automated monitoring, detection, and correction of performance decline in medical image classification models. Materials and Methods: ReclAIm is a large language model-based multi-agent system that operates through natural language interaction. A master agent coordinating three task-specific agents performed performance evaluation and triggered fine-tuning when substantial performance declines were detected. The fine-tuning workflow incorporated data augmentation, class imbalance handling, and a parameter-anchoring regularization strategy to limit catastrophic forgetting. The system was benchmarked using multiple imaging datasets, including brain MRI, chest CT, and chest radiography, partitioned into model development, inference (performance monitoring), and fine-tuning subsets (60%:20%:20%). Results: ReclAIm successfully orchestrated training, evaluation, and performance monitoring across all datasets. Performance discrepancies between test and inference data were detected in 8 of 18 models, prompting fine-tuning workflows that reduced performance gaps. In cases with declines of up to 40.6% (cardiomegaly dataset, InceptionV3), fine-tuning restored performance metrics to within 2% of baseline values. Conclusion: ReclAIm provides a prototype framework for automated monitoring and targeted fine-tuning of medical image classification models, with a natural language interface designed to support accessibility in research and potential clinical applications.


翻译:目的:开发并评估一种用于自动监测、检测和纠正医学图像分类模型性能衰退的多智能体框架(ReclAIm)。材料与方法:ReclAIm是一个基于大语言模型的多智能体系统,通过自然语言交互运行。一个主智能体协调三个任务特定智能体,执行性能评估,并在检测到显著性能衰退时触发微调。微调流程融合了数据增强、类别不平衡处理以及参数锚定正则化策略,以限制灾难性遗忘。该系统使用多个影像数据集进行基准测试,包括脑部MRI、胸部CT和胸部X光片,并按模型开发、推理(性能监测)和微调子集(60%:20%:20%)进行划分。结果:ReclAIm成功协调了所有数据集的训练、评估和性能监测。在18个模型中有8个检测到测试数据与推理数据之间的性能差异,触发了微调流程从而缩小了性能差距。在性能下降幅度高达40.6%的案例中(心脏肥大数据集,InceptionV3),微调将性能指标恢复至基线值的2%以内。结论:ReclAIm为医学图像分类模型的自动监测与定向微调提供了一个原型框架,其自然语言接口旨在支持研究的可及性及潜在的临床应用。

0
下载
关闭预览

相关内容

AgentOps综述:智能体系统运维框架
专知会员服务
18+阅读 · 6月4日
多智能体协作机制
专知会员服务
23+阅读 · 4月25日
智能体评判者(Agent-as-a-Judge)研究综述
专知会员服务
37+阅读 · 1月9日
AI 智能体系统:体系架构、应用场景及评估范式
可解释强化学习,Explainable Reinforcement Learning: A Survey
专知会员服务
132+阅读 · 2020年5月14日
专知会员服务
214+阅读 · 2019年8月30日
【DeepMind】多智能体学习231页PPT总结
深度强化学习实验室
16+阅读 · 2020年6月23日
【学界】DeepMind论文:深度压缩感知,新框架提升GAN性能
GAN生成式对抗网络
14+阅读 · 2019年5月23日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
最新内容
《通过小型无人机系统将情报能力“作战化”》
消耗优势:美军的“精确规模化”概念
专知会员服务
8+阅读 · 6月15日
《离线语言支持系统:面向空战战术决策》
专知会员服务
10+阅读 · 6月15日
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员