Modern clinical practice relies on evidence-based guidelines implemented as compact scoring systems composed of a small number of interpretable decision rules. While machine-learning models achieve strong performance, many fail to translate into routine clinical use due to misalignment with workflow constraints such as memorability, auditability, and bedside execution. We argue that this gap arises not from insufficient predictive power, but from optimizing over model classes that are incompatible with guideline deployment. Deployable guidelines often take the form of unit-weighted clinical checklists, formed by thresholding the sum of binary rules, but learning such scores requires searching an exponentially large discrete space of possible rule sets. We introduce AgentScore, which performs semantically guided optimization in this space by using LLMs to propose candidate rules and a deterministic, data-grounded verification-and-selection loop to enforce statistical validity and deployability constraints. Across eight clinical prediction tasks, AgentScore outperforms existing score-generation methods and achieves AUROC comparable to more flexible interpretable models despite operating under stronger structural constraints. On two additional externally validated tasks, AgentScore achieves higher discrimination than established guideline-based scores.


翻译:现代临床实践依赖于以少量可解释决策规则构成的紧凑评分系统形式实施的循证指南。尽管机器学习模型表现出色,但由于与临床工作流约束(如可记忆性、可审计性和床旁执行能力)不匹配,许多模型未能转化为常规临床应用。我们认为这一差距并非源于预测能力不足,而是因为其优化时所使用的模型类别与指南部署不相兼容。可部署的指南通常采用单位加权临床检查表的形式,通过对二值规则求和并设定阈值而构建,但学习此类评分需要在可能的规则集构成的指数级离散空间中搜索。我们提出AgentScore方法,该方法在此空间中利用LLM进行语义引导的优化:通过LLM提出候选规则,并采用确定性、基于数据验证与筛选的闭环机制来保证统计有效性和可部署性约束。在八项临床预测任务中,AgentScore优于现有评分生成方法,尽管在更强的结构约束下运行,其AUROC仍可与更灵活的可解释模型相媲美。在另外两项外部验证任务中,AgentScore的分辨能力优于既有的基于指南的评分标准。

0
下载
关闭预览

相关内容

LLM in Medical Domain: 大语言模型在医学领域的应用
专知会员服务
103+阅读 · 2023年6月17日
【KDD2020-Tutorial】自动推荐系统,Automated Recommendation System
【AI与医学】多模态机器学习精准医疗健康
自动特征工程在推荐系统中的研究
DataFunTalk
10+阅读 · 2019年12月20日
概述自动机器学习(AutoML)
人工智能学家
19+阅读 · 2019年8月11日
你的算法可靠吗? 神经网络不确定性度量
专知
40+阅读 · 2019年4月27日
医疗中的自动机器学习和可解释性
专知
24+阅读 · 2019年4月1日
推荐系统
炼数成金订阅号
28+阅读 · 2019年1月17日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
4+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
6+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
3+阅读 · 6月17日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员