PSEBench: A Controllable and Verifiable Benchmark for Evaluating LLMs in Patient Safety Event Triage - 专知论文

会员服务 ·

0

控制器 · INFORMS · Performer · Principle · 不可约的 ·

PSEBench: A Controllable and Verifiable Benchmark for Evaluating LLMs in Patient Safety Event Triage

翻译：暂无翻译

Keqi Han,Ryan Young,Annabel Strauss,Lindsey Hughes,Katharine M. Nesbitt,Nicole Schueler,Che Ngufor,Carl Yang,Yuan Xue,Zhijun Yin

Patient safety event triage, determining whether a clinical event is reportable under jurisdiction-specific policy, is a high-stakes task typically performed manually by patient safety experts. Although LLMs may support this workflow, reliable evaluation is limited by the lack of benchmarks to capture evidence-grounded policy reasoning, proactive information seeking for incomplete reports, and principled abstention in irreducibly ambiguous cases. We address this gap with a policy-grounded construction methodology centered on the clause card, a structured representation that factorizes regulatory text into auditable decision specifications. Combining clause cards with anchor-driven instantiation and closed-loop verification, our scalable pipeline produces narratives with by-construction ground truth and naturally supports generating missing information and uncertain variants. We instantiate this method on Minnesota's 29 Reportable Adverse Health Events, producing PSEBench, a 5,074-case benchmark with an agentic evaluation environment. Evaluation on 15 representative LLMs reveals consistent capability trends, demonstrates the benchmark's utility, and identifies actionable gaps toward reliable LLM-based patient safety event triage.

翻译：暂无翻译

0

相关内容

控制器

具身AI安全综述：风险、攻击与防御

具身AI安全综述：风险、攻击与防御

专知会员服务

11+阅读 · 5月6日

管理 LLM 智能体中的演进式记忆：风险、机理及稳定性与安全性受控记忆（SSGM）框架

管理 LLM 智能体中的演进式记忆：风险、机理及稳定性与安全性受控记忆（SSGM）框架

专知会员服务

16+阅读 · 3月14日

ACL 2025 | 事件检索增强大语言模型生成

ACL 2025 | 事件检索增强大语言模型生成

专知会员服务

23+阅读 · 2025年7月18日

事件因果关系识别综述：原理、分类法、挑战与评估

事件因果关系识别综述：原理、分类法、挑战与评估

专知会员服务

44+阅读 · 2024年11月18日

最新！《信息技术服务应对突发公共安全事件的IT 风险管理》国家标准意见稿

最新！《信息技术服务应对突发公共安全事件的IT 风险管理》国家标准意见稿

专知会员服务

14+阅读 · 2022年7月3日

【斯坦福】从电子病历EHR构建知识图谱，Robustly Extracting Medical Knowledge from EHRs:A Case Study of Learning a Health Knowledge Graph

【斯坦福】从电子病历EHR构建知识图谱，Robustly Extracting Medical Knowledge from EHRs:A Case Study of Learning a Health Knowledge Graph

专知会员服务

56+阅读 · 2020年6月2日

【KDD2019|讲座推荐】时空事件预测与前兆识别：Spatio-temporal event forecasting and precursor identification

【KDD2019|讲座推荐】时空事件预测与前兆识别：Spatio-temporal event forecasting and precursor identification

专知会员服务

45+阅读 · 2019年12月6日

【元学习 | 论文】元学习与动态记忆为基础的原型网络的小样本突发事件检测，浙江大学，阿里巴巴

【元学习 | 论文】元学习与动态记忆为基础的原型网络的小样本突发事件检测，浙江大学，阿里巴巴

专知会员服务

57+阅读 · 2019年11月21日

Risk Sensitive Portfolio Optimization with Regime-Switching and Default Contagion，香港理工大学应用数学系余翔助理教授，第八届全国社会媒体处理大会SMP2019

Risk Sensitive Portfolio Optimization with Regime-Switching and Default Contagion，香港理工大学应用数学系余翔助理教授，第八届全国社会媒体处理大会SMP2019

专知会员服务

10+阅读 · 2019年10月24日

Aspect-Oriented Syntax Network for Aspect-Based Sentiment Analysis，中山大学数据科学与计算机学院权小军教授，第八届全国社会媒体处理大会SMP2019

Aspect-Oriented Syntax Network for Aspect-Based Sentiment Analysis，中山大学数据科学与计算机学院权小军教授，第八届全国社会媒体处理大会SMP2019

专知会员服务

19+阅读 · 2019年10月22日

细粒度情感分析任务（ABSA）的最新进展

细粒度情感分析任务（ABSA）的最新进展

PaperWeekly

18+阅读 · 2020年1月3日

赛尔原创 | EMNLP 2019 基于上下文感知的变分自编码器建模事件背景知识进行If-Then类型常识推理

赛尔原创 | EMNLP 2019 基于上下文感知的变分自编码器建模事件背景知识进行If-Then类型常识推理

哈工大SCIR

17+阅读 · 2019年9月23日

【泡泡图灵智库】使用平面特征IMU-Kinect融合SLAM的退化情况检测与补偿

【泡泡图灵智库】使用平面特征IMU-Kinect融合SLAM的退化情况检测与补偿

泡泡机器人SLAM

13+阅读 · 2019年9月20日

赛尔原创 | EMNLP 2019 常识信息增强的事件表示学习

赛尔原创 | EMNLP 2019 常识信息增强的事件表示学习

哈工大SCIR

28+阅读 · 2019年9月12日

【泡泡图灵智库】Detect-SLAM：目标检测和SLAM相互收益

【泡泡图灵智库】Detect-SLAM：目标检测和SLAM相互收益

泡泡机器人SLAM

14+阅读 · 2019年6月28日

自动驾驶功能安全评估：基于仿真的故障注入 | 厚势汽车

自动驾驶功能安全评估：基于仿真的故障注入 | 厚势汽车

厚势

14+阅读 · 2018年9月11日

论文浅尝 | 嵌入常识知识的注意力 LSTM 模型用于特定目标的基于侧面的情感分析

论文浅尝 | 嵌入常识知识的注意力 LSTM 模型用于特定目标的基于侧面的情感分析

开放知识图谱

28+阅读 · 2018年6月11日

Focal Loss for Dense Object Detection

Focal Loss for Dense Object Detection

统计学习与视觉计算组

12+阅读 · 2018年3月15日

论文浅尝 | Improved Neural Relation Detection for KBQA

论文浅尝 | Improved Neural Relation Detection for KBQA

开放知识图谱

13+阅读 · 2018年1月21日

原创 | Attention Modeling for Targeted Sentiment

原创 | Attention Modeling for Targeted Sentiment

黑龙江大学自然语言处理实验室

25+阅读 · 2017年11月5日

基于人际依赖理论的男男性接触者伴侣艾滋病高危性行为研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于概率校准和集成学习的出生缺陷发病风险预测模型研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向帕金森病的多模态在线预警方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

群体性突发事件预警的超网络方法研究

国家自然科学基金

2+阅读 · 2014年12月31日

基于非参数建模和下方风险控制的养老基金投资管理研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于视频分析的高密度人群踩踏事故风险防控方法研究

国家自然科学基金

2+阅读 · 2014年12月31日

自媒体环境下医患关系突发事件网络舆情演化与危机预警研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于公立医院动态人本化管理的医患冲突预警和干预模式构建

国家自然科学基金

1+阅读 · 2014年12月31日

MSM人群中HIV感染者生命质量评价及预警模型研究

国家自然科学基金

0+阅读 · 2014年12月31日

保险中两类随机最优控制问题及策略过程概率分布研究

国家自然科学基金

0+阅读 · 2014年12月31日

TSAssistant: A Human-in-the-Loop Agentic Framework for Automated Target Safety Assessment

Arxiv

0+阅读 · 6月18日

FFinRED: An Expert-Guided Benchmark Generation and Evaluation Framework for Financial LLM Red-Teaming

Arxiv

0+阅读 · 6月18日

Beyond Safe Data: Pretraining-Stage Alignment with Regular Safety Reflection

Beyond Safe Data: Pretraining-Stage Alignment with Regular Safety Reflection

Arxiv

0+阅读 · 6月17日

NeST: Neuron Selective Tuning for LLM Safety

Arxiv

0+阅读 · 6月12日

Transferable Self-Harm Surveillance from Emergency Department Triage Notes Using an Evidence-Augmented Machine Learning Approach

Arxiv

0+阅读 · 6月1日

Unpacking "Personal" Health Informatics for Proactive Collective Care

Arxiv

0+阅读 · 5月20日

PULSE: Agentic Investigation with Passive Sensing for Proactive Intervention in Cancer Survivorship

Arxiv

0+阅读 · 5月17日

Beyond Accuracy: Policy Invariance as a Reliability Test for LLM Safety Judges

Arxiv

0+阅读 · 5月7日

Improving Event Causality Identification via Self-Supervised Representation Learning on External Causal Statement

Arxiv

15+阅读 · 2021年6月3日

Meta-Learning with Dynamic-Memory-Based Prototypical Network for Few-Shot Event Detection

Arxiv

20+阅读 · 2019年10月25日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

3+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

5+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

6+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

7+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

11+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

10+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

7+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

11+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

7+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

15+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

8+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

6+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

8+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

8+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

10+阅读 · 6月17日

相关VIP内容

具身AI安全综述：风险、攻击与防御

具身AI安全综述：风险、攻击与防御

专知会员服务

11+阅读 · 5月6日

管理 LLM 智能体中的演进式记忆：风险、机理及稳定性与安全性受控记忆（SSGM）框架

管理 LLM 智能体中的演进式记忆：风险、机理及稳定性与安全性受控记忆（SSGM）框架

专知会员服务

16+阅读 · 3月14日

ACL 2025 | 事件检索增强大语言模型生成

ACL 2025 | 事件检索增强大语言模型生成

专知会员服务

23+阅读 · 2025年7月18日

事件因果关系识别综述：原理、分类法、挑战与评估

事件因果关系识别综述：原理、分类法、挑战与评估

专知会员服务

44+阅读 · 2024年11月18日

最新！《信息技术服务应对突发公共安全事件的IT 风险管理》国家标准意见稿

最新！《信息技术服务应对突发公共安全事件的IT 风险管理》国家标准意见稿

专知会员服务

14+阅读 · 2022年7月3日

【斯坦福】从电子病历EHR构建知识图谱，Robustly Extracting Medical Knowledge from EHRs:A Case Study of Learning a Health Knowledge Graph

【斯坦福】从电子病历EHR构建知识图谱，Robustly Extracting Medical Knowledge from EHRs:A Case Study of Learning a Health Knowledge Graph

专知会员服务

56+阅读 · 2020年6月2日

【KDD2019|讲座推荐】时空事件预测与前兆识别：Spatio-temporal event forecasting and precursor identification

【KDD2019|讲座推荐】时空事件预测与前兆识别：Spatio-temporal event forecasting and precursor identification

专知会员服务

45+阅读 · 2019年12月6日

【元学习 | 论文】元学习与动态记忆为基础的原型网络的小样本突发事件检测，浙江大学，阿里巴巴

【元学习 | 论文】元学习与动态记忆为基础的原型网络的小样本突发事件检测，浙江大学，阿里巴巴

专知会员服务

57+阅读 · 2019年11月21日

Risk Sensitive Portfolio Optimization with Regime-Switching and Default Contagion，香港理工大学应用数学系余翔助理教授，第八届全国社会媒体处理大会SMP2019

Risk Sensitive Portfolio Optimization with Regime-Switching and Default Contagion，香港理工大学应用数学系余翔助理教授，第八届全国社会媒体处理大会SMP2019

专知会员服务

10+阅读 · 2019年10月24日

Aspect-Oriented Syntax Network for Aspect-Based Sentiment Analysis，中山大学数据科学与计算机学院权小军教授，第八届全国社会媒体处理大会SMP2019

Aspect-Oriented Syntax Network for Aspect-Based Sentiment Analysis，中山大学数据科学与计算机学院权小军教授，第八届全国社会媒体处理大会SMP2019

专知会员服务

19+阅读 · 2019年10月22日

热门VIP内容

开通专知VIP会员享更多权益服务

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

相关资讯

细粒度情感分析任务（ABSA）的最新进展

细粒度情感分析任务（ABSA）的最新进展

PaperWeekly

18+阅读 · 2020年1月3日

赛尔原创 | EMNLP 2019 基于上下文感知的变分自编码器建模事件背景知识进行If-Then类型常识推理

赛尔原创 | EMNLP 2019 基于上下文感知的变分自编码器建模事件背景知识进行If-Then类型常识推理

哈工大SCIR

17+阅读 · 2019年9月23日

【泡泡图灵智库】使用平面特征IMU-Kinect融合SLAM的退化情况检测与补偿

【泡泡图灵智库】使用平面特征IMU-Kinect融合SLAM的退化情况检测与补偿

泡泡机器人SLAM

13+阅读 · 2019年9月20日

赛尔原创 | EMNLP 2019 常识信息增强的事件表示学习

赛尔原创 | EMNLP 2019 常识信息增强的事件表示学习

哈工大SCIR

28+阅读 · 2019年9月12日

【泡泡图灵智库】Detect-SLAM：目标检测和SLAM相互收益

【泡泡图灵智库】Detect-SLAM：目标检测和SLAM相互收益

泡泡机器人SLAM

14+阅读 · 2019年6月28日

自动驾驶功能安全评估：基于仿真的故障注入 | 厚势汽车

自动驾驶功能安全评估：基于仿真的故障注入 | 厚势汽车

厚势

14+阅读 · 2018年9月11日

论文浅尝 | 嵌入常识知识的注意力 LSTM 模型用于特定目标的基于侧面的情感分析

论文浅尝 | 嵌入常识知识的注意力 LSTM 模型用于特定目标的基于侧面的情感分析

开放知识图谱

28+阅读 · 2018年6月11日

Focal Loss for Dense Object Detection

Focal Loss for Dense Object Detection

统计学习与视觉计算组

12+阅读 · 2018年3月15日

论文浅尝 | Improved Neural Relation Detection for KBQA

论文浅尝 | Improved Neural Relation Detection for KBQA

开放知识图谱

13+阅读 · 2018年1月21日

原创 | Attention Modeling for Targeted Sentiment

原创 | Attention Modeling for Targeted Sentiment

黑龙江大学自然语言处理实验室

25+阅读 · 2017年11月5日

相关论文

TSAssistant: A Human-in-the-Loop Agentic Framework for Automated Target Safety Assessment

Arxiv

0+阅读 · 6月18日

FFinRED: An Expert-Guided Benchmark Generation and Evaluation Framework for Financial LLM Red-Teaming

Arxiv

0+阅读 · 6月18日

Beyond Safe Data: Pretraining-Stage Alignment with Regular Safety Reflection

Beyond Safe Data: Pretraining-Stage Alignment with Regular Safety Reflection

Arxiv

0+阅读 · 6月17日

NeST: Neuron Selective Tuning for LLM Safety

Arxiv

0+阅读 · 6月12日

Transferable Self-Harm Surveillance from Emergency Department Triage Notes Using an Evidence-Augmented Machine Learning Approach

Arxiv

0+阅读 · 6月1日

Unpacking "Personal" Health Informatics for Proactive Collective Care

Arxiv

0+阅读 · 5月20日

PULSE: Agentic Investigation with Passive Sensing for Proactive Intervention in Cancer Survivorship

Arxiv

0+阅读 · 5月17日

Beyond Accuracy: Policy Invariance as a Reliability Test for LLM Safety Judges

Arxiv

0+阅读 · 5月7日

Improving Event Causality Identification via Self-Supervised Representation Learning on External Causal Statement

Arxiv

15+阅读 · 2021年6月3日

Meta-Learning with Dynamic-Memory-Based Prototypical Network for Few-Shot Event Detection

Arxiv

20+阅读 · 2019年10月25日

相关基金

基于人际依赖理论的男男性接触者伴侣艾滋病高危性行为研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于概率校准和集成学习的出生缺陷发病风险预测模型研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向帕金森病的多模态在线预警方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

群体性突发事件预警的超网络方法研究

国家自然科学基金

2+阅读 · 2014年12月31日

基于非参数建模和下方风险控制的养老基金投资管理研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于视频分析的高密度人群踩踏事故风险防控方法研究

国家自然科学基金

2+阅读 · 2014年12月31日

自媒体环境下医患关系突发事件网络舆情演化与危机预警研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于公立医院动态人本化管理的医患冲突预警和干预模式构建

国家自然科学基金

1+阅读 · 2014年12月31日

MSM人群中HIV感染者生命质量评价及预警模型研究

国家自然科学基金

0+阅读 · 2014年12月31日

保险中两类随机最优控制问题及策略过程概率分布研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员