This paper presents an overview of the ClinicalSkillQA 2026 shared task, which was organized with the BioNLP Workshop at ACL 2026. The goal of this shared task is to evaluate continuous perception and procedural reasoning in clinical skill assessment by requiring systems to reconstruct the correct temporal order of shuffled clinical key frames and generate rationales grounded in clinical workflow knowledge. The benchmark contains 200 test-only instances sampled from clinical skill videos, covering three emergency-care procedures. Each instance is annotated with the ground-truth temporal order and an expert-verified rationale. A total of seven teams participated in the task, collectively making 90 submissions, with four teams providing system description papers. Systems are evaluated using Task Accuracy, Pairwise Accuracy, and BERTScore, which measure exact sequence reconstruction, local temporal consistency, and rationale quality, respectively. In this paper, we describe the task setup, dataset construction, and evaluation criteria. We further summarize the methodologies adopted by participating teams and present a comprehensive analysis of the submitted systems. The official results suggest that current models still struggle with continuous perception and procedural reasoning, especially when they must integrate visual evidence, temporal structure, and clinical workflow knowledge.


翻译:本文介绍了ClinicalSkillQA 2026共享任务的概况,该任务与ACL 2026的BioNLP研讨会联合举办。该共享任务旨在评估临床技能评估中的连续感知与程序推理能力,要求系统重建打乱的临床关键帧的正确时间顺序,并基于临床工作流知识生成推理依据。基准测试包含200个仅用于测试的样本,这些样本来源于临床技能视频,涵盖三种急诊护理操作。每个样本均标注了真实时间顺序和专家验证的推理依据。共有七个团队参与该任务,累计提交了90份结果,其中四个团队提供了系统描述论文。系统评估指标包括任务准确率(Task Accuracy)、成对准确率(Pairwise Accuracy)和BERTScore(BERTScore),分别衡量精确序列重建、局部时间一致性和推理依据质量。本文描述了任务设置、数据集构建和评估标准,进一步总结了参赛团队采用的方法,并对提交的系统进行了全面分析。官方结果表明,当前模型在处理连续感知与程序推理方面仍面临挑战,尤其是在需要整合视觉证据、时间结构和临床工作流知识时。

0
下载
关闭预览

相关内容

让 iOS 8 和 OS X Yosemite 无缝切换的一个新特性。 > Apple products have always been designed to work together beautifully. But now they may really surprise you. With iOS 8 and OS X Yosemite, you’ll be able to do more wonderful things than ever before.

Source: Apple - iOS 8
神经图推理:复杂逻辑查询回答的综述
专知会员服务
28+阅读 · 2024年12月10日
专知会员服务
13+阅读 · 2021年10月6日
【RecSys2020干货教程】对抗机器学习推荐系统,186页ppt
专知会员服务
53+阅读 · 2020年10月10日
细粒度情感分析任务(ABSA)的最新进展
PaperWeekly
18+阅读 · 2020年1月3日
综述:Image Caption 任务之语句多样性
PaperWeekly
22+阅读 · 2018年11月30日
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
36+阅读 · 2013年12月31日
Arxiv
0+阅读 · 6月10日
VIP会员
最新内容
无人机自主控制与人工智能:系统性综述
专知会员服务
1+阅读 · 7分钟前
巡飞弹与反无人机系统——现代战场的两大支柱
专知会员服务
1+阅读 · 38分钟前
《打造“黄金舰队”》57页报告
专知会员服务
0+阅读 · 40分钟前
《北约数字教官网络发展路径》128页报告
专知会员服务
1+阅读 · 59分钟前
ECCV 2026 | MIMFlow:MIM与归一化流统一图像生成
专知会员服务
6+阅读 · 6月25日
网状网络及其在军事领域的运用
专知会员服务
7+阅读 · 6月25日
无美国参与的欧洲战争方式(万字长文)
专知会员服务
8+阅读 · 6月25日
《国防领域敏感性分析白皮书》
专知会员服务
8+阅读 · 6月25日
综述 | 从问答到任务完成:Agent系统与Harness设计
Agentic RL:框架、实践与长程智能体训练
专知会员服务
10+阅读 · 6月24日
相关VIP内容
神经图推理:复杂逻辑查询回答的综述
专知会员服务
28+阅读 · 2024年12月10日
专知会员服务
13+阅读 · 2021年10月6日
【RecSys2020干货教程】对抗机器学习推荐系统,186页ppt
专知会员服务
53+阅读 · 2020年10月10日
相关基金
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
36+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员