We introduce TeMLM, a set of transparency-first release artifacts for clinical language models. TeMLM unifies provenance, data transparency, modeling transparency, and governance into a single, machine-checkable release bundle. We define an artifact suite (TeMLM-Card, TeMLM-Datasheet, TeMLM-Provenance) and a lightweight conformance checklist for repeatable auditing. We instantiate the artifacts on Technetium-I, a large-scale synthetic clinical NLP dataset with 498,000 notes, 7.74M PHI entity annotations across 10 types, and ICD-9-CM diagnosis labels, and report reference results for ProtactiniumBERT (about 100 million parameters) on PHI de-identification (token classification) and top-50 ICD-9 code extraction (multi-label classification). We emphasize that synthetic benchmarks are valuable for tooling and process validation, but models should be validated on real clinical data prior to deployment.


翻译:我们提出TeMLM,一套面向临床语言模型的透明优先发布构件。TeMLM将数据溯源、数据透明度、建模透明度与治理机制统一整合至单一可机器校验的发布包中。我们定义了一套构件体系(TeMLM-Card、TeMLM-Datasheet、TeMLM-Provenance)及用于可重复审计的轻量级合规检查表。我们在Technetium-I数据集上实例化了该构件体系——这是一个包含49.8万份临床记录、覆盖10类实体共774万个受保护健康信息(PHI)标注及ICD-9-CM诊断标签的大规模合成临床NLP数据集,并报告了ProtactiniumBERT模型(约1亿参数)在PHI去标识化(令牌分类)和ICD-9前50位编码提取(多标签分类)任务上的基准结果。我们强调,合成基准对工具链和流程验证具有重要价值,但模型在部署前仍需通过真实临床数据的验证。

0
下载
关闭预览

相关内容

医学领域大型语言模型的新进展
专知会员服务
25+阅读 · 2025年10月5日
【MIT博士论文】医学人工智能中的自然语言基础模型
专知会员服务
15+阅读 · 2025年4月2日
大规模语言模型在生物信息学中的应用
专知会员服务
18+阅读 · 2025年1月16日
大语言模型中的提示隐私保护
专知会员服务
24+阅读 · 2024年7月24日
大型语言模型的高效提示方法综述
专知会员服务
75+阅读 · 2024年4月2日
Nat. Med. | 医学中的大型语言模型
专知会员服务
58+阅读 · 2023年9月19日
LLM in Medical Domain: 大语言模型在医学领域的应用
专知会员服务
103+阅读 · 2023年6月17日
金融领域自然语言处理研究资源大列表
专知
13+阅读 · 2020年2月27日
NLP不同任务Tensorflow深度学习模型大全
专知
10+阅读 · 2019年3月19日
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
2025年大语言模型进展报告
专知会员服务
8+阅读 · 4月25日
多智能体协作机制
专知会员服务
8+阅读 · 4月25日
非对称优势:美海军开发低成本反无人机技术
专知会员服务
9+阅读 · 4月25日
《美战争部小企业创新研究(SBIR)计划》
专知会员服务
8+阅读 · 4月25日
《军事模拟:将军事条令与目标融入AI智能体》
专知会员服务
12+阅读 · 4月25日
【NTU博士论文】3D人体动作生成
专知会员服务
9+阅读 · 4月24日
以色列军事技术对美国军力发展的持续性赋能
专知会员服务
9+阅读 · 4月24日
《深度强化学习在兵棋推演中的应用》40页报告
专知会员服务
16+阅读 · 4月24日
《多域作战面临复杂现实》
专知会员服务
13+阅读 · 4月24日
《印度的多域作战:条令与能力发展》报告
专知会员服务
6+阅读 · 4月24日
相关VIP内容
医学领域大型语言模型的新进展
专知会员服务
25+阅读 · 2025年10月5日
【MIT博士论文】医学人工智能中的自然语言基础模型
专知会员服务
15+阅读 · 2025年4月2日
大规模语言模型在生物信息学中的应用
专知会员服务
18+阅读 · 2025年1月16日
大语言模型中的提示隐私保护
专知会员服务
24+阅读 · 2024年7月24日
大型语言模型的高效提示方法综述
专知会员服务
75+阅读 · 2024年4月2日
Nat. Med. | 医学中的大型语言模型
专知会员服务
58+阅读 · 2023年9月19日
LLM in Medical Domain: 大语言模型在医学领域的应用
专知会员服务
103+阅读 · 2023年6月17日
相关基金
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员