Motivation: Patient-generated text contains critical information on patients' lived experiences, social context, and care engagement, but remains largely unstructured, limiting its use in patient-centered outcomes research. Prior work introduced the PV-Miner benchmark and PVMinerLLM models for structured extraction. However, supervised fine-tuning (SFT) alone struggles with rare, fine-grained, and unevenly distributed errors, particularly in token-critical structured outputs. Results: We present PVminerLLM2, an improved set of LLMs for structured patient voice extraction that applies preference optimization to address token-critical errors beyond the reach of supervised fine-tuning. Our method introduces (i) a preference objective with token-level gated stabilization term that prevents degradation of absolute token likelihood under preference optimization, and (ii) confusion-aware preference pair construction to better capture low-separation distinctions. We further incorporate token-importance weighting and inverse-frequency reweighing to address token imbalance and class skew. Across multiple model sizes, PVMinerLLM2 consistently outperforms strong baselines, achieving gains of up to 4.43% (Code), 3.50% (Sub-code), and 1.55% (Span), and outperforms baseline LLM trained with existing preference optimization methods. Availability and Implementation: The supplementary material, code, evaluation scripts, and trained models for PVminerLLM2 are publicly available at: https://github.com/Data-Mining-Lab-Yale/PVminerLLM2


翻译:动机:患者生成的文本包含患者生活体验、社会环境与护理参与的关键信息,但大多为非结构化形式,限制了其在以患者为中心的结果研究中的应用。前期工作提出了PV-Miner基准测试及PVMinerLLM模型用于结构化提取。然而,仅靠监督微调(SFT)难以处理罕见、细粒度且分布不均的错误,尤其是在对token关键的结构化输出中。结果:我们提出PVminerLLM2——一组经过改进的大语言模型,通过应用偏好优化来解决监督微调无法触及的token关键错误。本方法引入了:(i) 带有token级门控稳定项的偏好目标,可防止偏好优化下绝对token似然值的退化;(ii) 基于混淆感知的偏好对构建策略,以更好捕捉低区分度的差异。我们进一步引入token重要性加权与逆频率重加权,以应对token不平衡与类别偏斜问题。在多个模型规模下,PVMinerLLM2始终优于强基线模型,在代码、子代码和跨度任务上分别取得了最高4.43%、3.50%和1.55%的性能提升,并超越了采用现有偏好优化方法训练的基线大语言模型。可用性与实现:PVminerLLM2的补充材料、代码、评估脚本及训练模型已公开于:https://github.com/Data-Mining-Lab-Yale/PVminerLLM2

0
下载
关闭预览

相关内容

【斯坦福大学博士论文】个性化机器学习的理论进展
专知会员服务
25+阅读 · 2025年3月25日
多样化偏好优化
专知会员服务
12+阅读 · 2025年2月3日
详解ORB-SLAM2中的特征均匀提取策略
计算机视觉life
11+阅读 · 2019年10月9日
论文浅尝 | 基于深度强化学习的远程监督数据集的降噪
开放知识图谱
29+阅读 · 2019年1月17日
论文浅尝 | 基于局内去噪和迁移学习的关系抽取
开放知识图谱
16+阅读 · 2018年12月2日
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
ECCV 2026 | MIMFlow:MIM与归一化流统一图像生成
专知会员服务
2+阅读 · 今天11:43
网状网络及其在军事领域的运用
专知会员服务
5+阅读 · 今天6:18
无美国参与的欧洲战争方式(万字长文)
专知会员服务
6+阅读 · 今天5:54
《国防领域敏感性分析白皮书》
专知会员服务
7+阅读 · 今天3:42
综述 | 从问答到任务完成:Agent系统与Harness设计
Agentic RL:框架、实践与长程智能体训练
专知会员服务
7+阅读 · 6月24日
重新思考无人机时代的生存能力
专知会员服务
9+阅读 · 6月24日
装甲突击旅:现代战争思考、战斗与组织
专知会员服务
7+阅读 · 6月24日
在人工智能加速决策环境中拓展OODA循环
专知会员服务
9+阅读 · 6月24日
相关VIP内容
【斯坦福大学博士论文】个性化机器学习的理论进展
专知会员服务
25+阅读 · 2025年3月25日
多样化偏好优化
专知会员服务
12+阅读 · 2025年2月3日
相关基金
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员