Cite-While-You-Generate: Training-Free Evidence Attribution for Multimodal Clinical Summarization - 专知论文

会员服务 ·

0

多模 · 模态 · 多模态 · 片段 · 嵌入 ·

Cite-While-You-Generate: Training-Free Evidence Attribution for Multimodal Clinical Summarization

翻译：边生成边引用：面向多模态临床摘要的无训练证据归因方法

Qianqi Yan,Huy Nguyen,Sumana Srivatsa,Hari Bandi,Xin Eric Wang,Krishnaram Kenthapadi

Trustworthy clinical summarization requires not only fluent generation but also transparency about where each statement comes from. We propose a training-free framework for generation-time source attribution that leverages decoder attentions to directly cite supporting text spans or images, overcoming the limitations of post-hoc or retraining-based methods. We introduce two strategies for multimodal attribution: a raw image mode, which directly uses image patch attentions, and a caption-as-span mode, which substitutes images with generated captions to enable purely text-based alignment. Evaluations on two representative domains: clinician-patient dialogues (CliConSummation) and radiology reports (MIMIC-CXR), show that our approach consistently outperforms embedding-based and self-attribution baselines, improving both text-level and multimodal attribution accuracy (e.g., +15% F1 over embedding baselines). Caption-based attribution achieves competitive performance with raw-image attention while being more lightweight and practical. These findings highlight attention-guided attribution as a promising step toward interpretable and deployable clinical summarization systems.

翻译：可信的临床摘要不仅需要流畅的生成，还需明确陈述来源。我们提出了一种无需训练、在生成时进行来源归因的框架，该框架利用解码器注意力机制直接引用支持性文本片段或图像，克服了事后归因或基于重训练方法的局限性。我们引入了两种多模态归因策略：原始图像模式，直接利用图像块注意力；以及标题即片段模式，用生成的标题替代图像，实现纯文本对齐。在两个代表性领域进行评估：临床医患对话（CliConSummation）和放射学报告（MIMIC-CXR），结果表明，我们的方法在基于嵌入和自归因基线方法上均表现更优，提升了文本层面和多模态归因的准确性（例如，F1分数比嵌入基线提高15%）。基于标题的归因在保持与原始图像注意力相当性能的同时，更为轻量且实用。这些发现凸显了注意力引导的归因作为迈向可解释、可部署临床摘要系统的重要一步。

0

相关内容

何恺明NeurIPS 2024论文《无条件生成的回归：一种自监督表征生成方法》

何恺明NeurIPS 2024论文《无条件生成的回归：一种自监督表征生成方法》

专知会员服务

21+阅读 · 2024年11月4日

《大型语言模型归因》综述

《大型语言模型归因》综述

专知会员服务

75+阅读 · 2023年11月8日

【英国萨里大学】神经文本生成的研究进展:任务无关的综述，Recent Advances in Neural Text Generation: A Task-Agnostic Survey

【英国萨里大学】神经文本生成的研究进展:任务无关的综述，Recent Advances in Neural Text Generation: A Task-Agnostic Survey

专知会员服务

19+阅读 · 2022年3月8日

【CVPR 2022】多模态视频字幕的端到端生成预训练，End-to-end Generative Pretraining for Multimodal Video Captioning

【CVPR 2022】多模态视频字幕的端到端生成预训练，End-to-end Generative Pretraining for Multimodal Video Captioning

专知会员服务

27+阅读 · 2022年3月3日

【AAAI 2022】用于文本摘要任务的序列级对比学习模型

【AAAI 2022】用于文本摘要任务的序列级对比学习模型

专知会员服务

25+阅读 · 2022年1月11日

首篇「多模态摘要」综述论文

首篇「多模态摘要」综述论文

专知会员服务

106+阅读 · 2021年9月14日

多模态摘要简述

专知会员服务

149+阅读 · 2020年9月6日

【图机器学习论文】图摘要方法与应用综述（Graph Summarization Methods and Applications: A Survey）

【图机器学习论文】图摘要方法与应用综述（Graph Summarization Methods and Applications: A Survey）

专知会员服务

42+阅读 · 2019年12月16日

From Data to Model Programming: Injecting Structured Priors for Knowledge Extraction，南加州大学计算机科学系任翔助理教授，CIPS ATT 16（2019）

From Data to Model Programming: Injecting Structured Priors for Knowledge Extraction，南加州大学计算机科学系任翔助理教授，CIPS ATT 16（2019）

专知会员服务

14+阅读 · 2019年10月25日

视频摘要最新综述文章，Video Skimming: Taxonomy and Comprehensive Survey

视频摘要最新综述文章，Video Skimming: Taxonomy and Comprehensive Survey

专知会员服务

30+阅读 · 2019年10月13日

AAAI 2020 | 多模态基准指导的生成式多模态自动文摘

AAAI 2020 | 多模态基准指导的生成式多模态自动文摘

AI科技评论

16+阅读 · 2020年1月5日

【论文笔记】基于强化学习的句子摘要排序

【论文笔记】基于强化学习的句子摘要排序

专知

19+阅读 · 2019年9月14日

面试题：文本摘要中的NLP技术

面试题：文本摘要中的NLP技术

七月在线实验室

15+阅读 · 2019年5月13日

用深度学习做文本摘要

用深度学习做文本摘要

专知

24+阅读 · 2019年3月30日

最新论文解读 | 基于预训练自然语言生成的文本摘要方法

最新论文解读 | 基于预训练自然语言生成的文本摘要方法

微软研究院AI头条

57+阅读 · 2019年3月19日

微软最新论文解读 | 基于预训练自然语言生成的文本摘要方法

微软最新论文解读 | 基于预训练自然语言生成的文本摘要方法

PaperWeekly

14+阅读 · 2019年3月18日

干货｜当深度学习遇见自动文本摘要，seq2seq+attention

干货｜当深度学习遇见自动文本摘要，seq2seq+attention

机器学习算法与Python学习

10+阅读 · 2018年5月28日

【论文推荐】最新六篇图像描述生成相关论文—视频摘要、注意力张量积、非自回归神经序列模型、副词识别、多主体、多样性度量

【论文推荐】最新六篇图像描述生成相关论文—视频摘要、注意力张量积、非自回归神经序列模型、副词识别、多主体、多样性度量

专知

10+阅读 · 2018年3月2日

深度强化学习首次在无监督视频摘要生成问题中的应用：实现state-of-the-art效果

深度强化学习首次在无监督视频摘要生成问题中的应用：实现state-of-the-art效果

专知

26+阅读 · 2018年1月21日

论文报告 | Graph-based Neural Multi-Document Summarization

论文报告 | Graph-based Neural Multi-Document Summarization

科技创新与创业

15+阅读 · 2017年12月15日

面向跨领域异构数据的患者相似性学习方法及应用

国家自然科学基金

23+阅读 · 2016年12月31日

面向特征提取的低秩与稀疏图嵌入理论与算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于多源异构不确定数据的高效用信息挖掘的研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于深度学习的多尺度本质图像提取方法

国家自然科学基金

5+阅读 · 2015年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向在线检索的医学影像多特征降维方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于复杂语义的个性化图像集摘要研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于生态演替的文本大数据特征学习研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

Prompts to Summaries: Zero-Shot Language-Guided Video Summarization with Large Language and Video Models

Arxiv

0+阅读 · 2月17日

Chain of Summaries: Summarization Through Iterative Questioning

Arxiv

0+阅读 · 2月16日

Prompts to Summaries: Zero-Shot Language-Guided Video Summarization

Arxiv

0+阅读 · 2月15日

TraceBack: Multi-Agent Decomposition for Fine-Grained Table Attribution

Arxiv

0+阅读 · 2月13日

Multimodal Fact-Level Attribution for Verifiable Reasoning

Arxiv

0+阅读 · 2月12日

Reducing Aleatoric and Epistemic Uncertainty through Multi-modal Data Acquisition

Arxiv

0+阅读 · 2月9日

Training-Free Self-Correction for Multimodal Masked Diffusion Models

Arxiv

0+阅读 · 2月2日

A Monosemantic Attribution Framework for Stable Interpretability in Clinical Neuroscience Large Language Models

Arxiv

0+阅读 · 1月25日

Semantic-Guided Unsupervised Video Summarization

Arxiv

0+阅读 · 1月21日

sui-1: Grounded and Verifiable Long-Form Summarization

Arxiv

0+阅读 · 1月13日

VIP会员

文章信息

相关主题

最新内容

大语言模型平台在国防情报应用中的对比

大语言模型平台在国防情报应用中的对比

专知会员服务

3+阅读 · 今天3:12

美陆军“增强任务分析”实验：将人工智能集成到军事决策流程中

美陆军“增强任务分析”实验：将人工智能集成到军事决策流程中

专知会员服务

4+阅读 · 今天3:00

《面向安全态势自适应决策的情报信息系统与机器学习算法研究》

《面向安全态势自适应决策的情报信息系统与机器学习算法研究》

专知会员服务

2+阅读 · 今天2:56

《杀伤链中人类判断的终结？论AI智能体对主动权与解释权的重置》

《杀伤链中人类判断的终结？论AI智能体对主动权与解释权的重置》

专知会员服务

1+阅读 · 今天2:44

《仿真互操作性标准：实时平台参考联邦对象模型指南、原理与互操作性模式标准》300页

《仿真互操作性标准：实时平台参考联邦对象模型指南、原理与互操作性模式标准》300页

专知会员服务

3+阅读 · 今天2:37

《自主远程巡飞弹药打击系统的嵌入式人工智能感知框架》

《自主远程巡飞弹药打击系统的嵌入式人工智能感知框架》

专知会员服务

2+阅读 · 今天2:22

美海军“超配项目”

美海军“超配项目”

专知会员服务

1+阅读 · 今天2:13

《美陆军条例：陆军指挥政策（2026版）》

《美陆军条例：陆军指挥政策（2026版）》

专知会员服务

10+阅读 · 4月21日

《提升美军全域城市作战训练最佳实践的案例研究》366页

《提升美军全域城市作战训练最佳实践的案例研究》366页

专知会员服务

12+阅读 · 4月21日

《军用自主人工智能系统的治理与安全》

《军用自主人工智能系统的治理与安全》

专知会员服务

7+阅读 · 4月21日

美海军数字作战负责人：如何利用数据快速生成战斗力

美海军数字作战负责人：如何利用数据快速生成战斗力

专知会员服务

8+阅读 · 4月21日

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

专知会员服务

11+阅读 · 4月20日

《系统簇式多域作战规划范畴论框架》

《系统簇式多域作战规划范畴论框架》

专知会员服务

10+阅读 · 4月20日

《美国防部指令6130.03，第2卷服役医疗标准：保留》

《美国防部指令6130.03，第2卷服役医疗标准：保留》

专知会员服务

6+阅读 · 4月20日

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

专知会员服务

4+阅读 · 4月20日

相关VIP内容

何恺明NeurIPS 2024论文《无条件生成的回归：一种自监督表征生成方法》

何恺明NeurIPS 2024论文《无条件生成的回归：一种自监督表征生成方法》

专知会员服务

21+阅读 · 2024年11月4日

《大型语言模型归因》综述

《大型语言模型归因》综述

专知会员服务

75+阅读 · 2023年11月8日

【英国萨里大学】神经文本生成的研究进展:任务无关的综述，Recent Advances in Neural Text Generation: A Task-Agnostic Survey

【英国萨里大学】神经文本生成的研究进展:任务无关的综述，Recent Advances in Neural Text Generation: A Task-Agnostic Survey

专知会员服务

19+阅读 · 2022年3月8日

【CVPR 2022】多模态视频字幕的端到端生成预训练，End-to-end Generative Pretraining for Multimodal Video Captioning

【CVPR 2022】多模态视频字幕的端到端生成预训练，End-to-end Generative Pretraining for Multimodal Video Captioning

专知会员服务

27+阅读 · 2022年3月3日

【AAAI 2022】用于文本摘要任务的序列级对比学习模型

【AAAI 2022】用于文本摘要任务的序列级对比学习模型

专知会员服务

25+阅读 · 2022年1月11日

首篇「多模态摘要」综述论文

首篇「多模态摘要」综述论文

专知会员服务

106+阅读 · 2021年9月14日

多模态摘要简述

专知会员服务

149+阅读 · 2020年9月6日

【图机器学习论文】图摘要方法与应用综述（Graph Summarization Methods and Applications: A Survey）

【图机器学习论文】图摘要方法与应用综述（Graph Summarization Methods and Applications: A Survey）

专知会员服务

42+阅读 · 2019年12月16日

From Data to Model Programming: Injecting Structured Priors for Knowledge Extraction，南加州大学计算机科学系任翔助理教授，CIPS ATT 16（2019）

From Data to Model Programming: Injecting Structured Priors for Knowledge Extraction，南加州大学计算机科学系任翔助理教授，CIPS ATT 16（2019）

专知会员服务

14+阅读 · 2019年10月25日

视频摘要最新综述文章，Video Skimming: Taxonomy and Comprehensive Survey

视频摘要最新综述文章，Video Skimming: Taxonomy and Comprehensive Survey

专知会员服务

30+阅读 · 2019年10月13日

热门VIP内容

开通专知VIP会员享更多权益服务

美陆军“增强任务分析”实验：将人工智能集成到军事决策流程中

《杀伤链中人类判断的终结？论AI智能体对主动权与解释权的重置》

大语言模型平台在国防情报应用中的对比

《面向安全态势自适应决策的情报信息系统与机器学习算法研究》

相关资讯

AAAI 2020 | 多模态基准指导的生成式多模态自动文摘

AAAI 2020 | 多模态基准指导的生成式多模态自动文摘

AI科技评论

16+阅读 · 2020年1月5日

【论文笔记】基于强化学习的句子摘要排序

【论文笔记】基于强化学习的句子摘要排序

专知

19+阅读 · 2019年9月14日

面试题：文本摘要中的NLP技术

面试题：文本摘要中的NLP技术

七月在线实验室

15+阅读 · 2019年5月13日

用深度学习做文本摘要

用深度学习做文本摘要

专知

24+阅读 · 2019年3月30日

最新论文解读 | 基于预训练自然语言生成的文本摘要方法

最新论文解读 | 基于预训练自然语言生成的文本摘要方法

微软研究院AI头条

57+阅读 · 2019年3月19日

微软最新论文解读 | 基于预训练自然语言生成的文本摘要方法

微软最新论文解读 | 基于预训练自然语言生成的文本摘要方法

PaperWeekly

14+阅读 · 2019年3月18日

干货｜当深度学习遇见自动文本摘要，seq2seq+attention

干货｜当深度学习遇见自动文本摘要，seq2seq+attention

机器学习算法与Python学习

10+阅读 · 2018年5月28日

【论文推荐】最新六篇图像描述生成相关论文—视频摘要、注意力张量积、非自回归神经序列模型、副词识别、多主体、多样性度量

【论文推荐】最新六篇图像描述生成相关论文—视频摘要、注意力张量积、非自回归神经序列模型、副词识别、多主体、多样性度量

专知

10+阅读 · 2018年3月2日

深度强化学习首次在无监督视频摘要生成问题中的应用：实现state-of-the-art效果

深度强化学习首次在无监督视频摘要生成问题中的应用：实现state-of-the-art效果

专知

26+阅读 · 2018年1月21日

论文报告 | Graph-based Neural Multi-Document Summarization

论文报告 | Graph-based Neural Multi-Document Summarization

科技创新与创业

15+阅读 · 2017年12月15日

相关论文

Prompts to Summaries: Zero-Shot Language-Guided Video Summarization with Large Language and Video Models

Arxiv

0+阅读 · 2月17日

Chain of Summaries: Summarization Through Iterative Questioning

Arxiv

0+阅读 · 2月16日

Prompts to Summaries: Zero-Shot Language-Guided Video Summarization

Arxiv

0+阅读 · 2月15日

TraceBack: Multi-Agent Decomposition for Fine-Grained Table Attribution

Arxiv

0+阅读 · 2月13日

Multimodal Fact-Level Attribution for Verifiable Reasoning

Arxiv

0+阅读 · 2月12日

Reducing Aleatoric and Epistemic Uncertainty through Multi-modal Data Acquisition

Arxiv

0+阅读 · 2月9日

Training-Free Self-Correction for Multimodal Masked Diffusion Models

Arxiv

0+阅读 · 2月2日

A Monosemantic Attribution Framework for Stable Interpretability in Clinical Neuroscience Large Language Models

Arxiv

0+阅读 · 1月25日

Semantic-Guided Unsupervised Video Summarization

Arxiv

0+阅读 · 1月21日

sui-1: Grounded and Verifiable Long-Form Summarization

Arxiv

0+阅读 · 1月13日

相关基金

面向跨领域异构数据的患者相似性学习方法及应用

国家自然科学基金

23+阅读 · 2016年12月31日

面向特征提取的低秩与稀疏图嵌入理论与算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于多源异构不确定数据的高效用信息挖掘的研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于深度学习的多尺度本质图像提取方法

国家自然科学基金

5+阅读 · 2015年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向在线检索的医学影像多特征降维方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于复杂语义的个性化图像集摘要研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于生态演替的文本大数据特征学习研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员