Disentangling Ambiguity from Instability in Large Language Models: A Clinical Text-to-SQL Case Study - 专知论文

会员服务 ·

0

不稳定 · SQL · 文本到SQL · CLUES · 不确定 ·

Disentangling Ambiguity from Instability in Large Language Models: A Clinical Text-to-SQL Case Study

翻译：解耦大型语言模型中的歧义与不稳定性：一项临床文本到SQL的案例研究

Angelo Ziletti,Leonardo D'Ambrosi

Deploying large language models for clinical Text-to-SQL requires distinguishing two qualitatively different causes of output diversity: (i) input ambiguity that should trigger clarification, and (ii) model instability that should trigger human review. We propose CLUES, a framework that models Text-to-SQL as a two-stage process (interpretations --> answers) and decomposes semantic uncertainty into an ambiguity score and an instability score. The instability score is computed via the Schur complement of a bipartite semantic graph matrix. Across AmbigQA/SituatedQA (gold interpretations) and a clinical Text-to-SQL benchmark (known interpretations), CLUES improves failure prediction over state-of-the-art Kernel Language Entropy. In deployment settings, it remains competitive while providing a diagnostic decomposition unavailable from a single score. The resulting uncertainty regimes map to targeted interventions - query refinement for ambiguity, model improvement for instability. The high-ambiguity/high-instability regime contains 51% of errors while covering 25% of queries, enabling efficient triage.

翻译：部署大型语言模型用于临床文本到SQL任务时，需要区分两种性质不同的输出多样性成因：(i) 应当触发澄清流程的输入歧义，以及(ii) 应当触发人工审核的模型不稳定性。我们提出CLUES框架，将文本到SQL建模为两阶段过程（语义解释 → 答案生成），并将语义不确定性分解为歧义分数与不稳定性分数。不稳定性分数通过二分语义图矩阵的舒尔补进行计算。在AmbigQA/SituatedQA（含标准语义解释）和临床文本到SQL基准测试（含已知语义解释）上的实验表明，CLUES在失败预测方面优于最先进的核语言熵方法。在部署环境中，该框架在保持竞争力的同时，提供了单一分数无法实现的诊断性分解。由此划分的不确定性区域可映射至针对性干预措施——针对歧义进行查询优化，针对不稳定性实施模型改进。高歧义/高不稳定性区域覆盖了25%的查询，却包含了51%的错误，实现了高效的错误分级处理。

0

相关内容

不稳定

面向大语言模型对齐的机械解释性：进展、挑战与未来方向

面向大语言模型对齐的机械解释性：进展、挑战与未来方向

专知会员服务

14+阅读 · 2月14日

【AAAI2026教程】大语言模型的结构化表征学习：可解释性、鲁棒性与迁移性研究，152页ppt

【AAAI2026教程】大语言模型的结构化表征学习：可解释性、鲁棒性与迁移性研究，152页ppt

专知会员服务

31+阅读 · 1月24日

大型语言模型遇上文本属性图：一种融合框架与应用的综述

大型语言模型遇上文本属性图：一种融合框架与应用的综述

专知会员服务

10+阅读 · 2025年10月27日

探索大型语言模型在文本到SQL的应用：进展、挑战与机遇

探索大型语言模型在文本到SQL的应用：进展、挑战与机遇

专知会员服务

18+阅读 · 2025年6月2日

大语言模型与小语言模型协同机制综述

大语言模型与小语言模型协同机制综述

专知会员服务

40+阅读 · 2025年5月15日

【CMU博士论文】使用结构化推理增强语言模型，320页pdf

【CMU博士论文】使用结构化推理增强语言模型，320页pdf

专知会员服务

34+阅读 · 2024年6月29日

【博士论文】理解大型语言模型：使用探针分类器和自合理化实现严格和有针对性的可解释性，109页pdf

【博士论文】理解大型语言模型：使用探针分类器和自合理化实现严格和有针对性的可解释性，109页pdf

专知会员服务

40+阅读 · 2024年4月14日

Text2SQL 针对表格数据的自然语言接口查询与可视化：一项综述

Text2SQL 针对表格数据的自然语言接口查询与可视化：一项综述

专知会员服务

58+阅读 · 2023年10月30日

【斯坦福】临床文本摘要：适应大型语言模型可超越人类专家

【斯坦福】临床文本摘要：适应大型语言模型可超越人类专家

专知会员服务

25+阅读 · 2023年9月16日

大模型如何可解释？新泽西理工学院等最新《大型语言模型可解释性》综述

大模型如何可解释？新泽西理工学院等最新《大型语言模型可解释性》综述

专知会员服务

98+阅读 · 2023年9月11日

《文本分类大综述：从浅层到深度学习》最新2020版35页pdf

《文本分类大综述：从浅层到深度学习》最新2020版35页pdf

专知

59+阅读 · 2020年8月6日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

深度学习模型不确定性方法对比

深度学习模型不确定性方法对比

PaperWeekly

20+阅读 · 2020年2月10日

Keras新增TextVectorization层，可直接将文本字符串作为模型输入

Keras新增TextVectorization层，可直接将文本字符串作为模型输入

专知

19+阅读 · 2019年11月22日

【论文笔记】韩家炜团队AutoPhrase：从大量文本库中自动挖掘短语

【论文笔记】韩家炜团队AutoPhrase：从大量文本库中自动挖掘短语

专知

41+阅读 · 2019年11月2日

【泡泡图灵智库】ContextDesc：用跨模态上下文增强的局部描述子

【泡泡图灵智库】ContextDesc：用跨模态上下文增强的局部描述子

泡泡机器人SLAM

34+阅读 · 2019年9月18日

「PPT」深度学习中的不确定性估计

「PPT」深度学习中的不确定性估计

专知

27+阅读 · 2019年7月20日

Github项目推荐 | Sentence Classification - 神经网络句子分类(陈述/疑问/感叹/祈使)

Github项目推荐 | Sentence Classification - 神经网络句子分类(陈述/疑问/感叹/祈使)

AI研习社

14+阅读 · 2019年1月16日

用模型不确定性理解模型

用模型不确定性理解模型

论智

11+阅读 · 2018年9月5日

深度学习文本分类方法综述（代码）

深度学习文本分类方法综述（代码）

中国人工智能学会

28+阅读 · 2018年6月16日

基于多源语义表示学习的社交媒体文本属性情感分类研究

国家自然科学基金

4+阅读 · 2017年12月31日

基于多源异构不确定数据的高效用信息挖掘的研究

国家自然科学基金

4+阅读 · 2015年12月31日

高维回归模型的预测稳定性研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于复杂语义的个性化图像集摘要研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

基于生态演替的文本大数据特征学习研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向异构数据库的查询语言设计及其基础理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于概率图的文本检索模型及算法研究

国家自然科学基金

2+阅读 · 2014年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

Comparing Uncertainty Measurement and Mitigation Methods for Large Language Models: A Systematic Review

Arxiv

0+阅读 · 3月18日

Dialect-Agnostic SQL Parsing via LLM-Based Segmentation

Arxiv

0+阅读 · 3月17日

Knowledge Distillation with Structured Chain-of-Thought for Text-to-SQL

Arxiv

0+阅读 · 3月11日

Cost Trade-offs of Reasoning and Non-Reasoning Large Language Models in Text-to-SQL

Arxiv

0+阅读 · 3月7日

Ambiguity Collapse by LLMs: A Taxonomy of Epistemic Risks

Arxiv

0+阅读 · 3月6日

Uncertainty Quantification for Multimodal Large Language Models with Incoherence-adjusted Semantic Volume

Arxiv

0+阅读 · 2月27日

Fine-Grained Uncertainty Quantification for Long-Form Language Model Outputs: A Comparative Study

Arxiv

0+阅读 · 2月19日

DIVER: A Robust Text-to-SQL System with Dynamic Interactive Value Linking and Evidence Reasoning

Arxiv

0+阅读 · 2月12日

On the Uncertainty of Large Language Model-Based Multi-Agent Systems

Arxiv

0+阅读 · 2月9日

Evaluating the Presence of Sex Bias in Clinical Reasoning by Large Language Models

Arxiv

0+阅读 · 2月4日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

2+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

4+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

5+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

6+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

11+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

9+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

6+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

9+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

7+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

13+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

8+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

6+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

8+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

8+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

10+阅读 · 6月17日

相关VIP内容

面向大语言模型对齐的机械解释性：进展、挑战与未来方向

面向大语言模型对齐的机械解释性：进展、挑战与未来方向

专知会员服务

14+阅读 · 2月14日

【AAAI2026教程】大语言模型的结构化表征学习：可解释性、鲁棒性与迁移性研究，152页ppt

【AAAI2026教程】大语言模型的结构化表征学习：可解释性、鲁棒性与迁移性研究，152页ppt

专知会员服务

31+阅读 · 1月24日

大型语言模型遇上文本属性图：一种融合框架与应用的综述

大型语言模型遇上文本属性图：一种融合框架与应用的综述

专知会员服务

10+阅读 · 2025年10月27日

探索大型语言模型在文本到SQL的应用：进展、挑战与机遇

探索大型语言模型在文本到SQL的应用：进展、挑战与机遇

专知会员服务

18+阅读 · 2025年6月2日

大语言模型与小语言模型协同机制综述

大语言模型与小语言模型协同机制综述

专知会员服务

40+阅读 · 2025年5月15日

【CMU博士论文】使用结构化推理增强语言模型，320页pdf

【CMU博士论文】使用结构化推理增强语言模型，320页pdf

专知会员服务

34+阅读 · 2024年6月29日

【博士论文】理解大型语言模型：使用探针分类器和自合理化实现严格和有针对性的可解释性，109页pdf

【博士论文】理解大型语言模型：使用探针分类器和自合理化实现严格和有针对性的可解释性，109页pdf

专知会员服务

40+阅读 · 2024年4月14日

Text2SQL 针对表格数据的自然语言接口查询与可视化：一项综述

Text2SQL 针对表格数据的自然语言接口查询与可视化：一项综述

专知会员服务

58+阅读 · 2023年10月30日

【斯坦福】临床文本摘要：适应大型语言模型可超越人类专家

【斯坦福】临床文本摘要：适应大型语言模型可超越人类专家

专知会员服务

25+阅读 · 2023年9月16日

大模型如何可解释？新泽西理工学院等最新《大型语言模型可解释性》综述

大模型如何可解释？新泽西理工学院等最新《大型语言模型可解释性》综述

专知会员服务

98+阅读 · 2023年9月11日

热门VIP内容

开通专知VIP会员享更多权益服务

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

相关资讯

《文本分类大综述：从浅层到深度学习》最新2020版35页pdf

《文本分类大综述：从浅层到深度学习》最新2020版35页pdf

专知

59+阅读 · 2020年8月6日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

深度学习模型不确定性方法对比

深度学习模型不确定性方法对比

PaperWeekly

20+阅读 · 2020年2月10日

Keras新增TextVectorization层，可直接将文本字符串作为模型输入

Keras新增TextVectorization层，可直接将文本字符串作为模型输入

专知

19+阅读 · 2019年11月22日

【论文笔记】韩家炜团队AutoPhrase：从大量文本库中自动挖掘短语

【论文笔记】韩家炜团队AutoPhrase：从大量文本库中自动挖掘短语

专知

41+阅读 · 2019年11月2日

【泡泡图灵智库】ContextDesc：用跨模态上下文增强的局部描述子

【泡泡图灵智库】ContextDesc：用跨模态上下文增强的局部描述子

泡泡机器人SLAM

34+阅读 · 2019年9月18日

「PPT」深度学习中的不确定性估计

「PPT」深度学习中的不确定性估计

专知

27+阅读 · 2019年7月20日

Github项目推荐 | Sentence Classification - 神经网络句子分类(陈述/疑问/感叹/祈使)

Github项目推荐 | Sentence Classification - 神经网络句子分类(陈述/疑问/感叹/祈使)

AI研习社

14+阅读 · 2019年1月16日

用模型不确定性理解模型

用模型不确定性理解模型

论智

11+阅读 · 2018年9月5日

深度学习文本分类方法综述（代码）

深度学习文本分类方法综述（代码）

中国人工智能学会

28+阅读 · 2018年6月16日

相关论文

Comparing Uncertainty Measurement and Mitigation Methods for Large Language Models: A Systematic Review

Arxiv

0+阅读 · 3月18日

Dialect-Agnostic SQL Parsing via LLM-Based Segmentation

Arxiv

0+阅读 · 3月17日

Knowledge Distillation with Structured Chain-of-Thought for Text-to-SQL

Arxiv

0+阅读 · 3月11日

Cost Trade-offs of Reasoning and Non-Reasoning Large Language Models in Text-to-SQL

Arxiv

0+阅读 · 3月7日

Ambiguity Collapse by LLMs: A Taxonomy of Epistemic Risks

Arxiv

0+阅读 · 3月6日

Uncertainty Quantification for Multimodal Large Language Models with Incoherence-adjusted Semantic Volume

Arxiv

0+阅读 · 2月27日

Fine-Grained Uncertainty Quantification for Long-Form Language Model Outputs: A Comparative Study

Arxiv

0+阅读 · 2月19日

DIVER: A Robust Text-to-SQL System with Dynamic Interactive Value Linking and Evidence Reasoning

Arxiv

0+阅读 · 2月12日

On the Uncertainty of Large Language Model-Based Multi-Agent Systems

Arxiv

0+阅读 · 2月9日

Evaluating the Presence of Sex Bias in Clinical Reasoning by Large Language Models

Arxiv

0+阅读 · 2月4日

相关基金

基于多源语义表示学习的社交媒体文本属性情感分类研究

国家自然科学基金

4+阅读 · 2017年12月31日

基于多源异构不确定数据的高效用信息挖掘的研究

国家自然科学基金

4+阅读 · 2015年12月31日

高维回归模型的预测稳定性研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于复杂语义的个性化图像集摘要研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

基于生态演替的文本大数据特征学习研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向异构数据库的查询语言设计及其基础理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于概率图的文本检索模型及算法研究

国家自然科学基金

2+阅读 · 2014年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员