XChoice: Explainable Evaluation of AI-Human Alignment in LLM-based Constrained Choice Decision Making - 专知论文

会员服务 ·

0

对齐 · AI · AI与人 · 度量 · 可解释性 ·

XChoice: Explainable Evaluation of AI-Human Alignment in LLM-based Constrained Choice Decision Making

翻译：XChoice：基于大语言模型的受限选择决策中AI与人类对齐的可解释性评估

Weihong Qi,Fan Huang,Rasika Muralidharan,Jisun An,Haewoon Kwak

We present XChoice, an explainable framework for evaluating AI-human alignment in constrained decision making. Moving beyond outcome agreement such as accuracy and F1 score, XChoice fits a mechanism-based decision model to human data and LLM-generated decisions, recovering interpretable parameters that capture the relative importance of decision factors, constraint sensitivity, and implied trade-offs. Alignment is assessed by comparing these parameter vectors across models, options, and subgroups. We demonstrate XChoice on Americans' daily time allocation using the American Time Use Survey (ATUS) as human ground truth, revealing heterogeneous alignment across models and activities and salient misalignment concentrated in Black and married groups. We further validate robustness of XChoice via an invariance analysis and evaluate targeted mitigation with a retrieval augmented generation (RAG) intervention. Overall, XChoice provides mechanism-based metrics that diagnose misalignment and support informed improvements beyond surface outcome matching.

翻译：我们提出了XChoice，一个用于评估受限决策中AI与人类对齐的可解释性框架。XChoice超越了准确率和F1分数等结果一致性度量，通过将基于机制的决策模型拟合到人类数据和LLM生成的决策上，恢复出可解释的参数，这些参数捕捉了决策因素的相对重要性、约束敏感性以及隐含的权衡。对齐性通过比较不同模型、选项和亚组之间的这些参数向量来评估。我们使用美国时间使用调查（ATUS）作为人类真实基准，在美国人日常时间分配问题上展示了XChoice的应用，揭示了不同模型和活动之间的异质性对齐，以及集中在黑人和已婚群体中的显著错位。我们进一步通过不变性分析验证了XChoice的鲁棒性，并利用检索增强生成（RAG）干预评估了针对性缓解措施的效果。总体而言，XChoice提供了基于机制的度量指标，能够诊断错位并支持超越表面结果匹配的知情改进。

0

相关内容

可解释人工智能中的大语言模型：全面综述

可解释人工智能中的大语言模型：全面综述

专知会员服务

53+阅读 · 2025年4月2日

可解释人工智能（XAI）：从内在可解释性到大语言模型

可解释人工智能（XAI）：从内在可解释性到大语言模型

专知会员服务

34+阅读 · 2025年1月20日

人机编队《NLP中人工智能决策的解释效用评价》49页长综述

人机编队《NLP中人工智能决策的解释效用评价》49页长综述

专知会员服务

29+阅读 · 2025年1月8日

可解释人工智能综合指南：从经典模型到大规模语言模型

可解释人工智能综合指南：从经典模型到大规模语言模型

专知会员服务

37+阅读 · 2024年12月28日

金融时间序列预测中的可解释人工智能（XAI）综述

金融时间序列预测中的可解释人工智能（XAI）综述

专知会员服务

44+阅读 · 2024年7月25日

可解释人工智能中的对抗攻击和防御

可解释人工智能中的对抗攻击和防御

专知会员服务

43+阅读 · 2023年6月20日

可解释AI最新有什么进展？Wojciech最新《概念级可解释人工智能》报告，52页ppt

可解释AI最新有什么进展？Wojciech最新《概念级可解释人工智能》报告，52页ppt

专知会员服务

60+阅读 · 2023年2月22日

不可错过！华盛顿大学最新《可解释人工智能》课程，系统讲述XAI最新进展

不可错过！华盛顿大学最新《可解释人工智能》课程，系统讲述XAI最新进展

专知会员服务

70+阅读 · 2022年9月14日

【DeepMind】人工智能、价值与对齐，Artificial Intelligence, Values, and Alignment

【DeepMind】人工智能、价值与对齐，Artificial Intelligence, Values, and Alignment

专知会员服务

38+阅读 · 2020年1月13日

【Science最新论文】XAI—可解释人工智能简述，机遇与挑战

【Science最新论文】XAI—可解释人工智能简述，机遇与挑战

专知会员服务

166+阅读 · 2019年12月21日

更透明的AI？MIT等最新《可解释AI: 深度神经网络内部结构解释》综述，17页pdf全面阐述DNN内部可解释性技术

更透明的AI？MIT等最新《可解释AI: 深度神经网络内部结构解释》综述，17页pdf全面阐述DNN内部可解释性技术

专知

13+阅读 · 2022年8月11日

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

专知

38+阅读 · 2019年12月27日

【Science最新论文】XAI—可解释人工智能简述，机遇与挑战

【Science最新论文】XAI—可解释人工智能简述，机遇与挑战

专知

10+阅读 · 2019年12月21日

可解释人工智能XAI进展，看这份100页PPT为你讲解

可解释人工智能XAI进展，看这份100页PPT为你讲解

专知

49+阅读 · 2019年10月27日

AI可解释性文献列表

AI可解释性文献列表

专知

43+阅读 · 2019年10月7日

【干货】XAI可解释人工智能最新进展，89页ppt

【干货】XAI可解释人工智能最新进展，89页ppt

专知

52+阅读 · 2019年6月19日

可解释AI(XAI)工具集—DrWhy

可解释AI(XAI)工具集—DrWhy

专知

25+阅读 · 2019年6月4日

【资源推荐】AI可解释性资源汇总

【资源推荐】AI可解释性资源汇总

专知

47+阅读 · 2019年4月24日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

【知识图谱】肖仰华：基于知识图谱的可解释人工智能：机遇与挑战

【知识图谱】肖仰华：基于知识图谱的可解释人工智能：机遇与挑战

产业智能官

14+阅读 · 2017年11月2日

群体偏好的敏感性度量方法研究和群决策方法的可实施性评价

国家自然科学基金

0+阅读 · 2017年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

人类视空间分类的神经机制

国家自然科学基金

1+阅读 · 2015年12月31日

复杂决策环境下面向共识的群体评价模型与方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

逻辑等价算子在不确定性推理中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

大城市中等收入群体出行选择行为的不确定性决策机理研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于中智集的模糊多属性决策理论、方法与应用研究

国家自然科学基金

2+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

不确定环境下强化学习和决策的神经机制

国家自然科学基金

11+阅读 · 2012年12月31日

Editable XAI: Toward Bidirectional Human-AI Alignment with Co-Editable Explanations of Interpretable Attributes

Arxiv

0+阅读 · 2月13日

Understanding the Effects of AI-Assisted Critical Thinking on Human-AI Decision Making

Arxiv

0+阅读 · 2月10日

MILE-RefHumEval: A Reference-Free, Multi-Independent LLM Framework for Human-Aligned Evaluation

Arxiv

0+阅读 · 2月10日

Reliable Explanations or Random Noise? A Reliability Metric for XAI

Arxiv

0+阅读 · 2月4日

Agentic Explainable Artificial Intelligence (Agentic XAI) Approach To Explore Better Explanation

Arxiv

0+阅读 · 2月4日

Trade-offs in Financial AI: Explainability in a Trilemma with Accuracy and Compliance

Arxiv

0+阅读 · 2月1日

Evaluating Actionability in Explainable AI

Arxiv

0+阅读 · 1月27日

A Survey on Human-Centered Evaluation of Explainable AI Methods in Clinical Decision Support Systems

Arxiv

0+阅读 · 1月23日

XCR-Bench: A Multi-Task Benchmark for Evaluating Cultural Reasoning in LLMs

Arxiv

0+阅读 · 1月20日

Predicting Biased Human Decision-Making with Large Language Models in Conversational Settings

Arxiv

0+阅读 · 1月16日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | Sheaf-ADMM：用可微优化学习多智能体协调

ICML 2026 | Sheaf-ADMM：用可微优化学习多智能体协调

专知会员服务

3+阅读 · 6月1日

综述 | OPSD：大语言模型的在线策略自蒸馏

综述 | OPSD：大语言模型的在线策略自蒸馏

专知会员服务

3+阅读 · 6月1日

算法化战争：人工智能时代的新范式（万字长文）

算法化战争：人工智能时代的新范式（万字长文）

专知会员服务

8+阅读 · 6月1日

帕兰蒂尔Maven：军事人工智能的新纪元

帕兰蒂尔Maven：军事人工智能的新纪元

专知会员服务

7+阅读 · 6月1日

《军事网络取证系统中的人工智能驱动情报融合：帕兰蒂尔公司“Maven智能系统”案例研究》

《军事网络取证系统中的人工智能驱动情报融合：帕兰蒂尔公司“Maven智能系统”案例研究》

专知会员服务

9+阅读 · 6月1日

《扩展主权人工智能操作系统：将Symphony作为帕兰蒂尔Foundry与英伟达的计算本体》

《扩展主权人工智能操作系统：将Symphony作为帕兰蒂尔Foundry与英伟达的计算本体》

专知会员服务

8+阅读 · 6月1日

美以伊冲突中的人工智能应用：人工智能工具、部署策略及作战影响分析

美以伊冲突中的人工智能应用：人工智能工具、部署策略及作战影响分析

专知会员服务

13+阅读 · 5月31日

比利时发布用于实时战场军事装备识别的离线人工智能系统

比利时发布用于实时战场军事装备识别的离线人工智能系统

专知会员服务

6+阅读 · 5月31日

《经济冲击与战略损失：美伊军事冲突的不可持续成本》

《经济冲击与战略损失：美伊军事冲突的不可持续成本》

专知会员服务

5+阅读 · 5月31日

超越网格：作战环境对炮兵的影响

超越网格：作战环境对炮兵的影响

专知会员服务

3+阅读 · 5月31日

KDD 2026 | MixRAGRec：面向LLM推荐的混合专家KG-RAG框架

KDD 2026 | MixRAGRec：面向LLM推荐的混合专家KG-RAG框架

专知会员服务

9+阅读 · 5月31日

综述 | 推理时控制：可信大语言模型的运行时治理全景

综述 | 推理时控制：可信大语言模型的运行时治理全景

专知会员服务

4+阅读 · 5月31日

BES：让语言模型通过双向进化搜索自我改进

BES：让语言模型通过双向进化搜索自我改进

专知会员服务

6+阅读 · 5月30日

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

专知会员服务

7+阅读 · 5月30日

以色列-美国-伊朗战争中的无人机：关键要点

以色列-美国-伊朗战争中的无人机：关键要点

专知会员服务

7+阅读 · 5月30日

相关VIP内容

可解释人工智能中的大语言模型：全面综述

可解释人工智能中的大语言模型：全面综述

专知会员服务

53+阅读 · 2025年4月2日

可解释人工智能（XAI）：从内在可解释性到大语言模型

可解释人工智能（XAI）：从内在可解释性到大语言模型

专知会员服务

34+阅读 · 2025年1月20日

人机编队《NLP中人工智能决策的解释效用评价》49页长综述

人机编队《NLP中人工智能决策的解释效用评价》49页长综述

专知会员服务

29+阅读 · 2025年1月8日

可解释人工智能综合指南：从经典模型到大规模语言模型

可解释人工智能综合指南：从经典模型到大规模语言模型

专知会员服务

37+阅读 · 2024年12月28日

金融时间序列预测中的可解释人工智能（XAI）综述

金融时间序列预测中的可解释人工智能（XAI）综述

专知会员服务

44+阅读 · 2024年7月25日

可解释人工智能中的对抗攻击和防御

可解释人工智能中的对抗攻击和防御

专知会员服务

43+阅读 · 2023年6月20日

可解释AI最新有什么进展？Wojciech最新《概念级可解释人工智能》报告，52页ppt

可解释AI最新有什么进展？Wojciech最新《概念级可解释人工智能》报告，52页ppt

专知会员服务

60+阅读 · 2023年2月22日

不可错过！华盛顿大学最新《可解释人工智能》课程，系统讲述XAI最新进展

不可错过！华盛顿大学最新《可解释人工智能》课程，系统讲述XAI最新进展

专知会员服务

70+阅读 · 2022年9月14日

【DeepMind】人工智能、价值与对齐，Artificial Intelligence, Values, and Alignment

【DeepMind】人工智能、价值与对齐，Artificial Intelligence, Values, and Alignment

专知会员服务

38+阅读 · 2020年1月13日

【Science最新论文】XAI—可解释人工智能简述，机遇与挑战

【Science最新论文】XAI—可解释人工智能简述，机遇与挑战

专知会员服务

166+阅读 · 2019年12月21日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | OPSD：大语言模型的在线策略自蒸馏

帕兰蒂尔Maven：军事人工智能的新纪元

ICML 2026 | Sheaf-ADMM：用可微优化学习多智能体协调

算法化战争：人工智能时代的新范式（万字长文）

相关资讯

更透明的AI？MIT等最新《可解释AI: 深度神经网络内部结构解释》综述，17页pdf全面阐述DNN内部可解释性技术

更透明的AI？MIT等最新《可解释AI: 深度神经网络内部结构解释》综述，17页pdf全面阐述DNN内部可解释性技术

专知

13+阅读 · 2022年8月11日

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

专知

38+阅读 · 2019年12月27日

【Science最新论文】XAI—可解释人工智能简述，机遇与挑战

【Science最新论文】XAI—可解释人工智能简述，机遇与挑战

专知

10+阅读 · 2019年12月21日

可解释人工智能XAI进展，看这份100页PPT为你讲解

可解释人工智能XAI进展，看这份100页PPT为你讲解

专知

49+阅读 · 2019年10月27日

AI可解释性文献列表

AI可解释性文献列表

专知

43+阅读 · 2019年10月7日

【干货】XAI可解释人工智能最新进展，89页ppt

【干货】XAI可解释人工智能最新进展，89页ppt

专知

52+阅读 · 2019年6月19日

可解释AI(XAI)工具集—DrWhy

可解释AI(XAI)工具集—DrWhy

专知

25+阅读 · 2019年6月4日

【资源推荐】AI可解释性资源汇总

【资源推荐】AI可解释性资源汇总

专知

47+阅读 · 2019年4月24日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

【知识图谱】肖仰华：基于知识图谱的可解释人工智能：机遇与挑战

【知识图谱】肖仰华：基于知识图谱的可解释人工智能：机遇与挑战

产业智能官

14+阅读 · 2017年11月2日

相关论文

Editable XAI: Toward Bidirectional Human-AI Alignment with Co-Editable Explanations of Interpretable Attributes

Arxiv

0+阅读 · 2月13日

Understanding the Effects of AI-Assisted Critical Thinking on Human-AI Decision Making

Arxiv

0+阅读 · 2月10日

MILE-RefHumEval: A Reference-Free, Multi-Independent LLM Framework for Human-Aligned Evaluation

Arxiv

0+阅读 · 2月10日

Reliable Explanations or Random Noise? A Reliability Metric for XAI

Arxiv

0+阅读 · 2月4日

Agentic Explainable Artificial Intelligence (Agentic XAI) Approach To Explore Better Explanation

Arxiv

0+阅读 · 2月4日

Trade-offs in Financial AI: Explainability in a Trilemma with Accuracy and Compliance

Arxiv

0+阅读 · 2月1日

Evaluating Actionability in Explainable AI

Arxiv

0+阅读 · 1月27日

A Survey on Human-Centered Evaluation of Explainable AI Methods in Clinical Decision Support Systems

Arxiv

0+阅读 · 1月23日

XCR-Bench: A Multi-Task Benchmark for Evaluating Cultural Reasoning in LLMs

Arxiv

0+阅读 · 1月20日

Predicting Biased Human Decision-Making with Large Language Models in Conversational Settings

Arxiv

0+阅读 · 1月16日

相关基金

群体偏好的敏感性度量方法研究和群决策方法的可实施性评价

国家自然科学基金

0+阅读 · 2017年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

人类视空间分类的神经机制

国家自然科学基金

1+阅读 · 2015年12月31日

复杂决策环境下面向共识的群体评价模型与方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

逻辑等价算子在不确定性推理中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

大城市中等收入群体出行选择行为的不确定性决策机理研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于中智集的模糊多属性决策理论、方法与应用研究

国家自然科学基金

2+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

不确定环境下强化学习和决策的神经机制

国家自然科学基金

11+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员