We present XChoice, an explainable framework for evaluating AI-human alignment in constrained decision making. Moving beyond outcome agreement such as accuracy and F1 score, XChoice fits a mechanism-based decision model to human data and LLM-generated decisions, recovering interpretable parameters that capture the relative importance of decision factors, constraint sensitivity, and implied trade-offs. Alignment is assessed by comparing these parameter vectors across models, options, and subgroups. We demonstrate XChoice on Americans' daily time allocation using the American Time Use Survey (ATUS) as human ground truth, revealing heterogeneous alignment across models and activities and salient misalignment concentrated in Black and married groups. We further validate robustness of XChoice via an invariance analysis and evaluate targeted mitigation with a retrieval augmented generation (RAG) intervention. Overall, XChoice provides mechanism-based metrics that diagnose misalignment and support informed improvements beyond surface outcome matching.


翻译:我们提出了XChoice,一个用于评估受限决策中AI与人类对齐的可解释性框架。XChoice超越了准确率和F1分数等结果一致性度量,通过将基于机制的决策模型拟合到人类数据和LLM生成的决策上,恢复出可解释的参数,这些参数捕捉了决策因素的相对重要性、约束敏感性以及隐含的权衡。对齐性通过比较不同模型、选项和亚组之间的这些参数向量来评估。我们使用美国时间使用调查(ATUS)作为人类真实基准,在美国人日常时间分配问题上展示了XChoice的应用,揭示了不同模型和活动之间的异质性对齐,以及集中在黑人和已婚群体中的显著错位。我们进一步通过不变性分析验证了XChoice的鲁棒性,并利用检索增强生成(RAG)干预评估了针对性缓解措施的效果。总体而言,XChoice提供了基于机制的度量指标,能够诊断错位并支持超越表面结果匹配的知情改进。

0
下载
关闭预览

相关内容

可解释人工智能中的大语言模型:全面综述
专知会员服务
53+阅读 · 2025年4月2日
可解释人工智能(XAI):从内在可解释性到大语言模型
专知会员服务
33+阅读 · 2025年1月20日
可解释人工智能综合指南:从经典模型到大规模语言模型
专知会员服务
36+阅读 · 2024年12月28日
金融时间序列预测中的可解释人工智能(XAI)综述
专知会员服务
44+阅读 · 2024年7月25日
可解释人工智能中的对抗攻击和防御
专知会员服务
43+阅读 · 2023年6月20日
【Science最新论文】XAI—可解释人工智能简述,机遇与挑战
专知会员服务
165+阅读 · 2019年12月21日
AI可解释性文献列表
专知
43+阅读 · 2019年10月7日
可解释AI(XAI)工具集—DrWhy
专知
25+阅读 · 2019年6月4日
【资源推荐】AI可解释性资源汇总
专知
47+阅读 · 2019年4月24日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Arxiv
0+阅读 · 1月27日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员