在这篇论文中,我们开发了具有理论保证的算法,以确保机器学习(ML)系统的可靠性与问责性。随着 ML 系统从预测模型演进为生成模型和自主智能体,可信 AI 的研究格局也发生了转变。本文提出了一系列基于信息论、优化理论和统计学习的工具,用于缓解偏见、减少任意性决策、确保内容来源可追溯性,并在自主场景中评估由 LLM 驱动的智能体。 为缓解传统 ML 模型中的偏见与任意性问题,我们提出了一种基于核方法的技术,以在复杂子群体上实现多重准确性,而这些子群体往往会被传统人口统计类别所忽略。我们还开发了应对预测多重性的方法;预测多重性指的是多个同样准确的模型却会对个体样本给出相互冲突的预测。 我们通过为大语言模型(LLM)设计水印机制来确保生成式 AI 的问责性。我们刻画了水印检测与文本失真之间的信息论权衡,并借助最优传输和编码理论推导出最优水印策略。实证评估表明,我们的水印方法在语言生成和代码生成任务中实现了更优的检测—质量权衡。 最后,我们通过首个完全由 LLM 驱动的供应链模拟器,在多智能体环境中评估自主 LLM 智能体。尽管这些智能体能够优于人类专家,最高可将成本降低 67%,但我们也识别出若干系统性风险,例如代价高昂的尾部事件。