CARE: Controlling LLM-Generated Policies through Auditable Review of Evidence in Scientific Experimentation - 专知论文

会员服务 ·

0

语言模型 · 模型生成 · 大语言模型 · 控制器 · 代价 ·

CARE: Controlling LLM-Generated Policies through Auditable Review of Evidence in Scientific Experimentation

翻译：标题：CARE：通过科学实验证据的可审计审查控制大语言模型生成的策略

Guanyu Liu,Weiyi Kong,Zeyu Wang,Boer Zhang,Baiqing Li,Peiyu Zhang,Tianyu Shi

from arxiv, 23 pages, 4 figures

Granting LLMs direct control over costly, irreversible scientific experiments leads to unsafe exploration and unstable performance, but discarding LLM creativity entirely sacrifices significant optimization potential. We introduce CARE (Controlling LLM-Generated Policies through Auditable Review of Evidence in Scientific Experimentation), an auditable controller for high-throughput experimentation (HTE) optimization that keeps a non-LLM incumbent optimizer as the default action path while using LLMs to revise challenger ranking policies. Before each outcome is revealed, a public-evidence intervention gate compares the challenger with the incumbent. It authorizes the challenger's selection only when the evidence available before selection supports the change, with the decision recorded in the audit log. CARE outperforms all other evaluated methods on Minerva/Olympus and ChemLex benchmarks, with final-best improving from 80.0 to 88.5 on Minerva/Olympus and from 83.9 to 92.1 on ChemLex, relative to the public incumbent. Our experiments indicate that LLM self-evolution is more reliable when it expands the proposal space under an auditable controller, rather than directly choosing experiments.

翻译：摘要：允许大语言模型直接控制代价高昂且不可逆的科学实验会导致不安全的探索和不稳定的性能，但完全舍弃大语言模型的创造力则会牺牲巨大的优化潜力。我们提出CARE（通过科学实验证据的可审计审查控制大语言模型生成的策略），这是一种用于高通量实验优化的可审计控制器，它保留非大语言模型现有优化器作为默认动作路径，同时利用大语言模型修订挑战者排序策略。在每个实验结果揭晓前，公共证据干预门将挑战者与现有方案进行比较。仅当选择前可获得的证据支持该变更时，才授权选择挑战者，并将决策记录在审计日志中。在Minerva/Olympus和ChemLex基准上，CARE优于所有其他评估方法，与公共现有方案相比，在Minerva/Olympus上的最终最优值从80.0提升至88.5，在ChemLex上从83.9提升至92.1。我们的实验表明，当大语言模型在可审计控制器下扩展提议空间而非直接选择实验时，其自我进化更为可靠。

0

相关内容

语言模型

《信任但需验证：军事决策背景下的大型语言模型品格、能力与控制》2026最新59页报告

《信任但需验证：军事决策背景下的大型语言模型品格、能力与控制》2026最新59页报告

专知会员服务

16+阅读 · 6月12日

综述 | 推理时控制：可信大语言模型的运行时治理全景

综述 | 推理时控制：可信大语言模型的运行时治理全景

专知会员服务

8+阅读 · 5月31日

基于大语言模型的医疗推理研究：综述与 MR-Bench 基准测试

基于大语言模型的医疗推理研究：综述与 MR-Bench 基准测试

专知会员服务

16+阅读 · 4月13日

【斯坦福大学Xiang Lisa Li博士论文】控制语言模型

【斯坦福大学Xiang Lisa Li博士论文】控制语言模型

专知会员服务

22+阅读 · 2025年6月11日

大型语言模型（LLM）智能体全栈安全的综述：数据、训练与部署

大型语言模型（LLM）智能体全栈安全的综述：数据、训练与部署

专知会员服务

33+阅读 · 2025年4月23日

LLM4Science怎么做？UIUC等最新《科学大型语言模型及其在科学发现中的应用》综述

LLM4Science怎么做？UIUC等最新《科学大型语言模型及其在科学发现中的应用》综述

专知会员服务

35+阅读 · 2024年6月23日

【博士论文】负责任大型语言模型:安全性、公平性、可信性，142页pdf

【博士论文】负责任大型语言模型:安全性、公平性、可信性，142页pdf

专知会员服务

34+阅读 · 2024年1月26日

大模型如何应对安全性？清华等最新《大型语言模型系统的风险分类、缓解措施及评估基准》论文

大模型如何应对安全性？清华等最新《大型语言模型系统的风险分类、缓解措施及评估基准》论文

专知会员服务

49+阅读 · 2024年1月17日

大模型如何处理事实？西湖大学等最新《大型语言模型中的事实性研究》综述，详述: LLM的知识、检索与领域特异性

大模型如何处理事实？西湖大学等最新《大型语言模型中的事实性研究》综述，详述: LLM的知识、检索与领域特异性

专知会员服务

47+阅读 · 2023年10月12日

大模型如何可信安全？利物浦大学最新《从验证和确认的角度综述大型语言模型的安全性和可信性》综述，全面阐述LLM安全性

大模型如何可信安全？利物浦大学最新《从验证和确认的角度综述大型语言模型的安全性和可信性》综述，全面阐述LLM安全性

专知会员服务

66+阅读 · 2023年5月30日

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知

17+阅读 · 2023年4月12日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

对话管理的综述论文:最近的进展和挑战，A Survey on Dialog Management

对话管理的综述论文:最近的进展和挑战，A Survey on Dialog Management

专知

12+阅读 · 2020年5月14日

【香港科技大学】联邦半监督学习综述，A Survey on Federated Semi-supervised Learning

【香港科技大学】联邦半监督学习综述，A Survey on Federated Semi-supervised Learning

专知

20+阅读 · 2020年2月28日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

放弃手工标记数据，斯坦福大学开发弱监督编程范式Snorkel

放弃手工标记数据，斯坦福大学开发弱监督编程范式Snorkel

新智元

14+阅读 · 2019年3月15日

【AI唠科】Focal Loss：助大神何凯明获得ICCV最佳学生论文，究竟有什么功？|兼谈目标检测发展历程

【AI唠科】Focal Loss：助大神何凯明获得ICCV最佳学生论文，究竟有什么功？|兼谈目标检测发展历程

中国科学院自动化研究所

10+阅读 · 2017年11月16日

TextInfoExp:自然语言处理相关实验（基于sougou数据集）

TextInfoExp:自然语言处理相关实验（基于sougou数据集）

全球人工智能

12+阅读 · 2017年11月12日

投资者有限关注与证券市场监管：基于大数据和计算实验的方法

国家自然科学基金

1+阅读 · 2015年12月31日

面向安全关键系统的时间可预测多核代码生成方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

非确定型Web服务流程重组的可靠性验证技术

国家自然科学基金

1+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

云计算环境中面向时间约束的大规模并行业务流程的监控策略研究

国家自然科学基金

2+阅读 · 2015年12月31日

大数据环境下的证券市场操纵行为发现机理、模型与方法

国家自然科学基金

0+阅读 · 2015年12月31日

医疗健康网站信息可信度与质量控制研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向大数据的信息可视化设计方法研究

国家自然科学基金

7+阅读 · 2014年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

Deterministic Integrity Gates for LLM-Assisted Clinical Manuscript Preparation: An Auditable Biomedical Informatics Architecture

Arxiv

0+阅读 · 6月14日

CHILLGuard: Towards Fine-Grained Chinese LLM Safety Guardrail with Scalable Data Construction and Model-aware Preference Alignment

Arxiv

0+阅读 · 6月13日

SciR: A Controllable Benchmark for Scientific Reasoning in LLMs

Arxiv

0+阅读 · 6月11日

Measuring Epistemic Resilience of LLMs Under Misleading Medical Context

Arxiv

0+阅读 · 6月10日

On The Effectiveness-Fluency Trade-Off In LLM Conditioning: A Systematic Study

Arxiv

0+阅读 · 6月10日

Schützen: Evaluating LLM Safety in Bulgarian and German Contexts

Arxiv

0+阅读 · 6月9日

Mitigating hallucinations in healthcare LLMs with granular fact-checking and domain-specific adaptation

Arxiv

0+阅读 · 6月9日

CARE: A Capability-Based Measurement Framework for Reproductive Equity in Human-AI Interaction

Arxiv

0+阅读 · 6月9日

A Scalable Entity-Based Framework for Auditing Bias in LLMs

Arxiv

0+阅读 · 5月11日

Mechanism Design for Quality-Preserving LLM Advertising

Arxiv

0+阅读 · 5月7日

VIP会员

文章信息

相关主题

大语言模型

最新内容

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

0+阅读 · 今天15:26

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

0+阅读 · 今天15:19

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

4+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

5+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

11+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

9+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

6+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

9+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

7+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

13+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

7+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

6+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

8+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

8+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

9+阅读 · 6月17日

相关VIP内容

《信任但需验证：军事决策背景下的大型语言模型品格、能力与控制》2026最新59页报告

《信任但需验证：军事决策背景下的大型语言模型品格、能力与控制》2026最新59页报告

专知会员服务

16+阅读 · 6月12日

综述 | 推理时控制：可信大语言模型的运行时治理全景

综述 | 推理时控制：可信大语言模型的运行时治理全景

专知会员服务

8+阅读 · 5月31日

基于大语言模型的医疗推理研究：综述与 MR-Bench 基准测试

基于大语言模型的医疗推理研究：综述与 MR-Bench 基准测试

专知会员服务

16+阅读 · 4月13日

【斯坦福大学Xiang Lisa Li博士论文】控制语言模型

【斯坦福大学Xiang Lisa Li博士论文】控制语言模型

专知会员服务

22+阅读 · 2025年6月11日

大型语言模型（LLM）智能体全栈安全的综述：数据、训练与部署

大型语言模型（LLM）智能体全栈安全的综述：数据、训练与部署

专知会员服务

33+阅读 · 2025年4月23日

LLM4Science怎么做？UIUC等最新《科学大型语言模型及其在科学发现中的应用》综述

LLM4Science怎么做？UIUC等最新《科学大型语言模型及其在科学发现中的应用》综述

专知会员服务

35+阅读 · 2024年6月23日

【博士论文】负责任大型语言模型:安全性、公平性、可信性，142页pdf

【博士论文】负责任大型语言模型:安全性、公平性、可信性，142页pdf

专知会员服务

34+阅读 · 2024年1月26日

大模型如何应对安全性？清华等最新《大型语言模型系统的风险分类、缓解措施及评估基准》论文

大模型如何应对安全性？清华等最新《大型语言模型系统的风险分类、缓解措施及评估基准》论文

专知会员服务

49+阅读 · 2024年1月17日

大模型如何处理事实？西湖大学等最新《大型语言模型中的事实性研究》综述，详述: LLM的知识、检索与领域特异性

大模型如何处理事实？西湖大学等最新《大型语言模型中的事实性研究》综述，详述: LLM的知识、检索与领域特异性

专知会员服务

47+阅读 · 2023年10月12日

大模型如何可信安全？利物浦大学最新《从验证和确认的角度综述大型语言模型的安全性和可信性》综述，全面阐述LLM安全性

大模型如何可信安全？利物浦大学最新《从验证和确认的角度综述大型语言模型的安全性和可信性》综述，全面阐述LLM安全性

专知会员服务

66+阅读 · 2023年5月30日

热门VIP内容

开通专知VIP会员享更多权益服务

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

相关资讯

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知

17+阅读 · 2023年4月12日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

对话管理的综述论文:最近的进展和挑战，A Survey on Dialog Management

对话管理的综述论文:最近的进展和挑战，A Survey on Dialog Management

专知

12+阅读 · 2020年5月14日

【香港科技大学】联邦半监督学习综述，A Survey on Federated Semi-supervised Learning

【香港科技大学】联邦半监督学习综述，A Survey on Federated Semi-supervised Learning

专知

20+阅读 · 2020年2月28日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

放弃手工标记数据，斯坦福大学开发弱监督编程范式Snorkel

放弃手工标记数据，斯坦福大学开发弱监督编程范式Snorkel

新智元

14+阅读 · 2019年3月15日

【AI唠科】Focal Loss：助大神何凯明获得ICCV最佳学生论文，究竟有什么功？|兼谈目标检测发展历程

【AI唠科】Focal Loss：助大神何凯明获得ICCV最佳学生论文，究竟有什么功？|兼谈目标检测发展历程

中国科学院自动化研究所

10+阅读 · 2017年11月16日

TextInfoExp:自然语言处理相关实验（基于sougou数据集）

TextInfoExp:自然语言处理相关实验（基于sougou数据集）

全球人工智能

12+阅读 · 2017年11月12日

相关论文

Deterministic Integrity Gates for LLM-Assisted Clinical Manuscript Preparation: An Auditable Biomedical Informatics Architecture

Arxiv

0+阅读 · 6月14日

CHILLGuard: Towards Fine-Grained Chinese LLM Safety Guardrail with Scalable Data Construction and Model-aware Preference Alignment

Arxiv

0+阅读 · 6月13日

SciR: A Controllable Benchmark for Scientific Reasoning in LLMs

Arxiv

0+阅读 · 6月11日

Measuring Epistemic Resilience of LLMs Under Misleading Medical Context

Arxiv

0+阅读 · 6月10日

On The Effectiveness-Fluency Trade-Off In LLM Conditioning: A Systematic Study

Arxiv

0+阅读 · 6月10日

Schützen: Evaluating LLM Safety in Bulgarian and German Contexts

Arxiv

0+阅读 · 6月9日

Mitigating hallucinations in healthcare LLMs with granular fact-checking and domain-specific adaptation

Arxiv

0+阅读 · 6月9日

CARE: A Capability-Based Measurement Framework for Reproductive Equity in Human-AI Interaction

Arxiv

0+阅读 · 6月9日

A Scalable Entity-Based Framework for Auditing Bias in LLMs

Arxiv

0+阅读 · 5月11日

Mechanism Design for Quality-Preserving LLM Advertising

Arxiv

0+阅读 · 5月7日

相关基金

投资者有限关注与证券市场监管：基于大数据和计算实验的方法

国家自然科学基金

1+阅读 · 2015年12月31日

面向安全关键系统的时间可预测多核代码生成方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

非确定型Web服务流程重组的可靠性验证技术

国家自然科学基金

1+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

云计算环境中面向时间约束的大规模并行业务流程的监控策略研究

国家自然科学基金

2+阅读 · 2015年12月31日

大数据环境下的证券市场操纵行为发现机理、模型与方法

国家自然科学基金

0+阅读 · 2015年12月31日

医疗健康网站信息可信度与质量控制研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向大数据的信息可视化设计方法研究

国家自然科学基金

7+阅读 · 2014年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员