Safety alignment can make frontier LMs overly conservative, degrading collaboration via hedging or false refusals. We present a lightweight toolkit with three parts: (1) Victor Calibration (VC), a multi-pass protocol that elicits a scalar confidence proxy T (T0<T1<T2) through iterative evidence re-evaluation; (2) FD-Lite, a behavior-only phenomenology audit with a fixed anchor phrase and a meta-prefix trap to avoid anthropomorphic claims; and (3) CP4.3, a governance stress test for rank invariance and allocation monotonicity (M6). Across Claude 4.5 models (Haiku, Sonnet no-thinking, Sonnet thinking) and Opus, we observe monotonic VC trajectories without violating safety invariants, and stable CP4.3 behavior. ("Opus" here refers to a single Claude Opus 4.1 session accessed via a standard UI account, as reported in Table 1.) This work was conducted by a single operator (n=1) and is intended as hypothesis-generating; we explicitly invite replication, critique, and extension by the research community. We include prompt templates and an artifact plan to facilitate independent verification.


翻译:安全对齐可能导致前沿语言模型过于保守,通过规避或错误拒绝而降低协作效率。本文提出一个轻量级工具包,包含三个部分:(1)维克托校准(VC),一种通过迭代证据重评估来获取标量置信度代理T(T0<T1<T2)的多轮协议;(2)FD-Lite,一种仅基于行为的现象学审计方法,采用固定锚定短语和元前缀陷阱以避免拟人化表述;(3)CP4.3,针对等级不变性与分配单调性(M6)的治理压力测试。在Claude 4.5系列模型(Haiku、Sonnet无思考模式、Sonnet思考模式)及Opus上的实验表明,VC轨迹保持单调性且未违反安全不变性,CP4.3行为表现稳定。(此处“Opus”指通过标准UI账户访问的单个Claude Opus 4.1会话,详见表1。)本研究由单操作者(n=1)完成,旨在提出假设;我们明确邀请研究界进行复现、批判与拓展。文中提供了提示模板与制品计划以支持独立验证。

0
下载
关闭预览

相关内容

这是第25届年度会议,讨论有约束计算的所有方面,包括理论、算法、环境、语言、模型、系统和应用,如决策、资源分配、调度、配置和规划。为了纪念25周年,吉恩·弗洛伊德创作了一本“虚拟卷”来庆祝这个系列会议。信息可以在这里找到。约束编程协会有本系列中以前的会议列表。CP 2019计划将包括展示关于约束技术的高质量科学论文。除了通常的技术轨道外,CP 2019年会议还将有主题轨道。每个赛道都有一个专门的小组委员会,以确保有能力的评审员将审查这些领域的人提交的论文。 官网链接:https://cp2019.a4cp.org/index.html
[ICML2024]消除偏差:微调基础模型以进行半监督学习
专知会员服务
18+阅读 · 2024年5月23日
UTC: 用于视觉对话的任务间对比学习的统一Transformer
专知会员服务
14+阅读 · 2022年5月4日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
误差反向传播——CNN
统计学习与视觉计算组
30+阅读 · 2018年7月12日
MNIST入门:贝叶斯方法
Python程序员
23+阅读 · 2017年7月3日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
相关资讯
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
误差反向传播——CNN
统计学习与视觉计算组
30+阅读 · 2018年7月12日
MNIST入门:贝叶斯方法
Python程序员
23+阅读 · 2017年7月3日
相关基金
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员