We study how to allocate a fixed supervised fine-tuning budget when three objectives must be balanced at once: multi-turn safety alignment, low over-refusal on benign boundary queries, and instruction following under verifiable constraints. We propose MOSAIC (Multi-Objective Slice-Aware Iterative Curation for Alignment), a multi-objective framework for closed-loop data mixture search built on a unified L1-L3 evaluation interface. MOSAIC turns slice-level failure profiles into executable data actions, including dataset-level mixture ratios, bucket-level weights, and focus criteria. Under a fixed 1M-token budget and five rounds of independent fine-tuning from the same base model, MOSAIC improves internal XGuard from 2.76 to 4.67 while keeping OrBench at 4.41 and IFEval at 3.65. The final Pareto solution also generalizes better than a random static LoRA baseline on independent attack, over-refusal, and capability tests, suggesting that structured failure diagnosis can serve as a practical control signal for budgeted data construction. Code is available at https://github.com/douyipu/mosaic.


翻译:我们研究如何在固定监督微调预算下同时平衡三个目标:多轮安全对齐、良性边界查询的低过度拒绝率以及可验证约束下的指令跟随。为此提出MOSAIC(面向对齐的多目标切片感知迭代策展方法),一种基于统一L1-L3评估接口的闭环数据混合搜索多目标框架。MOSAIC将切片级故障特征转化为可执行的数据操作,包括数据集级混合比例、桶级权重及聚焦准则。在固定百万token预算下,基于同一基础模型进行五轮独立微调,MOSAIC将内部XGuard指标从2.76提升至4.67,同时保持OrBench为4.41及IFEval为3.65。最终帕累托解在独立攻击、过度拒绝及能力测试中均优于随机静态LoRA基线,表明结构化故障诊断可作为预算约束下数据构造的实用控制信号。代码详见https://github.com/douyipu/mosaic。

0
下载
关闭预览

相关内容

【IJCAI2025教程】基于梯度的多目标深度学习,221页ppt
专知会员服务
24+阅读 · 2025年8月31日
《即插即用采办体系(MOSA实施路径研究》最新69页
专知会员服务
44+阅读 · 2025年7月15日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
20+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
专知会员服务
1+阅读 · 今天14:45
综述 | 世界动作模型:少做梦,多行动
专知会员服务
1+阅读 · 今天14:43
美以伊冲突:无人机与人工智能的运用
专知会员服务
4+阅读 · 今天14:31
《特种部队在透明战场中的生存力》最新报告
专知会员服务
2+阅读 · 今天14:11
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关VIP内容
【IJCAI2025教程】基于梯度的多目标深度学习,221页ppt
专知会员服务
24+阅读 · 2025年8月31日
《即插即用采办体系(MOSA实施路径研究》最新69页
专知会员服务
44+阅读 · 2025年7月15日
相关资讯
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
20+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员