The transition from fitting empirical data to achieving true human utility is fundamentally constrained by a granularity mismatch, where fine-grained autoregressive generation is often supervised by coarse or uniform signals. This position paper advocates Token Priority as the essential bridge, formalizing Supervised Fine-Tuning (SFT) not as simple optimization but as a precise distribution reshaping process that aligns raw data with the ideal alignment manifold. We analyze recent breakthroughs through this unified lens, categorizing them into two distinct regimes: Positive Priority for noise filtration and Signed Priority for toxic modes unlearning. We revisit existing progress and limitations, identify key challenges, and suggest directions for future research.


翻译:从拟合经验数据到实现真正人类效用的转变,根本上受粒度失配的制约,即细粒度的自回归生成常受粗粒度或均匀信号的监督。本立场论文主张Token Priority是关键的桥梁,将监督微调形式化为精确的分布重塑过程——而非简单的优化——从而使原始数据与理想的对齐流形保持一致。我们通过这一统一视角分析近期突破,将其归类为两种不同机制:用于噪声过滤的Positive Priority与用于消除有害模式的Signed Priority。我们重新审视现有进展与局限,指出关键挑战,并为未来研究方向提出建议。

0
下载
关闭预览

相关内容

《视觉Transformers自监督学习机制综述》
专知会员服务
29+阅读 · 2024年9月2日
有监督深度学习的优化方法研究综述
专知会员服务
40+阅读 · 2023年5月15日
对比自监督学习
深度学习自然语言处理
35+阅读 · 2020年7月15日
深入理解BERT Transformer ,不仅仅是注意力机制
大数据文摘
22+阅读 · 2019年3月19日
半监督多任务学习:Semisupervised Multitask Learning
我爱读PAMI
18+阅读 · 2018年4月29日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 1月21日
VIP会员
相关VIP内容
《视觉Transformers自监督学习机制综述》
专知会员服务
29+阅读 · 2024年9月2日
有监督深度学习的优化方法研究综述
专知会员服务
40+阅读 · 2023年5月15日
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员