Scarcity of labeled training data remains the long pole in the tent for building performant language technology and generative AI models. Transformer models -- particularly LLMs -- are increasingly being used to mitigate the data scarcity problem via synthetic data generation. However, because the models are black boxes, the properties of the synthetic data are difficult to predict. In practice it is common for language technology engineers to 'fiddle' with the LLM temperature setting and hope that what comes out the other end improves the downstream model. Faced with this uncertainty, here we propose Data Kernel Perspective Space (DKPS) to provide the foundation for mathematical analysis yielding concrete statistical guarantees for the quality of the outputs of transformer models. We first show the mathematical derivation of DKPS and how it provides performance guarantees. Next we show how DKPS performance guarantees can elucidate performance of a downstream task, such as neural machine translation models or LLMs trained using Contrastive Preference Optimization (CPO). Limitations of the current work and future research are also discussed.


翻译:标注训练数据的稀缺性始终是构建高性能语言技术与生成式人工智能模型的主要瓶颈。Transformer模型——尤其是大语言模型(LLMs)——正日益被用于通过合成数据生成来缓解数据稀缺问题。然而,由于这些模型是黑箱系统,合成数据的特性难以预测。实践中,语言技术工程师通常通过反复调整LLM的温度设置,并期望其输出能提升下游模型的性能。面对这种不确定性,本文提出数据核视角空间(DKPS),为数学分析奠定基础,从而为Transformer模型输出的质量提供具体的统计保证。我们首先展示了DKPS的数学推导及其如何提供性能保证。接着,我们说明DKPS性能保证如何能够阐明下游任务的性能表现,例如神经机器翻译模型或使用对比偏好优化(CPO)训练的大语言模型。本文还讨论了当前工作的局限性以及未来的研究方向。

0
下载
关闭预览

相关内容

从数据中心视角出发的高效大语言模型训练综述
专知会员服务
23+阅读 · 2025年10月31日
《大语言模型的数据合成与增强综述》
专知会员服务
43+阅读 · 2024年10月19日
基于Transformer模型的数据模态转换综述
专知会员服务
39+阅读 · 2024年8月17日
大型语言模型对齐技术综述:RLHF、RLAIF、PPO、DPO 等
专知会员服务
55+阅读 · 2024年7月24日
生成技术在时空数据挖掘中的应用
专知会员服务
39+阅读 · 2024年6月5日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员