LaCy: What Small Language Models Can and Should Learn is Not Just a Question of Loss - 专知论文

会员服务 ·

0

损失 · 词元 · 预训练 · 损失函数 · 语言模型 ·

LaCy: What Small Language Models Can and Should Learn is Not Just a Question of Loss

翻译：LaCy：小型语言模型能够且应当学习的内容远不止损失函数问题

Szilvia Ujváry,Louis Béthune,Pierre Ablin,João Monteiro,Marco Cuturi,Michael Kirchhof

from arxiv, 29 pages, 24 figures, 5 tables, preprint

Language models have consistently grown to compress more world knowledge into their parameters, but the knowledge that can be pretrained into them is upper-bounded by their parameter size. Especially the capacity of Small Language Models (SLMs) is limited, leading to factually incorrect generations. This problem is often mitigated by giving the SLM access to an outside source: the ability to query a larger model, documents, or a database. Under this setting, we study the fundamental question of \emph{which tokens an SLM can and should learn} during pretraining, versus \emph{which ones it should delegate} via a \texttt{<CALL>} token. We find that this is not simply a question of loss: although the loss is predictive of whether a predicted token mismatches the ground-truth, some tokens are \emph{acceptable} in that they are truthful alternative continuations of a pretraining document, and should not trigger a \texttt{<CALL>} even if their loss is high. We find that a spaCy grammar parser can help augment the loss signal to decide which tokens the SLM should learn to delegate to prevent factual errors and which are safe to learn and predict even under high losses. We propose LaCy, a novel pretraining method based on this token selection philosophy. Our experiments demonstrate that LaCy models successfully learn which tokens to predict and where to delegate for help. This results in higher FactScores when generating in a cascade with a bigger model and outperforms Rho or LLM-judge trained SLMs, while being simpler and cheaper.

翻译：语言模型持续发展，不断将更多世界知识压缩至其参数中，但可预训练至模型内的知识受其参数规模上限约束。特别是小型语言模型（SLMs）的容量有限，常导致生成内容存在事实性错误。该问题通常通过为SLM提供外部访问能力来缓解：使其能够查询更大模型、文档或数据库。在此设定下，我们研究一个根本性问题：\emph{哪些词元应在预训练阶段由SLM学习}，而\emph{哪些应通过\texttt{<CALL>}标记进行委托}。我们发现这并非简单的损失函数问题：尽管损失值能预测生成词元是否与真实值存在偏差，但部分词元属于\emph{可接受范畴}——它们作为预训练文档的真实性替代延续，即使对应损失值较高也不应触发\texttt{<CALL>}机制。研究表明，spaCy语法解析器可辅助增强损失信号，以决策哪些词元应由SLM学习委托（避免事实错误），哪些即使在高损失情况下仍可安全学习并预测。基于此词元选择理念，我们提出新型预训练方法LaCy。实验证明，LaCy模型能成功掌握应预测的词元与需委托处理的节点。在与更大模型级联生成时，该方法获得更高的FactScore，其性能优于经Rho或LLM-judge训练的SLM，同时具备更简明的架构与更低廉的成本。

0

相关内容

【剑桥博士论文】迈向高效、科学且普适的小语言模型开发之道

【剑桥博士论文】迈向高效、科学且普适的小语言模型开发之道

专知会员服务

21+阅读 · 4月7日

大型语言模型的规模效应局限

大型语言模型的规模效应局限

专知会员服务

14+阅读 · 2025年11月18日

面向性能、成本效益、云边隐私与可信性的大小语言模型协作综述

面向性能、成本效益、云边隐私与可信性的大小语言模型协作综述

专知会员服务

15+阅读 · 2025年10月18日

大语言模型与小语言模型协同机制综述

大语言模型与小语言模型协同机制综述

专知会员服务

40+阅读 · 2025年5月15日

当持续学习遇上多模态大型语言模型：综述

当持续学习遇上多模态大型语言模型：综述

专知会员服务

33+阅读 · 2025年3月5日

小型语言模型综述

小型语言模型综述

专知会员服务

56+阅读 · 2024年10月29日

如何编辑大模型中的知识？浙大等最新《大型语言模型知识编辑》全面综述

如何编辑大模型中的知识？浙大等最新《大型语言模型知识编辑》全面综述

专知会员服务

72+阅读 · 2024年1月3日

知识在大模型中如何用？中科院软件所最新《大型语言模型知识生命周期》综述，27页pdf阐述知识获取、表示、探测、编辑与应用

知识在大模型中如何用？中科院软件所最新《大型语言模型知识生命周期》综述，27页pdf阐述知识获取、表示、探测、编辑与应用

专知会员服务

88+阅读 · 2023年3月17日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

【谷歌Kelvin Guu】语言模型可以是知识库吗？，46页ppt

专知会员服务

27+阅读 · 2021年10月12日

「知识增强预训练语言模型」最新研究综述

「知识增强预训练语言模型」最新研究综述

专知

18+阅读 · 2022年11月18日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

预训练语言模型关系图+必读论文列表，清华荣誉出品

预训练语言模型关系图+必读论文列表，清华荣誉出品

机器之心

18+阅读 · 2019年10月11日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

专知

40+阅读 · 2019年9月27日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知

363+阅读 · 2019年4月12日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

用模型不确定性理解模型

用模型不确定性理解模型

论智

11+阅读 · 2018年9月5日

语义Web知识库补全关键技术研究

国家自然科学基金

18+阅读 · 2017年12月31日

不可忽略缺失机制下的广义矩方法和调整经验似然方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

结合知识图谱的概率话题模型研究

国家自然科学基金

10+阅读 · 2015年12月31日

基于非独立同分布学习理论的图模型词义消歧及领域适应方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

共现潜在语义向量空间模型及其语义核的构建与应用研究

国家自然科学基金

1+阅读 · 2015年12月31日

信息论学习中的正则化及相关高维数据分析方法的数学理论

国家自然科学基金

12+阅读 · 2014年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

Uncertainty Quantification for Multimodal Large Language Models with Incoherence-adjusted Semantic Volume

Arxiv

0+阅读 · 2月27日

SWE-Protégé: Learning to Selectively Collaborate With an Expert Unlocks Small Language Models as Software Engineering Agents

Arxiv

0+阅读 · 2月25日

High Accuracy, Less Talk (HALT): Reliable LLMs through Capability-Aligned Finetuning

Arxiv

0+阅读 · 2月15日

LaCy: What Small Language Models Can and Should Learn is Not Just a Question of Loss

Arxiv

0+阅读 · 2月13日

Effective vocabulary expanding of multilingual language models for extremely low-resource languages

Arxiv

0+阅读 · 2月10日

Luth: Efficient French Specialization for Small Language Models and Cross-Lingual Transfer

Arxiv

0+阅读 · 2月9日

Beyond Bias Scores: Unmasking Vacuous Neutrality in Small Language Models

Arxiv

0+阅读 · 2月7日

Harnessing the Unseen: The Hidden Influence of Intrinsic Knowledge in Long-Context Language Models

Arxiv

0+阅读 · 2月6日

Late-to-Early Training: LET LLMs Learn Earlier, So Faster and Better

Arxiv

0+阅读 · 2月5日

ReasonCACHE: Teaching LLMs To Reason Without Weight Updates

Arxiv

0+阅读 · 2月2日

VIP会员

文章信息

相关主题

最新内容

深入Project Maven：为何人工智能在战场上依然失灵

深入Project Maven：为何人工智能在战场上依然失灵

专知会员服务

12+阅读 · 7月19日

锻造未来士兵：外骨骼、基因工程与赛博格

锻造未来士兵：外骨骼、基因工程与赛博格

专知会员服务

7+阅读 · 7月19日

《无人机系统（UAS）通信网状网络试验性部署》50页报告

《无人机系统（UAS）通信网状网络试验性部署》50页报告

专知会员服务

7+阅读 · 7月19日

《无人机蜂群通信技术研究》50页

《无人机蜂群通信技术研究》50页

专知会员服务

8+阅读 · 7月19日

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

专知会员服务

10+阅读 · 7月18日

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

专知会员服务

8+阅读 · 7月18日

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

专知会员服务

13+阅读 · 7月18日

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

专知会员服务

9+阅读 · 7月18日

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

专知会员服务

10+阅读 · 7月17日

《边缘端实时无线感知赋能现场多机器人部署》200页

《边缘端实时无线感知赋能现场多机器人部署》200页

专知会员服务

10+阅读 · 7月17日

战力倍增器：自主武器系统与乌克兰及加沙冲突

战力倍增器：自主武器系统与乌克兰及加沙冲突

专知会员服务

6+阅读 · 7月17日

人工智能赋能战场情报：提速决策进程

人工智能赋能战场情报：提速决策进程

专知会员服务

6+阅读 · 7月17日

《拥抱新兴技术：面向未来军官的教育革新》

《拥抱新兴技术：面向未来军官的教育革新》

专知会员服务

8+阅读 · 7月17日

ACM MM 2026 | MAR-GRPO：稳定混合图像生成的强化学习训练

ACM MM 2026 | MAR-GRPO：稳定混合图像生成的强化学习训练

专知会员服务

6+阅读 · 7月17日

综述 | 大模型水印理论与部署：来源追踪、攻击鲁棒与可信治理

综述 | 大模型水印理论与部署：来源追踪、攻击鲁棒与可信治理

专知会员服务

7+阅读 · 7月17日

相关VIP内容

【剑桥博士论文】迈向高效、科学且普适的小语言模型开发之道

【剑桥博士论文】迈向高效、科学且普适的小语言模型开发之道

专知会员服务

21+阅读 · 4月7日

大型语言模型的规模效应局限

大型语言模型的规模效应局限

专知会员服务

14+阅读 · 2025年11月18日

面向性能、成本效益、云边隐私与可信性的大小语言模型协作综述

面向性能、成本效益、云边隐私与可信性的大小语言模型协作综述

专知会员服务

15+阅读 · 2025年10月18日

大语言模型与小语言模型协同机制综述

大语言模型与小语言模型协同机制综述

专知会员服务

40+阅读 · 2025年5月15日

当持续学习遇上多模态大型语言模型：综述

当持续学习遇上多模态大型语言模型：综述

专知会员服务

33+阅读 · 2025年3月5日

小型语言模型综述

小型语言模型综述

专知会员服务

56+阅读 · 2024年10月29日

如何编辑大模型中的知识？浙大等最新《大型语言模型知识编辑》全面综述

如何编辑大模型中的知识？浙大等最新《大型语言模型知识编辑》全面综述

专知会员服务

72+阅读 · 2024年1月3日

知识在大模型中如何用？中科院软件所最新《大型语言模型知识生命周期》综述，27页pdf阐述知识获取、表示、探测、编辑与应用

知识在大模型中如何用？中科院软件所最新《大型语言模型知识生命周期》综述，27页pdf阐述知识获取、表示、探测、编辑与应用

专知会员服务

88+阅读 · 2023年3月17日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

【谷歌Kelvin Guu】语言模型可以是知识库吗？，46页ppt

专知会员服务

27+阅读 · 2021年10月12日

热门VIP内容

开通专知VIP会员享更多权益服务

锻造未来士兵：外骨骼、基因工程与赛博格

《无人机蜂群通信技术研究》50页

深入Project Maven：为何人工智能在战场上依然失灵

《无人机系统（UAS）通信网状网络试验性部署》50页报告

相关资讯

「知识增强预训练语言模型」最新研究综述

「知识增强预训练语言模型」最新研究综述

专知

18+阅读 · 2022年11月18日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

预训练语言模型关系图+必读论文列表，清华荣誉出品

预训练语言模型关系图+必读论文列表，清华荣誉出品

机器之心

18+阅读 · 2019年10月11日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

专知

40+阅读 · 2019年9月27日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知

363+阅读 · 2019年4月12日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

用模型不确定性理解模型

用模型不确定性理解模型

论智

11+阅读 · 2018年9月5日

相关论文

Uncertainty Quantification for Multimodal Large Language Models with Incoherence-adjusted Semantic Volume

Arxiv

0+阅读 · 2月27日

SWE-Protégé: Learning to Selectively Collaborate With an Expert Unlocks Small Language Models as Software Engineering Agents

Arxiv

0+阅读 · 2月25日

High Accuracy, Less Talk (HALT): Reliable LLMs through Capability-Aligned Finetuning

Arxiv

0+阅读 · 2月15日

LaCy: What Small Language Models Can and Should Learn is Not Just a Question of Loss

Arxiv

0+阅读 · 2月13日

Effective vocabulary expanding of multilingual language models for extremely low-resource languages

Arxiv

0+阅读 · 2月10日

Luth: Efficient French Specialization for Small Language Models and Cross-Lingual Transfer

Arxiv

0+阅读 · 2月9日

Beyond Bias Scores: Unmasking Vacuous Neutrality in Small Language Models

Arxiv

0+阅读 · 2月7日

Harnessing the Unseen: The Hidden Influence of Intrinsic Knowledge in Long-Context Language Models

Arxiv

0+阅读 · 2月6日

Late-to-Early Training: LET LLMs Learn Earlier, So Faster and Better

Arxiv

0+阅读 · 2月5日

ReasonCACHE: Teaching LLMs To Reason Without Weight Updates

Arxiv

0+阅读 · 2月2日

相关基金

语义Web知识库补全关键技术研究

国家自然科学基金

18+阅读 · 2017年12月31日

不可忽略缺失机制下的广义矩方法和调整经验似然方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

结合知识图谱的概率话题模型研究

国家自然科学基金

10+阅读 · 2015年12月31日

基于非独立同分布学习理论的图模型词义消歧及领域适应方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

共现潜在语义向量空间模型及其语义核的构建与应用研究

国家自然科学基金

1+阅读 · 2015年12月31日

信息论学习中的正则化及相关高维数据分析方法的数学理论

国家自然科学基金

12+阅读 · 2014年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员