【CMU博士论文】语言建模中数据-训练-推理交互的数学基础 - 专知VIP

会员服务 ·

13

博士论文 · 大语言模型 ·

【CMU博士论文】语言建模中数据-训练-推理交互的数学基础

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

语言模型是一项极其复杂的工程技术成就——目前，研究人员和从业者对其许多维度的（数学和概念层面）理解仍显匮乏。本论文综述了本人旨在开发一套语言模型理论推理方法论的相关研究。该方法论的基础在于：通过关注语言数据中普遍存在的关键结构（如语法和主题），对数据生成过程进行数学建模。这些结构在特定的抽象层次上为数据提供了现实的假设，从而有助于研究数据、训练与推理之间的交互作用。第 2 章探讨训练过程：本章涵盖了我们阐明 Transformer 架构模型在常规训练程序下如何学习简单语言结构的研究工作。第 3 章探讨推理过程：本章介绍了我们在存在验证器（Verifier）引导自回归语言模型生成器的情境下，关于推理时间缩放（Inference Time Scaling）的研究。最后，第 4 章探讨在并行高效（Parallel-efficient）语言模型的语境下，如何对训练和推理程序进行协同设计。上述研究结果将现代神经网络架构的理论分析与具体的经验现象（Empirical Phenomena）联系起来，并通过基于合成沙箱（Synthetic Sandboxes）和真实语言数据的实验验证了我们的理论。通过这些进展，本人的研究为推理语言建模中数据、训练与推理之间的交互贡献了数学基础，并激励了基于理解和利用这些交互作用的有原则的（Principled）算法设计。

成为VIP会员查看完整内容

23

相关内容

博士论文

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下，选择自己能够把握和驾驭的潜在的研究方向，开辟新的研究领域。由此可见，这就对作者提出了较高要求，它要求作者必须在本学科的专业领域具备大量的理论知识，并对所学专业的理论知识有相当深入的理解和思考，同时还要具有相当水平的独立科学研究能力，能够为在学科领域提出独创性的见解和有价值的科研成果。因而，较之学士论文、硕士论文，博士论文具有更高的学术价值，对学科的发展具有重要的推动作用。

【CMU博士论文】基础模型训练中网络规模数据的负责任与高效使用

【CMU博士论文】基础模型训练中网络规模数据的负责任与高效使用

专知会员服务

14+阅读 · 2025年12月14日

【CMU博士论文】大型语言模型的隐性特性

【CMU博士论文】大型语言模型的隐性特性

专知会员服务

15+阅读 · 2025年10月18日

大模型数学推理数据合成相关方法

大模型数学推理数据合成相关方法

专知会员服务

36+阅读 · 2025年1月19日

【博士论文】面向数据的语言生成模型研究

【博士论文】面向数据的语言生成模型研究

专知会员服务

24+阅读 · 2025年1月19日

【CMU博士论文】使用结构化推理增强语言模型，320页pdf

【CMU博士论文】使用结构化推理增强语言模型，320页pdf

专知会员服务

34+阅读 · 2024年6月29日

【UCLA博士论文】利用语言模型推进数学推理：多模态和知识密集型视角，208页pdf

【UCLA博士论文】利用语言模型推进数学推理：多模态和知识密集型视角，208页pdf

专知会员服务

34+阅读 · 2024年5月30日

【博士论文】神经语言模型：上下文语境中语言理解与产出的研究

【博士论文】神经语言模型：上下文语境中语言理解与产出的研究

专知会员服务

16+阅读 · 2024年4月29日

【哈佛大学博士论文】《大语言模型的结构建模》，132页pdf

【哈佛大学博士论文】《大语言模型的结构建模》，132页pdf

专知会员服务

46+阅读 · 2024年1月25日

【CMU博士论文】多语言视觉-语言模型研究，190页pdf

【CMU博士论文】多语言视觉-语言模型研究，190页pdf

专知会员服务

36+阅读 · 2023年2月15日

【博士论文】视觉语言交互中的视觉推理研究

【博士论文】视觉语言交互中的视觉推理研究

专知会员服务

65+阅读 · 2021年12月1日

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知

17+阅读 · 2023年4月12日

「知识增强预训练语言模型」最新研究综述

「知识增强预训练语言模型」最新研究综述

专知

18+阅读 · 2022年11月18日

绝对干货！NLP预训练模型：从transformer到albert

绝对干货！NLP预训练模型：从transformer到albert

新智元

13+阅读 · 2019年11月10日

【CMU博士论文2019】建立知识感知的自然语言理解系统，附118页论文全文下载

【CMU博士论文2019】建立知识感知的自然语言理解系统，附118页论文全文下载

专知

22+阅读 · 2019年10月23日

【CMU教程】高效大规模机器学习训练，198页PDF带你概览领域前沿进展

【CMU教程】高效大规模机器学习训练，198页PDF带你概览领域前沿进展

专知

14+阅读 · 2019年10月9日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

第二章机器学习中的数学基础

第二章机器学习中的数学基础

Datartisan数据工匠

12+阅读 · 2018年4月5日

关系推理：基于表示学习和语义要素

关系推理：基于表示学习和语义要素

计算机研究与发展

19+阅读 · 2017年8月22日

语料库构建——自然语言理解的基础

语料库构建——自然语言理解的基础

计算机研究与发展

11+阅读 · 2017年8月21日

天元数学交流项目图像处理中的数学理论及方法研讨会

国家自然科学基金

9+阅读 · 2017年12月31日

基于人机交互的数据驱动式人群行为建模与仿真研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于格值逻辑的语言真值α-群锁语义归结自动推理研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

面向异构数据库的查询语言设计及其基础理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

中文句子语义概念图自动构建方法及应用研究

国家自然科学基金

3+阅读 · 2014年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

面向汉语文本理解的语义计算方法

国家自然科学基金

8+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

Asynchronous Reasoning: Training-Free Interactive Thinking LLMs

Arxiv

0+阅读 · 2月4日

Interpreting and Controlling LLM Reasoning through Integrated Policy Gradient

Arxiv

0+阅读 · 2月2日

A Survey of LLM Alignment: Instruction Understanding, Intention Reasoning, and Reliable Generation

Arxiv

0+阅读 · 1月29日

Language Models are Symbolic Learners in Arithmetic

Arxiv

0+阅读 · 1月26日

MathMist: A Parallel Multilingual Benchmark Dataset for Mathematical Problem Solving and Reasoning

Arxiv

0+阅读 · 1月24日

Integrating Large Language Models into Recommendation via Mutual Augmentation and Adaptive Aggregation

Arxiv

0+阅读 · 1月18日

Are Language Models Efficient Reasoners? A Perspective from Logic Programming

Arxiv

0+阅读 · 1月15日

How Training Data Shapes the Use of Parametric and In-Context Knowledge in Language Models

Arxiv

0+阅读 · 1月7日

Entropy-Aligned Decoding of LMs for Better Writing and Reasoning

Arxiv

0+阅读 · 1月5日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

501+阅读 · 2023年3月31日

VIP会员

相关主题

大语言模型

最新内容

以色列-美国-伊朗战争中的无人机：关键要点

以色列-美国-伊朗战争中的无人机：关键要点

专知会员服务

1+阅读 · 今天14:04

美以伊战争：首次人工智能战争——军事自主性困境

美以伊战争：首次人工智能战争——军事自主性困境

专知会员服务

1+阅读 · 今天13:54

《Palantir任务保障性软件安全标准（MA-S2）》

《Palantir任务保障性软件安全标准（MA-S2）》

专知会员服务

5+阅读 · 今天13:49

《美海军利用扩展现实增强知识流动研究》300页报告

《美海军利用扩展现实增强知识流动研究》300页报告

专知会员服务

3+阅读 · 今天13:38

基于声学的无人机检测技术综述

基于声学的无人机检测技术综述

专知会员服务

4+阅读 · 今天13:37

《当代混合战争分析框架：俄乌战争经验教训》

《当代混合战争分析框架：俄乌战争经验教训》

专知会员服务

4+阅读 · 今天13:11

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

专知会员服务

10+阅读 · 5月29日

AutoScientists：自组织智能体团队驱动长期科学实验

AutoScientists：自组织智能体团队驱动长期科学实验

专知会员服务

5+阅读 · 5月29日

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

专知会员服务

5+阅读 · 5月29日

战略前沿人工智能的再思考（中文）

战略前沿人工智能的再思考（中文）

专知会员服务

7+阅读 · 5月29日

《量化地基防空系统间接效应的博弈论方法》

《量化地基防空系统间接效应的博弈论方法》

专知会员服务

5+阅读 · 5月29日

传感器网络：美国如何探测来自伊朗的导弹与无人机

传感器网络：美国如何探测来自伊朗的导弹与无人机

专知会员服务

6+阅读 · 5月29日

《无人机战争中的经济不对称：伊朗“沙赫德-136”对抗以色列“铁穹”防御系统的案例研究》

《无人机战争中的经济不对称：伊朗“沙赫德-136”对抗以色列“铁穹”防御系统的案例研究》

专知会员服务

8+阅读 · 5月29日

“史诗怒火行动”中美军损失的作战飞机

“史诗怒火行动”中美军损失的作战飞机

专知会员服务

6+阅读 · 5月29日

ICML 2026 | 理解上下文持续学习中的泛化与遗忘

ICML 2026 | 理解上下文持续学习中的泛化与遗忘

专知会员服务

5+阅读 · 5月28日

相关VIP内容

【CMU博士论文】基础模型训练中网络规模数据的负责任与高效使用

【CMU博士论文】基础模型训练中网络规模数据的负责任与高效使用

专知会员服务

14+阅读 · 2025年12月14日

【CMU博士论文】大型语言模型的隐性特性

【CMU博士论文】大型语言模型的隐性特性

专知会员服务

15+阅读 · 2025年10月18日

大模型数学推理数据合成相关方法

大模型数学推理数据合成相关方法

专知会员服务

36+阅读 · 2025年1月19日

【博士论文】面向数据的语言生成模型研究

【博士论文】面向数据的语言生成模型研究

专知会员服务

24+阅读 · 2025年1月19日

【CMU博士论文】使用结构化推理增强语言模型，320页pdf

【CMU博士论文】使用结构化推理增强语言模型，320页pdf

专知会员服务

34+阅读 · 2024年6月29日

【UCLA博士论文】利用语言模型推进数学推理：多模态和知识密集型视角，208页pdf

【UCLA博士论文】利用语言模型推进数学推理：多模态和知识密集型视角，208页pdf

专知会员服务

34+阅读 · 2024年5月30日

【博士论文】神经语言模型：上下文语境中语言理解与产出的研究

【博士论文】神经语言模型：上下文语境中语言理解与产出的研究

专知会员服务

16+阅读 · 2024年4月29日

【哈佛大学博士论文】《大语言模型的结构建模》，132页pdf

【哈佛大学博士论文】《大语言模型的结构建模》，132页pdf

专知会员服务

46+阅读 · 2024年1月25日

【CMU博士论文】多语言视觉-语言模型研究，190页pdf

【CMU博士论文】多语言视觉-语言模型研究，190页pdf

专知会员服务

36+阅读 · 2023年2月15日

【博士论文】视觉语言交互中的视觉推理研究

【博士论文】视觉语言交互中的视觉推理研究

专知会员服务

65+阅读 · 2021年12月1日

热门VIP内容

开通专知VIP会员享更多权益服务

美以伊战争：首次人工智能战争——军事自主性困境

《美海军利用扩展现实增强知识流动研究》300页报告

以色列-美国-伊朗战争中的无人机：关键要点

《Palantir任务保障性软件安全标准（MA-S2）》

相关资讯

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知

17+阅读 · 2023年4月12日

「知识增强预训练语言模型」最新研究综述

「知识增强预训练语言模型」最新研究综述

专知

18+阅读 · 2022年11月18日

绝对干货！NLP预训练模型：从transformer到albert

绝对干货！NLP预训练模型：从transformer到albert

新智元

13+阅读 · 2019年11月10日

【CMU博士论文2019】建立知识感知的自然语言理解系统，附118页论文全文下载

【CMU博士论文2019】建立知识感知的自然语言理解系统，附118页论文全文下载

专知

22+阅读 · 2019年10月23日

【CMU教程】高效大规模机器学习训练，198页PDF带你概览领域前沿进展

【CMU教程】高效大规模机器学习训练，198页PDF带你概览领域前沿进展

专知

14+阅读 · 2019年10月9日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

第二章机器学习中的数学基础

第二章机器学习中的数学基础

Datartisan数据工匠

12+阅读 · 2018年4月5日

关系推理：基于表示学习和语义要素

关系推理：基于表示学习和语义要素

计算机研究与发展

19+阅读 · 2017年8月22日

语料库构建——自然语言理解的基础

语料库构建——自然语言理解的基础

计算机研究与发展

11+阅读 · 2017年8月21日

相关基金

天元数学交流项目图像处理中的数学理论及方法研讨会

国家自然科学基金

9+阅读 · 2017年12月31日

基于人机交互的数据驱动式人群行为建模与仿真研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于格值逻辑的语言真值α-群锁语义归结自动推理研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

面向异构数据库的查询语言设计及其基础理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

中文句子语义概念图自动构建方法及应用研究

国家自然科学基金

3+阅读 · 2014年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

面向汉语文本理解的语义计算方法

国家自然科学基金

8+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

相关论文

Asynchronous Reasoning: Training-Free Interactive Thinking LLMs

Arxiv

0+阅读 · 2月4日

Interpreting and Controlling LLM Reasoning through Integrated Policy Gradient

Arxiv

0+阅读 · 2月2日

A Survey of LLM Alignment: Instruction Understanding, Intention Reasoning, and Reliable Generation

Arxiv

0+阅读 · 1月29日

Language Models are Symbolic Learners in Arithmetic

Arxiv

0+阅读 · 1月26日

MathMist: A Parallel Multilingual Benchmark Dataset for Mathematical Problem Solving and Reasoning

Arxiv

0+阅读 · 1月24日

Integrating Large Language Models into Recommendation via Mutual Augmentation and Adaptive Aggregation

Arxiv

0+阅读 · 1月18日

Are Language Models Efficient Reasoners? A Perspective from Logic Programming

Arxiv

0+阅读 · 1月15日

How Training Data Shapes the Use of Parametric and In-Context Knowledge in Language Models

Arxiv

0+阅读 · 1月7日

Entropy-Aligned Decoding of LMs for Better Writing and Reasoning

Arxiv

0+阅读 · 1月5日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

501+阅读 · 2023年3月31日

微信扫码咨询专知VIP会员