The rapid emergence of Large Language Models (LLMs) has precipitated a profound paradigm shift in Artificial Intelligence, delivering monumental engineering successes that increasingly impact modern society. However, a critical paradox persists within the current field: despite the empirical efficacy, our theoretical understanding of LLMs remains disproportionately nascent, forcing these systems to be treated largely as ``black boxes''. To address this theoretical fragmentation, this survey proposes a unified lifecycle-based taxonomy that organizes the research landscape into six distinct stages: Data Preparation, Model Preparation, Training, Alignment, Inference, and Evaluation. Within this framework, we provide a systematic review of the foundational theories and internal mechanisms driving LLM performance. Specifically, we analyze core theoretical issues such as the mathematical justification for data mixtures, the representational limits of various architectures, and the optimization dynamics of alignment algorithms. Moving beyond current best practices, we identify critical frontier challenges, including the theoretical limits of synthetic data self-improvement, the mathematical bounds of safety guarantees, and the mechanistic origins of emergent intelligence. By connecting empirical observations with rigorous scientific inquiry, this work provides a structured roadmap for transitioning LLM development from engineering heuristics toward a principled scientific discipline.


翻译:大语言模型的迅速崛起引发了人工智能领域的深刻范式转变,其取得的巨大工程成就正日益影响着现代社会。然而,当前领域仍存在一个关键悖论:尽管模型在实证层面表现出色,我们对其的理论理解却相对滞后,导致这些系统在很大程度上仍被视为“黑箱”。为应对这种理论碎片化问题,本综述提出了一种基于生命周期的统一分类法,将研究领域划分为六个不同阶段:数据准备、模型准备、训练、对齐、推理与评估。在此框架下,我们对驱动大语言模型性能的基础理论及内部机制进行了系统性梳理。具体而言,我们分析了若干核心理论问题,例如数据混合的数学依据、不同架构的表征极限,以及对齐算法的优化动力学。在超越当前最佳实践的基础上,我们指出了若干关键的前沿挑战,包括合成数据自我改进的理论极限、安全保证的数学边界,以及涌现智能的机制起源。通过将实证观察与严谨的科学探究相结合,本研究为将大语言模型开发从工程启发式转向原则性科学学科提供了结构化路线图。

1
下载
关闭预览

相关内容

跨越黑盒:大语言模型的理论与机制
专知会员服务
13+阅读 · 1月7日
LLM4SR:关于大规模语言模型在科学研究中的应用综述
专知会员服务
42+阅读 · 2025年1月9日
Auto-Keras与AutoML:入门指南
云栖社区
18+阅读 · 2019年2月9日
CosFace: Large Margin Cosine Loss for Deep Face Recognition论文笔记
统计学习与视觉计算组
44+阅读 · 2018年4月25日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员