论文标题: Two Heads are Better than One: Distilling Large Language Model Features Into Small Models with Feature Decomposition and Mixture
作者: Tianhao Fu, Xinxin Xu, Weichen Xu, Jue Chen, Ruilong Ren, Bowen Deng, Xinyu Zhao, Jian Cao, Xixin Cao
机构/会议信息: arXiv 最新 v3 版本 comment 标注为 accepted by AAAI2026。本文整理基于 arXiv 提供的 v2 HTML 正文与图表,摘要页显示最新版本为 2026-01-29 的 v3。
论文链接: https://arxiv.org/abs/2511.07110v3
HTML 正文来源: https://arxiv.org/html/2511.07110v2
这篇论文关注一个很现实的问题:大语言模型在金融做市任务上可能具备强大的市场理解能力,但推理速度太慢,无法直接用于低延迟交易。作者提出 Cooperative Market Making(CMM),把 LLM 的复杂特征按 层、任务、数据类型 三个正交维度拆开,让多个轻量学生模型分别学习不同“局部能力”,再通过 Hájek-MoE 动态融合专家输出,最终在真实市场数据上获得比传统 RL、普通蒸馏和标准 MoE 更好的收益、风险控制和延迟表现。
做市的核心目标是在买卖盘之间持续提供流动性,同时控制库存风险并追求收益。传统方法主要依赖规则、随机控制或强化学习;而作者发现,直接让 Gemini-2.5-Pro、Llama-3.1 等 LLM 根据历史市场状态预测未来中间价、价差和交易量,再构造下单策略,已经能超过若干传统 RL 方法。
问题也很明显:LLM 推理延迟高,实时交易场景通常要求亚秒级甚至更低延迟。直接部署大模型并不现实。普通知识蒸馏也不够,因为单个小模型很难承接 LLM 深层、高维、纠缠的金融表征。论文的核心判断是:不是把整个 LLM 一口气压进一个小模型,而是先拆,再分工学习,再协同融合。
CMM 的整体框架可以理解为三步:
论文并不是直接假设“多专家一定更好”,而是先用探针分析 LLM 内部表征。实验观察到两个现象:
这解释了为什么单个小模型难以完整学习 LLM 表征:它要同时拟合不同层级、不同任务、不同市场状态下的多种规律。CMM 因此将“蒸馏”改造成“分解式协作蒸馏”。
论文提出 Orthogonal Feature Decomposition Distillation(OFDD),把学生模型分配到三个拆解维度:
这种设计的好处是降低每个学生模型的学习难度。每个小模型只负责一块相对“干净”的特征空间,最后通过融合模块把这些能力重新组合成完整的做市策略。
标准 MoE 常见问题是专家融合比较静态,容易在极端行情下给错权重。CMM 的 Hájek-MoE 会把各学生模型的特征和输出映射到公共特征空间,利用核函数估计每个专家在当前输入上的置信贡献,再做加权聚合。
这意味着模型在平稳行情下可以偏向收益专家,在波动行情下可以更重视风险控制专家。论文后续鲁棒性实验也指出,在闪崩和快速反转等极端情境中,CMM 的动态专家置信机制能更好地平衡收益与风险。
论文在四个真实市场数据集 RB、FU、CU、AG 上评估 CMM。指标包括:
整体结果显示,CMM 在四个市场数据集上都优于多数传统做市方法。以 FU 数据集为例,CMM 达到 EPnL 31.39±4.18、MAP 32±2、PnLMAP 298±19,明显优于 IMM 的 28.10±10.27、102±14、274±89。
在与不同蒸馏方法和 MoE 方法对比时,CMM 取得 31.39 EPnL,相比 LLM-Base 的 30.47 还略有提升,同时延迟从 LLM-Base 的 1.9s 降到 0.3s,约为 6.3× 更低延迟。普通蒸馏方法如 ReviewKD、Sim-KD、CAT-KD 虽然延迟低,但收益和风险指标显著退化;X-MoE、MH-MoE 的融合方式也没有达到 CMM 的风险控制效果。
在 FU 数据集上的消融结果显示:
这说明三个分解维度不是装饰性的模块,而是逐步把复杂 LLM 特征变成小模型可学习对象;Hájek-MoE 则负责把这些专家能力在推理阶段动态组合起来。
论文还考察了几个更接近真实部署的问题:
这篇论文的价值不只在“把 LLM 用到金融做市”,更在于提出了一种面向复杂决策任务的蒸馏范式:当教师模型的能力不是单一技能,而是由多层、多任务、多数据状态共同形成时,蒸馏目标也应该被结构化拆开。
对金融 AI 来说,这一点尤其重要。交易任务通常同时包含预测、风险控制、执行成本、库存约束与市场状态识别。单个端到端小模型可能很难稳定继承大模型的隐含知识;CMM 则把大模型当成“可解析的复杂特征源”,通过探针先看清结构,再把结构转移给多个轻量专家。
当然,论文仍需要进一步验证真实交易部署中的交易成本、滑点、监管约束和市场冲击等因素。但从方法角度看,它给出了一个很有启发性的方向:LLM 不一定要直接上场交易,它也可以作为高质量教师,把复杂市场表征拆解并传授给更快、更便宜、更可部署的小模型。
Fu et al. Two Heads are Better than One: Distilling Large Language Model Features Into Small Models with Feature Decomposition and Mixture. arXiv:2511.07110. Comment in latest arXiv v3: accepted by AAAI2026.