【AAAI 2026】Two Heads are Better than One:将大模型做市能力拆解蒸馏给小模型

论文标题: Two Heads are Better than One: Distilling Large Language Model Features Into Small Models with Feature Decomposition and Mixture

作者: Tianhao Fu, Xinxin Xu, Weichen Xu, Jue Chen, Ruilong Ren, Bowen Deng, Xinyu Zhao, Jian Cao, Xixin Cao

机构/会议信息: arXiv 最新 v3 版本 comment 标注为 accepted by AAAI2026。本文整理基于 arXiv 提供的 v2 HTML 正文与图表,摘要页显示最新版本为 2026-01-29 的 v3。

论文链接: https://arxiv.org/abs/2511.07110v3
HTML 正文来源: https://arxiv.org/html/2511.07110v2

一句话导读

这篇论文关注一个很现实的问题:大语言模型在金融做市任务上可能具备强大的市场理解能力,但推理速度太慢,无法直接用于低延迟交易。作者提出 Cooperative Market Making(CMM),把 LLM 的复杂特征按 层、任务、数据类型 三个正交维度拆开,让多个轻量学生模型分别学习不同“局部能力”,再通过 Hájek-MoE 动态融合专家输出,最终在真实市场数据上获得比传统 RL、普通蒸馏和标准 MoE 更好的收益、风险控制和延迟表现。

背景:LLM 会做市,但太慢

做市的核心目标是在买卖盘之间持续提供流动性,同时控制库存风险并追求收益。传统方法主要依赖规则、随机控制或强化学习;而作者发现,直接让 Gemini-2.5-Pro、Llama-3.1 等 LLM 根据历史市场状态预测未来中间价、价差和交易量,再构造下单策略,已经能超过若干传统 RL 方法。

问题也很明显:LLM 推理延迟高,实时交易场景通常要求亚秒级甚至更低延迟。直接部署大模型并不现实。普通知识蒸馏也不够,因为单个小模型很难承接 LLM 深层、高维、纠缠的金融表征。论文的核心判断是:不是把整个 LLM 一口气压进一个小模型,而是先拆,再分工学习,再协同融合。

方法总览:CMM 的三段式思路

CMM 的整体框架可以理解为三步:

  1. 先探测 LLM 特征如何组织。 作者提出 Normalized Fluorescent Probe,用归一化探针观察 LLM 的隐藏特征在不同层、不同任务、不同市场数据类型下是否能被分离。
  2. 再做正交特征分解蒸馏。 将 LLM 知识沿 layer、task、data type 三个维度拆解,不同学生模型只负责一类更简单、更可学习的特征。
  3. 最后用 Hájek-MoE 做动态融合。 每个学生模型输出自己的预测,融合模块在核函数生成的公共特征空间中估计不同专家的贡献权重,得到最终做市决策。

Normalized Fluorescent Probe:为什么要按三维拆解

论文并不是直接假设“多专家一定更好”,而是先用探针分析 LLM 内部表征。实验观察到两个现象:

  • 解耦条件越强,LLM 特征簇之间的分离越明显,说明复杂特征确实可以被拆成更简单的子结构。
  • 不同深度层存在任务偏好:浅层更偏向中间价预测,中层更关注价差,深层更适合总量预测。

这解释了为什么单个小模型难以完整学习 LLM 表征:它要同时拟合不同层级、不同任务、不同市场状态下的多种规律。CMM 因此将“蒸馏”改造成“分解式协作蒸馏”。

正交特征分解蒸馏:让小模型各司其职

论文提出 Orthogonal Feature Decomposition Distillation(OFDD),把学生模型分配到三个拆解维度:

  • Layer Feature Decomposition: 不同学生模型学习 LLM 不同层的表示。
  • Task Feature Decomposition: 分别面向中间价、价差、成交量等任务特征。
  • Data/Market Type Feature Decomposition: 按不同市场类型或数据状态训练专家,让模型对牛市、熊市、震荡市等环境更敏感。

这种设计的好处是降低每个学生模型的学习难度。每个小模型只负责一块相对“干净”的特征空间,最后通过融合模块把这些能力重新组合成完整的做市策略。

Hájek-MoE:不是静态投票,而是按输入动态分配专家权重

标准 MoE 常见问题是专家融合比较静态,容易在极端行情下给错权重。CMM 的 Hájek-MoE 会把各学生模型的特征和输出映射到公共特征空间,利用核函数估计每个专家在当前输入上的置信贡献,再做加权聚合。

这意味着模型在平稳行情下可以偏向收益专家,在波动行情下可以更重视风险控制专家。论文后续鲁棒性实验也指出,在闪崩和快速反转等极端情境中,CMM 的动态专家置信机制能更好地平衡收益与风险。

实验结果:收益、风险和延迟同时改善

论文在四个真实市场数据集 RB、FU、CU、AG 上评估 CMM。指标包括:

  • EPnL: 预期收益,越高越好。
  • MAP: 库存偏离/风险相关指标,越低越好。
  • PnLMAP: 收益与风险综合指标,越高越好。
  • SR: Sharpe Ratio,越高越好。
  • Latency: 推理延迟,越低越好。

整体结果显示,CMM 在四个市场数据集上都优于多数传统做市方法。以 FU 数据集为例,CMM 达到 EPnL 31.39±4.18、MAP 32±2、PnLMAP 298±19,明显优于 IMM 的 28.10±10.27、102±14、274±89

在与不同蒸馏方法和 MoE 方法对比时,CMM 取得 31.39 EPnL,相比 LLM-Base 的 30.47 还略有提升,同时延迟从 LLM-Base 的 1.9s 降到 0.3s,约为 6.3× 更低延迟。普通蒸馏方法如 ReviewKD、Sim-KD、CAT-KD 虽然延迟低,但收益和风险指标显著退化;X-MoE、MH-MoE 的融合方式也没有达到 CMM 的风险控制效果。

消融实验:三种分解和 Hájek-MoE 都有贡献

在 FU 数据集上的消融结果显示:

  • 只做 layer 分解:EPnL 12.54,MAP 67,PnLMAP 162。
  • 只做 task 分解:EPnL 17.25,MAP 58,PnLMAP 195。
  • 只做 market type 分解:EPnL 22.41,MAP 45,PnLMAP 241。
  • 完整 CMM 加 Hájek-MoE:EPnL 31.39,MAP 32,PnLMAP 298。

这说明三个分解维度不是装饰性的模块,而是逐步把复杂 LLM 特征变成小模型可学习对象;Hájek-MoE 则负责把这些专家能力在推理阶段动态组合起来。

低数据、极端市场和能耗测试

论文还考察了几个更接近真实部署的问题:

  • 极端行情: 在模拟闪崩和快速反转数据中,CMM 相比 LLM-Base 与 IMM 获得更高风险调整收益,说明动态专家融合有助于市场压力下的风险控制。
  • 长期适应: 在一周多市场状态测试中,CMM 在盈利、风险控制和效率上优于 LLM-Base 与 IMM,表明市场类型分解有助于跨行情泛化。
  • 低数据条件: 仅使用 10%、20%、50% 训练数据时,CMM 都持续优于基线;例如 10% 数据下,CMM 的 EPnL 为 4.50,MAP 为 35,PnLMAP 为 1.29。
  • 能耗与延迟: CMM 的功耗约 45W、推理延迟约 20ms,低于 LLM-Base 的 150W/120ms 和 IMM 的 90W/80ms

专知分析

这篇论文的价值不只在“把 LLM 用到金融做市”,更在于提出了一种面向复杂决策任务的蒸馏范式:当教师模型的能力不是单一技能,而是由多层、多任务、多数据状态共同形成时,蒸馏目标也应该被结构化拆开。

对金融 AI 来说,这一点尤其重要。交易任务通常同时包含预测、风险控制、执行成本、库存约束与市场状态识别。单个端到端小模型可能很难稳定继承大模型的隐含知识;CMM 则把大模型当成“可解析的复杂特征源”,通过探针先看清结构,再把结构转移给多个轻量专家。

当然,论文仍需要进一步验证真实交易部署中的交易成本、滑点、监管约束和市场冲击等因素。但从方法角度看,它给出了一个很有启发性的方向:LLM 不一定要直接上场交易,它也可以作为高质量教师,把复杂市场表征拆解并传授给更快、更便宜、更可部署的小模型。

参考

Fu et al. Two Heads are Better than One: Distilling Large Language Model Features Into Small Models with Feature Decomposition and Mixture. arXiv:2511.07110. Comment in latest arXiv v3: accepted by AAAI2026.

成为VIP会员查看完整内容
1

相关内容

AAAI 2025 | 基于模态分词的细粒度实体表示学习框架
专知会员服务
27+阅读 · 2024年12月26日
EMNLP2024|从知识图谱中习得大语言模型的规划能力
专知会员服务
31+阅读 · 2024年11月27日
EMNLP 2024 | 基于知识编辑的大模型敏感知识擦除
专知会员服务
22+阅读 · 2024年11月19日
AAAI2024|场景图知识增强多模态结构化表示能力
专知会员服务
38+阅读 · 2024年1月14日
AAAI2024|基于预训练模型的知识图谱嵌入编辑
专知会员服务
32+阅读 · 2023年12月22日
EMNLP2023:预训练模型的知识反刍
专知会员服务
32+阅读 · 2023年11月20日
AAAI2022-无需蒸馏信号的对比学习小模型训练效能研究
专知会员服务
18+阅读 · 2021年12月23日
AAAI 2020论文解读:关注实体以更好地理解文本
AI科技评论
17+阅读 · 2019年11月20日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
46+阅读 · 2022年9月6日
Arxiv
28+阅读 · 2021年10月1日
VIP会员
最新内容
【综述】 机器人学习中的世界模型:全面综述
伊朗的导弹-无人机行动及其对美国威慑的影响
【综述】 基于大语言模型的对话用户模拟综述
相关VIP内容
AAAI 2025 | 基于模态分词的细粒度实体表示学习框架
专知会员服务
27+阅读 · 2024年12月26日
EMNLP2024|从知识图谱中习得大语言模型的规划能力
专知会员服务
31+阅读 · 2024年11月27日
EMNLP 2024 | 基于知识编辑的大模型敏感知识擦除
专知会员服务
22+阅读 · 2024年11月19日
AAAI2024|场景图知识增强多模态结构化表示能力
专知会员服务
38+阅读 · 2024年1月14日
AAAI2024|基于预训练模型的知识图谱嵌入编辑
专知会员服务
32+阅读 · 2023年12月22日
EMNLP2023:预训练模型的知识反刍
专知会员服务
32+阅读 · 2023年11月20日
AAAI2022-无需蒸馏信号的对比学习小模型训练效能研究
专知会员服务
18+阅读 · 2021年12月23日
相关资讯
AAAI 2020论文解读:关注实体以更好地理解文本
AI科技评论
17+阅读 · 2019年11月20日
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员