Adapting large language models (LLMs) to specialized financial reasoning typically requires expensive fine-tuning that produces model-locked expertise. Training-free alternatives have emerged, yet our experiments show that leading methods (GEPA and ACE) achieve only marginal gains on the FAMMA financial reasoning benchmark, exposing the limits of unstructured text optimization for complex, multi-step domain reasoning. We introduce Automated Skill Distillation and Adaptation (ASDA), a framework that automatically generates structured skill artifacts through iterative error-corrective learning without modifying model weights. A teacher model analyzes a student model's failures on financial reasoning tasks, clusters errors by subfield and error type, and synthesizes skill files containing reasoning procedures, code templates, and worked examples, which are dynamically injected during inference. Evaluated on FAMMA, ASDA achieves up to +17.33% improvement on arithmetic reasoning and +5.95% on non-arithmetic reasoning, substantially outperforming all training-free baselines. The resulting skill artifacts are human-readable, version-controlled, and compatible with the Agent Skills open standard, offering any organization with a labeled domain dataset a practical and auditable path to domain adaptation without weight access or retraining.


翻译:将大型语言模型(LLM)适配至专业金融推理任务通常需要昂贵的微调过程,这会生成与模型绑定的专业知识。尽管已出现无需训练的方法,但我们的实验表明,主流方法(GEPA与ACE)在FAMMA金融推理基准测试中仅获得有限提升,这揭示了非结构化文本优化在复杂多步骤领域推理中的局限性。本文提出自动化技能蒸馏与适配(ASDA)框架,该框架通过迭代式纠错学习自动生成结构化技能构件,且无需修改模型权重。教师模型通过分析学生模型在金融推理任务中的失败案例,按子领域和错误类型对错误进行聚类,并合成包含推理流程、代码模板和示例解析的技能文件,这些文件在推理过程中被动态注入。在FAMMA基准上的评估显示,ASDA在算术推理任务中最高提升17.33%,在非算术推理任务中提升5.95%,显著优于所有无需训练的基线方法。生成的技能构件具备人类可读性、版本控制特性,且兼容Agent Skills开放标准,为任何拥有标注领域数据的组织提供了一条无需权重访问或重新训练即可实现领域适配的实用化、可审计路径。

0
下载
关闭预览

相关内容

在社会经济生活,银行、证券或保险业者从市场主体募集资金,并投资给其它市场主体的经济活动。
智能体评判者(Agent-as-a-Judge)研究综述
专知会员服务
37+阅读 · 1月9日
什么是后训练?大语言模型训练后优化方法综述,87页pdf
金融领域自然语言处理研究资源大列表
专知
13+阅读 · 2020年2月27日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
最新“指挥控制”领域出版物合集(简介)
专知会员服务
1+阅读 · 今天15:19
面向军事作战需求开发的人工智能(RAIMOND)
专知会员服务
3+阅读 · 今天15:13
软件定义多域战术网络:基础与未来方向(综述)
水下战战术决策中的气象与海洋预报(50页报告)
远程空中优势:新一代超视距导弹的兴起
专知会员服务
1+阅读 · 今天14:45
大语言模型溯因推理的统一分类学与综述
专知会员服务
0+阅读 · 今天12:07
相关VIP内容
智能体评判者(Agent-as-a-Judge)研究综述
专知会员服务
37+阅读 · 1月9日
什么是后训练?大语言模型训练后优化方法综述,87页pdf
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员