Large language models increasingly require structured inference, from JSON schema enforcement to multi-lingual parsing, where outputs must satisfy complex constraints. We introduce MetaJuLS, a meta-reinforcement learning approach that learns universal constraint propagation policies applicable across languages and tasks without task-specific retraining. By formulating structured inference as adaptive constraint propagation and training a Graph Attention Network with meta-learning, MetaJuLS achieves 1.5--2.0$\times$ speedups over GPU-optimized baselines while maintaining within 0.2\% accuracy of state-of-the-art parsers. On Universal Dependencies across 10 languages and LLM-constrained generation (LogicBench, GSM8K-Constrained), MetaJuLS demonstrates rapid cross-domain adaptation: a policy trained on English parsing adapts to new languages and tasks with 5--10 gradient steps (5--15 seconds) rather than requiring hours of task-specific training. Mechanistic analysis reveals the policy discovers human-like parsing strategies (easy-first) and novel non-intuitive heuristics. By reducing propagation steps in LLM deployments, MetaJuLS contributes to Green AI by directly reducing inference carbon footprint.


翻译:大语言模型日益需要结构化推理,从JSON模式强制到多语言解析,其输出必须满足复杂约束。我们提出MetaJuLS,一种元强化学习方法,能够学习适用于跨语言和跨任务的通用约束传播策略,而无需针对特定任务进行重新训练。通过将结构化推理建模为自适应约束传播,并利用元学习训练图注意力网络,MetaJuLS在保持与最先进解析器精度差距小于0.2%的同时,相比GPU优化基线实现了1.5--2.0倍的加速。在涵盖10种语言的通用依存关系数据集及LLM约束生成任务(LogicBench、GSM8K-Constrained)上的实验表明,MetaJuLS具有快速跨领域适应能力:在英语解析任务上训练的策略仅需5--10次梯度更新(5--15秒)即可适应新语言和任务,而无需数小时的特定任务训练。机理分析表明,该策略能够发现类人解析策略(易优先原则)及新颖的非直观启发式方法。通过减少LLM部署中的传播步骤,MetaJuLS直接降低推理碳足迹,为绿色AI作出贡献。

0
下载
关闭预览

相关内容

面向大型推理模型的强化学习综述
专知会员服务
29+阅读 · 2025年9月11日
大语言模型的强化学习技术综述
专知会员服务
40+阅读 · 2025年7月8日
强化多模态大语言模型:基于强化学习的推理综述
专知会员服务
35+阅读 · 2025年5月3日
强化学习增强的大型语言模型:综述
专知会员服务
52+阅读 · 2024年12月17日
大语言模型算法演进综述
专知会员服务
81+阅读 · 2024年5月30日
大型语言模型增强强化学习综述:概念、分类和方法
专知会员服务
57+阅读 · 2024年4月4日
【WWW2024】元认知检索-增强大型语言模型
专知会员服务
50+阅读 · 2024年2月26日
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
元学习(Meta Learning)最全论文、视频、书籍资源整理
深度学习与NLP
22+阅读 · 2019年6月20日
元学习(Meta-Learning) 综述及五篇顶会论文推荐
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
VIP会员
相关VIP内容
面向大型推理模型的强化学习综述
专知会员服务
29+阅读 · 2025年9月11日
大语言模型的强化学习技术综述
专知会员服务
40+阅读 · 2025年7月8日
强化多模态大语言模型:基于强化学习的推理综述
专知会员服务
35+阅读 · 2025年5月3日
强化学习增强的大型语言模型:综述
专知会员服务
52+阅读 · 2024年12月17日
大语言模型算法演进综述
专知会员服务
81+阅读 · 2024年5月30日
大型语言模型增强强化学习综述:概念、分类和方法
专知会员服务
57+阅读 · 2024年4月4日
【WWW2024】元认知检索-增强大型语言模型
专知会员服务
50+阅读 · 2024年2月26日
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员