Recently, large language models (LLMs) have demonstrated strong performance, ranging from simple to complex tasks. However, while large proprietary models (e.g., models with over 100B parameters) achieve remarkable results across diverse tasks, they are often accessible through costly APIs, making frequent use too costly for many applications. In contrast, small open-source models (e.g., models with fewer than 3B parameters) are freely available and easy to deploy locally, but their performance on complex tasks remains limited. This trade-off raises a natural question: how can small and large models efficiently collaborate to combine their complementary strengths? To bridge this trade-off, we propose COPE, a test-time collaboration framework. A planner model first generates a plan that serves as a lightweight intermediate that guides a downstream executor model. Small and large models take turns acting as planner and executor, exchanging plans in a multi-stage cascade to collaboratively solve tasks. Through comprehensive experiments on benchmarks spanning mathematical reasoning, code generation, open-ended tasks, and agent tasks, we demonstrate that COPE achieves performance comparable to large proprietary models, while drastically reducing the inference API cost. These results highlight planning as an effective prior for cost-efficient inference.


翻译:近年来,大型语言模型(LLM)在从简单到复杂的各类任务中展现出强大性能。然而,尽管大型专有模型(例如参数规模超过100B的模型)在多样化任务中取得了显著成果,但其通常需要通过昂贵的API接口访问,频繁调用成本过高,难以广泛应用于实际场景。相比之下,小型开源模型(例如参数规模小于3B的模型)可免费获取且易于本地部署,但在复杂任务上的性能仍存在局限。这种权衡关系引出了一个自然问题:如何让小型与大型模型高效协作,以整合它们的互补优势?为弥合这一权衡,我们提出了COPE——一种测试时协作框架。规划模型首先生成作为轻量级中间表示的规划方案,用于指导下游执行模型。小型与大型模型通过多级级联交替扮演规划者与执行者角色,通过规划方案的传递实现任务协同求解。通过在数学推理、代码生成、开放式任务及智能体任务等基准测试上的综合实验,我们证明COPE在显著降低推理API成本的同时,能够达到与大型专有模型相媲美的性能。这些结果表明规划机制可作为实现高性价比推理的有效先验策略。

0
下载
关闭预览

相关内容

PlanGenLLMs:大型语言模型规划能力的最新综述
专知会员服务
33+阅读 · 2025年5月18日
《将大型语言模型(LLM)整合到海军作战规划中》
专知会员服务
129+阅读 · 2024年6月13日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员