We present MOSAIC, a multi-agent Large Language Model (LLM) framework for solving challenging scientific coding tasks. Unlike general-purpose coding, scientific workflows require algorithms that are rigorous, interconnected with deep domain knowledge, and incorporate domain-specific reasoning, as well as algorithm iteration without requiring I/O test cases. Many scientific problems also require a sequence of subproblems to be solved, leading to the final desired result. MOSAIC is designed as a training-free framework with specially designed agents to self-reflect, create the rationale, code, and debug within a student-teacher paradigm to address the challenges of scientific code generation. This design facilitates stepwise problem decomposition, targeted error correction, and, when combined with our Consolidated Context Window (CCW), mitigates LLM hallucinations when solving complex scientific tasks involving chained subproblems. We evaluate MOSAIC on scientific coding benchmarks and demonstrate that our specialized agentic framework outperforms existing approaches in terms of accuracy, robustness, and interpretability.


翻译:摘要:本文提出MOSAIC——一种用于解决挑战性科学编码任务的多智能体大语言模型框架。与通用编码不同,科学工作流要求算法具有严谨性、与深层领域知识相关联、融合领域特定推理能力,并且能在无需输入/输出测试用例的情况下进行算法迭代。许多科学问题还需要通过求解一系列子问题才能获得最终期望结果。MOSAIC被设计为一种免训练框架,通过专门设计的智能体在“学生-教师”范式下实现自我反思、逻辑构建、代码编写与调试,以应对科学代码生成的挑战。该设计促进了问题的逐步分解与定向错误纠正,当与我们的“整合上下文窗口”相结合时,能有效缓解大语言模型在解决涉及链式子问题的复杂科学任务时的幻觉问题。我们在科学编码基准上评估了MOSAIC,实验结果表明,该专用智能体框架在准确性、鲁棒性和可解释性方面均优于现有方法。

0
下载
关闭预览

相关内容

多智能体协作机制
专知会员服务
23+阅读 · 4月25日
《多智能体搜索和任务分配的数学建模》92页论文
专知会员服务
116+阅读 · 2023年10月24日
《多智能体任务规划》2022博士论文
专知会员服务
288+阅读 · 2022年11月20日
《分布式多智能体强化学习的编码》加州大学等
专知会员服务
56+阅读 · 2022年11月2日
面向多智能体博弈对抗的对手建模框架
专知
18+阅读 · 2022年9月28日
【综述】多智能体强化学习算法理论研究
深度强化学习实验室
16+阅读 · 2020年9月9日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
相关主题
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
专知会员服务
1+阅读 · 今天14:45
综述 | 世界动作模型:少做梦,多行动
专知会员服务
1+阅读 · 今天14:43
美以伊冲突:无人机与人工智能的运用
专知会员服务
4+阅读 · 今天14:31
《特种部队在透明战场中的生存力》最新报告
专知会员服务
2+阅读 · 今天14:11
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员