Given a table T in a database and a question Q in natural language, the table question answering (TQA) task aims to return an accurate answer to Q based on the content of T. Recent state-of-the-art solutions leverage large language models (LLMs) to obtain high-quality answers. However, most rely on proprietary, large-scale LLMs with costly API access, posing a significant financial barrier. This paper instead focuses on TQA with smaller, open-weight LLMs that can run on a desktop or laptop. This setting is challenging, as such LLMs typically have weaker capabilities than large proprietary models, leading to substantial performance degradation with existing methods. We observe that a key reason for this degradation is that prior approaches often require the LLM to solve a highly sophisticated task using long, complex prompts, which exceed the capabilities of small open-weight LLMs. Motivated by this observation, we present Orchestra, a multi-agent approach that unlocks the potential of accessible LLMs for high-quality, cost-effective TQA. Orchestra coordinates a group of LLM agents, each responsible for a relatively simple task, through a structured, layered workflow to solve complex TQA problems -- akin to an orchestra. By reducing the prompt complexity faced by each agent, Orchestra significantly improves output reliability. We implement Orchestra on top of AgentScope, an open-source multi-agent framework, and evaluate it on multiple TQA benchmarks using a wide range of open-weight LLMs. Experimental results show that Orchestra achieves strong performance even with small- to medium-sized models. For example, with Qwen2.5-14B, Orchestra reaches 72.1% accuracy on WikiTQ, approaching the best prior result of 75.3% achieved with GPT-4; with larger Qwen, Llama, or DeepSeek models, Orchestra outperforms all prior methods and establishes new state-of-the-art results across all benchmarks.


翻译:给定数据库中的表格T和自然语言问题Q,表格问答(TQA)任务旨在根据T的内容返回Q的准确答案。当前最先进的解决方案利用大语言模型(LLM)来获得高质量答案。然而,大多数方法依赖于需要付费API访问的专有大规模LLM,造成了显著的经济门槛。本文则关注于使用可在台式机或笔记本电脑上运行的、规模较小的开源权重LLM进行TQA。这一设定具有挑战性,因为此类LLM的能力通常弱于大型专有模型,导致现有方法性能大幅下降。我们观察到,性能下降的一个关键原因是先前的方法通常要求LLM使用冗长复杂的提示来解决高度复杂的任务,这超出了小型开源权重LLM的能力范围。受此观察启发,我们提出了Orchestra,一种多智能体方法,旨在释放可访问LLM在高质量、低成本TQA方面的潜力。Orchestra通过一个结构化的分层工作流程,协调一组LLM智能体(每个智能体负责一个相对简单的任务)来解决复杂的TQA问题——类似于一个管弦乐团的协作。通过降低每个智能体面临的提示复杂度,Orchestra显著提高了输出可靠性。我们在开源多智能体框架AgentScope之上实现了Orchestra,并使用多种开源权重LLM在多个TQA基准上对其进行了评估。实验结果表明,即使使用中小型模型,Orchestra也能实现强劲的性能。例如,使用Qwen2.5-14B时,Orchestra在WikiTQ上达到了72.1%的准确率,接近此前使用GPT-4获得的最佳结果75.3%;当使用更大的Qwen、Llama或DeepSeek模型时,Orchestra在所有基准测试中都超越了所有先前方法,并确立了新的最先进结果。

0
下载
关闭预览

相关内容

RAG与RAU:自然语言处理中的检索增强语言模型综述
专知会员服务
87+阅读 · 2024年5月3日
从语言模型到语言智能体,普林斯顿Shunyu Yao
专知会员服务
63+阅读 · 2023年9月18日
[ACM MM 2021]结合文字识别结果的鲁棒和精确文本视觉问答
专知会员服务
16+阅读 · 2021年11月14日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关VIP内容
RAG与RAU:自然语言处理中的检索增强语言模型综述
专知会员服务
87+阅读 · 2024年5月3日
从语言模型到语言智能体,普林斯顿Shunyu Yao
专知会员服务
63+阅读 · 2023年9月18日
[ACM MM 2021]结合文字识别结果的鲁棒和精确文本视觉问答
专知会员服务
16+阅读 · 2021年11月14日
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员