专家还是通才？多智能体与单智能体大语言模型在作文评分中的比较 (Specialists or Generalists? Multi-Agent and Single-Agent LLMs for Essay Grading) - 专知论文

会员服务 ·

0

系统 · 单智能体 · 智能体 · 样本 · 多智能体 ·

Specialists or Generalists? Multi-Agent and Single-Agent LLMs for Essay Grading

翻译：专家还是通才？多智能体与单智能体大语言模型在作文评分中的比较

Jamiu Adekunle Idowu,Ahmed Almasoud

Automated essay scoring (AES) systems increasingly rely on large language models, yet little is known about how architectural choices shape their performance across different essay quality levels. This paper evaluates single-agent and multi-agent LLM architectures for essay grading using the ASAP 2.0 corpus. Our multi-agent system decomposes grading into three specialist agents (Content, Structure, Language) coordinated by a Chairman Agent that implements rubric-aligned logic including veto rules and score capping. We test both architectures in zero-shot and few-shot conditions using GPT-5.1. Results show that the multi-agent system is significantly better at identifying weak essays while the single-agent system performs better on mid-range essays. Both architectures struggle with high-quality essays. Critically, few-shot calibration emerges as the dominant factor in system performance -- providing just two examples per score level improves QWK by approximately 26% for both architectures. These findings suggest architectural choice should align with specific deployment priorities, with multi-agent AI particularly suited for diagnostic screening of at-risk students, while single-agent models provide a cost-effective solution for general assessment.

翻译：自动作文评分系统日益依赖大语言模型，然而关于架构选择如何影响其在不同质量作文上的表现，目前仍知之甚少。本文使用ASAP 2.0语料库评估了用于作文评分的单智能体与多智能体大语言模型架构。我们的多智能体系统将评分任务分解为三个专业智能体（内容、结构、语言），并由一个主席智能体进行协调，该主席智能体实现了与评分标准对齐的逻辑，包括否决规则和分数上限机制。我们使用GPT-5.1在零样本和少样本条件下测试了两种架构。结果表明，多智能体系统在识别低质量作文方面显著更优，而单智能体系统在中档质量作文上表现更好。两种架构在处理高质量作文时均存在困难。关键发现是，少样本校准成为系统性能的主导因素——仅为每个分数等级提供两个示例，即可使两种架构的二次加权Kappa值提升约26%。这些发现表明，架构选择应与具体部署目标相匹配：多智能体人工智能特别适用于对风险学生的诊断性筛查，而单智能体模型则为通用评估提供了一种经济高效的解决方案。

0

相关内容

《多智能体大语言模型系统的可靠决策研究》

《多智能体大语言模型系统的可靠决策研究》

专知会员服务

31+阅读 · 2月2日

【AAAI2026】AutoTool：面向大语言模型智能体的高效工具选择方法

【AAAI2026】AutoTool：面向大语言模型智能体的高效工具选择方法

专知会员服务

18+阅读 · 2025年11月19日

大语言模型智能体的评估与基准：综述

大语言模型智能体的评估与基准：综述

专知会员服务

46+阅读 · 2025年7月31日

【EPFL博士论文】大型语言模型时代的协作式智能体

【EPFL博士论文】大型语言模型时代的协作式智能体

专知会员服务

32+阅读 · 2025年5月16日

从大语言模型推理到自主AI智能体：一项全面综述

从大语言模型推理到自主AI智能体：一项全面综述

专知会员服务

48+阅读 · 2025年5月8日

《大语言模型智能体：方法、应用与挑战综述》

《大语言模型智能体：方法、应用与挑战综述》

专知会员服务

58+阅读 · 2025年3月28日

大模型智能体如何做仿真建模？清华最新《大型语言模型智能体的建模与仿真》综述

大模型智能体如何做仿真建模？清华最新《大型语言模型智能体的建模与仿真》综述

专知会员服务

119+阅读 · 2023年12月20日

大模型和智能体如何结何？人大最新《基于大型语言模型的自主智能体》综述

大模型和智能体如何结何？人大最新《基于大型语言模型的自主智能体》综述

专知会员服务

160+阅读 · 2023年8月23日

大模型哪家强？清华最新《大语言模型综合性能评估报告》权威评测，26页ppt

大模型哪家强？清华最新《大语言模型综合性能评估报告》权威评测，26页ppt

专知会员服务

157+阅读 · 2023年8月8日

如何评估大模型？吉大微软亚研等最新《大型语言模型评估》综述，全面阐述大模型评估方法体系

如何评估大模型？吉大微软亚研等最新《大型语言模型评估》综述，全面阐述大模型评估方法体系

专知会员服务

88+阅读 · 2023年7月13日

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知

17+阅读 · 2023年4月12日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

专访俞栋：多模态是迈向通用人工智能的重要方向

专访俞栋：多模态是迈向通用人工智能的重要方向

AI科技评论

26+阅读 · 2019年9月9日

中文对比英文自然语言处理NLP的区别综述

中文对比英文自然语言处理NLP的区别综述

AINLP

18+阅读 · 2019年3月20日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

书单 | 系统了解智能问答和机器翻译，从这两本书开始（文末有福利）

书单 | 系统了解智能问答和机器翻译，从这两本书开始（文末有福利）

微软研究院AI头条

24+阅读 · 2019年1月22日

【干货】NLP中“词袋”模型和词嵌入模型的比较（附代码）

【干货】NLP中“词袋”模型和词嵌入模型的比较（附代码）

专知

11+阅读 · 2018年8月4日

【论文推荐】最新5篇自动问答相关论文——多关系自动问答、知识图谱联合实体和关系、生物医学问题、维基百科语料数据、多句式旅游推荐

【论文推荐】最新5篇自动问答相关论文——多关系自动问答、知识图谱联合实体和关系、生物医学问题、维基百科语料数据、多句式旅游推荐

专知

23+阅读 · 2018年1月17日

复杂决策环境下面向共识的群体评价模型与方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

随机环境下多个体系统集体行为分析、调控与优化

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

中文社交化短文本情感分析与话题挖掘研究

国家自然科学基金

3+阅读 · 2015年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度学习的机器译文质量估计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

多智能体系统的可控性与群可控性研究

国家自然科学基金

10+阅读 · 2013年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

17+阅读 · 2008年12月31日

AdaptOrch: Task-Adaptive Multi-Agent Orchestration in the Era of LLM Performance Convergence

Arxiv

0+阅读 · 2月18日

DIAGPaper: Diagnosing Valid and Specific Weaknesses in Scientific Papers via Multi-Agent Reasoning

Arxiv

0+阅读 · 2月18日

ScholarGym: Benchmarking Large Language Model Capabilities in the Information-Gathering Stage of Deep Research

Arxiv

0+阅读 · 2月17日

Agent Skills for Large Language Models: Architecture, Acquisition, Security, and the Path Forward

Arxiv

0+阅读 · 2月17日

Agent Skills for Large Language Models: Architecture, Acquisition, Security, and the Path Forward

Arxiv

0+阅读 · 2月12日

Parallelism Meets Adaptiveness: Scalable Documents Understanding in Multi-Agent LLM Systems

Arxiv

0+阅读 · 2月12日

Multi-Agent Design: Optimizing Agents with Better Prompts and Topologies

Arxiv

0+阅读 · 1月31日

Collaborative Belief Reasoning with LLMs for Efficient Multi-Agent Collaboration

Arxiv

0+阅读 · 1月30日

Toward Architecture-Aware Evaluation Metrics for LLM Agents

Arxiv

1+阅读 · 1月27日

Trapped in the past? Disentangling fluid and crystallized intelligence of large language models using chess

Arxiv

0+阅读 · 1月23日

VIP会员

文章信息

相关主题

相关VIP内容

《多智能体大语言模型系统的可靠决策研究》

《多智能体大语言模型系统的可靠决策研究》

专知会员服务

31+阅读 · 2月2日

【AAAI2026】AutoTool：面向大语言模型智能体的高效工具选择方法

【AAAI2026】AutoTool：面向大语言模型智能体的高效工具选择方法

专知会员服务

18+阅读 · 2025年11月19日

大语言模型智能体的评估与基准：综述

大语言模型智能体的评估与基准：综述

专知会员服务

46+阅读 · 2025年7月31日

【EPFL博士论文】大型语言模型时代的协作式智能体

【EPFL博士论文】大型语言模型时代的协作式智能体

专知会员服务

32+阅读 · 2025年5月16日

从大语言模型推理到自主AI智能体：一项全面综述

从大语言模型推理到自主AI智能体：一项全面综述

专知会员服务

48+阅读 · 2025年5月8日

《大语言模型智能体：方法、应用与挑战综述》

《大语言模型智能体：方法、应用与挑战综述》

专知会员服务

58+阅读 · 2025年3月28日

大模型智能体如何做仿真建模？清华最新《大型语言模型智能体的建模与仿真》综述

大模型智能体如何做仿真建模？清华最新《大型语言模型智能体的建模与仿真》综述

专知会员服务

119+阅读 · 2023年12月20日

大模型和智能体如何结何？人大最新《基于大型语言模型的自主智能体》综述

大模型和智能体如何结何？人大最新《基于大型语言模型的自主智能体》综述

专知会员服务

160+阅读 · 2023年8月23日

大模型哪家强？清华最新《大语言模型综合性能评估报告》权威评测，26页ppt

大模型哪家强？清华最新《大语言模型综合性能评估报告》权威评测，26页ppt

专知会员服务

157+阅读 · 2023年8月8日

如何评估大模型？吉大微软亚研等最新《大型语言模型评估》综述，全面阐述大模型评估方法体系

如何评估大模型？吉大微软亚研等最新《大型语言模型评估》综述，全面阐述大模型评估方法体系

专知会员服务

88+阅读 · 2023年7月13日

热门VIP内容

开通专知VIP会员享更多权益服务

美国防部门开始扩建金穹反导系统基础设施

《基于选择性深度神经网络分类的弹性无线通信》最新报告

《多域作战中融合网络、电子战与动能机动》

《在东欧磨砺反无人机技能》美陆军最新反无人机训练报告

相关资讯

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知

17+阅读 · 2023年4月12日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

专访俞栋：多模态是迈向通用人工智能的重要方向

专访俞栋：多模态是迈向通用人工智能的重要方向

AI科技评论

26+阅读 · 2019年9月9日

中文对比英文自然语言处理NLP的区别综述

中文对比英文自然语言处理NLP的区别综述

AINLP

18+阅读 · 2019年3月20日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

书单 | 系统了解智能问答和机器翻译，从这两本书开始（文末有福利）

书单 | 系统了解智能问答和机器翻译，从这两本书开始（文末有福利）

微软研究院AI头条

24+阅读 · 2019年1月22日

【干货】NLP中“词袋”模型和词嵌入模型的比较（附代码）

【干货】NLP中“词袋”模型和词嵌入模型的比较（附代码）

专知

11+阅读 · 2018年8月4日

【论文推荐】最新5篇自动问答相关论文——多关系自动问答、知识图谱联合实体和关系、生物医学问题、维基百科语料数据、多句式旅游推荐

【论文推荐】最新5篇自动问答相关论文——多关系自动问答、知识图谱联合实体和关系、生物医学问题、维基百科语料数据、多句式旅游推荐

专知

23+阅读 · 2018年1月17日

相关论文

AdaptOrch: Task-Adaptive Multi-Agent Orchestration in the Era of LLM Performance Convergence

Arxiv

0+阅读 · 2月18日

DIAGPaper: Diagnosing Valid and Specific Weaknesses in Scientific Papers via Multi-Agent Reasoning

Arxiv

0+阅读 · 2月18日

ScholarGym: Benchmarking Large Language Model Capabilities in the Information-Gathering Stage of Deep Research

Arxiv

0+阅读 · 2月17日

Agent Skills for Large Language Models: Architecture, Acquisition, Security, and the Path Forward

Arxiv

0+阅读 · 2月17日

Agent Skills for Large Language Models: Architecture, Acquisition, Security, and the Path Forward

Arxiv

0+阅读 · 2月12日

Parallelism Meets Adaptiveness: Scalable Documents Understanding in Multi-Agent LLM Systems

Arxiv

0+阅读 · 2月12日

Multi-Agent Design: Optimizing Agents with Better Prompts and Topologies

Arxiv

0+阅读 · 1月31日

Collaborative Belief Reasoning with LLMs for Efficient Multi-Agent Collaboration

Arxiv

0+阅读 · 1月30日

Toward Architecture-Aware Evaluation Metrics for LLM Agents

Arxiv

1+阅读 · 1月27日

Trapped in the past? Disentangling fluid and crystallized intelligence of large language models using chess

Arxiv

0+阅读 · 1月23日

相关基金

复杂决策环境下面向共识的群体评价模型与方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

随机环境下多个体系统集体行为分析、调控与优化

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

中文社交化短文本情感分析与话题挖掘研究

国家自然科学基金

3+阅读 · 2015年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度学习的机器译文质量估计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

多智能体系统的可控性与群可控性研究

国家自然科学基金

10+阅读 · 2013年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

17+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员