Large Language Models (LLMs) increasingly serve as autonomous reasoning agents in decision support, scientific problem-solving, and multi-agent coordination systems. However, deploying LLM agents in consequential applications requires assurance that their reasoning remains stable under semantically equivalent input variations, a property we term semantic invariance.Standard benchmark evaluations, which assess accuracy on fixed, canonical problem formulations, fail to capture this critical reliability dimension. To address this shortcoming, in this paper we present a metamorphic testing framework for systematically assessing the robustness of LLM reasoning agents, applying eight semantic-preserving transformations (identity, paraphrase, fact reordering, expansion, contraction, academic context, business context, and contrastive formulation) across seven foundation models spanning four distinct architectural families: Hermes (70B, 405B), Qwen3 (30B-A3B, 235B-A22B), DeepSeek-R1, and gpt-oss (20B, 120B). Our evaluation encompasses 19 multi-step reasoning problems across eight scientific domains. The results reveal that model scale does not predict robustness: the smaller Qwen3-30B-A3B achieves the highest stability (79.6% invariant responses, semantic similarity 0.91), while larger models exhibit greater fragility.


翻译:大型语言模型(LLM)日益成为决策支持、科学问题求解和多智能体协调系统中的自主推理智能体。然而,在关键应用中部署LLM智能体需要确保其推理在语义等价的输入变化下保持稳定,这一特性我们称之为语义不变性。标准的基准评估方法仅针对固定、规范的问题表述评估准确性,无法捕捉这一关键的可靠性维度。为弥补这一不足,本文提出了一种蜕变测试框架,用于系统评估LLM推理智能体的鲁棒性。该框架应用了八种语义保持变换(恒等变换、复述变换、事实重排序、扩展变换、压缩变换、学术语境变换、商业语境变换及对比表述变换),覆盖了来自四个不同架构家族的七个基础模型:Hermes(70B、405B)、Qwen3(30B-A3B、235B-A22B)、DeepSeek-R1以及gpt-oss(20B、120B)。我们的评估涵盖了八个科学领域的19个多步推理问题。结果表明,模型规模并不能预测鲁棒性:较小的Qwen3-30B-A3B实现了最高的稳定性(79.6%的不变响应率,语义相似度0.91),而更大规模的模型反而表现出更高的脆弱性。

0
下载
关闭预览

相关内容

智能体评判者(Agent-as-a-Judge)研究综述
专知会员服务
37+阅读 · 1月9日
基于大语言模型的智能体优化研究综述
专知会员服务
63+阅读 · 2025年3月25日
大语言模型智能体
专知会员服务
99+阅读 · 2024年12月25日
基于大型语言模型的软件工程智能体综述
专知会员服务
59+阅读 · 2024年9月6日
【综述】多智能体强化学习算法理论研究
深度强化学习实验室
16+阅读 · 2020年9月9日
谷歌 AI:语义文本相似度研究进展
AI研习社
22+阅读 · 2018年6月13日
群体智能:新一代人工智能的重要方向
走向智能论坛
12+阅读 · 2017年8月16日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
自然语言处理(二)机器翻译 篇 (NLP: machine translation)
DeepLearning中文论坛
12+阅读 · 2015年7月1日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
VIP会员
最新内容
认知战与交战性质的改变:神经战略视角
专知会员服务
5+阅读 · 5月8日
相关VIP内容
智能体评判者(Agent-as-a-Judge)研究综述
专知会员服务
37+阅读 · 1月9日
基于大语言模型的智能体优化研究综述
专知会员服务
63+阅读 · 2025年3月25日
大语言模型智能体
专知会员服务
99+阅读 · 2024年12月25日
基于大型语言模型的软件工程智能体综述
专知会员服务
59+阅读 · 2024年9月6日
相关基金
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员