Scientific evidence often spans instruments, databases, and disciplines, so no single source records the full phenomenon. This makes it difficult to determine when coordinated AI agents add value over simpler scientific workflows. We evaluate this question with a cross-domain benchmark spanning four scientific tasks: mapping molecular structure into musical representations, detecting historical paradigm shifts in science, identifying vector-borne disease emergence, and vetting transiting-exoplanet candidates. Each case uses a frozen evaluation panel, predefined scoring protocols, explicit baselines, ablations or null controls, and stated limitations. The results define three operating regimes. When different disciplines each capture only part of the phenomenon, cross-channel composites improve over single-channel baselines: climate-vector emergence reaches AUROC 0.944 and exoplanet vetting reaches AUROC 0.955. However, the exoplanet workflow is effectively tied with a strong combined-summary baseline, showing that decomposition does not always improve top-line performance. When one signal dominates, as in paradigm-shift detection, coordination mainly improves interpretation and traceability. For molecular sonification, the gain is representational rather than predictive. ScienceClaw x Infinite provides the auditable artifact and provenance layer for this evaluation. The benchmark therefore assigns value to coordination only when the corresponding performance, provenance, or representation claim is supported by explicit comparators.


翻译:科学证据往往跨越仪器、数据库和学科领域,因此没有任何单一来源能完整记录整个现象。这使得我们难以判断协调型AI agent相对于更简单的科学工作流程在何时具有额外价值。我们通过一个跨领域基准来评估这一问题,该基准涵盖四项科学任务:将分子结构映射为音乐表征、检测科学史上的范式转移、识别媒介传播疾病的爆发以及验证凌星系外行星候选体。每个案例均采用冻结评估面板、预定义评分协议、明确基线、消融或零对照实验以及已陈述的局限性。研究结果定义了三种运作模式。当不同学科各自仅捕获部分现象时,跨通道复合体优于单通道基线:气候媒介爆发检测的AUROC达到0.944,系外行星验证的AUROC达到0.955。然而,系外行星工作流程与强组合摘要基线基本持平,表明分解并不总能提升整体性能。当一个信号占据主导地位时(如范式转移检测),协调主要提升了解释性和可追溯性。对于分子声化而言,其增益体现在表征层面而非预测层面。ScienceClaw x Infinite为本次评估提供了可审计的工件与溯源层。因此,只有当对应的性能、溯源或表征主张获得明确比较器支持时,该基准才为协调赋予价值。

0
下载
关闭预览

相关内容

AI行业专题报告:工具生态逐步完善,通用Agent曙光已现
专知会员服务
33+阅读 · 2025年3月27日
AI Agent,大模型时代重要落地方向, 42页ppt
专知会员服务
291+阅读 · 2023年10月12日
AI Agent:基于大模型的自主智能体
专知会员服务
250+阅读 · 2023年9月9日
【AI与医学】多模态机器学习精准医疗健康
AI可解释性文献列表
专知
43+阅读 · 2019年10月7日
AI综述专栏|跨领域推荐系统文献综述(下)
人工智能前沿讲习班
14+阅读 · 2018年5月18日
AI综述专栏 | 跨领域推荐系统文献综述(上)
人工智能前沿讲习班
13+阅读 · 2018年5月16日
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
7+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
8+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关基金
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员