Advancing AI Research Assistants with Expert-Involved Learning - 专知论文

会员服务 ·

0

生物 · 人工智能研究 · 多模 · 模态 · 多模态 ·

Advancing AI Research Assistants with Expert-Involved Learning

翻译：推进人工智能研究助手：专家参与式学习框架

Tianyu Liu,Simeng Han,Hanchen Wang,Xiao Luo,Pan Lu,Biqing Zhu,Yuge Wang,Keyi Li,Jiapeng Chen,Rihao Qu,Yufeng Liu,Xinyue Cui,Aviv Yaish,Yuhang Chen,Minsheng Hao,Chuhan Li,Kexing Li,Arman Cohan,Hua Xu,Mark Gerstein,James Zou,Hongyu Zhao

from arxiv, 36 pages, 7 figures

Large language models (LLMs) and large multimodal models (LMMs) promise to accelerate biomedical discovery, yet their reliability remains unclear. We introduce ARIEL (AI Research Assistant for Expert-in-the-Loop Learning), an open-source evaluation and optimization framework that pairs a curated multimodal biomedical corpus with expert-vetted tasks to probe two capabilities: full-length article summarization and fine-grained figure interpretation. Using uniform protocols and blinded PhD-level evaluation, we find that state-of-the-art models generate fluent but incomplete summaries, whereas LMMs struggle with detailed visual reasoning. We later observe that prompt engineering and lightweight fine-tuning substantially improve textual coverage, and a compute-scaled inference strategy enhances visual question answering. We build an ARIEL agent that integrates textual and visual cues, and we show it can propose testable mechanistic hypotheses. ARIEL delineates current strengths and limitations of foundation models, and provides a reproducible platform for advancing trustworthy AI in biomedicine.

翻译：大型语言模型（LLMs）与大型多模态模型（LMMs）有望加速生物医学发现，但其可靠性仍不明确。我们提出了ARIEL（专家在环学习人工智能研究助手），这是一个开源评估与优化框架，其将精选的多模态生物医学语料库与专家审核的任务相结合，以探究两种核心能力：全文摘要生成与细粒度图表解读。通过统一的评估协议与盲审的博士级专家评估，我们发现当前最先进的模型能够生成流畅但不完整的摘要，而LMMs在细致的视觉推理方面存在困难。后续实验表明，提示工程与轻量级微调能显著提升文本覆盖度，而一种计算规模化的推理策略则增强了视觉问答性能。我们构建了一个整合文本与视觉线索的ARIEL智能体，并证明其能够提出可检验的机制性假设。ARIEL明确了当前基础模型的优势与局限，为推进生物医学领域可信人工智能的发展提供了一个可复现的平台。

0

相关内容

具有动能的生命体。

智能体评判者（Agent-as-a-Judge）研究综述

智能体评判者（Agent-as-a-Judge）研究综述

专知会员服务

37+阅读 · 1月9日

基于强化学习的智能体化搜索全面综述：基础、角色、优化、评估与应用

基于强化学习的智能体化搜索全面综述：基础、角色、优化、评估与应用

专知会员服务

23+阅读 · 2025年10月22日

《知识增强型大语言模型及面向创造力支持的人机协作框架》233页

《知识增强型大语言模型及面向创造力支持的人机协作框架》233页

专知会员服务

33+阅读 · 2025年9月29日

【新书】生成式人工智能的提示工程：为可靠的AI输出提供面向未来的输入

【新书】生成式人工智能的提示工程：为可靠的AI输出提供面向未来的输入

专知会员服务

67+阅读 · 2024年5月25日

西工大等最新《大型语言模型机器人技术》综述，详述多模态 GPT-4V 机器人技术

西工大等最新《大型语言模型机器人技术》综述，详述多模态 GPT-4V 机器人技术

专知会员服务

78+阅读 · 2024年1月10日

大模型+自动驾驶=？普渡大学等最新《自动驾驶领域多模态大型语言模型》综述

大模型+自动驾驶=？普渡大学等最新《自动驾驶领域多模态大型语言模型》综述

专知会员服务

76+阅读 · 2023年11月27日

58页最新《GPT-3系列大型语言模型》综述，详述ChatGPT和GPT-4等最新进展

58页最新《GPT-3系列大型语言模型》综述，详述ChatGPT和GPT-4等最新进展

专知会员服务

58+阅读 · 2023年10月27日

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

专知会员服务

105+阅读 · 2023年6月27日

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知会员服务

148+阅读 · 2023年4月7日

语言模型如何做算法推理？Google Hattie Zhou《通过语境学习来教算法推理》，附Slides与论文

语言模型如何做算法推理？Google Hattie Zhou《通过语境学习来教算法推理》，附Slides与论文

专知会员服务

27+阅读 · 2023年3月10日

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

专知

23+阅读 · 2023年4月8日

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

推荐！【中文版】美国陆军《用于决策动力学、欺骗和博弈论的新型人工智能决策辅助工具》52页技术总结报告

推荐！【中文版】美国陆军《用于决策动力学、欺骗和博弈论的新型人工智能决策辅助工具》52页技术总结报告

专知

83+阅读 · 2022年7月7日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

NLP-Progress记录NLP最新数据集、论文和代码: 助你紧跟NLP前沿

NLP-Progress记录NLP最新数据集、论文和代码: 助你紧跟NLP前沿

专知

17+阅读 · 2018年11月15日

<好书推荐> -《Pro Deep Learning with TensorFlow》分享

<好书推荐> -《Pro Deep Learning with TensorFlow》分享

深度学习与NLP

12+阅读 · 2018年9月13日

使用深度学习构建先进推荐系统：近期33篇重要研究概述

使用深度学习构建先进推荐系统：近期33篇重要研究概述

机器之心

21+阅读 · 2017年12月23日

【深度学习进阶模型详解】概率图模型/深度生成模型/深度强化学习，复旦邱锡鹏老师《神经网络与深度学习》教程分享05（附pdf下载）

【深度学习进阶模型详解】概率图模型/深度生成模型/深度强化学习，复旦邱锡鹏老师《神经网络与深度学习》教程分享05（附pdf下载）

专知

14+阅读 · 2017年11月19日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

大数据环境下弱监督深度学习的人脸美丽预测研究

国家自然科学基金

3+阅读 · 2017年12月31日

基于深度学习的联合作战态势智能辅助分析研究

国家自然科学基金

334+阅读 · 2017年12月31日

复杂环境下机器学习的理论研究

国家自然科学基金

21+阅读 · 2015年12月31日

神经形态多核处理器的架构模型研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向大规模多步学习问题的学习分类元系统技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

学习与记忆的神经动力学研究

国家自然科学基金

1+阅读 · 2014年12月31日

面向大数据的知识表示、推理、在线学习理论及应用研究

国家自然科学基金

12+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

49+阅读 · 2009年12月31日

SiliconMind-V1: Multi-Agent Distillation and Debug-Reasoning Workflows for Verilog Code Generation

Arxiv

0+阅读 · 3月11日

A prospective clinical feasibility study of a conversational diagnostic AI in an ambulatory primary care clinic

Arxiv

0+阅读 · 3月9日

AI-for-Science Low-code Platform with Bayesian Adversarial Multi-Agent Framework

Arxiv

0+阅读 · 3月3日

ProPerSim: Developing Proactive and Personalized AI Assistants through User-Assistant Simulation

Arxiv

0+阅读 · 2月23日

Orchestrating LLM Agents for Scientific Research: A Pilot Study of Multiple Choice Question (MCQ) Generation and Evaluation

Arxiv

0+阅读 · 2月21日

A Multi-Agent Framework for Code-Guided, Modular, and Verifiable Automated Machine Learning

Arxiv

0+阅读 · 2月15日

Learning to Route: A Rule-Driven Agent Framework for Hybrid-Source Retrieval-Augmented Generation

Arxiv

0+阅读 · 2月12日

Prompt-R1: Collaborative Automatic Prompting Framework via End-to-end Reinforcement Learning

Arxiv

0+阅读 · 2月11日

Evaluating an evidence-guided reinforcement learning framework in aligning light-parameter large language models with decision-making cognition in psychiatric clinical reasoning

Arxiv

0+阅读 · 2月6日

Towards Scientific Intelligence: A Survey of LLM-based Scientific Agents

Arxiv

0+阅读 · 2月2日

VIP会员

文章信息

相关主题

人工智能研究

最新内容

2025年大语言模型进展报告

2025年大语言模型进展报告

专知会员服务

3+阅读 · 4月25日

多智能体协作机制

多智能体协作机制

专知会员服务

3+阅读 · 4月25日

非对称优势：美海军开发低成本反无人机技术

非对称优势：美海军开发低成本反无人机技术

专知会员服务

6+阅读 · 4月25日

《反无人机技术领域的技术发展综述：C-UAS探测、跟踪与识别技术》80页报告

《反无人机技术领域的技术发展综述：C-UAS探测、跟踪与识别技术》80页报告

专知会员服务

15+阅读 · 4月25日

《美战争部小企业创新研究（SBIR）计划》

《美战争部小企业创新研究（SBIR）计划》

专知会员服务

6+阅读 · 4月25日

《军事模拟：将军事条令与目标融入AI智能体》

《军事模拟：将军事条令与目标融入AI智能体》

专知会员服务

9+阅读 · 4月25日

【NTU博士论文】3D人体动作生成

【NTU博士论文】3D人体动作生成

专知会员服务

7+阅读 · 4月24日

DeepSeek-V4：百万 Token 上下文背后，大模型正在进入“长程智能”时代（附中英文pdf版）

DeepSeek-V4：百万 Token 上下文背后，大模型正在进入“长程智能”时代（附中英文pdf版）

专知会员服务

9+阅读 · 4月24日

以色列军事技术对美国军力发展的持续性赋能

以色列军事技术对美国军力发展的持续性赋能

专知会员服务

8+阅读 · 4月24日

战场之外的较量：美伊冲突中的认知战与心理博弈

战场之外的较量：美伊冲突中的认知战与心理博弈

专知会员服务

6+阅读 · 4月24日

俄乌战争中乌克兰防空能力演变与见解（中文版）

俄乌战争中乌克兰防空能力演变与见解（中文版）

专知会员服务

7+阅读 · 4月24日

《面向巡飞弹药系统的情境感知深度强化学习自主非线性机动控制》

《面向巡飞弹药系统的情境感知深度强化学习自主非线性机动控制》

专知会员服务

10+阅读 · 4月24日

《深度强化学习在兵棋推演中的应用》40页报告

《深度强化学习在兵棋推演中的应用》40页报告

专知会员服务

14+阅读 · 4月24日

《多域作战面临复杂现实》

《多域作战面临复杂现实》

专知会员服务

10+阅读 · 4月24日

《印度的多域作战：条令与能力发展》报告

《印度的多域作战：条令与能力发展》报告

专知会员服务

5+阅读 · 4月24日

相关VIP内容

智能体评判者（Agent-as-a-Judge）研究综述

智能体评判者（Agent-as-a-Judge）研究综述

专知会员服务

37+阅读 · 1月9日

基于强化学习的智能体化搜索全面综述：基础、角色、优化、评估与应用

基于强化学习的智能体化搜索全面综述：基础、角色、优化、评估与应用

专知会员服务

23+阅读 · 2025年10月22日

《知识增强型大语言模型及面向创造力支持的人机协作框架》233页

《知识增强型大语言模型及面向创造力支持的人机协作框架》233页

专知会员服务

33+阅读 · 2025年9月29日

【新书】生成式人工智能的提示工程：为可靠的AI输出提供面向未来的输入

【新书】生成式人工智能的提示工程：为可靠的AI输出提供面向未来的输入

专知会员服务

67+阅读 · 2024年5月25日

西工大等最新《大型语言模型机器人技术》综述，详述多模态 GPT-4V 机器人技术

西工大等最新《大型语言模型机器人技术》综述，详述多模态 GPT-4V 机器人技术

专知会员服务

78+阅读 · 2024年1月10日

大模型+自动驾驶=？普渡大学等最新《自动驾驶领域多模态大型语言模型》综述

大模型+自动驾驶=？普渡大学等最新《自动驾驶领域多模态大型语言模型》综述

专知会员服务

76+阅读 · 2023年11月27日

58页最新《GPT-3系列大型语言模型》综述，详述ChatGPT和GPT-4等最新进展

58页最新《GPT-3系列大型语言模型》综述，详述ChatGPT和GPT-4等最新进展

专知会员服务

58+阅读 · 2023年10月27日

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

专知会员服务

105+阅读 · 2023年6月27日

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知会员服务

148+阅读 · 2023年4月7日

语言模型如何做算法推理？Google Hattie Zhou《通过语境学习来教算法推理》，附Slides与论文

语言模型如何做算法推理？Google Hattie Zhou《通过语境学习来教算法推理》，附Slides与论文

专知会员服务

27+阅读 · 2023年3月10日

热门VIP内容

开通专知VIP会员享更多权益服务

多智能体协作机制

《反无人机技术领域的技术发展综述：C-UAS探测、跟踪与识别技术》80页报告

2025年大语言模型进展报告

非对称优势：美海军开发低成本反无人机技术

相关资讯

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

【ChatGPT系列报告】人工智能行业专题报告：多模态AI研究框架，17页ppt

专知

23+阅读 · 2023年4月8日

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

推荐！【中文版】美国陆军《用于决策动力学、欺骗和博弈论的新型人工智能决策辅助工具》52页技术总结报告

推荐！【中文版】美国陆军《用于决策动力学、欺骗和博弈论的新型人工智能决策辅助工具》52页技术总结报告

专知

83+阅读 · 2022年7月7日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

NLP-Progress记录NLP最新数据集、论文和代码: 助你紧跟NLP前沿

NLP-Progress记录NLP最新数据集、论文和代码: 助你紧跟NLP前沿

专知

17+阅读 · 2018年11月15日

<好书推荐> -《Pro Deep Learning with TensorFlow》分享

<好书推荐> -《Pro Deep Learning with TensorFlow》分享

深度学习与NLP

12+阅读 · 2018年9月13日

使用深度学习构建先进推荐系统：近期33篇重要研究概述

使用深度学习构建先进推荐系统：近期33篇重要研究概述

机器之心

21+阅读 · 2017年12月23日

【深度学习进阶模型详解】概率图模型/深度生成模型/深度强化学习，复旦邱锡鹏老师《神经网络与深度学习》教程分享05（附pdf下载）

【深度学习进阶模型详解】概率图模型/深度生成模型/深度强化学习，复旦邱锡鹏老师《神经网络与深度学习》教程分享05（附pdf下载）

专知

14+阅读 · 2017年11月19日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

相关论文

SiliconMind-V1: Multi-Agent Distillation and Debug-Reasoning Workflows for Verilog Code Generation

Arxiv

0+阅读 · 3月11日

A prospective clinical feasibility study of a conversational diagnostic AI in an ambulatory primary care clinic

Arxiv

0+阅读 · 3月9日

AI-for-Science Low-code Platform with Bayesian Adversarial Multi-Agent Framework

Arxiv

0+阅读 · 3月3日

ProPerSim: Developing Proactive and Personalized AI Assistants through User-Assistant Simulation

Arxiv

0+阅读 · 2月23日

Orchestrating LLM Agents for Scientific Research: A Pilot Study of Multiple Choice Question (MCQ) Generation and Evaluation

Arxiv

0+阅读 · 2月21日

A Multi-Agent Framework for Code-Guided, Modular, and Verifiable Automated Machine Learning

Arxiv

0+阅读 · 2月15日

Learning to Route: A Rule-Driven Agent Framework for Hybrid-Source Retrieval-Augmented Generation

Arxiv

0+阅读 · 2月12日

Prompt-R1: Collaborative Automatic Prompting Framework via End-to-end Reinforcement Learning

Arxiv

0+阅读 · 2月11日

Evaluating an evidence-guided reinforcement learning framework in aligning light-parameter large language models with decision-making cognition in psychiatric clinical reasoning

Arxiv

0+阅读 · 2月6日

Towards Scientific Intelligence: A Survey of LLM-based Scientific Agents

Arxiv

0+阅读 · 2月2日

相关基金

大数据环境下弱监督深度学习的人脸美丽预测研究

国家自然科学基金

3+阅读 · 2017年12月31日

基于深度学习的联合作战态势智能辅助分析研究

国家自然科学基金

334+阅读 · 2017年12月31日

复杂环境下机器学习的理论研究

国家自然科学基金

21+阅读 · 2015年12月31日

神经形态多核处理器的架构模型研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向大规模多步学习问题的学习分类元系统技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

学习与记忆的神经动力学研究

国家自然科学基金

1+阅读 · 2014年12月31日

面向大数据的知识表示、推理、在线学习理论及应用研究

国家自然科学基金

12+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

49+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员