Gene expression analysis holds the key to many biomedical discoveries, yet extracting insights from raw transcriptomic data remains formidable due to the complexity of multiple large, semi-structured files and the need for extensive domain expertise. Current automation approaches are often limited by either inflexible workflows that break down in edge cases or by fully autonomous agents that lack the necessary precision for rigorous scientific inquiry. GenoMAS charts a different course by presenting a team of LLM-based scientists that integrates the reliability of structured workflows with the adaptability of autonomous agents. GenoMAS orchestrates six specialized LLM agents through typed message-passing protocols, each contributing complementary strengths to a shared analytic canvas. At the heart of GenoMAS lies a guided-planning framework: programming agents unfold high-level task guidelines into Action Units and, at each juncture, elect to advance, revise, bypass, or backtrack, thereby maintaining logical coherence while bending gracefully to the idiosyncrasies of genomic data. On the GenoTEX benchmark, GenoMAS reaches a Composite Similarity Correlation of 89.13% for data preprocessing and an F$_1$ of 60.48% for gene identification, surpassing the best prior art by 10.61% and 16.85% respectively. Beyond metrics, GenoMAS surfaces biologically plausible gene-phenotype associations corroborated by the literature, all while adjusting for latent confounders. Code is available at https://github.com/Liu-Hy/GenoMAS.


翻译:基因表达分析是许多生物医学发现的关键,但由于多个大型半结构化文件的复杂性以及需要广泛的领域专业知识,从原始转录组数据中提取洞见仍然充满挑战。当前的自动化方法往往受限于两种极端:要么是缺乏灵活性的工作流程在边缘情况下失效,要么是完全自主的智能体缺乏严谨科学探究所需的精确性。GenoMAS另辟蹊径,提出了一组基于大语言模型的科学家团队,将结构化工作流程的可靠性与自主智能体的适应性相结合。GenoMAS通过类型化消息传递协议协调六个专门化的大语言模型智能体,每个智能体在共享分析画布上贡献互补优势。GenoMAS的核心是一个引导式规划框架:编程智能体将高级任务指南分解为行动单元,并在每个决策节点选择推进、修订、绕过或回溯,从而在保持逻辑一致性的同时灵活应对基因组数据的特殊性。在GenoTEX基准测试中,GenoMAS的数据预处理复合相似度相关性达到89.13%,基因识别的F₁分数达到60.48%,分别超越先前最佳方法10.61%和16.85%。超越指标层面,GenoMAS在调整潜在混杂因素后,揭示了经文献验证的具有生物学合理性的基因-表型关联。代码已开源:https://github.com/Liu-Hy/GenoMAS。

0
下载
关闭预览

相关内容

MIT设计深度学习框架登Nature封面,预测非编码区DNA突变
专知会员服务
15+阅读 · 2022年3月18日
类脑计算的前沿论文,看我们推荐的这7篇
人工智能前沿讲习班
21+阅读 · 2019年1月7日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
6+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关VIP内容
MIT设计深度学习框架登Nature封面,预测非编码区DNA突变
专知会员服务
15+阅读 · 2022年3月18日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员