MITRA: An AI Assistant for Knowledge Retrieval in Physics Collaborations - 专知论文

会员服务 ·

0

协作 · 知识 · 系统 · 分析 · AI ·

MITRA: An AI Assistant for Knowledge Retrieval in Physics Collaborations

翻译：MITRA：面向物理学协作的知识检索AI助手

Abhishikth Mallampalli,Sridhara Dasu

from arxiv, Accepted at NeurIPS 2025 Machine Learning for the Physical Sciences workshop and Lepton Photon conference 2025 (Computing AI/ML track)

Large-scale scientific collaborations, such as the Compact Muon Solenoid (CMS) at CERN, produce a vast and ever-growing corpus of internal documentation. Navigating this complex information landscape presents a significant challenge for both new and experienced researchers, hindering knowledge sharing and slowing down the pace of scientific discovery. To address this, we present a prototype of MITRA, a Retrieval-Augmented Generation (RAG) based system, designed to answer specific, context-aware questions about physics analyses. MITRA employs a novel, automated pipeline using Selenium for document retrieval from internal databases and Optical Character Recognition (OCR) with layout parsing for high-fidelity text extraction. Crucially, MITRA's entire framework, from the embedding model to the Large Language Model (LLM), is hosted on-premise, ensuring that sensitive collaboration data remains private. We introduce a two-tiered vector database architecture that first identifies the relevant analysis from abstracts before focusing on the full documentation, resolving potential ambiguities between different analyses. We demonstrate the prototype's superior retrieval performance against a standard keyword-based baseline on realistic queries and discuss future work towards developing a comprehensive research agent for large experimental collaborations.

翻译：大型科学协作项目，如欧洲核子研究中心（CERN）的紧凑μ子螺线管（CMS）实验，产生了体量庞大且持续增长的内部文档库。驾驭这一复杂的信息环境对新老研究人员而言均构成重大挑战，阻碍了知识共享并减缓了科学发现的步伐。为此，我们提出了MITRA的原型系统，这是一个基于检索增强生成（RAG）的系统，旨在回答关于物理分析的、具体且上下文感知的问题。MITRA采用了一种新颖的自动化流程，利用Selenium从内部数据库检索文档，并结合光学字符识别（OCR）与版面解析技术以实现高保真度的文本提取。至关重要的是，MITRA的整个框架——从嵌入模型到大型语言模型（LLM）——均在本地部署，确保了敏感协作数据的私密性。我们引入了一种双层向量数据库架构，该架构首先从摘要中识别相关分析，再聚焦于完整文档，从而解决了不同分析之间可能存在的歧义。我们通过实际查询展示了该原型系统相对于标准基于关键词基线的优越检索性能，并讨论了未来为大型实验协作开发全面研究助手的工作方向。

0

相关内容

AutoResearch AI综述：迈向AI驱动的科学发现自动化

AutoResearch AI综述：迈向AI驱动的科学发现自动化

专知会员服务

16+阅读 · 5月26日

PaperOrchestra：一种面向自动化 AI 学术论文撰写的多智能体框架

PaperOrchestra：一种面向自动化 AI 学术论文撰写的多智能体框架

专知会员服务

13+阅读 · 4月9日

AI4Physics？【MIT博士论文】探索物理建模与表示学习的交汇点

AI4Physics？【MIT博士论文】探索物理建模与表示学习的交汇点

专知会员服务

29+阅读 · 2025年1月12日

OpenAI Sora核心技术，被曝缝合自DeepMind和谢赛宁论文？机器模拟人类世界迈出第一步

OpenAI Sora核心技术，被曝缝合自DeepMind和谢赛宁论文？机器模拟人类世界迈出第一步

专知会员服务

50+阅读 · 2024年2月18日

【AI4Science】《人工智能科学：深度学习革命》2023新书，

【AI4Science】《人工智能科学：深度学习革命》2023新书，

专知会员服务

214+阅读 · 2023年6月15日

可解释AI《增加自主智能体透明度的用户直观解释》论文，雷神技术研究中心

可解释AI《增加自主智能体透明度的用户直观解释》论文，雷神技术研究中心

专知会员服务

48+阅读 · 2023年3月20日

【AI+新材料】MIT学者利用计算建模指导新材料的开发，Using Machine Learning and Data Mining to Leverage Community Knowledge for the Engineering of Stable Metal–Organic Frameworks

【AI+新材料】MIT学者利用计算建模指导新材料的开发，Using Machine Learning and Data Mining to Leverage Community Knowledge for the Engineering of Stable Metal–Organic Frameworks

专知会员服务

25+阅读 · 2022年3月13日

清华孙茂松等自然·通讯杂志发表生物医学知识计算研究《深度学习系统桥接分子结构和生物医学文本，具有与人类专业相当的理解力》

清华孙茂松等自然·通讯杂志发表生物医学知识计算研究《深度学习系统桥接分子结构和生物医学文本，具有与人类专业相当的理解力》

专知会员服务

22+阅读 · 2022年2月23日

麻省理工MIT2020深度学习导论课程6.S191，10大前沿主题：序列建模、生成模型、强化学习、GNN、对抗学习等，不得不看

麻省理工MIT2020深度学习导论课程6.S191，10大前沿主题：序列建模、生成模型、强化学习、GNN、对抗学习等，不得不看

专知会员服务

149+阅读 · 2020年2月2日

【MIT】大型元学习数据集（Supplementary Materials for Niseko: a Large-ScaleMeta-Learning Dataset），麻省理工学院博士| Zeyuan Shang

【MIT】大型元学习数据集（Supplementary Materials for Niseko: a Large-ScaleMeta-Learning Dataset），麻省理工学院博士| Zeyuan Shang

专知会员服务

15+阅读 · 2019年12月24日

精通ChatGPT等大模型，掌握最前沿技术，这有份绝佳资源

精通ChatGPT等大模型，掌握最前沿技术，这有份绝佳资源

机器之心

15+阅读 · 2023年4月12日

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

专知

27+阅读 · 2022年11月24日

AAAI 2020 | 中科大：智能教育系统中的神经认知诊断，从数据中学习交互函数

AAAI 2020 | 中科大：智能教育系统中的神经认知诊断，从数据中学习交互函数

AI科技评论

24+阅读 · 2020年1月11日

懂一点物理的人工智能

懂一点物理的人工智能

PaperWeekly

14+阅读 · 2019年12月5日

【泡泡图灵智库】RelocNet：一种通过连续度量学习实现相机重定位的神经网络框架

【泡泡图灵智库】RelocNet：一种通过连续度量学习实现相机重定位的神经网络框架

泡泡机器人SLAM

14+阅读 · 2019年9月5日

AmpliGraph：知识图谱表示学习工具包

AmpliGraph：知识图谱表示学习工具包

专知

40+阅读 · 2019年4月6日

MIT课程：深度学习背后的科学—架起理论与实践的桥梁

MIT课程：深度学习背后的科学—架起理论与实践的桥梁

专知

10+阅读 · 2019年3月12日

Facebook首席AI科学家 Yann Lecun《深度学习硬件-过去，现在，未来》-附80页PPT

Facebook首席AI科学家 Yann Lecun《深度学习硬件-过去，现在，未来》-附80页PPT

中国人工智能学会

12+阅读 · 2019年2月25日

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

机器之心

17+阅读 · 2019年2月11日

【收藏】50+门《深度学习、强化学习、NLP、CV》课程超级大列表，

【收藏】50+门《深度学习、强化学习、NLP、CV》课程超级大列表，

专知

11+阅读 · 2019年1月27日

新型粒子鉴别探测器技术的研究

国家自然科学基金

0+阅读 · 2015年12月31日

天文多节点海量数据归档的关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向Seru生产方式的知识获取与协调管理方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

表面增强拉曼-光热诊疗多功能金@石墨烯复合探针研究

国家自然科学基金

0+阅读 · 2015年12月31日

miRNA-422a通过靶向调控PI3K-Akt信号通路抑制神经胶质瘤增殖、侵袭及转移

国家自然科学基金

0+阅读 · 2015年12月31日

基于仿生分子识别及DNA循环放大技术的表面增强拉曼检测肿瘤细胞及单细胞分析

国家自然科学基金

0+阅读 · 2015年12月31日

纳米制造战略研究和学术交流

国家自然科学基金

1+阅读 · 2015年12月31日

基于动态增益非线性干扰观测器的多智能体系统协调跟踪和干扰抑制

国家自然科学基金

1+阅读 · 2015年12月31日

基于虚拟原型的信息物理融合系统高效可信构造研究

国家自然科学基金

8+阅读 · 2015年12月31日

小鼠锰离子增强脑成像（MEMRI）数据分析算法研究及应用

国家自然科学基金

0+阅读 · 2014年12月31日

KAYRA: A Microservice Architecture for AI-Assisted Karyotyping with Cloud and On-Premise Deployment

Arxiv

0+阅读 · 4月29日

MIND: AI Co-Scientist for Material Research

Arxiv

0+阅读 · 4月15日

WisPaper: Your AI Scholar Search Engine

Arxiv

0+阅读 · 4月13日

ToolRosetta: Scalable Tool Access for Open-World Scientific Agents

Arxiv

0+阅读 · 4月10日

MemMachine: A Ground-Truth-Preserving Memory System for Personalized AI Agents

Arxiv

0+阅读 · 4月6日

LiRA: A Multi-Agent Framework for Reliable and Readable Literature Review Generation

Arxiv

0+阅读 · 3月20日

AgenticScholar: Agentic Data Management with Pipeline Orchestration for Scholarly Corpora

Arxiv

0+阅读 · 3月14日

Using a Human-AI Teaming Approach to Create and Curate Scientific Datasets with the SCILIRE System

Arxiv

0+阅读 · 3月13日

EvoScientist: Towards Multi-Agent Evolving AI Scientists for End-to-End Scientific Discovery

Arxiv

0+阅读 · 3月9日

WisPaper: Your AI Scholar Search Engine

Arxiv

0+阅读 · 2月27日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

2+阅读 · 6月23日

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

3+阅读 · 6月23日

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

5+阅读 · 6月23日

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

3+阅读 · 6月23日

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

4+阅读 · 6月23日

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

4+阅读 · 6月23日

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

5+阅读 · 6月23日

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

3+阅读 · 6月23日

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

6+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

8+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

7+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

6+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

9+阅读 · 6月22日

相关VIP内容

AutoResearch AI综述：迈向AI驱动的科学发现自动化

AutoResearch AI综述：迈向AI驱动的科学发现自动化

专知会员服务

16+阅读 · 5月26日

PaperOrchestra：一种面向自动化 AI 学术论文撰写的多智能体框架

PaperOrchestra：一种面向自动化 AI 学术论文撰写的多智能体框架

专知会员服务

13+阅读 · 4月9日

AI4Physics？【MIT博士论文】探索物理建模与表示学习的交汇点

AI4Physics？【MIT博士论文】探索物理建模与表示学习的交汇点

专知会员服务

29+阅读 · 2025年1月12日

OpenAI Sora核心技术，被曝缝合自DeepMind和谢赛宁论文？机器模拟人类世界迈出第一步

OpenAI Sora核心技术，被曝缝合自DeepMind和谢赛宁论文？机器模拟人类世界迈出第一步

专知会员服务

50+阅读 · 2024年2月18日

【AI4Science】《人工智能科学：深度学习革命》2023新书，

【AI4Science】《人工智能科学：深度学习革命》2023新书，

专知会员服务

214+阅读 · 2023年6月15日

可解释AI《增加自主智能体透明度的用户直观解释》论文，雷神技术研究中心

可解释AI《增加自主智能体透明度的用户直观解释》论文，雷神技术研究中心

专知会员服务

48+阅读 · 2023年3月20日

【AI+新材料】MIT学者利用计算建模指导新材料的开发，Using Machine Learning and Data Mining to Leverage Community Knowledge for the Engineering of Stable Metal–Organic Frameworks

【AI+新材料】MIT学者利用计算建模指导新材料的开发，Using Machine Learning and Data Mining to Leverage Community Knowledge for the Engineering of Stable Metal–Organic Frameworks

专知会员服务

25+阅读 · 2022年3月13日

清华孙茂松等自然·通讯杂志发表生物医学知识计算研究《深度学习系统桥接分子结构和生物医学文本，具有与人类专业相当的理解力》

清华孙茂松等自然·通讯杂志发表生物医学知识计算研究《深度学习系统桥接分子结构和生物医学文本，具有与人类专业相当的理解力》

专知会员服务

22+阅读 · 2022年2月23日

麻省理工MIT2020深度学习导论课程6.S191，10大前沿主题：序列建模、生成模型、强化学习、GNN、对抗学习等，不得不看

麻省理工MIT2020深度学习导论课程6.S191，10大前沿主题：序列建模、生成模型、强化学习、GNN、对抗学习等，不得不看

专知会员服务

149+阅读 · 2020年2月2日

【MIT】大型元学习数据集（Supplementary Materials for Niseko: a Large-ScaleMeta-Learning Dataset），麻省理工学院博士| Zeyuan Shang

【MIT】大型元学习数据集（Supplementary Materials for Niseko: a Large-ScaleMeta-Learning Dataset），麻省理工学院博士| Zeyuan Shang

专知会员服务

15+阅读 · 2019年12月24日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 世界动作模型：少做梦，多行动

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

美以伊冲突：无人机与人工智能的运用

相关资讯

精通ChatGPT等大模型，掌握最前沿技术，这有份绝佳资源

精通ChatGPT等大模型，掌握最前沿技术，这有份绝佳资源

机器之心

15+阅读 · 2023年4月12日

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

专知

27+阅读 · 2022年11月24日

AAAI 2020 | 中科大：智能教育系统中的神经认知诊断，从数据中学习交互函数

AAAI 2020 | 中科大：智能教育系统中的神经认知诊断，从数据中学习交互函数

AI科技评论

24+阅读 · 2020年1月11日

懂一点物理的人工智能

懂一点物理的人工智能

PaperWeekly

14+阅读 · 2019年12月5日

【泡泡图灵智库】RelocNet：一种通过连续度量学习实现相机重定位的神经网络框架

【泡泡图灵智库】RelocNet：一种通过连续度量学习实现相机重定位的神经网络框架

泡泡机器人SLAM

14+阅读 · 2019年9月5日

AmpliGraph：知识图谱表示学习工具包

AmpliGraph：知识图谱表示学习工具包

专知

40+阅读 · 2019年4月6日

MIT课程：深度学习背后的科学—架起理论与实践的桥梁

MIT课程：深度学习背后的科学—架起理论与实践的桥梁

专知

10+阅读 · 2019年3月12日

Facebook首席AI科学家 Yann Lecun《深度学习硬件-过去，现在，未来》-附80页PPT

Facebook首席AI科学家 Yann Lecun《深度学习硬件-过去，现在，未来》-附80页PPT

中国人工智能学会

12+阅读 · 2019年2月25日

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

机器之心

17+阅读 · 2019年2月11日

【收藏】50+门《深度学习、强化学习、NLP、CV》课程超级大列表，

【收藏】50+门《深度学习、强化学习、NLP、CV》课程超级大列表，

专知

11+阅读 · 2019年1月27日

相关论文

KAYRA: A Microservice Architecture for AI-Assisted Karyotyping with Cloud and On-Premise Deployment

Arxiv

0+阅读 · 4月29日

MIND: AI Co-Scientist for Material Research

Arxiv

0+阅读 · 4月15日

WisPaper: Your AI Scholar Search Engine

Arxiv

0+阅读 · 4月13日

ToolRosetta: Scalable Tool Access for Open-World Scientific Agents

Arxiv

0+阅读 · 4月10日

MemMachine: A Ground-Truth-Preserving Memory System for Personalized AI Agents

Arxiv

0+阅读 · 4月6日

LiRA: A Multi-Agent Framework for Reliable and Readable Literature Review Generation

Arxiv

0+阅读 · 3月20日

AgenticScholar: Agentic Data Management with Pipeline Orchestration for Scholarly Corpora

Arxiv

0+阅读 · 3月14日

Using a Human-AI Teaming Approach to Create and Curate Scientific Datasets with the SCILIRE System

Arxiv

0+阅读 · 3月13日

EvoScientist: Towards Multi-Agent Evolving AI Scientists for End-to-End Scientific Discovery

Arxiv

0+阅读 · 3月9日

WisPaper: Your AI Scholar Search Engine

Arxiv

0+阅读 · 2月27日

相关基金

新型粒子鉴别探测器技术的研究

国家自然科学基金

0+阅读 · 2015年12月31日

天文多节点海量数据归档的关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向Seru生产方式的知识获取与协调管理方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

表面增强拉曼-光热诊疗多功能金@石墨烯复合探针研究

国家自然科学基金

0+阅读 · 2015年12月31日

miRNA-422a通过靶向调控PI3K-Akt信号通路抑制神经胶质瘤增殖、侵袭及转移

国家自然科学基金

0+阅读 · 2015年12月31日

基于仿生分子识别及DNA循环放大技术的表面增强拉曼检测肿瘤细胞及单细胞分析

国家自然科学基金

0+阅读 · 2015年12月31日

纳米制造战略研究和学术交流

国家自然科学基金

1+阅读 · 2015年12月31日

基于动态增益非线性干扰观测器的多智能体系统协调跟踪和干扰抑制

国家自然科学基金

1+阅读 · 2015年12月31日

基于虚拟原型的信息物理融合系统高效可信构造研究

国家自然科学基金

8+阅读 · 2015年12月31日

小鼠锰离子增强脑成像（MEMRI）数据分析算法研究及应用

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员