The rapid growth of AI for Science (AI4S) has underscored the significance of scientific datasets, leading to the establishment of numerous national scientific data centers and sharing platforms. Despite this progress, efficiently promoting dataset sharing and utilization for scientific research remains challenging. Scientific datasets contain intricate domain-specific knowledge and contexts, rendering traditional collaborative filtering-based recommenders inadequate. Recent advances in Large Language Models (LLMs) offer unprecedented opportunities to build conversational agents capable of deep semantic understanding and personalized recommendations. In response, we present ScienceDB AI, a novel LLM-driven agentic recommender system developed on Science Data Bank (ScienceDB), one of the largest global scientific data-sharing platforms. ScienceDB AI leverages natural language conversations and deep reasoning to accurately recommend datasets aligned with researchers' scientific intents and evolving requirements. The system introduces several innovations: a Scientific Intention Perceptor to extract structured experimental elements from complicated queries, a Structured Memory Compressor to manage multi-turn dialogues effectively, and a Trustworthy Retrieval-Augmented Generation (Trustworthy RAG) framework. The Trustworthy RAG employs a two-stage retrieval mechanism and provides citable dataset references via Citable Scientific Task Record (CSTR) identifiers, enhancing recommendation trustworthiness and reproducibility. Through extensive offline and online experiments using over 10 million real-world datasets, ScienceDB AI has demonstrated significant effectiveness. To our knowledge, ScienceDB AI is the first LLM-driven conversational recommender tailored explicitly for large-scale scientific dataset sharing services. The platform is publicly accessible at: https://ai.scidb.cn/en.


翻译:人工智能科学(AI4S)的快速发展凸显了科学数据集的重要性,促成了众多国家科学数据中心和共享平台的建立。尽管取得了这些进展,如何有效促进科学研究中的数据共享与利用仍面临挑战。科学数据集包含复杂的领域特定知识与语境,使得基于协同过滤的传统推荐系统难以胜任。大型语言模型(LLM)的最新进展为构建具备深度语义理解与个性化推荐能力的对话式智能体提供了前所未有的机遇。为此,我们提出了ScienceDB AI——一个基于全球最大科学数据共享平台之一Science Data Bank(ScienceDB)构建的新型LLM驱动型智能推荐系统。ScienceDB AI利用自然语言对话与深度推理,精准推荐符合研究者科学意图与动态需求的数据集。该系统引入了多项创新:通过科学意图感知器从复杂查询中提取结构化实验要素,采用结构化记忆压缩器有效管理多轮对话,并构建了可信检索增强生成(Trustworthy RAG)框架。该可信RAG框架采用两阶段检索机制,并通过可引用科学任务记录(CSTR)标识符提供可引证的数据集参考,从而提升推荐的可信度与可复现性。基于超过1000万个真实数据集的离线与在线实验表明,ScienceDB AI具有显著的有效性。据我们所知,ScienceDB AI是首个专为大规模科学数据集共享服务定制的LLM驱动型对话推荐系统。该平台已公开访问:https://ai.scidb.cn/en。

0
下载
关闭预览

相关内容

人工智能杂志AI(Artificial Intelligence)是目前公认的发表该领域最新研究成果的主要国际论坛。该期刊欢迎有关AI广泛方面的论文,这些论文构成了整个领域的进步,也欢迎介绍人工智能应用的论文,但重点应该放在新的和新颖的人工智能方法如何提高应用领域的性能,而不是介绍传统人工智能方法的另一个应用。关于应用的论文应该描述一个原则性的解决方案,强调其新颖性,并对正在开发的人工智能技术进行深入的评估。 官网地址:http://dblp.uni-trier.de/db/journals/ai/
DeepSeek模型综述:V1 V2 V3 R1-Zero
专知会员服务
116+阅读 · 2025年2月11日
专知会员服务
22+阅读 · 2021年8月20日
【CIKM2020】多模态知识图谱推荐系统,Multi-modal KG for RS
专知会员服务
98+阅读 · 2020年8月24日
论文浅尝 | GEOM-GCN: Geometric Graph Convolutional Networks
开放知识图谱
14+阅读 · 2020年4月8日
LibRec 每周算法:LDA主题模型
LibRec智能推荐
29+阅读 · 2017年12月4日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员