With the exponential increase in online scientific literature, identifying reliable domain-specific data has become increasingly important but also very challenging. Manual data collection and filtering for domain-specific scientific literature is not only time-consuming but also labor-intensive and prone to errors and inconsistencies. To facilitate automated data collection, the paper introduces a web-based tool that leverages Large Language Models (LLMs) for automated and scalable development of open scientific databases. More specifically, the tool is based on an automated and unified framework that combines keyword-based querying, API-enabled data retrieval, and LLM-powered text classification to construct domain-specific scientific databases. Data is collected from multiple reliable data sources and search engines using a parallel querying technique to construct a combined unified dataset. The dataset is subsequently filtered using LLMs queried with prompts tailored for each keyword-based query to extract the relevant data to a scientific query of interest. The approach was tested across a set of variable keyword-based searches for different domain-specific tasks related to agriculture and crop yield. The results and analysis show 90\% overlap with small domain expert-curated databases, suggesting that the proposed tool can be used to significantly reduce manual workload. Furthermore, the proposed framework is both scalable and domain-agnostic and can be applied across diverse fields for building scalable open scientific databases.


翻译:随着在线科学文献的指数级增长,识别可靠的领域特定数据变得日益重要,但也极具挑战性。针对领域特定科学文献的手动数据收集与筛选不仅耗时耗力,且容易产生错误与不一致性。为促进自动化数据收集,本文介绍一种基于网络平台的工具,该工具利用大型语言模型实现开放科学数据库的自动化可扩展构建。具体而言,该工具基于一个自动化统一框架,该框架结合基于关键词的查询、支持API的数据检索以及基于LLM的文本分类技术,以构建领域特定的科学数据库。通过并行查询技术从多个可靠数据源及搜索引擎收集数据,构建出统一的整合数据集。随后使用经过针对性提示词调优的LLM对数据集进行过滤,以提取与目标科学查询相关的数据。该方法在一系列针对农业与作物产量相关领域特定任务的变体关键词搜索中进行了测试。结果与分析显示,其与小型专家精编数据库的重合度达到90%,表明所提工具能显著减少人工工作量。此外,所提出的框架兼具可扩展性与领域无关性,可应用于不同学科领域以构建可扩展的开放科学数据库。

0
下载
关闭预览

相关内容

数据库( Database )或数据库管理系统( Database management systems )是按照数据结构来组织、存储和管理数据的仓库。目前数据管理不再仅仅是存储和管理数据,而转变成用户所需要的各种数据管理的方式。
科学大语言模型综述:从数据基础到智能体前沿
专知会员服务
51+阅读 · 2025年9月1日
Nature速递:基于大语言模型的自动化学研究
专知会员服务
35+阅读 · 2024年1月5日
大型语言模型:原理、实现与发展
专知会员服务
102+阅读 · 2023年11月28日
金融领域自然语言处理研究资源大列表
专知
13+阅读 · 2020年2月27日
最全中文自然语言处理数据集、平台和工具整理
深度学习与NLP
34+阅读 · 2019年6月22日
NLP通用模型诞生?一个模型搞定十大自然语言常见任务
人工智能头条
10+阅读 · 2018年6月29日
最全数据科学学习资源:Python、线性代数、机器学习...
人工智能头条
12+阅读 · 2018年5月14日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
Arxiv
14+阅读 · 2024年5月21日
VIP会员
最新内容
《图世界模型:概念、分类体系与未来方向》
专知会员服务
7+阅读 · 5月1日
Palantir AIP平台:连接智能体与决策
专知会员服务
12+阅读 · 5月1日
《美海军软件测试战略》90页slides
专知会员服务
10+阅读 · 5月1日
面向具身智能与机器人仿真的三维生成:综述
专知会员服务
10+阅读 · 4月30日
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员