Using a Human-AI Teaming Approach to Create and Curate Scientific Datasets with the SCILIRE System - 专知论文

会员服务 ·

0

系统 · 数据集 · 协同 · 构建 · 提取 ·

Using a Human-AI Teaming Approach to Create and Curate Scientific Datasets with the SCILIRE System

翻译：基于人机协同的SCILIRE系统：科学数据集的构建与策管

Necva Bölücü,Jessica Irons,Changhyun Lee,Brian Jin,Maciej Rybinski,Huichen Yang,Andreas Duenser,Stephen Wan

from arxiv, 17pages, 9 figures, EACL demo track

The rapid growth of scientific literature has made manual extraction of structured knowledge increasingly impractical. To address this challenge, we introduce SCILIRE, a system for creating datasets from scientific literature. SCILIRE has been designed around Human-AI teaming principles centred on workflows for verifying and curating data. It facilitates an iterative workflow in which researchers can review and correct AI outputs. Furthermore, this interaction is used as a feedback signal to improve future LLM-based inference. We evaluate our design using a combination of intrinsic benchmarking outcomes together with real-world case studies across multiple domains. The results demonstrate that SCILIRE improves extraction fidelity and facilitates efficient dataset creation.

翻译：科学文献的快速增长使得人工提取结构化知识日益困难。为应对这一挑战，我们提出了SCILIRE系统，该系统可从科学文献中创建数据集。SCILIRE围绕以数据验证与策管流程为核心的人机协同原则设计，支持研究人员通过迭代工作流审查并修正人工智能输出。此外，这种交互可作为反馈信号以优化未来基于大语言模型的推理。我们通过内在基准测试结果与多领域实际案例研究相结合的方式评估系统设计。结果表明，SCILIRE能有效提升信息提取的保真度，并促进高效的数据集构建。

0

相关内容

AutoResearch AI综述：迈向AI驱动的科学发现自动化

AutoResearch AI综述：迈向AI驱动的科学发现自动化

专知会员服务

15+阅读 · 5月26日

PaperOrchestra：一种面向自动化 AI 学术论文撰写的多智能体框架

PaperOrchestra：一种面向自动化 AI 学术论文撰写的多智能体框架

专知会员服务

13+阅读 · 4月9日

【CMU博士论文】异构数据导航：构建面向多样化数据类型、领域及复杂性的 AI 系统

【CMU博士论文】异构数据导航：构建面向多样化数据类型、领域及复杂性的 AI 系统

专知会员服务

19+阅读 · 2月12日

【AI4Science】利用大型语言模型变革科学：关于人工智能辅助科学发现、实验、内容生成与评估的调研

【AI4Science】利用大型语言模型变革科学：关于人工智能辅助科学发现、实验、内容生成与评估的调研

专知会员服务

33+阅读 · 2025年2月10日

从AIGC到AIGS？南洋理工等最新《人工智能生成的图像作为数据源》综述，详述AI生成数据集方法

从AIGC到AIGS？南洋理工等最新《人工智能生成的图像作为数据源》综述，详述AI生成数据集方法

专知会员服务

68+阅读 · 2023年10月5日

什么是Data-Centric AI？Rice大学最新《以数据为中心的人工智能》研究综述，38页pdf全面阐述DCAI技术体系

什么是Data-Centric AI？Rice大学最新《以数据为中心的人工智能》研究综述，38页pdf全面阐述DCAI技术体系

专知会员服务

76+阅读 · 2023年3月21日

麦考瑞大学最新知识图谱构建综述，37页内容358篇文献系统阐述大数据视野下知识图谱构建全过程方法及其最新进展

麦考瑞大学最新知识图谱构建综述，37页内容358篇文献系统阐述大数据视野下知识图谱构建全过程方法及其最新进展

专知会员服务

53+阅读 · 2023年2月27日

推荐！【系统工程顶点报告】《美国海军部用于人工智能 / 机器学习的数据管理》美国海军研究生院136页报告

推荐！【系统工程顶点报告】《美国海军部用于人工智能 / 机器学习的数据管理》美国海军研究生院136页报告

专知会员服务

172+阅读 · 2022年9月7日

【Science最新论文】XAI—可解释人工智能简述，机遇与挑战

【Science最新论文】XAI—可解释人工智能简述，机遇与挑战

专知会员服务

166+阅读 · 2019年12月21日

PaperRobot: Automated Scientific Knowledge Graph Construction and Paper Writing，伊利诺伊大学香槟分校计算机科学系Heng Ji教授，CCKS-2019：知识智能

PaperRobot: Automated Scientific Knowledge Graph Construction and Paper Writing，伊利诺伊大学香槟分校计算机科学系Heng Ji教授，CCKS-2019：知识智能

专知会员服务

32+阅读 · 2019年10月25日

【2022新书】使用Scikit-Learn、Keras和TensorFlow实践机器学习:构建智能系统的概念、工具和技术第三版

【2022新书】使用Scikit-Learn、Keras和TensorFlow实践机器学习:构建智能系统的概念、工具和技术第三版

专知

15+阅读 · 2022年11月8日

推荐！【系统工程顶点报告】《美国海军部用于人工智能 / 机器学习的数据管理》美国海军研究生院136页报告

推荐！【系统工程顶点报告】《美国海军部用于人工智能 / 机器学习的数据管理》美国海军研究生院136页报告

专知

19+阅读 · 2022年10月23日

推荐！《美国海军部用于人工智能 / 机器学习的数据管理》美国海军研究生院136页报告

推荐！《美国海军部用于人工智能 / 机器学习的数据管理》美国海军研究生院136页报告

专知

63+阅读 · 2022年9月8日

【美国陆军】《人工智能系统能否提高陆军任务指挥过程中的信息收集效率？》39页技术报告

【美国陆军】《人工智能系统能否提高陆军任务指挥过程中的信息收集效率？》39页技术报告

专知

51+阅读 · 2022年8月31日

【Science最新论文】XAI—可解释人工智能简述，机遇与挑战

【Science最新论文】XAI—可解释人工智能简述，机遇与挑战

专知

10+阅读 · 2019年12月21日

【泡泡图灵智库】RelocNet：一种通过连续度量学习实现相机重定位的神经网络框架

【泡泡图灵智库】RelocNet：一种通过连续度量学习实现相机重定位的神经网络框架

泡泡机器人SLAM

14+阅读 · 2019年9月5日

美国DARPA204页可解释人工智能文献综述论文《Explanation in Human-AI Systems》

美国DARPA204页可解释人工智能文献综述论文《Explanation in Human-AI Systems》

专知

11+阅读 · 2019年2月8日

AI综述专栏|跨领域推荐系统文献综述（下）

AI综述专栏|跨领域推荐系统文献综述（下）

人工智能前沿讲习班

14+阅读 · 2018年5月18日

AI综述专栏 | 跨领域推荐系统文献综述（上）

AI综述专栏 | 跨领域推荐系统文献综述（上）

人工智能前沿讲习班

13+阅读 · 2018年5月16日

【论文推荐】最新七篇推荐系统相关论文—协同度量学习、SQL-Rank、用户行为与神经网络、隐私价格、贝叶斯、 IoT、序列感知

【论文推荐】最新七篇推荐系统相关论文—协同度量学习、SQL-Rank、用户行为与神经网络、隐私价格、贝叶斯、 IoT、序列感知

专知

10+阅读 · 2018年3月9日

支持产品创新设计的大数据知识萃取研究

国家自然科学基金

8+阅读 · 2015年12月31日

基于人机交互的数据驱动式人群行为建模与仿真研究

国家自然科学基金

4+阅读 · 2015年12月31日

有效融合多源异构数据的集成分类器研究

国家自然科学基金

5+阅读 · 2015年12月31日

人脑MRI数据特征提取方法的研究与应用

国家自然科学基金

0+阅读 · 2015年12月31日

天文大数据中时序图像子集高效检索方法与系统研究

国家自然科学基金

0+阅读 · 2015年12月31日

数据分析算法的融合与人才培养

国家自然科学基金

7+阅读 · 2015年12月31日

大数据环境下协同商务智能构建中的关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向大数据的高时效并行计算机系统结构与技术

国家自然科学基金

0+阅读 · 2014年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

pAI/MSc: ML Theory Research with Humans on the Loop

Arxiv

0+阅读 · 4月22日

SciNLP: A Domain-Specific Benchmark for Full-Text Scientific Entity and Relation Extraction in NLP

Arxiv

0+阅读 · 4月3日

Self-Optimizing Multi-Agent Systems for Deep Research

Arxiv

0+阅读 · 4月3日

Efficient Human-in-the-Loop Active Learning: A Novel Framework for Data Labeling in AI Systems

Arxiv

0+阅读 · 3月29日

SciLaD: A Large-Scale, Transparent, Reproducible Dataset for Natural Scientific Language Processing

Arxiv

0+阅读 · 3月23日

LiRA: A Multi-Agent Framework for Reliable and Readable Literature Review Generation

Arxiv

0+阅读 · 3月20日

ResearchPilot: A Local-First Multi-Agent System for Literature Synthesis and Related Work Drafting

Arxiv

0+阅读 · 3月15日

AgenticScholar: Agentic Data Management with Pipeline Orchestration for Scholarly Corpora

Arxiv

0+阅读 · 3月14日

ReSearch: A Multi-Stage Machine Learning Framework for Earth Science Data Discovery

Arxiv

0+阅读 · 3月2日

Human-LLM Compound System for Scientific Ideation through Facet Recombination and Novelty Evaluation

Arxiv

0+阅读 · 3月2日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

2+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

2+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

3+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

3+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

3+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

3+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

4+阅读 · 6月22日

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

7+阅读 · 6月21日

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

5+阅读 · 6月21日

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

8+阅读 · 6月21日

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

20+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

5+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

8+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

7+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

9+阅读 · 6月18日

相关VIP内容

AutoResearch AI综述：迈向AI驱动的科学发现自动化

AutoResearch AI综述：迈向AI驱动的科学发现自动化

专知会员服务

15+阅读 · 5月26日

PaperOrchestra：一种面向自动化 AI 学术论文撰写的多智能体框架

PaperOrchestra：一种面向自动化 AI 学术论文撰写的多智能体框架

专知会员服务

13+阅读 · 4月9日

【CMU博士论文】异构数据导航：构建面向多样化数据类型、领域及复杂性的 AI 系统

【CMU博士论文】异构数据导航：构建面向多样化数据类型、领域及复杂性的 AI 系统

专知会员服务

19+阅读 · 2月12日

【AI4Science】利用大型语言模型变革科学：关于人工智能辅助科学发现、实验、内容生成与评估的调研

【AI4Science】利用大型语言模型变革科学：关于人工智能辅助科学发现、实验、内容生成与评估的调研

专知会员服务

33+阅读 · 2025年2月10日

从AIGC到AIGS？南洋理工等最新《人工智能生成的图像作为数据源》综述，详述AI生成数据集方法

从AIGC到AIGS？南洋理工等最新《人工智能生成的图像作为数据源》综述，详述AI生成数据集方法

专知会员服务

68+阅读 · 2023年10月5日

什么是Data-Centric AI？Rice大学最新《以数据为中心的人工智能》研究综述，38页pdf全面阐述DCAI技术体系

什么是Data-Centric AI？Rice大学最新《以数据为中心的人工智能》研究综述，38页pdf全面阐述DCAI技术体系

专知会员服务

76+阅读 · 2023年3月21日

麦考瑞大学最新知识图谱构建综述，37页内容358篇文献系统阐述大数据视野下知识图谱构建全过程方法及其最新进展

麦考瑞大学最新知识图谱构建综述，37页内容358篇文献系统阐述大数据视野下知识图谱构建全过程方法及其最新进展

专知会员服务

53+阅读 · 2023年2月27日

推荐！【系统工程顶点报告】《美国海军部用于人工智能 / 机器学习的数据管理》美国海军研究生院136页报告

推荐！【系统工程顶点报告】《美国海军部用于人工智能 / 机器学习的数据管理》美国海军研究生院136页报告

专知会员服务

172+阅读 · 2022年9月7日

【Science最新论文】XAI—可解释人工智能简述，机遇与挑战

【Science最新论文】XAI—可解释人工智能简述，机遇与挑战

专知会员服务

166+阅读 · 2019年12月21日

PaperRobot: Automated Scientific Knowledge Graph Construction and Paper Writing，伊利诺伊大学香槟分校计算机科学系Heng Ji教授，CCKS-2019：知识智能

PaperRobot: Automated Scientific Knowledge Graph Construction and Paper Writing，伊利诺伊大学香槟分校计算机科学系Heng Ji教授，CCKS-2019：知识智能

专知会员服务

32+阅读 · 2019年10月25日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 3D场景图：开放挑战与未来方向

21世纪的无人机战争

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

相关资讯

【2022新书】使用Scikit-Learn、Keras和TensorFlow实践机器学习:构建智能系统的概念、工具和技术第三版

【2022新书】使用Scikit-Learn、Keras和TensorFlow实践机器学习:构建智能系统的概念、工具和技术第三版

专知

15+阅读 · 2022年11月8日

推荐！【系统工程顶点报告】《美国海军部用于人工智能 / 机器学习的数据管理》美国海军研究生院136页报告

推荐！【系统工程顶点报告】《美国海军部用于人工智能 / 机器学习的数据管理》美国海军研究生院136页报告

专知

19+阅读 · 2022年10月23日

推荐！《美国海军部用于人工智能 / 机器学习的数据管理》美国海军研究生院136页报告

推荐！《美国海军部用于人工智能 / 机器学习的数据管理》美国海军研究生院136页报告

专知

63+阅读 · 2022年9月8日

【美国陆军】《人工智能系统能否提高陆军任务指挥过程中的信息收集效率？》39页技术报告

【美国陆军】《人工智能系统能否提高陆军任务指挥过程中的信息收集效率？》39页技术报告

专知

51+阅读 · 2022年8月31日

【Science最新论文】XAI—可解释人工智能简述，机遇与挑战

【Science最新论文】XAI—可解释人工智能简述，机遇与挑战

专知

10+阅读 · 2019年12月21日

【泡泡图灵智库】RelocNet：一种通过连续度量学习实现相机重定位的神经网络框架

【泡泡图灵智库】RelocNet：一种通过连续度量学习实现相机重定位的神经网络框架

泡泡机器人SLAM

14+阅读 · 2019年9月5日

美国DARPA204页可解释人工智能文献综述论文《Explanation in Human-AI Systems》

美国DARPA204页可解释人工智能文献综述论文《Explanation in Human-AI Systems》

专知

11+阅读 · 2019年2月8日

AI综述专栏|跨领域推荐系统文献综述（下）

AI综述专栏|跨领域推荐系统文献综述（下）

人工智能前沿讲习班

14+阅读 · 2018年5月18日

AI综述专栏 | 跨领域推荐系统文献综述（上）

AI综述专栏 | 跨领域推荐系统文献综述（上）

人工智能前沿讲习班

13+阅读 · 2018年5月16日

【论文推荐】最新七篇推荐系统相关论文—协同度量学习、SQL-Rank、用户行为与神经网络、隐私价格、贝叶斯、 IoT、序列感知

【论文推荐】最新七篇推荐系统相关论文—协同度量学习、SQL-Rank、用户行为与神经网络、隐私价格、贝叶斯、 IoT、序列感知

专知

10+阅读 · 2018年3月9日

相关论文

pAI/MSc: ML Theory Research with Humans on the Loop

Arxiv

0+阅读 · 4月22日

SciNLP: A Domain-Specific Benchmark for Full-Text Scientific Entity and Relation Extraction in NLP

Arxiv

0+阅读 · 4月3日

Self-Optimizing Multi-Agent Systems for Deep Research

Arxiv

0+阅读 · 4月3日

Efficient Human-in-the-Loop Active Learning: A Novel Framework for Data Labeling in AI Systems

Arxiv

0+阅读 · 3月29日

SciLaD: A Large-Scale, Transparent, Reproducible Dataset for Natural Scientific Language Processing

Arxiv

0+阅读 · 3月23日

LiRA: A Multi-Agent Framework for Reliable and Readable Literature Review Generation

Arxiv

0+阅读 · 3月20日

ResearchPilot: A Local-First Multi-Agent System for Literature Synthesis and Related Work Drafting

Arxiv

0+阅读 · 3月15日

AgenticScholar: Agentic Data Management with Pipeline Orchestration for Scholarly Corpora

Arxiv

0+阅读 · 3月14日

ReSearch: A Multi-Stage Machine Learning Framework for Earth Science Data Discovery

Arxiv

0+阅读 · 3月2日

Human-LLM Compound System for Scientific Ideation through Facet Recombination and Novelty Evaluation

Arxiv

0+阅读 · 3月2日

相关基金

支持产品创新设计的大数据知识萃取研究

国家自然科学基金

8+阅读 · 2015年12月31日

基于人机交互的数据驱动式人群行为建模与仿真研究

国家自然科学基金

4+阅读 · 2015年12月31日

有效融合多源异构数据的集成分类器研究

国家自然科学基金

5+阅读 · 2015年12月31日

人脑MRI数据特征提取方法的研究与应用

国家自然科学基金

0+阅读 · 2015年12月31日

天文大数据中时序图像子集高效检索方法与系统研究

国家自然科学基金

0+阅读 · 2015年12月31日

数据分析算法的融合与人才培养

国家自然科学基金

7+阅读 · 2015年12月31日

大数据环境下协同商务智能构建中的关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向大数据的高时效并行计算机系统结构与技术

国家自然科学基金

0+阅读 · 2014年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员