SciLaD: A Large-Scale, Transparent, Reproducible Dataset for Natural Scientific Language Processing - 专知论文

会员服务 ·

0

数据集 · 自然科学 · 语言处理 · 构建 · 包含 ·

SciLaD: A Large-Scale, Transparent, Reproducible Dataset for Natural Scientific Language Processing

翻译：SciLaD：面向自然科学语言处理的大规模、透明、可复现数据集

Luca Foppiano,Sotaro Takeshita,Pedro Ortiz Suarez,Ekaterina Borisova,Raia Abu Ahmad,Malte Ostendorff,Fabio Barth,Julian Moreno-Schneider,Georg Rehm

from arxiv, 13 pages, 3 figures, 3 tables

SciLaD is a novel, large-scale dataset of scientific language constructed entirely using open-source frameworks and publicly available data sources. It comprises a curated English split containing over 10 million scientific publications and a multilingual, unfiltered TEI XML split including more than 35 million publications. We also publish the extensible pipeline for generating SciLaD. The dataset construction and processing workflow demonstrates how open-source tools can enable large-scale, scientific data curation while maintaining high data quality. Finally, we pre-train a RoBERTa model on our dataset and evaluate it across a comprehensive set of benchmarks, achieving performance comparable to other scientific language models of similar size, validating the quality and utility of SciLaD. We publish the dataset and evaluation pipeline to promote reproducibility, transparency, and further research in natural scientific language processing and understanding, including scholarly document processing.

翻译：SciLaD是一个全新的、大规模科学语言数据集，完全基于开源框架和公开数据源构建。该数据集包含一个经整理的英文子集（涵盖超过1000万篇科学出版物）和一个多语言、未过滤的TEI XML子集（包含超过3500万篇出版物）。我们还发布了用于生成SciLaD的可扩展管道。数据集的构建与处理流程展示了如何利用开源工具实现大规模、高质量的科学数据整理。最后，我们在该数据集上预训练了一个RoBERTa模型，并在全面基准测试中进行了评估，其性能与同等规模的其他科学语言模型相当，验证了SciLaD的质量与实用性。我们公开发布该数据集及评估管道，旨在促进自然科学语言处理与理解（包括学术文档处理）领域的可复现性、透明性及后续研究。

0

相关内容

数据集

数据集，又称为资料集、数据集合或资料集合，是一种由数据所组成的集合。
Data set（或dataset）是一个数据的集合，通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量，如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数，该数据集的数据可能包括一个或多个成员。

PaperOrchestra：一种面向自动化 AI 学术论文撰写的多智能体框架

PaperOrchestra：一种面向自动化 AI 学术论文撰写的多智能体框架

专知会员服务

13+阅读 · 4月9日

Nature 子刊 | SciToolAgent:知识图谱引导的科学工具智能体

Nature 子刊 | SciToolAgent:知识图谱引导的科学工具智能体

专知会员服务

21+阅读 · 2025年11月1日

科学大语言模型综述：从数据基础到智能体前沿

科学大语言模型综述：从数据基础到智能体前沿

专知会员服务

51+阅读 · 2025年9月1日

大模型如何用于科学发现？浙大等最新《科学大型语言模型：生物学与化学领域》综述

大模型如何用于科学发现？浙大等最新《科学大型语言模型：生物学与化学领域》综述

专知会员服务

50+阅读 · 2024年1月29日

GPT-4科学发现如何？微软230页长文《大型语言模型对科学发现的影响:使用GPT-4的初步研究》，涵盖5大科学领域，前景可期

GPT-4科学发现如何？微软230页长文《大型语言模型对科学发现的影响:使用GPT-4的初步研究》，涵盖5大科学领域，前景可期

专知会员服务

70+阅读 · 2023年11月15日

【经典书】数据科学:理论、模型、算法和分析，462页pdf

专知会员服务

65+阅读 · 2021年4月6日

最新《数据科学：全面综述论文》42页pdf，Data Science: A Comprehensive Overview

最新《数据科学：全面综述论文》42页pdf，Data Science: A Comprehensive Overview

专知会员服务

319+阅读 · 2020年7月9日

【斯坦福大学】《海量数据集挖掘》电子书及相关资源《Mining of Massive Datasets》

【斯坦福大学】《海量数据集挖掘》电子书及相关资源《Mining of Massive Datasets》

专知会员服务

81+阅读 · 2020年3月30日

【AAAI 2019 Tutorial】超越单词的神经向量表示:句子和文档嵌入（Neural Vector Representations beyond Words: Sentence and Document Embeddings），Gerard de Melo

【AAAI 2019 Tutorial】超越单词的神经向量表示:句子和文档嵌入（Neural Vector Representations beyond Words: Sentence and Document Embeddings），Gerard de Melo

专知会员服务

19+阅读 · 2019年11月18日

【Facebook AI】对抗性NLI:自然语言理解的新基准，Adversarial NLI: A New Benchmark for Natural Language Understanding

【Facebook AI】对抗性NLI:自然语言理解的新基准，Adversarial NLI: A New Benchmark for Natural Language Understanding

专知会员服务

11+阅读 · 2019年11月2日

金融领域自然语言处理研究资源大列表

金融领域自然语言处理研究资源大列表

专知

13+阅读 · 2020年2月27日

中文自然语言处理数据集：ChineseNLPCorpus（附链接）

中文自然语言处理数据集：ChineseNLPCorpus（附链接）

数据派THU

37+阅读 · 2019年6月23日

最全中文自然语言处理数据集、平台和工具整理

最全中文自然语言处理数据集、平台和工具整理

深度学习与NLP

34+阅读 · 2019年6月22日

中文自然语言处理数据集：ChineseNLPCorpus

中文自然语言处理数据集：ChineseNLPCorpus

AINLP

35+阅读 · 2019年6月21日

自然语言处理常见数据集、论文最全整理分享

自然语言处理常见数据集、论文最全整理分享

深度学习与NLP

11+阅读 · 2019年1月26日

清华发布《2018自然语言处理研究报告》，65页PDF下载

清华发布《2018自然语言处理研究报告》，65页PDF下载

专知

29+阅读 · 2018年7月28日

自然语言处理领域公开数据集

自然语言处理领域公开数据集

黑龙江大学自然语言处理实验室

67+阅读 · 2018年4月19日

自然语言处理（NLP）数据集整理

自然语言处理（NLP）数据集整理

论智

20+阅读 · 2018年4月8日

TextInfoExp:自然语言处理相关实验（基于sougou数据集）

TextInfoExp:自然语言处理相关实验（基于sougou数据集）

全球人工智能

12+阅读 · 2017年11月12日

自然语言处理数据集免费资源开放（附学习资料）

自然语言处理数据集免费资源开放（附学习资料）

数据派THU

17+阅读 · 2017年10月2日

基于关键词的大规模链接数据搜索技术研究

国家自然科学基金

7+阅读 · 2015年12月31日

可扩展的蛋白质组学大数据存储与分析模型研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于深度学习的海量截获卫星数据分析技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于复杂语义的个性化图像集摘要研究

国家自然科学基金

0+阅读 · 2015年12月31日

天文大数据中时序图像子集高效检索方法与系统研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向大数据的知识表示、推理、在线学习理论及应用研究

国家自然科学基金

12+阅读 · 2014年12月31日

面向大规模数据流的集成学习模型与方法研究

国家自然科学基金

5+阅读 · 2014年12月31日

面向大数据的信息可视化设计方法研究

国家自然科学基金

7+阅读 · 2014年12月31日

中国地理资源期刊集群化平台建设及其服务模式、机制研究与实践

国家自然科学基金

0+阅读 · 2014年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

RespondeoQA: a Benchmark for Bilingual Latin-English Question Answering

Arxiv

0+阅读 · 4月22日

SciDraw-6K: A Multilingual Scientific Illustration Dataset Generated by Google Gemini

Arxiv

0+阅读 · 4月19日

OpenSpatial: A Principled Data Engine for Empowering Spatial Intelligence

Arxiv

0+阅读 · 4月8日

SciGA: A Comprehensive Dataset for Designing Graphical Abstracts in Academic Papers

Arxiv

0+阅读 · 4月5日

SciNLP: A Domain-Specific Benchmark for Full-Text Scientific Entity and Relation Extraction in NLP

Arxiv

0+阅读 · 4月3日

CliffSearch: Structured Agentic Co-Evolution over Theory and Code for Scientific Algorithm Discovery

Arxiv

0+阅读 · 4月1日

SciVisAgentBench: A Benchmark for Evaluating Scientific Data Analysis and Visualization Agents

Arxiv

0+阅读 · 3月31日

Scaling Reproducibility: An AI-Assisted Workflow for Large-Scale Replication and Reanalysis

Arxiv

0+阅读 · 3月25日

LLMpedia: A Transparent Framework to Materialize an LLM's Encyclopedic Knowledge at Scale

Arxiv

0+阅读 · 3月25日

VILLA: Versatile Information Retrieval From Scientific Literature Using Large LAnguage Models

Arxiv

0+阅读 · 3月25日

VIP会员

文章信息

相关主题

最新内容

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

7+阅读 · 6月21日

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

5+阅读 · 6月21日

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

7+阅读 · 6月21日

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

19+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

5+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

8+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

7+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

9+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

13+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

12+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

8+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

13+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

10+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

24+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

12+阅读 · 6月17日

相关VIP内容

PaperOrchestra：一种面向自动化 AI 学术论文撰写的多智能体框架

PaperOrchestra：一种面向自动化 AI 学术论文撰写的多智能体框架

专知会员服务

13+阅读 · 4月9日

Nature 子刊 | SciToolAgent:知识图谱引导的科学工具智能体

Nature 子刊 | SciToolAgent:知识图谱引导的科学工具智能体

专知会员服务

21+阅读 · 2025年11月1日

科学大语言模型综述：从数据基础到智能体前沿

科学大语言模型综述：从数据基础到智能体前沿

专知会员服务

51+阅读 · 2025年9月1日

大模型如何用于科学发现？浙大等最新《科学大型语言模型：生物学与化学领域》综述

大模型如何用于科学发现？浙大等最新《科学大型语言模型：生物学与化学领域》综述

专知会员服务

50+阅读 · 2024年1月29日

GPT-4科学发现如何？微软230页长文《大型语言模型对科学发现的影响:使用GPT-4的初步研究》，涵盖5大科学领域，前景可期

GPT-4科学发现如何？微软230页长文《大型语言模型对科学发现的影响:使用GPT-4的初步研究》，涵盖5大科学领域，前景可期

专知会员服务

70+阅读 · 2023年11月15日

【经典书】数据科学:理论、模型、算法和分析，462页pdf

专知会员服务

65+阅读 · 2021年4月6日

最新《数据科学：全面综述论文》42页pdf，Data Science: A Comprehensive Overview

最新《数据科学：全面综述论文》42页pdf，Data Science: A Comprehensive Overview

专知会员服务

319+阅读 · 2020年7月9日

【斯坦福大学】《海量数据集挖掘》电子书及相关资源《Mining of Massive Datasets》

【斯坦福大学】《海量数据集挖掘》电子书及相关资源《Mining of Massive Datasets》

专知会员服务

81+阅读 · 2020年3月30日

【AAAI 2019 Tutorial】超越单词的神经向量表示:句子和文档嵌入（Neural Vector Representations beyond Words: Sentence and Document Embeddings），Gerard de Melo

【AAAI 2019 Tutorial】超越单词的神经向量表示:句子和文档嵌入（Neural Vector Representations beyond Words: Sentence and Document Embeddings），Gerard de Melo

专知会员服务

19+阅读 · 2019年11月18日

【Facebook AI】对抗性NLI:自然语言理解的新基准，Adversarial NLI: A New Benchmark for Natural Language Understanding

【Facebook AI】对抗性NLI:自然语言理解的新基准，Adversarial NLI: A New Benchmark for Natural Language Understanding

专知会员服务

11+阅读 · 2019年11月2日

热门VIP内容

开通专知VIP会员享更多权益服务

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

美国从乌克兰无人机战争中学习经验

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

相关资讯

金融领域自然语言处理研究资源大列表

金融领域自然语言处理研究资源大列表

专知

13+阅读 · 2020年2月27日

中文自然语言处理数据集：ChineseNLPCorpus（附链接）

中文自然语言处理数据集：ChineseNLPCorpus（附链接）

数据派THU

37+阅读 · 2019年6月23日

最全中文自然语言处理数据集、平台和工具整理

最全中文自然语言处理数据集、平台和工具整理

深度学习与NLP

34+阅读 · 2019年6月22日

中文自然语言处理数据集：ChineseNLPCorpus

中文自然语言处理数据集：ChineseNLPCorpus

AINLP

35+阅读 · 2019年6月21日

自然语言处理常见数据集、论文最全整理分享

自然语言处理常见数据集、论文最全整理分享

深度学习与NLP

11+阅读 · 2019年1月26日

清华发布《2018自然语言处理研究报告》，65页PDF下载

清华发布《2018自然语言处理研究报告》，65页PDF下载

专知

29+阅读 · 2018年7月28日

自然语言处理领域公开数据集

自然语言处理领域公开数据集

黑龙江大学自然语言处理实验室

67+阅读 · 2018年4月19日

自然语言处理（NLP）数据集整理

自然语言处理（NLP）数据集整理

论智

20+阅读 · 2018年4月8日

TextInfoExp:自然语言处理相关实验（基于sougou数据集）

TextInfoExp:自然语言处理相关实验（基于sougou数据集）

全球人工智能

12+阅读 · 2017年11月12日

自然语言处理数据集免费资源开放（附学习资料）

自然语言处理数据集免费资源开放（附学习资料）

数据派THU

17+阅读 · 2017年10月2日

相关论文

RespondeoQA: a Benchmark for Bilingual Latin-English Question Answering

Arxiv

0+阅读 · 4月22日

SciDraw-6K: A Multilingual Scientific Illustration Dataset Generated by Google Gemini

Arxiv

0+阅读 · 4月19日

OpenSpatial: A Principled Data Engine for Empowering Spatial Intelligence

Arxiv

0+阅读 · 4月8日

SciGA: A Comprehensive Dataset for Designing Graphical Abstracts in Academic Papers

Arxiv

0+阅读 · 4月5日

SciNLP: A Domain-Specific Benchmark for Full-Text Scientific Entity and Relation Extraction in NLP

Arxiv

0+阅读 · 4月3日

CliffSearch: Structured Agentic Co-Evolution over Theory and Code for Scientific Algorithm Discovery

Arxiv

0+阅读 · 4月1日

SciVisAgentBench: A Benchmark for Evaluating Scientific Data Analysis and Visualization Agents

Arxiv

0+阅读 · 3月31日

Scaling Reproducibility: An AI-Assisted Workflow for Large-Scale Replication and Reanalysis

Arxiv

0+阅读 · 3月25日

LLMpedia: A Transparent Framework to Materialize an LLM's Encyclopedic Knowledge at Scale

Arxiv

0+阅读 · 3月25日

VILLA: Versatile Information Retrieval From Scientific Literature Using Large LAnguage Models

Arxiv

0+阅读 · 3月25日

相关基金

基于关键词的大规模链接数据搜索技术研究

国家自然科学基金

7+阅读 · 2015年12月31日

可扩展的蛋白质组学大数据存储与分析模型研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于深度学习的海量截获卫星数据分析技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于复杂语义的个性化图像集摘要研究

国家自然科学基金

0+阅读 · 2015年12月31日

天文大数据中时序图像子集高效检索方法与系统研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向大数据的知识表示、推理、在线学习理论及应用研究

国家自然科学基金

12+阅读 · 2014年12月31日

面向大规模数据流的集成学习模型与方法研究

国家自然科学基金

5+阅读 · 2014年12月31日

面向大数据的信息可视化设计方法研究

国家自然科学基金

7+阅读 · 2014年12月31日

中国地理资源期刊集群化平台建设及其服务模式、机制研究与实践

国家自然科学基金

0+阅读 · 2014年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员