One in Eight OpenAlex Abstracts Has Integrity Issues - 专知论文

会员服务 ·

0

Integration · 样本 · 语言模型化 · MoDELS · 可辨认的 ·

One in Eight OpenAlex Abstracts Has Integrity Issues

翻译：《每八个OpenAlex摘要中就有一个存在完整性问题》

Seorin Kim,Vincent Holst,Vincent Ginis

from arxiv, 10 pages, 5 figures

Scientific abstracts are increasingly used as primary data in computational metascience research, yet the quality of these abstracts in widely used bibliographic databases has not been systematically examined. We assess the integrity of 10,000 randomly sampled English-language journal abstracts from OpenAlex using a two-stage annotation protocol combining human expert review and large language model classification. We identify seven distinct failure modes and find that 12\% of abstracts have integrity issues, with insufficient content and misplaced metadata being the most prevalent. We discuss implications for downstream research and describe a forthcoming community portal to support collective annotation efforts.

翻译：科学摘要日益成为计算元科学研究中的主要数据来源，然而这些摘要广泛使用的书目数据库质量尚未得到系统性的检验。我们采用结合人类专家评审与大型语言模型分类的两阶段标注协议，对从OpenAlex随机抽取的10,000条英文期刊摘要进行了完整性评估。研究识别出七种不同的失效模式，发现12%的摘要存在完整性问题，其中内容不足与元数据错位最为常见。我们讨论了这些发现对下游研究的影响，并介绍了一个即将上线的社区门户以支持集体标注工作。

0

相关内容

Integration

Integration：Integration, the VLSI Journal。 Explanation：集成，VLSI杂志。 Publisher：Elsevier。 SIT：http://dblp.uni-trier.de/db/journals/integration/

【CMU博论文】提高语言模型在摘要生成中的可靠性，160页pdf

【CMU博论文】提高语言模型在摘要生成中的可靠性，160页pdf

专知会员服务

26+阅读 · 2024年7月2日

GPT-4等大模型懂因果么？ Meta等最新《大型语言模型能从相关性中推断因果关系吗》17种LLM表现一般，GPT-4也不行

GPT-4等大模型懂因果么？ Meta等最新《大型语言模型能从相关性中推断因果关系吗》17种LLM表现一般，GPT-4也不行

专知会员服务

60+阅读 · 2023年6月12日

南洋理工阿里巴巴等首篇《神经开放信息抽取》综述论文，系统阐述最新神经信息抽取关键技术

南洋理工阿里巴巴等首篇《神经开放信息抽取》综述论文，系统阐述最新神经信息抽取关键技术

专知会员服务

17+阅读 · 2022年5月30日

【开放书】《大数据价值的要素》，411页pdf，Elements of big data value

【开放书】《大数据价值的要素》，411页pdf，Elements of big data value

专知会员服务

27+阅读 · 2022年3月24日

【哈工大】对话摘要简述，45页ppt

专知会员服务

29+阅读 · 2021年6月25日

多模态摘要简述

专知会员服务

149+阅读 · 2020年9月6日

最近几种小样本元学习简明综述，A Concise Review of Recent Few-shot Meta-learning Methods

最近几种小样本元学习简明综述，A Concise Review of Recent Few-shot Meta-learning Methods

专知会员服务

35+阅读 · 2020年5月25日

【微软】利用知识图谱提高抽象摘要的事实正确性，Boosting Factual Correctness

专知会员服务

18+阅读 · 2020年3月23日

【论文推荐】不同图像域弱监督语义分割的综合分析，A Comprehensive Analysis of Weakly-Supervised Semantic Segmentation in Different Image Domains

【论文推荐】不同图像域弱监督语义分割的综合分析，A Comprehensive Analysis of Weakly-Supervised Semantic Segmentation in Different Image Domains

专知会员服务

28+阅读 · 2019年12月27日

【Svitlana博士论文以及答辩slides】基于知识的对话搜索（Knowledge-based Conversational Search），附145页pdf论文，55页ppt

【Svitlana博士论文以及答辩slides】基于知识的对话搜索（Knowledge-based Conversational Search），附145页pdf论文，55页ppt

专知会员服务

48+阅读 · 2019年11月25日

统计学习要素（The Elements of Statistical Learning）的中文翻译、代码实现及其习题解答，附下载

统计学习要素（The Elements of Statistical Learning）的中文翻译、代码实现及其习题解答，附下载

专知

41+阅读 · 2019年11月18日

【论文】Awesome Relation Extraction Paper（关系抽取）（PART V）

【论文】Awesome Relation Extraction Paper（关系抽取）（PART V）

AINLP

38+阅读 · 2019年9月3日

【ACL】文本摘要研究工作总结

【ACL】文本摘要研究工作总结

中国人工智能学会

30+阅读 · 2019年8月10日

面试题：文本摘要中的NLP技术

面试题：文本摘要中的NLP技术

七月在线实验室

15+阅读 · 2019年5月13日

用深度学习做文本摘要

用深度学习做文本摘要

专知

24+阅读 · 2019年3月30日

最新NLP论文阅读列表，包括对话、问答、摘要、翻译等（附资源）

最新NLP论文阅读列表，包括对话、问答、摘要、翻译等（附资源）

THU数据派

11+阅读 · 2019年3月25日

赛尔原创 | 文本摘要简述

赛尔原创 | 文本摘要简述

哈工大SCIR

22+阅读 · 2019年3月25日

【论文推荐】最新六篇视觉问答相关论文—深度嵌入学习、句子表征学习、深度特征聚合、3D匹配、细粒度文本摘要

【论文推荐】最新六篇视觉问答相关论文—深度嵌入学习、句子表征学习、深度特征聚合、3D匹配、细粒度文本摘要

专知

12+阅读 · 2018年6月9日

干货｜当深度学习遇见自动文本摘要，seq2seq+attention

干货｜当深度学习遇见自动文本摘要，seq2seq+attention

机器学习算法与Python学习

10+阅读 · 2018年5月28日

【论文推荐】最新5篇信息抽取（IE）相关论文—开放信息抽取、不完整信息、主动学习、越南语、依存分析

【论文推荐】最新5篇信息抽取（IE）相关论文—开放信息抽取、不完整信息、主动学习、越南语、依存分析

专知

12+阅读 · 2018年2月2日

不可忽略缺失机制下的广义矩方法和调整经验似然方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

低秩张量补全问题的算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

信息不完全的双边匹配决策方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于复杂语义的个性化图像集摘要研究

国家自然科学基金

0+阅读 · 2015年12月31日

多重排序数据的整合分析

国家自然科学基金

0+阅读 · 2015年12月31日

编码和信息安全中的数学问题

国家自然科学基金

0+阅读 · 2015年12月31日

超高维生存数据变量筛选和选择中若干问题的研究

国家自然科学基金

0+阅读 · 2015年12月31日

关联规则集上的知识发现

国家自然科学基金

9+阅读 · 2015年12月31日

超分辨率中的矩阵值算子学习问题

国家自然科学基金

1+阅读 · 2014年12月31日

复杂多元数据的半参数统计推断

国家自然科学基金

5+阅读 · 2014年12月31日

Self-Preference Is Weak or Absent in Verifiable Instruction-Following Revision: A Four-Model Test Under Genuine Authorship

Arxiv

0+阅读 · 6月18日

Which Sections of a Research Paper Best Reveal Its Research Methods? Evidence from Library and Information Science

Arxiv

0+阅读 · 6月17日

Examining the Cognitive Gap Between Authors and Peer Reviewers on Academic Paper Novelty

Arxiv

0+阅读 · 6月11日

Quantifying the evolving topical structure of science across journals, countries, regions, and research domains

Arxiv

0+阅读 · 5月26日

Factual Inconsistencies in Multilingual Wikipedia Tables

Arxiv

0+阅读 · 5月18日

Comparison of OpenAlex and Scopus coverage of German institutions' publications in top-tier journals

Arxiv

0+阅读 · 5月2日

Mapping bibliographic metadata collections: the case of OpenCitations Meta and OpenAlex

Arxiv

0+阅读 · 4月24日

OpenCitations Meta

Arxiv

0+阅读 · 4月23日

Demanding peer review is associated with higher impact in published science

Arxiv

0+阅读 · 4月15日

Discoverability matters: Open access models and the translation of science into patents

Arxiv

0+阅读 · 3月30日

VIP会员

文章信息

相关主题

语言模型化

最新内容

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

0+阅读 · 今天15:26

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

0+阅读 · 今天15:19

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

4+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

5+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

11+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

9+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

6+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

9+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

7+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

13+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

7+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

6+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

8+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

8+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

9+阅读 · 6月17日

相关VIP内容

【CMU博论文】提高语言模型在摘要生成中的可靠性，160页pdf

【CMU博论文】提高语言模型在摘要生成中的可靠性，160页pdf

专知会员服务

26+阅读 · 2024年7月2日

GPT-4等大模型懂因果么？ Meta等最新《大型语言模型能从相关性中推断因果关系吗》17种LLM表现一般，GPT-4也不行

GPT-4等大模型懂因果么？ Meta等最新《大型语言模型能从相关性中推断因果关系吗》17种LLM表现一般，GPT-4也不行

专知会员服务

60+阅读 · 2023年6月12日

南洋理工阿里巴巴等首篇《神经开放信息抽取》综述论文，系统阐述最新神经信息抽取关键技术

南洋理工阿里巴巴等首篇《神经开放信息抽取》综述论文，系统阐述最新神经信息抽取关键技术

专知会员服务

17+阅读 · 2022年5月30日

【开放书】《大数据价值的要素》，411页pdf，Elements of big data value

【开放书】《大数据价值的要素》，411页pdf，Elements of big data value

专知会员服务

27+阅读 · 2022年3月24日

【哈工大】对话摘要简述，45页ppt

专知会员服务

29+阅读 · 2021年6月25日

多模态摘要简述

专知会员服务

149+阅读 · 2020年9月6日

最近几种小样本元学习简明综述，A Concise Review of Recent Few-shot Meta-learning Methods

最近几种小样本元学习简明综述，A Concise Review of Recent Few-shot Meta-learning Methods

专知会员服务

35+阅读 · 2020年5月25日

【微软】利用知识图谱提高抽象摘要的事实正确性，Boosting Factual Correctness

专知会员服务

18+阅读 · 2020年3月23日

【论文推荐】不同图像域弱监督语义分割的综合分析，A Comprehensive Analysis of Weakly-Supervised Semantic Segmentation in Different Image Domains

【论文推荐】不同图像域弱监督语义分割的综合分析，A Comprehensive Analysis of Weakly-Supervised Semantic Segmentation in Different Image Domains

专知会员服务

28+阅读 · 2019年12月27日

【Svitlana博士论文以及答辩slides】基于知识的对话搜索（Knowledge-based Conversational Search），附145页pdf论文，55页ppt

【Svitlana博士论文以及答辩slides】基于知识的对话搜索（Knowledge-based Conversational Search），附145页pdf论文，55页ppt

专知会员服务

48+阅读 · 2019年11月25日

热门VIP内容

开通专知VIP会员享更多权益服务

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

相关资讯

统计学习要素（The Elements of Statistical Learning）的中文翻译、代码实现及其习题解答，附下载

统计学习要素（The Elements of Statistical Learning）的中文翻译、代码实现及其习题解答，附下载

专知

41+阅读 · 2019年11月18日

【论文】Awesome Relation Extraction Paper（关系抽取）（PART V）

【论文】Awesome Relation Extraction Paper（关系抽取）（PART V）

AINLP

38+阅读 · 2019年9月3日

【ACL】文本摘要研究工作总结

【ACL】文本摘要研究工作总结

中国人工智能学会

30+阅读 · 2019年8月10日

面试题：文本摘要中的NLP技术

面试题：文本摘要中的NLP技术

七月在线实验室

15+阅读 · 2019年5月13日

用深度学习做文本摘要

用深度学习做文本摘要

专知

24+阅读 · 2019年3月30日

最新NLP论文阅读列表，包括对话、问答、摘要、翻译等（附资源）

最新NLP论文阅读列表，包括对话、问答、摘要、翻译等（附资源）

THU数据派

11+阅读 · 2019年3月25日

赛尔原创 | 文本摘要简述

赛尔原创 | 文本摘要简述

哈工大SCIR

22+阅读 · 2019年3月25日

【论文推荐】最新六篇视觉问答相关论文—深度嵌入学习、句子表征学习、深度特征聚合、3D匹配、细粒度文本摘要

【论文推荐】最新六篇视觉问答相关论文—深度嵌入学习、句子表征学习、深度特征聚合、3D匹配、细粒度文本摘要

专知

12+阅读 · 2018年6月9日

干货｜当深度学习遇见自动文本摘要，seq2seq+attention

干货｜当深度学习遇见自动文本摘要，seq2seq+attention

机器学习算法与Python学习

10+阅读 · 2018年5月28日

【论文推荐】最新5篇信息抽取（IE）相关论文—开放信息抽取、不完整信息、主动学习、越南语、依存分析

【论文推荐】最新5篇信息抽取（IE）相关论文—开放信息抽取、不完整信息、主动学习、越南语、依存分析

专知

12+阅读 · 2018年2月2日

相关论文

Self-Preference Is Weak or Absent in Verifiable Instruction-Following Revision: A Four-Model Test Under Genuine Authorship

Arxiv

0+阅读 · 6月18日

Which Sections of a Research Paper Best Reveal Its Research Methods? Evidence from Library and Information Science

Arxiv

0+阅读 · 6月17日

Examining the Cognitive Gap Between Authors and Peer Reviewers on Academic Paper Novelty

Arxiv

0+阅读 · 6月11日

Quantifying the evolving topical structure of science across journals, countries, regions, and research domains

Arxiv

0+阅读 · 5月26日

Factual Inconsistencies in Multilingual Wikipedia Tables

Arxiv

0+阅读 · 5月18日

Comparison of OpenAlex and Scopus coverage of German institutions' publications in top-tier journals

Arxiv

0+阅读 · 5月2日

Mapping bibliographic metadata collections: the case of OpenCitations Meta and OpenAlex

Arxiv

0+阅读 · 4月24日

OpenCitations Meta

Arxiv

0+阅读 · 4月23日

Demanding peer review is associated with higher impact in published science

Arxiv

0+阅读 · 4月15日

Discoverability matters: Open access models and the translation of science into patents

Arxiv

0+阅读 · 3月30日

相关基金

不可忽略缺失机制下的广义矩方法和调整经验似然方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

低秩张量补全问题的算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

信息不完全的双边匹配决策方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于复杂语义的个性化图像集摘要研究

国家自然科学基金

0+阅读 · 2015年12月31日

多重排序数据的整合分析

国家自然科学基金

0+阅读 · 2015年12月31日

编码和信息安全中的数学问题

国家自然科学基金

0+阅读 · 2015年12月31日

超高维生存数据变量筛选和选择中若干问题的研究

国家自然科学基金

0+阅读 · 2015年12月31日

关联规则集上的知识发现

国家自然科学基金

9+阅读 · 2015年12月31日

超分辨率中的矩阵值算子学习问题

国家自然科学基金

1+阅读 · 2014年12月31日

复杂多元数据的半参数统计推断

国家自然科学基金

5+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员