Crystal: Characterizing Relative Impact of Scholarly Publications - 专知论文

会员服务 ·

0

论文 · 排序 · 分析 · 数据集 · 大语言模型 ·

Crystal: Characterizing Relative Impact of Scholarly Publications

翻译：晶：刻画学术出版物的相对影响力

Hannah Collison,Benjamin Van Durme,Daniel Khashabi

Assessing a cited paper's impact is typically done by analyzing its citation context in isolation within the citing paper. While this focuses on the most directly relevant text, it prevents relative comparisons across all the works a paper cites. We propose Crystal, which instead jointly ranks all cited papers within a citing paper using large language models (LLMs). To mitigate LLMs' positional bias, we rank each list three times in a randomized order and aggregate the impact labels through majority voting. This joint approach leverages the full citation context, rather than evaluating citations independently, to more reliably distinguish impactful references. Crystal outperforms a prior state-of-the-art impact classifier by +9.5% accuracy and +8.3% F1 on a dataset of human-annotated citations. Crystal further gains efficiency through fewer LLM calls and outperforms prior baselines using an open-weight model, enabling scalable, cost-effective citation impact analysis. In a case study of ACL Test-of-Time award-winning papers, we find that Crystal's impact characterizations align closely with long-term scientific recognition. We release Crystal-Bank, a 46.8k-paper dataset with rankings and impact labels, along with code.

翻译：评估一篇被引论文的影响力通常通过孤立分析其在施引论文中的引文语境完成。虽然这聚焦于最直接相关的文本，但阻碍了对论文所引全部著作进行相对比较。我们提出Crystal方法，该模型通过大型语言模型对施引论文内的所有被引论文进行联合排序。为缓解LLM的位置偏差，我们以随机顺序对每个列表进行三次排序，并通过多数投票聚合影响力标签。这种联合方法利用了完整的引文语境（而非独立评估引文），从而更可靠地区分高影响力参考文献。在人工标注引文数据集上，Crystal相较于现有最先进影响力分类器准确率提升9.5%，F1值提升8.3%。Crystal通过更少的LLM调用次数提升了效率，并基于开放权重模型超越先前基线方法，实现了可扩展、低成本的引文影响力分析。在ACL时间检验奖获奖论文的案例研究中，我们发现Crystal的影响力刻画与长期科学认可度高度吻合。我们发布了包含46,800篇论文的排序与影响力标签的Crystal-Bank数据集及相应代码。

0

相关内容

论文（Paper）是专知网站核心资料文档，包括全球顶级期刊、顶级会议论文，及全球顶尖高校博士硕士学位论文。重点关注中国计算机学会推荐的国际学术会议和期刊，CCF-A、B、C三类。通过人机协作方式，汇编、挖掘后呈现于专知网站。

什么是上下文工程？中科院计算所等《大语言模型的上下文工程》综述

什么是上下文工程？中科院计算所等《大语言模型的上下文工程》综述

专知会员服务

43+阅读 · 2025年7月18日

如何评估大模型？吉大微软亚研等最新《大型语言模型评估》综述，全面阐述大模型评估方法体系

如何评估大模型？吉大微软亚研等最新《大型语言模型评估》综述，全面阐述大模型评估方法体系

专知会员服务

88+阅读 · 2023年7月13日

现在大火的“In-context Learning”是什么？北大等最新《语境学习ICL》综述论文，详述ICL进展、挑战和方向

现在大火的“In-context Learning”是什么？北大等最新《语境学习ICL》综述论文，详述ICL进展、挑战和方向

专知会员服务

41+阅读 · 2023年1月3日

《异构观测数据中的联合因果推理》美国艾莫利大学、微软、约翰霍普金斯大学、哈佛大学、斯坦福大学等联合发表最新论文63页PDF

《异构观测数据中的联合因果推理》美国艾莫利大学、微软、约翰霍普金斯大学、哈佛大学、斯坦福大学等联合发表最新论文63页PDF

专知会员服务

29+阅读 · 2022年4月28日

中科院计算所发布首篇「面向第一阶段检索的语义检索模型」综述论文，43页pdf242篇文献

中科院计算所发布首篇「面向第一阶段检索的语义检索模型」综述论文，43页pdf242篇文献

专知会员服务

25+阅读 · 2021年10月3日

如何撰写好一篇论文？密歇根Andrew教授这篇《撰写高影响力论文指南》为你细致讲解论文写作，附视频与pdf

如何撰写好一篇论文？密歇根Andrew教授这篇《撰写高影响力论文指南》为你细致讲解论文写作，附视频与pdf

专知会员服务

79+阅读 · 2021年9月6日

可视化特征属性基线的影响，Visualizing the Impact of Feature Attribution Baselines

可视化特征属性基线的影响，Visualizing the Impact of Feature Attribution Baselines

专知会员服务

10+阅读 · 2020年1月16日

【AAAI 2019 Tutorial】超越单词的神经向量表示:句子和文档嵌入（Neural Vector Representations beyond Words: Sentence and Document Embeddings），Gerard de Melo

【AAAI 2019 Tutorial】超越单词的神经向量表示:句子和文档嵌入（Neural Vector Representations beyond Words: Sentence and Document Embeddings），Gerard de Melo

专知会员服务

19+阅读 · 2019年11月18日

【AAAI2020论文】关注实体以更好地理解文本（Attending to Entities for Better Text Understanding）

【AAAI2020论文】关注实体以更好地理解文本（Attending to Entities for Better Text Understanding）

专知会员服务

25+阅读 · 2019年11月15日

【RecSys 2019报告】推荐系统的意图，算法以及指标（Recommending for Impact:Intentions, Algorithms, and Metrics）

【RecSys 2019报告】推荐系统的意图，算法以及指标（Recommending for Impact:Intentions, Algorithms, and Metrics）

专知会员服务

37+阅读 · 2019年10月9日

对抗攻击之利用水印生成对抗样本

对抗攻击之利用水印生成对抗样本

计算机视觉life

10+阅读 · 2020年9月27日

最新SCI期刊影响因子出炉！

最新SCI期刊影响因子出炉！

CVer

27+阅读 · 2020年7月1日

AAAI 2020论文解读：关注实体以更好地理解文本

AAAI 2020论文解读：关注实体以更好地理解文本

AI科技评论

17+阅读 · 2019年11月20日

disentangled-representation-papers

disentangled-representation-papers

CreateAMind

26+阅读 · 2018年9月12日

【论文推荐】最新五篇视觉问答相关论文—深度学习评价、交互注意融合、VizWiz、引导注意力、

【论文推荐】最新五篇视觉问答相关论文—深度学习评价、交互注意融合、VizWiz、引导注意力、

专知

10+阅读 · 2018年6月8日

计算文本相似度常用的四种方法

计算文本相似度常用的四种方法

论智

33+阅读 · 2018年5月18日

【论文推荐】最新七篇推荐系统相关论文—影响兴趣、知识Embeddings、音乐推荐、非结构化、一致性、显式和隐式特征、知识图谱

【论文推荐】最新七篇推荐系统相关论文—影响兴趣、知识Embeddings、音乐推荐、非结构化、一致性、显式和隐式特征、知识图谱

专知

14+阅读 · 2018年3月28日

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

专知

30+阅读 · 2018年3月22日

语料库构建——自然语言理解的基础

语料库构建——自然语言理解的基础

计算机研究与发展

11+阅读 · 2017年8月21日

Generative Adversarial Text to Image Synthesis论文解读

Generative Adversarial Text to Image Synthesis论文解读

统计学习与视觉计算组

13+阅读 · 2017年6月9日

液晶动力学系统部分正则性和适定性的研究

国家自然科学基金

0+阅读 · 2015年12月31日

汉英篇章衔接对齐资源构建与分析研究

国家自然科学基金

2+阅读 · 2015年12月31日

结合同步辐射实验和第一性原理的理论对半晶化过程中的晶体结构,电子结构和热力学性质进行研究

国家自然科学基金

0+阅读 · 2015年12月31日

球状相液晶材料制备及其电光性能研究

国家自然科学基金

0+阅读 · 2015年12月31日

非晶形成能力与晶体生长行为的关系

国家自然科学基金

0+阅读 · 2014年12月31日

二氧化碳水合物结晶行为统计力学研究

国家自然科学基金

0+阅读 · 2014年12月31日

面心立方晶体强度与塑性变形机制的尺寸效应

国家自然科学基金

0+阅读 · 2014年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

偏晶体系合金熔体-液相分离凝固的结构演变历程及机制

国家自然科学基金

0+阅读 · 2014年12月31日

杂质(Na,Al,K,Ca)和相变对石英电导率影响的实验研究及其地学应用启示

国家自然科学基金

0+阅读 · 2014年12月31日

LapidaryEngine: Fully Conversational Crystal Generation

Arxiv

0+阅读 · 6月12日

A Semantic Geometry for Uncovering Paradigm Dynamics via Scientific Publications

Arxiv

0+阅读 · 6月10日

FOXGLOVE: Understanding Goal-Oriented and Anchored Writing Feedback from Experts and LLMs on Argumentative Essays

Arxiv

0+阅读 · 6月4日

RenoBench: A Citation Parsing Benchmark

Arxiv

0+阅读 · 5月31日

AMEL: Accumulated Message Effects on LLM Judgments

Arxiv

0+阅读 · 5月21日

LitXBench: A Benchmark for Extracting Experiments from Scientific Literature

Arxiv

0+阅读 · 5月18日

Citation Cliques in Low Impact Journals

Arxiv

0+阅读 · 5月12日

In-depth Research Impact Summarization through Fine-Grained Temporal Citation Analysis

Arxiv

0+阅读 · 4月16日

Demanding peer review is associated with higher impact in published science

Arxiv

0+阅读 · 4月15日

CiteGuard: Faithful Citation Attribution for LLMs via Retrieval-Augmented Validation

Arxiv

0+阅读 · 4月13日

VIP会员

文章信息

相关主题

大语言模型

最新内容

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

6+阅读 · 6月21日

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

2+阅读 · 6月21日

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

4+阅读 · 6月21日

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

19+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

5+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

8+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

7+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

9+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

13+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

12+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

8+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

13+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

10+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

24+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

12+阅读 · 6月17日

相关VIP内容

什么是上下文工程？中科院计算所等《大语言模型的上下文工程》综述

什么是上下文工程？中科院计算所等《大语言模型的上下文工程》综述

专知会员服务

43+阅读 · 2025年7月18日

如何评估大模型？吉大微软亚研等最新《大型语言模型评估》综述，全面阐述大模型评估方法体系

如何评估大模型？吉大微软亚研等最新《大型语言模型评估》综述，全面阐述大模型评估方法体系

专知会员服务

88+阅读 · 2023年7月13日

现在大火的“In-context Learning”是什么？北大等最新《语境学习ICL》综述论文，详述ICL进展、挑战和方向

现在大火的“In-context Learning”是什么？北大等最新《语境学习ICL》综述论文，详述ICL进展、挑战和方向

专知会员服务

41+阅读 · 2023年1月3日

《异构观测数据中的联合因果推理》美国艾莫利大学、微软、约翰霍普金斯大学、哈佛大学、斯坦福大学等联合发表最新论文63页PDF

《异构观测数据中的联合因果推理》美国艾莫利大学、微软、约翰霍普金斯大学、哈佛大学、斯坦福大学等联合发表最新论文63页PDF

专知会员服务

29+阅读 · 2022年4月28日

中科院计算所发布首篇「面向第一阶段检索的语义检索模型」综述论文，43页pdf242篇文献

中科院计算所发布首篇「面向第一阶段检索的语义检索模型」综述论文，43页pdf242篇文献

专知会员服务

25+阅读 · 2021年10月3日

如何撰写好一篇论文？密歇根Andrew教授这篇《撰写高影响力论文指南》为你细致讲解论文写作，附视频与pdf

如何撰写好一篇论文？密歇根Andrew教授这篇《撰写高影响力论文指南》为你细致讲解论文写作，附视频与pdf

专知会员服务

79+阅读 · 2021年9月6日

可视化特征属性基线的影响，Visualizing the Impact of Feature Attribution Baselines

可视化特征属性基线的影响，Visualizing the Impact of Feature Attribution Baselines

专知会员服务

10+阅读 · 2020年1月16日

【AAAI 2019 Tutorial】超越单词的神经向量表示:句子和文档嵌入（Neural Vector Representations beyond Words: Sentence and Document Embeddings），Gerard de Melo

【AAAI 2019 Tutorial】超越单词的神经向量表示:句子和文档嵌入（Neural Vector Representations beyond Words: Sentence and Document Embeddings），Gerard de Melo

专知会员服务

19+阅读 · 2019年11月18日

【AAAI2020论文】关注实体以更好地理解文本（Attending to Entities for Better Text Understanding）

【AAAI2020论文】关注实体以更好地理解文本（Attending to Entities for Better Text Understanding）

专知会员服务

25+阅读 · 2019年11月15日

【RecSys 2019报告】推荐系统的意图，算法以及指标（Recommending for Impact:Intentions, Algorithms, and Metrics）

【RecSys 2019报告】推荐系统的意图，算法以及指标（Recommending for Impact:Intentions, Algorithms, and Metrics）

专知会员服务

37+阅读 · 2019年10月9日

热门VIP内容

开通专知VIP会员享更多权益服务

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

美国从乌克兰无人机战争中学习经验

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

相关资讯

对抗攻击之利用水印生成对抗样本

对抗攻击之利用水印生成对抗样本

计算机视觉life

10+阅读 · 2020年9月27日

最新SCI期刊影响因子出炉！

最新SCI期刊影响因子出炉！

CVer

27+阅读 · 2020年7月1日

AAAI 2020论文解读：关注实体以更好地理解文本

AAAI 2020论文解读：关注实体以更好地理解文本

AI科技评论

17+阅读 · 2019年11月20日

disentangled-representation-papers

disentangled-representation-papers

CreateAMind

26+阅读 · 2018年9月12日

【论文推荐】最新五篇视觉问答相关论文—深度学习评价、交互注意融合、VizWiz、引导注意力、

【论文推荐】最新五篇视觉问答相关论文—深度学习评价、交互注意融合、VizWiz、引导注意力、

专知

10+阅读 · 2018年6月8日

计算文本相似度常用的四种方法

计算文本相似度常用的四种方法

论智

33+阅读 · 2018年5月18日

【论文推荐】最新七篇推荐系统相关论文—影响兴趣、知识Embeddings、音乐推荐、非结构化、一致性、显式和隐式特征、知识图谱

【论文推荐】最新七篇推荐系统相关论文—影响兴趣、知识Embeddings、音乐推荐、非结构化、一致性、显式和隐式特征、知识图谱

专知

14+阅读 · 2018年3月28日

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

专知

30+阅读 · 2018年3月22日

语料库构建——自然语言理解的基础

语料库构建——自然语言理解的基础

计算机研究与发展

11+阅读 · 2017年8月21日

Generative Adversarial Text to Image Synthesis论文解读

Generative Adversarial Text to Image Synthesis论文解读

统计学习与视觉计算组

13+阅读 · 2017年6月9日

相关论文

LapidaryEngine: Fully Conversational Crystal Generation

Arxiv

0+阅读 · 6月12日

A Semantic Geometry for Uncovering Paradigm Dynamics via Scientific Publications

Arxiv

0+阅读 · 6月10日

FOXGLOVE: Understanding Goal-Oriented and Anchored Writing Feedback from Experts and LLMs on Argumentative Essays

Arxiv

0+阅读 · 6月4日

RenoBench: A Citation Parsing Benchmark

Arxiv

0+阅读 · 5月31日

AMEL: Accumulated Message Effects on LLM Judgments

Arxiv

0+阅读 · 5月21日

LitXBench: A Benchmark for Extracting Experiments from Scientific Literature

Arxiv

0+阅读 · 5月18日

Citation Cliques in Low Impact Journals

Arxiv

0+阅读 · 5月12日

In-depth Research Impact Summarization through Fine-Grained Temporal Citation Analysis

Arxiv

0+阅读 · 4月16日

Demanding peer review is associated with higher impact in published science

Arxiv

0+阅读 · 4月15日

CiteGuard: Faithful Citation Attribution for LLMs via Retrieval-Augmented Validation

Arxiv

0+阅读 · 4月13日

相关基金

液晶动力学系统部分正则性和适定性的研究

国家自然科学基金

0+阅读 · 2015年12月31日

汉英篇章衔接对齐资源构建与分析研究

国家自然科学基金

2+阅读 · 2015年12月31日

结合同步辐射实验和第一性原理的理论对半晶化过程中的晶体结构,电子结构和热力学性质进行研究

国家自然科学基金

0+阅读 · 2015年12月31日

球状相液晶材料制备及其电光性能研究

国家自然科学基金

0+阅读 · 2015年12月31日

非晶形成能力与晶体生长行为的关系

国家自然科学基金

0+阅读 · 2014年12月31日

二氧化碳水合物结晶行为统计力学研究

国家自然科学基金

0+阅读 · 2014年12月31日

面心立方晶体强度与塑性变形机制的尺寸效应

国家自然科学基金

0+阅读 · 2014年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

偏晶体系合金熔体-液相分离凝固的结构演变历程及机制

国家自然科学基金

0+阅读 · 2014年12月31日

杂质(Na,Al,K,Ca)和相变对石英电导率影响的实验研究及其地学应用启示

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员