Novelty assessment is a critical yet complex task in the examination process for patent acceptance, requiring examiners to determine whether an invention is disclosed in a prior art document. The process involves intricate matching between specific features of a patent claim and passages in the prior art. While prior work has approached novelty prediction primarily as a binary classification task at the claim level, we argue that this formulation is susceptible to spurious correlations and lacks the granularity required for practical application. In this work, we introduce FiNE-Patents (Fine-grained Novelty Examination of Patents), a novel dataset comprising 3,658 first patent claims annotated with fine-grained, feature-level prior art references extracted from European Search Opinion (ESOP) documents. We propose shifting the evaluation paradigm from simple binary classification to a joint retrieval and abstract reasoning task at the feature level, requiring models to identify specific passages from a prior art document that disclose individual claim features, and to identify which features of a claim make it novel. We implement and evaluate LLM-based workflows that decompose claims into features, analyze each feature against prior art, and finally derive a claim-level novelty prediction. Our experiments demonstrate that these workflows outperform embedding-based baselines on passage retrieval and novel feature identification. Furthermore, we show that unlike trained classifiers, LLMs are robust against spurious correlations present in the claim-level novelty classification task. We release the dataset and code to foster further research into transparent and granular patent analysis.


翻译:新颖性评估是专利审查过程中一项关键但复杂的任务,要求审查员判断一项发明是否被现有技术文献公开。该过程涉及专利权利要求具体特征与现有技术段落之间的精细匹配。尽管先前的研究主要将新颖性预测视为权利要求层面的二元分类任务,但我们认为这种形式容易受到虚假相关性的影响,且缺乏实际应用所需的粒度。在本文中,我们引入FiNE-Patents(专利的细粒度新颖性审查),这是一个包含3658项第一权要求的新颖数据集,这些权利要求标注了从欧洲检索意见(ESOP)文档中提取的细粒度、特征级现有技术引用。我们提出将评估范式从简单的二元分类转变为特征层面的联合检索与抽象推理任务,要求模型从现有技术文档中识别出揭示单个权利要求特征的具体段落,并判断权利要求的哪些特征使其具有新颖性。我们实现并评估了基于LLM的工作流程,该流程将权利要求分解为特征,针对每个特征与现有技术进行分析,并最终推导出权利要求层面的新颖性预测。实验表明,这些工作流程在段落检索和新颖特征识别方面优于基于嵌入的基线方法。此外,我们证明与训练的分类器不同,LLM对权利要求层面新颖性分类任务中的虚假相关性具有鲁棒性。我们公开了数据集和代码,以促进对透明、细粒度专利分析的进一步研究。

0
下载
关闭预览

相关内容

大型语言模型赋能科研创意生成:创造力导向的研究综述
专知会员服务
19+阅读 · 2025年11月13日
【博士论文】学习表征以检测新颖性和异常性,72页pdf
专知会员服务
19+阅读 · 2023年9月30日
《作为颠覆性创新的误导信息》2023最新88页论文
专知会员服务
54+阅读 · 2023年8月30日
面试题:文本摘要中的NLP技术
七月在线实验室
15+阅读 · 2019年5月13日
论文浅尝 | Interaction Embeddings for Prediction and Explanation
开放知识图谱
11+阅读 · 2019年2月1日
阅读深度学习论文的新姿势
专知
15+阅读 · 2018年7月14日
干货|当深度学习遇见自动文本摘要,seq2seq+attention
机器学习算法与Python学习
10+阅读 · 2018年5月28日
文本识别 OCR 浅析:特征篇
开源中国
16+阅读 · 2018年1月6日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 4月20日
VIP会员
相关主题
最新内容
在人工智能加速决策环境中拓展OODA循环
专知会员服务
0+阅读 · 23分钟前
军事欺骗:供作战战术指挥官使用的工具
专知会员服务
0+阅读 · 38分钟前
综述 | 世界动作模型:少做梦,多行动
专知会员服务
4+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
7+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
4+阅读 · 6月23日
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
相关VIP内容
大型语言模型赋能科研创意生成:创造力导向的研究综述
专知会员服务
19+阅读 · 2025年11月13日
【博士论文】学习表征以检测新颖性和异常性,72页pdf
专知会员服务
19+阅读 · 2023年9月30日
《作为颠覆性创新的误导信息》2023最新88页论文
专知会员服务
54+阅读 · 2023年8月30日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员