The key to success in automating prior art search in patent research using artificial intelligence (AI) lies in developing large datasets for machine learning (ML) and ensuring their availability. This work is dedicated to providing a comprehensive solution to the problem of creating infrastructure for research in this field, including datasets and tools for calculating search quality criteria. The paper discusses the concept of semantic clusters of patent documents that determine the state of the art in a given subject, as proposed by the authors. A definition of such semantic clusters is also provided. Prior art search is presented as the task of identifying elements within a semantic cluster of patent documents in the subject area specified by the document under consideration. A generator of user-configurable datasets for ML, based on collections of U.S. and Russian patent documents, is described. The dataset generator creates a database of links to documents in semantic clusters. Then, based on user-defined parameters, it forms a dataset of semantic clusters in JSON format for ML. A collection of publicly available patent documents was created. The collection contains 14 million semantic clusters of US patent documents and 1 million clusters of Russian patent documents. To evaluate ML outcomes, it is proposed to calculate search quality scores that account for semantic clusters of the documents being searched. To automate the evaluation process, the paper describes a utility developed by the authors for assessing the quality of prior art document search.


翻译:利用人工智能(AI)自动化专利研究中的先有技术检索,其成功关键在于开发适用于机器学习(ML)的大规模数据集并确保其可用性。本研究致力于为构建该领域研究基础设施提供一个全面的解决方案,包括数据集以及用于计算检索质量标准的工具。本文讨论了作者提出的、用于确定特定主题领域技术现状的专利文档语义聚类的概念,并给出了此类语义聚类的定义。先有技术检索被表述为一项任务:在由待审文档指定的主题领域内,识别专利文档语义聚类中的元素。文中描述了一个基于美国和俄罗斯专利文档集合的、用户可配置的ML数据集生成器。该数据集生成器创建一个指向语义聚类中文档链接的数据库。然后,根据用户定义的参数,它以JSON格式生成用于ML的语义聚类数据集。我们创建了一个公开可用的专利文档集合,其中包含1400万个美国专利文档的语义聚类和100万个俄罗斯专利文档的聚类。为评估ML结果,本文提出计算检索质量分数,该分数需考虑被检索文档的语义聚类。为自动化评估过程,文中描述了作者开发的一个用于评估先有技术文档检索质量的实用工具。

0
下载
关闭预览

相关内容

专利(Patent)是专知网收录整理的一个重要资料文档板块,旨在通过人机协作的方式整理、挖掘国内外发明专利信息,提供便于科技工作者查阅的高质量知识信息。
AI4Research:科学研究中的人工智能综述
专知会员服务
33+阅读 · 2025年7月4日
《人工智能在军事情报分析中的应用:实验研究》
专知会员服务
41+阅读 · 2025年5月26日
医学应用中的可解释人工智能:综述
专知会员服务
36+阅读 · 2024年12月8日
美智库最新报告:小数据人工智能潜力不可估量,39页pdf
专知会员服务
75+阅读 · 2021年11月18日
【类脑智能】类脑智能技术初探
产业智能官
15+阅读 · 2020年2月16日
【工业智能】人工智能在智能制造中的应用
产业智能官
22+阅读 · 2019年1月11日
AI综述专栏 | 基于深度学习的目标检测算法综述
人工智能前沿讲习班
12+阅读 · 2018年12月7日
阿里搜索技术,在AI路上走了多远?
机器学习研究会
11+阅读 · 2017年12月29日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
Arxiv
27+阅读 · 2023年3月17日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员