AI Prior Art Search: Semantic Clusters and Evaluation Infrastructure - 专知论文

会员服务 ·

0

专利 · ML · 数据集 · 工具 · 俄罗斯 ·

AI Prior Art Search: Semantic Clusters and Evaluation Infrastructure

翻译：人工智能在先有技术检索中的应用：语义聚类与评估基础设施

Boris Genin,Alexander Gorbunov,Dmitry Zolkin,Igor Nekrasov

from arxiv, 16 pages, 3 figures, 2 tables

The key to success in automating prior art search in patent research using artificial intelligence (AI) lies in developing large datasets for machine learning (ML) and ensuring their availability. This work is dedicated to providing a comprehensive solution to the problem of creating infrastructure for research in this field, including datasets and tools for calculating search quality criteria. The paper discusses the concept of semantic clusters of patent documents that determine the state of the art in a given subject, as proposed by the authors. A definition of such semantic clusters is also provided. Prior art search is presented as the task of identifying elements within a semantic cluster of patent documents in the subject area specified by the document under consideration. A generator of user-configurable datasets for ML, based on collections of U.S. and Russian patent documents, is described. The dataset generator creates a database of links to documents in semantic clusters. Then, based on user-defined parameters, it forms a dataset of semantic clusters in JSON format for ML. A collection of publicly available patent documents was created. The collection contains 14 million semantic clusters of US patent documents and 1 million clusters of Russian patent documents. To evaluate ML outcomes, it is proposed to calculate search quality scores that account for semantic clusters of the documents being searched. To automate the evaluation process, the paper describes a utility developed by the authors for assessing the quality of prior art document search.

翻译：利用人工智能（AI）自动化专利研究中的先有技术检索，其成功关键在于开发适用于机器学习（ML）的大规模数据集并确保其可用性。本研究致力于为构建该领域研究基础设施提供一个全面的解决方案，包括数据集以及用于计算检索质量标准的工具。本文讨论了作者提出的、用于确定特定主题领域技术现状的专利文档语义聚类的概念，并给出了此类语义聚类的定义。先有技术检索被表述为一项任务：在由待审文档指定的主题领域内，识别专利文档语义聚类中的元素。文中描述了一个基于美国和俄罗斯专利文档集合的、用户可配置的ML数据集生成器。该数据集生成器创建一个指向语义聚类中文档链接的数据库。然后，根据用户定义的参数，它以JSON格式生成用于ML的语义聚类数据集。我们创建了一个公开可用的专利文档集合，其中包含1400万个美国专利文档的语义聚类和100万个俄罗斯专利文档的聚类。为评估ML结果，本文提出计算检索质量分数，该分数需考虑被检索文档的语义聚类。为自动化评估过程，文中描述了作者开发的一个用于评估先有技术文档检索质量的实用工具。

0

相关内容

专利（Patent）是专知网收录整理的一个重要资料文档板块，旨在通过人机协作的方式整理、挖掘国内外发明专利信息，提供便于科技工作者查阅的高质量知识信息。

AI4Research：科学研究中的人工智能综述

AI4Research：科学研究中的人工智能综述

专知会员服务

38+阅读 · 2025年7月4日

《人工智能在军事情报分析中的应用：实验研究》

《人工智能在军事情报分析中的应用：实验研究》

专知会员服务

42+阅读 · 2025年5月26日

医学应用中的可解释人工智能：综述

医学应用中的可解释人工智能：综述

专知会员服务

37+阅读 · 2024年12月8日

《下一代情报集成：利用人工智能促进人机协作，加强情报收集与分析》40页报告

《下一代情报集成：利用人工智能促进人机协作，加强情报收集与分析》40页报告

专知会员服务

124+阅读 · 2024年7月23日

《人工智能加速核应用、科学和技术》国际原子能机构（IAEA），2022最新100页报告

《人工智能加速核应用、科学和技术》国际原子能机构（IAEA），2022最新100页报告

专知会员服务

18+阅读 · 2022年10月28日

《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知会员服务

190+阅读 · 2022年4月15日

【人工智能+人力资源】人力资源专业人士的工具箱，Human-Centred Artificial Intelligence for Human Resources: A Toolkit for Human Resources Professionals

【人工智能+人力资源】人力资源专业人士的工具箱，Human-Centred Artificial Intelligence for Human Resources: A Toolkit for Human Resources Professionals

专知会员服务

30+阅读 · 2022年2月17日

美智库最新报告：小数据人工智能潜力不可估量，39页pdf

美智库最新报告：小数据人工智能潜力不可估量，39页pdf

专知会员服务

77+阅读 · 2021年11月18日

【清华大学】《人工智能之学术搜索》报告重磅发布：呈现知识和算法双引擎驱动的未来发展趋势 | 附报告PDF下载

【清华大学】《人工智能之学术搜索》报告重磅发布：呈现知识和算法双引擎驱动的未来发展趋势 | 附报告PDF下载

专知会员服务

72+阅读 · 2020年5月22日

国家工信安全中心发布《人工智能中国专利技术分析报告》，74页pdf，百度AI专利榜首

国家工信安全中心发布《人工智能中国专利技术分析报告》，74页pdf，百度AI专利榜首

专知会员服务

126+阅读 · 2019年12月10日

推荐！《人工智能在武器系统中的应用》美智库(DSIAC)2022最新92页报告

推荐！《人工智能在武器系统中的应用》美智库(DSIAC)2022最新92页报告

专知

103+阅读 · 2022年10月17日

推荐！《美国海军部用于人工智能 / 机器学习的数据管理》美国海军研究生院136页报告

推荐！《美国海军部用于人工智能 / 机器学习的数据管理》美国海军研究生院136页报告

专知

63+阅读 · 2022年9月8日

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知

94+阅读 · 2022年4月17日

【类脑智能】类脑智能技术初探

【类脑智能】类脑智能技术初探

产业智能官

15+阅读 · 2020年2月16日

纵览知识图谱在AI领域的有效应用，2019知识图谱前沿技术论坛即将开幕

纵览知识图谱在AI领域的有效应用，2019知识图谱前沿技术论坛即将开幕

机器之心

15+阅读 · 2019年10月11日

AMiner发布《人工智能之信息检索与推荐》报告，附72页PDF下载

AMiner发布《人工智能之信息检索与推荐》报告，附72页PDF下载

专知

23+阅读 · 2019年9月6日

【工业智能】人工智能在智能制造中的应用

【工业智能】人工智能在智能制造中的应用

产业智能官

22+阅读 · 2019年1月11日

AI综述专栏 | 基于深度学习的目标检测算法综述

AI综述专栏 | 基于深度学习的目标检测算法综述

人工智能前沿讲习班

12+阅读 · 2018年12月7日

阿里搜索技术，在AI路上走了多远？

阿里搜索技术，在AI路上走了多远？

机器学习研究会

11+阅读 · 2017年12月29日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于结构特征的人脸识别研究

国家自然科学基金

0+阅读 · 2015年12月31日

大数据环境下基于社交网络的图像搜索技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

人脑MRI数据特征提取方法的研究与应用

国家自然科学基金

0+阅读 · 2015年12月31日

适应于大数据特性的智能存储技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

随机映射框架下的图像语义分析与提取技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向物联网搜索的群智感知关键技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

笔迹图像中关键词语过滤技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

The Use of AI-Robotic Systems for Scientific Discovery

Arxiv

0+阅读 · 2月5日

Intelligent Reasoning Cues: A Framework and Case Study of the Roles of AI Information in Complex Decisions

Arxiv

0+阅读 · 1月30日

Frontier AI Auditing: Toward Rigorous Third-Party Assessment of Safety and Security Practices at Leading AI Companies

Arxiv

0+阅读 · 1月27日

Trademark Search, Artificial Intelligence and the Role of the Private Sector

Arxiv

0+阅读 · 1月22日

Frontier AI Auditing: Toward Rigorous Third-Party Assessment of Safety and Security Practices at Leading AI Companies

Arxiv

0+阅读 · 1月22日

Agentic Artificial Intelligence (AI): Architectures, Taxonomies, and Evaluation of Large Language Model Agents

Arxiv

0+阅读 · 1月18日

Frontier AI Auditing: Toward Rigorous Third-Party Assessment of Safety and Security Practices at Leading AI Companies

Arxiv

0+阅读 · 1月16日

Autonomous Materials Exploration by Integrating Automated Phase Identification and AI-Assisted Human Reasoning

Arxiv

0+阅读 · 1月13日

Research Integrity and Academic Authority in the Age of Artificial Intelligence: From Discovery to Curation?

Arxiv

0+阅读 · 1月9日

Data-centric Artificial Intelligence: A Survey

Arxiv

27+阅读 · 2023年3月17日

VIP会员

文章信息

相关主题

最新内容

五角大楼新设无人机办公室（DRPM-UxS）将如何重塑美国无人系统格局（附美国防部设立备忘录）

五角大楼新设无人机办公室（DRPM-UxS）将如何重塑美国无人系统格局（附美国防部设立备忘录）

专知会员服务

0+阅读 · 40分钟前

印度精确打击与指挥架构的断层

印度精确打击与指挥架构的断层

专知会员服务

4+阅读 · 7月20日

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

专知会员服务

6+阅读 · 7月20日

美空军AI完成F-16战斗机自主空战历史性试飞

美空军AI完成F-16战斗机自主空战历史性试飞

专知会员服务

6+阅读 · 7月20日

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

专知会员服务

6+阅读 · 7月20日

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

专知会员服务

4+阅读 · 7月20日

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

专知会员服务

7+阅读 · 7月20日

综述 | 终身视觉表征：持续自监督学习CSSL系统综述

综述 | 终身视觉表征：持续自监督学习CSSL系统综述

专知会员服务

6+阅读 · 7月20日

深入Project Maven：为何人工智能在战场上依然失灵

深入Project Maven：为何人工智能在战场上依然失灵

专知会员服务

14+阅读 · 7月19日

锻造未来士兵：外骨骼、基因工程与赛博格

锻造未来士兵：外骨骼、基因工程与赛博格

专知会员服务

7+阅读 · 7月19日

《无人机系统（UAS）通信网状网络试验性部署》50页报告

《无人机系统（UAS）通信网状网络试验性部署》50页报告

专知会员服务

9+阅读 · 7月19日

《无人机蜂群通信技术研究》50页

《无人机蜂群通信技术研究》50页

专知会员服务

10+阅读 · 7月19日

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

专知会员服务

15+阅读 · 7月18日

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

专知会员服务

8+阅读 · 7月18日

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

专知会员服务

16+阅读 · 7月18日

相关VIP内容

AI4Research：科学研究中的人工智能综述

AI4Research：科学研究中的人工智能综述

专知会员服务

38+阅读 · 2025年7月4日

《人工智能在军事情报分析中的应用：实验研究》

《人工智能在军事情报分析中的应用：实验研究》

专知会员服务

42+阅读 · 2025年5月26日

医学应用中的可解释人工智能：综述

医学应用中的可解释人工智能：综述

专知会员服务

37+阅读 · 2024年12月8日

《下一代情报集成：利用人工智能促进人机协作，加强情报收集与分析》40页报告

《下一代情报集成：利用人工智能促进人机协作，加强情报收集与分析》40页报告

专知会员服务

124+阅读 · 2024年7月23日

《人工智能加速核应用、科学和技术》国际原子能机构（IAEA），2022最新100页报告

《人工智能加速核应用、科学和技术》国际原子能机构（IAEA），2022最新100页报告

专知会员服务

18+阅读 · 2022年10月28日

《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知会员服务

190+阅读 · 2022年4月15日

【人工智能+人力资源】人力资源专业人士的工具箱，Human-Centred Artificial Intelligence for Human Resources: A Toolkit for Human Resources Professionals

【人工智能+人力资源】人力资源专业人士的工具箱，Human-Centred Artificial Intelligence for Human Resources: A Toolkit for Human Resources Professionals

专知会员服务

30+阅读 · 2022年2月17日

美智库最新报告：小数据人工智能潜力不可估量，39页pdf

美智库最新报告：小数据人工智能潜力不可估量，39页pdf

专知会员服务

77+阅读 · 2021年11月18日

【清华大学】《人工智能之学术搜索》报告重磅发布：呈现知识和算法双引擎驱动的未来发展趋势 | 附报告PDF下载

【清华大学】《人工智能之学术搜索》报告重磅发布：呈现知识和算法双引擎驱动的未来发展趋势 | 附报告PDF下载

专知会员服务

72+阅读 · 2020年5月22日

国家工信安全中心发布《人工智能中国专利技术分析报告》，74页pdf，百度AI专利榜首

国家工信安全中心发布《人工智能中国专利技术分析报告》，74页pdf，百度AI专利榜首

专知会员服务

126+阅读 · 2019年12月10日

热门VIP内容

开通专知VIP会员享更多权益服务

印度精确打击与指挥架构的断层

美空军AI完成F-16战斗机自主空战历史性试飞

五角大楼新设无人机办公室（DRPM-UxS）将如何重塑美国无人系统格局（附美国防部设立备忘录）

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

相关资讯

推荐！《人工智能在武器系统中的应用》美智库(DSIAC)2022最新92页报告

推荐！《人工智能在武器系统中的应用》美智库(DSIAC)2022最新92页报告

专知

103+阅读 · 2022年10月17日

推荐！《美国海军部用于人工智能 / 机器学习的数据管理》美国海军研究生院136页报告

推荐！《美国海军部用于人工智能 / 机器学习的数据管理》美国海军研究生院136页报告

专知

63+阅读 · 2022年9月8日

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知

94+阅读 · 2022年4月17日

【类脑智能】类脑智能技术初探

【类脑智能】类脑智能技术初探

产业智能官

15+阅读 · 2020年2月16日

纵览知识图谱在AI领域的有效应用，2019知识图谱前沿技术论坛即将开幕

纵览知识图谱在AI领域的有效应用，2019知识图谱前沿技术论坛即将开幕

机器之心

15+阅读 · 2019年10月11日

AMiner发布《人工智能之信息检索与推荐》报告，附72页PDF下载

AMiner发布《人工智能之信息检索与推荐》报告，附72页PDF下载

专知

23+阅读 · 2019年9月6日

【工业智能】人工智能在智能制造中的应用

【工业智能】人工智能在智能制造中的应用

产业智能官

22+阅读 · 2019年1月11日

AI综述专栏 | 基于深度学习的目标检测算法综述

AI综述专栏 | 基于深度学习的目标检测算法综述

人工智能前沿讲习班

12+阅读 · 2018年12月7日

阿里搜索技术，在AI路上走了多远？

阿里搜索技术，在AI路上走了多远？

机器学习研究会

11+阅读 · 2017年12月29日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

相关论文

The Use of AI-Robotic Systems for Scientific Discovery

Arxiv

0+阅读 · 2月5日

Intelligent Reasoning Cues: A Framework and Case Study of the Roles of AI Information in Complex Decisions

Arxiv

0+阅读 · 1月30日

Frontier AI Auditing: Toward Rigorous Third-Party Assessment of Safety and Security Practices at Leading AI Companies

Arxiv

0+阅读 · 1月27日

Trademark Search, Artificial Intelligence and the Role of the Private Sector

Arxiv

0+阅读 · 1月22日

Frontier AI Auditing: Toward Rigorous Third-Party Assessment of Safety and Security Practices at Leading AI Companies

Arxiv

0+阅读 · 1月22日

Agentic Artificial Intelligence (AI): Architectures, Taxonomies, and Evaluation of Large Language Model Agents

Arxiv

0+阅读 · 1月18日

Frontier AI Auditing: Toward Rigorous Third-Party Assessment of Safety and Security Practices at Leading AI Companies

Arxiv

0+阅读 · 1月16日

Autonomous Materials Exploration by Integrating Automated Phase Identification and AI-Assisted Human Reasoning

Arxiv

0+阅读 · 1月13日

Research Integrity and Academic Authority in the Age of Artificial Intelligence: From Discovery to Curation?

Arxiv

0+阅读 · 1月9日

Data-centric Artificial Intelligence: A Survey

Arxiv

27+阅读 · 2023年3月17日

相关基金

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于结构特征的人脸识别研究

国家自然科学基金

0+阅读 · 2015年12月31日

大数据环境下基于社交网络的图像搜索技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

人脑MRI数据特征提取方法的研究与应用

国家自然科学基金

0+阅读 · 2015年12月31日

适应于大数据特性的智能存储技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

随机映射框架下的图像语义分析与提取技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向物联网搜索的群智感知关键技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

笔迹图像中关键词语过滤技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员