在 D3M 计划下,本研究以在 DARPA Memex 计划下开发的技术为基础,开发了一系列领域发现 (DD)、数据收集和提取工具。

在 D3M 计划启动之初,最先进的领域发现系统仍然面临着许多挑战,其中许多挑战是在 Memex 计划工作期间遇到的。例如,在 Memex 项目下开发的系统中,没有一个能在项目评估中针对地面实况数据集持续达到可接受的召回率。虽然精确度得分略有提高,但仍有很大的改进空间,这就需要解决从底层网络爬行技术中继承下来的一系列难题,如动态内容的可靠处理、验证码谜题等反僵尸机制,以及软 404 错误、停放域名和页面加载延迟等其他令人烦恼的问题。

我们在 D3M 项目下提出的工作目标是结合并扩展一系列现有功能,以提供一个易于重新训练、与模型无关的数据发现、收集和提取系统,该系统可以集中提供并在多个项目中使用。

我们的计划是将我们的技术集成到由 D3M 计划中至少另外两个团队正在开发的 DataMart 系统中。DataMart 为特定领域的数据集编制索引,这些数据集由领域发现爬网程序整理,并通过复杂的 ETL 管道摄取到索引中,这些管道可提取元数据,并识别领域内和跨领域的不同数据集之间的潜在连接和联合。根据我们在 Memex 计划中积累的经验和现有的工具套件,我们提议建立后台发现爬虫,DataMart 系统可利用这些爬虫填充其索引。然而,由于长达一年的合同延迟,我们在项目启动一年后才加入,因此 DataMart 团队早已进入研究阶段,而我们却在努力寻找整合与合作的机会。整合需要 DataMart 团队进行额外的、有时是追溯性的工作,虽然每个人都有最好的合作意愿,但最终证明这在技术上是不可行的。我们确实完成了数据集发现系统与纽约大学和 ISI Datamart 系统的概念验证集成,但我们没有继续进行端到端测试。

尽管如此,仍继续专注于构建离散领域发现工具和实用程序,供 DataMart 系统、其他执行者或潜在的过渡合作伙伴使用。我们继续与 DARPA 合作,以确定我们可以帮助解决的计划能力组合中的差距,并继续寻找机会,以应对领域发现和数据集 ETL 领域中的新用例和挑战问题。

成为VIP会员查看完整内容
37

相关内容

军事防务数据板块介绍:系统化采集、存储、管理、分析与军事国防安全相关信息的专用数据板块,其核心在于整合全球新兴国防技术(军事人工智能、无人系统等)、热点案例(俄乌战争、美以伊战争)等方面的最新时讯、研究报告/论文、条令法规、案例分析,为战略研判、情报分析、决策支持等提供知识支撑。
《基于专家衍生决策策略的增强自主智能体》
专知会员服务
49+阅读 · 2024年6月5日
大型语言模型自动程序修复的系统文献综述
专知会员服务
43+阅读 · 2024年5月5日
《大型语言模型持续学习》综述
专知会员服务
93+阅读 · 2024年4月26日
大型语言模型图表示学习:技术的全面综述
专知会员服务
53+阅读 · 2024年2月14日
《量子机器学习》最新综述
专知会员服务
40+阅读 · 2023年8月24日
【CVPR2021】深度学习细粒度视觉分析
专知会员服务
36+阅读 · 2021年6月23日
时空数据挖掘:综述
专知
36+阅读 · 2022年6月30日
万字长文概述NLP中的深度学习技术
全球人工智能
12+阅读 · 2019年2月28日
大数据分析研究组开源Easy Machine Learning系统
中国科学院网络数据重点实验室
17+阅读 · 2017年6月13日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
52+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
47+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2024年6月17日
Arxiv
176+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
501+阅读 · 2023年3月31日
Arxiv
27+阅读 · 2023年3月17日
VIP会员
最新内容
战略前沿人工智能的再思考(中文)
专知会员服务
4+阅读 · 5月29日
《量化地基防空系统间接效应的博弈论方法》
专知会员服务
4+阅读 · 5月29日
“史诗怒火行动”中美军损失的作战飞机
专知会员服务
4+阅读 · 5月29日
ICML 2026 | 理解上下文持续学习中的泛化与遗忘
专知会员服务
5+阅读 · 5月28日
Agent Harness综述:大模型智能体执行器工程全景
专知会员服务
14+阅读 · 5月28日
《基于理论的威慑效能评估》
专知会员服务
8+阅读 · 5月28日
相关VIP内容
《基于专家衍生决策策略的增强自主智能体》
专知会员服务
49+阅读 · 2024年6月5日
大型语言模型自动程序修复的系统文献综述
专知会员服务
43+阅读 · 2024年5月5日
《大型语言模型持续学习》综述
专知会员服务
93+阅读 · 2024年4月26日
大型语言模型图表示学习:技术的全面综述
专知会员服务
53+阅读 · 2024年2月14日
《量子机器学习》最新综述
专知会员服务
40+阅读 · 2023年8月24日
【CVPR2021】深度学习细粒度视觉分析
专知会员服务
36+阅读 · 2021年6月23日
相关基金
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
52+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
47+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
微信扫码咨询专知VIP会员