LLM-agents are increasingly used to accelerate the progress of scientific research. Yet a persistent bottleneck is data access: agents not only lack readily available tools for retrieval, but also have to work with unstrcutured, human-centric data on the Internet, such as HTML web-pages and PDF files, leading to excessive token consumption, limit working efficiency, and brittle evidence look-up. This gap motivates the development of \textit{an agentic data interface}, which is designed to enable agents to access and utilize scientific literature in a more effective, efficient, and cost-aware manner. In this paper, we introduce DeepXiv-SDK, which offers a three-layer agentic data interface for scientific literature. 1) Data Layer, which transforms unstructured, human-centric data into normalized and structured representations in JSON format, improving data usability and enabling progressive accessibility of the data. 2) Service Layer, which presents readily available tools for data access and ad-hoc retrieval. It also enables a rich form of agent usage, including CLI, MCP, and Python SDK. 3) Application Layer, which creates a built-in agent, packaging basic tools from the service layer to support complex data access demands. DeepXiv-SDK currently supports the complete ArXiv corpus, and is synchronized daily to incorporate new releases. It is designed to extend to all common open-access corpora, such as PubMed Central, bioRxiv, medRxiv, and chemRxiv. We release RESTful APIs, an open-source Python SDK, and a web demo showcasing deep search and deep research workflows. DeepXiv-SDK is free to use with registration.


翻译:LLM智能体正日益被用于加速科学研究进程。然而,一个持续的瓶颈在于数据访问:智能体不仅缺乏现成的检索工具,还必须处理互联网上非结构化、以人为中心的数据(如HTML网页和PDF文件),这导致过高的令牌消耗、受限的工作效率以及脆弱的证据查找能力。这一差距促使了*智能体数据接口*的开发,其设计目标是使智能体能够以更有效、高效且成本可控的方式访问和利用科学文献。本文介绍了DeepXiv-SDK,它为科学文献提供了一个三层智能体数据接口。1) 数据层:将非结构化、以人为中心的数据转换为JSON格式的规范化结构化表示,提升数据可用性并实现数据的渐进式访问。2) 服务层:提供现成的数据访问和即席检索工具。它还支持丰富的智能体使用形式,包括CLI、MCP和Python SDK。3) 应用层:创建一个内置智能体,封装服务层的基础工具以支持复杂的数据访问需求。DeepXiv-SDK目前支持完整的ArXiv语料库,并每日同步以纳入新发布内容。其设计可扩展至所有常见的开放获取语料库,如PubMed Central、bioRxiv、medRxiv和chemRxiv。我们发布了RESTful API、开源Python SDK以及展示深度搜索和深度研究工作流程的网页演示。DeepXiv-SDK注册后即可免费使用。

0
下载
关闭预览

相关内容

SDK(Software Development Kit, 即软件开发工具包 )一般是一些被软件工程师用于为特定的软件包、软件框架、硬件平台、操作系统等建立应用软件的开发工具的集合。
【新书】AI智能体与应用:基于 LangChain、LangGraph 与 MCP
专知会员服务
64+阅读 · 2025年9月12日
走向通用虚拟智能体
专知会员服务
76+阅读 · 2023年11月26日
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
深度学习时代的图模型,清华发文综述图网络
GAN生成式对抗网络
13+阅读 · 2018年12月23日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
7+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月24日
VIP会员
最新内容
《新兴技术武器化及其对全球风险的影响》
专知会员服务
8+阅读 · 4月29日
《帕兰泰尔平台介绍:信息分析平台》
专知会员服务
20+阅读 · 4月29日
智能体化世界建模:基础、能力、规律及展望
专知会员服务
11+阅读 · 4月28日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
7+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员