ScaleDoc：基于大语言模型的谓词在大规模文档集合上的扩展 (ScaleDoc: Scaling LLM-based Predicates over Large Document Collections) - 专知论文

会员服务 ·

0

语言模型 · 表示 · 分析 · 系统 · 在线 ·

ScaleDoc: Scaling LLM-based Predicates over Large Document Collections

翻译：ScaleDoc：基于大语言模型的谓词在大规模文档集合上的扩展

Hengrui Zhang,Yulong Hui,Yihao Liu,Huanchen Zhang

Predicates are foundational components in data analysis systems. However, modern workloads increasingly involve unstructured documents, which demands semantic understanding, beyond traditional value-based predicates. Given enormous documents and ad-hoc queries, while Large Language Models (LLMs) demonstrate powerful zero-shot capabilities, their high inference cost leads to unacceptable overhead. Therefore, we introduce \textsc{ScaleDoc}, a novel system that addresses this by decoupling predicate execution into an offline representation phase and an optimized online filtering phase. In the offline phase, \textsc{ScaleDoc} leverages a LLM to generate semantic representations for each document. Online, for each query, it trains a lightweight proxy model on these representations to filter the majority of documents, forwarding only the ambiguous cases to the LLM for final decision. Furthermore, \textsc{ScaleDoc} proposes two core innovations to achieve significant efficiency: (1) a contrastive-learning-based framework that trains the proxy model to generate reliable predicating decision scores; (2) an adaptive cascade mechanism that determines the effective filtering policy while meeting specific accuracy targets. Our evaluations across three datasets demonstrate that \textsc{ScaleDoc} achieves over a 2$\times$ end-to-end speedup and reduces expensive LLM invocations by up to 85\%, making large-scale semantic analysis practical and efficient.

翻译：谓词是数据分析系统中的基础组件。然而，现代工作负载越来越多地涉及非结构化文档，这需要超越传统基于值的谓词的语义理解能力。面对海量文档和即席查询，尽管大语言模型展现出强大的零样本能力，但其高昂的推理成本导致了难以接受的开销。为此，我们提出了 \textsc{ScaleDoc}，这是一个新颖的系统，通过将谓词执行解耦为离线表示阶段和优化的在线过滤阶段来解决此问题。在离线阶段，\textsc{ScaleDoc} 利用大语言模型为每个文档生成语义表示。在线阶段，对于每个查询，它基于这些表示训练一个轻量级代理模型来过滤大部分文档，仅将模糊案例转发给大语言模型进行最终决策。此外，\textsc{ScaleDoc} 提出了两项核心创新以实现显著的效率提升：(1) 一个基于对比学习的框架，用于训练代理模型生成可靠的谓词决策分数；(2) 一种自适应级联机制，可在满足特定精度目标的同时确定有效的过滤策略。我们在三个数据集上的评估表明，\textsc{ScaleDoc} 实现了超过 2$\times$ 的端到端加速，并将昂贵的大语言模型调用减少了高达 85\%，使得大规模语义分析变得实用且高效。

0

相关内容

语言模型

什么是上下文工程？中科院计算所等《大语言模型的上下文工程》综述

什么是上下文工程？中科院计算所等《大语言模型的上下文工程》综述

专知会员服务

43+阅读 · 2025年7月18日

【ICML2024】理解大型语言模型在规划中的作用，138页pdf

【ICML2024】理解大型语言模型在规划中的作用，138页pdf

专知会员服务

49+阅读 · 2024年7月24日

158页《大型语言模型数据集》全面综述，444个数据集涵盖预训练、指令微调、偏好、评估等，附中英文版

158页《大型语言模型数据集》全面综述，444个数据集涵盖预训练、指令微调、偏好、评估等，附中英文版

专知会员服务

155+阅读 · 2024年3月1日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

图上大模型怎么做？UIUC最新《图上大型语言模型》综述，详述LLM在图上作为预测器、编码器和对齐器的技术

图上大模型怎么做？UIUC最新《图上大型语言模型》综述，详述LLM在图上作为预测器、编码器和对齐器的技术

专知会员服务

67+阅读 · 2023年12月7日

大模型如何做个性化？中科大等最新《当大型语言模型遇到个性化》综述，详述大模型与个性化的挑战与机遇

大模型如何做个性化？中科大等最新《当大型语言模型遇到个性化》综述，详述大模型与个性化的挑战与机遇

专知会员服务

84+阅读 · 2023年8月8日

LLM in Medical Domain: 大语言模型在医学领域的应用

LLM in Medical Domain: 大语言模型在医学领域的应用

专知会员服务

103+阅读 · 2023年6月17日

大模型如何适用长尾或特定领域？微软等提出《参数知识引导的增强大型语言模型》，扩展LLM的垂直化长尾适配能力

大模型如何适用长尾或特定领域？微软等提出《参数知识引导的增强大型语言模型》，扩展LLM的垂直化长尾适配能力

专知会员服务

87+阅读 · 2023年5月10日

【KDD2020】通用文档预训练模型LayoutLM：文档结构信息和视觉信息进行建模，让模型在预训练阶段进行多模态对齐。

【KDD2020】通用文档预训练模型LayoutLM：文档结构信息和视觉信息进行建模，让模型在预训练阶段进行多模态对齐。

专知会员服务

32+阅读 · 2020年8月23日

【AAAI 2019 Tutorial】超越单词的神经向量表示:句子和文档嵌入（Neural Vector Representations beyond Words: Sentence and Document Embeddings），Gerard de Melo

【AAAI 2019 Tutorial】超越单词的神经向量表示:句子和文档嵌入（Neural Vector Representations beyond Words: Sentence and Document Embeddings），Gerard de Melo

专知会员服务

19+阅读 · 2019年11月18日

金融领域自然语言处理研究资源大列表

金融领域自然语言处理研究资源大列表

专知

13+阅读 · 2020年2月27日

【论文笔记】韩家炜团队AutoPhrase：从大量文本库中自动挖掘短语

【论文笔记】韩家炜团队AutoPhrase：从大量文本库中自动挖掘短语

专知

41+阅读 · 2019年11月2日

最全中文自然语言处理数据集、平台和工具整理

最全中文自然语言处理数据集、平台和工具整理

深度学习与NLP

34+阅读 · 2019年6月22日

NLP中的词向量对比：word2vec/glove/fastText/elmo/GPT/bert

NLP中的词向量对比：word2vec/glove/fastText/elmo/GPT/bert

AINLP

31+阅读 · 2019年6月1日

R语言自然语言处理：文本向量化——词嵌入（Word Embedding）

R语言自然语言处理：文本向量化——词嵌入（Word Embedding）

R语言中文社区

10+阅读 · 2019年4月6日

NLP Chinese Corpus：大规模中文自然语言处理语料

NLP Chinese Corpus：大规模中文自然语言处理语料

PaperWeekly

14+阅读 · 2019年2月18日

深度上下文词向量

深度上下文词向量

微信AI

27+阅读 · 2018年9月13日

免费 | 从文本匹配到图文匹配:所见所想所找 - 基于生成模型的多模态检索

免费 | 从文本匹配到图文匹配:所见所想所找 - 基于生成模型的多模态检索

AI研习社

44+阅读 · 2018年3月23日

白翔：趣谈“捕文捉字”-- 场景文字检测 | VALSE2017之十

白翔：趣谈“捕文捉字”-- 场景文字检测 | VALSE2017之十

深度学习大讲堂

19+阅读 · 2017年9月4日

语料库构建——自然语言理解的基础

语料库构建——自然语言理解的基础

计算机研究与发展

11+阅读 · 2017年8月21日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

随机映射框架下的图像语义分析与提取技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向异构数据库的查询语言设计及其基础理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

随机文法作为通用统计模型的扩展

国家自然科学基金

1+阅读 · 2015年12月31日

共现潜在语义向量空间模型及其语义核的构建与应用研究

国家自然科学基金

1+阅读 · 2015年12月31日

对偶三角模-余模逻辑的语义理论与应用

国家自然科学基金

0+阅读 · 2014年12月31日

上市公司文本信息分析研究：基于大数据的视角

国家自然科学基金

8+阅读 · 2014年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

面向汉语文本理解的语义计算方法

国家自然科学基金

8+阅读 · 2014年12月31日

基于潜在语义对偶空间的新词翻译自动识别方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

LogicSkills: A Structured Benchmark for Formal Reasoning in Large Language Models

Arxiv

0+阅读 · 3月17日

Dialect-Agnostic SQL Parsing via LLM-Based Segmentation

Arxiv

0+阅读 · 3月17日

Sema: A High-performance System for LLM-based Semantic Query Processing

Arxiv

0+阅读 · 3月12日

λScale: Enabling Fast Scaling for Serverless Large Language Model Inference

Arxiv

0+阅读 · 3月5日

FinAuditing: A Financial Taxonomy-Structured Multi-Document Benchmark for Evaluating LLMs

Arxiv

0+阅读 · 2月19日

ScholarGym: Benchmarking Large Language Model Capabilities in the Information-Gathering Stage of Deep Research

Arxiv

0+阅读 · 2月17日

LogicSkills: A Structured Benchmark for Formal Reasoning in Large Language Models

Arxiv

0+阅读 · 2月6日

LinguistAgent: A Reflective Multi-Model Platform for Automated Linguistic Annotation

Arxiv

0+阅读 · 2月5日

DistillER: Knowledge Distillation in Entity Resolution with Large Language Models

Arxiv

0+阅读 · 2月5日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

500+阅读 · 2023年3月31日

VIP会员

文章信息

相关主题

最新内容

【剑桥博士论文】迈向高效、科学且普适的小语言模型开发之道

【剑桥博士论文】迈向高效、科学且普适的小语言模型开发之道

专知会员服务

1+阅读 · 今天14:26

从预训练模型到大语言模型：人工智能驱动的心理计算综述

从预训练模型到大语言模型：人工智能驱动的心理计算综述

专知会员服务

0+阅读 · 今天14:22

乌克兰-委内瑞拉-伊朗冲突：人工智能在现代军事行动中的飞速演进

乌克兰-委内瑞拉-伊朗冲突：人工智能在现代军事行动中的飞速演进

专知会员服务

3+阅读 · 今天12:11

《对信息环境分析实现人工智能预测冲突》96页

《对信息环境分析实现人工智能预测冲突》96页

专知会员服务

3+阅读 · 今天9:59

《面向海军应用的无人机网络安全仿真环境》

《面向海军应用的无人机网络安全仿真环境》

专知会员服务

4+阅读 · 今天9:41

乌克兰部署新型拦截型无人机应对“沙希德”式威胁

乌克兰部署新型拦截型无人机应对“沙希德”式威胁

专知会员服务

4+阅读 · 今天9:17

无人机与僵局：俄乌战争难以突破

无人机与僵局：俄乌战争难以突破

专知会员服务

3+阅读 · 今天9:02

《美国海岸警卫队研发中心2026财年研究项目计划》40页slides

《美国海岸警卫队研发中心2026财年研究项目计划》40页slides

专知会员服务

6+阅读 · 今天8:55

《控制对手感知：电子战愿景与赋能技术》

《控制对手感知：电子战愿景与赋能技术》

专知会员服务

6+阅读 · 今天8:51

【NTU博士论文】缓解视觉及视觉-语言模型中的捷径学习并提升分布外泛化能力

【NTU博士论文】缓解视觉及视觉-语言模型中的捷径学习并提升分布外泛化能力

专知会员服务

5+阅读 · 4月6日

大语言模型智能体（LLM Agents）工具调用的演进：从单工具调用到多工具协同编排

大语言模型智能体（LLM Agents）工具调用的演进：从单工具调用到多工具协同编排

专知会员服务

10+阅读 · 4月6日

《评估杀伤力：陆军战斗力与兵力设计》最新45页报告

《评估杀伤力：陆军战斗力与兵力设计》最新45页报告

专知会员服务

13+阅读 · 4月6日

自主、人工智能与可消耗集群时代的海军情报

自主、人工智能与可消耗集群时代的海军情报

专知会员服务

8+阅读 · 4月6日

“史诗狂怒行动”中的海军动态

“史诗狂怒行动”中的海军动态

专知会员服务

10+阅读 · 4月5日

【博士论文】预训练语言模型中结构化叙事表示的解释性研究

【博士论文】预训练语言模型中结构化叙事表示的解释性研究

专知会员服务

11+阅读 · 4月5日

相关VIP内容

什么是上下文工程？中科院计算所等《大语言模型的上下文工程》综述

什么是上下文工程？中科院计算所等《大语言模型的上下文工程》综述

专知会员服务

43+阅读 · 2025年7月18日

【ICML2024】理解大型语言模型在规划中的作用，138页pdf

【ICML2024】理解大型语言模型在规划中的作用，138页pdf

专知会员服务

49+阅读 · 2024年7月24日

158页《大型语言模型数据集》全面综述，444个数据集涵盖预训练、指令微调、偏好、评估等，附中英文版

158页《大型语言模型数据集》全面综述，444个数据集涵盖预训练、指令微调、偏好、评估等，附中英文版

专知会员服务

155+阅读 · 2024年3月1日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

图上大模型怎么做？UIUC最新《图上大型语言模型》综述，详述LLM在图上作为预测器、编码器和对齐器的技术

图上大模型怎么做？UIUC最新《图上大型语言模型》综述，详述LLM在图上作为预测器、编码器和对齐器的技术

专知会员服务

67+阅读 · 2023年12月7日

大模型如何做个性化？中科大等最新《当大型语言模型遇到个性化》综述，详述大模型与个性化的挑战与机遇

大模型如何做个性化？中科大等最新《当大型语言模型遇到个性化》综述，详述大模型与个性化的挑战与机遇

专知会员服务

84+阅读 · 2023年8月8日

LLM in Medical Domain: 大语言模型在医学领域的应用

LLM in Medical Domain: 大语言模型在医学领域的应用

专知会员服务

103+阅读 · 2023年6月17日

大模型如何适用长尾或特定领域？微软等提出《参数知识引导的增强大型语言模型》，扩展LLM的垂直化长尾适配能力

大模型如何适用长尾或特定领域？微软等提出《参数知识引导的增强大型语言模型》，扩展LLM的垂直化长尾适配能力

专知会员服务

87+阅读 · 2023年5月10日

【KDD2020】通用文档预训练模型LayoutLM：文档结构信息和视觉信息进行建模，让模型在预训练阶段进行多模态对齐。

【KDD2020】通用文档预训练模型LayoutLM：文档结构信息和视觉信息进行建模，让模型在预训练阶段进行多模态对齐。

专知会员服务

32+阅读 · 2020年8月23日

【AAAI 2019 Tutorial】超越单词的神经向量表示:句子和文档嵌入（Neural Vector Representations beyond Words: Sentence and Document Embeddings），Gerard de Melo

【AAAI 2019 Tutorial】超越单词的神经向量表示:句子和文档嵌入（Neural Vector Representations beyond Words: Sentence and Document Embeddings），Gerard de Melo

专知会员服务

19+阅读 · 2019年11月18日

热门VIP内容

开通专知VIP会员享更多权益服务

从预训练模型到大语言模型：人工智能驱动的心理计算综述

《对信息环境分析实现人工智能预测冲突》96页

【剑桥博士论文】迈向高效、科学且普适的小语言模型开发之道

乌克兰-委内瑞拉-伊朗冲突：人工智能在现代军事行动中的飞速演进

相关资讯

金融领域自然语言处理研究资源大列表

金融领域自然语言处理研究资源大列表

专知

13+阅读 · 2020年2月27日

【论文笔记】韩家炜团队AutoPhrase：从大量文本库中自动挖掘短语

【论文笔记】韩家炜团队AutoPhrase：从大量文本库中自动挖掘短语

专知

41+阅读 · 2019年11月2日

最全中文自然语言处理数据集、平台和工具整理

最全中文自然语言处理数据集、平台和工具整理

深度学习与NLP

34+阅读 · 2019年6月22日

NLP中的词向量对比：word2vec/glove/fastText/elmo/GPT/bert

NLP中的词向量对比：word2vec/glove/fastText/elmo/GPT/bert

AINLP

31+阅读 · 2019年6月1日

R语言自然语言处理：文本向量化——词嵌入（Word Embedding）

R语言自然语言处理：文本向量化——词嵌入（Word Embedding）

R语言中文社区

10+阅读 · 2019年4月6日

NLP Chinese Corpus：大规模中文自然语言处理语料

NLP Chinese Corpus：大规模中文自然语言处理语料

PaperWeekly

14+阅读 · 2019年2月18日

深度上下文词向量

深度上下文词向量

微信AI

27+阅读 · 2018年9月13日

免费 | 从文本匹配到图文匹配:所见所想所找 - 基于生成模型的多模态检索

免费 | 从文本匹配到图文匹配:所见所想所找 - 基于生成模型的多模态检索

AI研习社

44+阅读 · 2018年3月23日

白翔：趣谈“捕文捉字”-- 场景文字检测 | VALSE2017之十

白翔：趣谈“捕文捉字”-- 场景文字检测 | VALSE2017之十

深度学习大讲堂

19+阅读 · 2017年9月4日

语料库构建——自然语言理解的基础

语料库构建——自然语言理解的基础

计算机研究与发展

11+阅读 · 2017年8月21日

相关论文

LogicSkills: A Structured Benchmark for Formal Reasoning in Large Language Models

Arxiv

0+阅读 · 3月17日

Dialect-Agnostic SQL Parsing via LLM-Based Segmentation

Arxiv

0+阅读 · 3月17日

Sema: A High-performance System for LLM-based Semantic Query Processing

Arxiv

0+阅读 · 3月12日

λScale: Enabling Fast Scaling for Serverless Large Language Model Inference

Arxiv

0+阅读 · 3月5日

FinAuditing: A Financial Taxonomy-Structured Multi-Document Benchmark for Evaluating LLMs

Arxiv

0+阅读 · 2月19日

ScholarGym: Benchmarking Large Language Model Capabilities in the Information-Gathering Stage of Deep Research

Arxiv

0+阅读 · 2月17日

LogicSkills: A Structured Benchmark for Formal Reasoning in Large Language Models

Arxiv

0+阅读 · 2月6日

LinguistAgent: A Reflective Multi-Model Platform for Automated Linguistic Annotation

Arxiv

0+阅读 · 2月5日

DistillER: Knowledge Distillation in Entity Resolution with Large Language Models

Arxiv

0+阅读 · 2月5日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

500+阅读 · 2023年3月31日

相关基金

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

随机映射框架下的图像语义分析与提取技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向异构数据库的查询语言设计及其基础理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

随机文法作为通用统计模型的扩展

国家自然科学基金

1+阅读 · 2015年12月31日

共现潜在语义向量空间模型及其语义核的构建与应用研究

国家自然科学基金

1+阅读 · 2015年12月31日

对偶三角模-余模逻辑的语义理论与应用

国家自然科学基金

0+阅读 · 2014年12月31日

上市公司文本信息分析研究：基于大数据的视角

国家自然科学基金

8+阅读 · 2014年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

面向汉语文本理解的语义计算方法

国家自然科学基金

8+阅读 · 2014年12月31日

基于潜在语义对偶空间的新词翻译自动识别方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员