Evaluating a natural-language yes/no predicate over a document corpus under an accuracy target - the semantic filter - is a cornerstone of LLM-based data processing. Calling the LLM on every document (the oracle) is prohibitive, so cascades pair the oracle with a fast proxy. As deployed today, they leave four limitations on the table. (1) Each cascade family - model-free clustering, prebuilt small-LLM proxies, online-trained proxies - commits to a single representation and pipeline, and wins on only a narrow query regime. (2) The strongest online proxy invests in a custom training scheme on a bi-encoder over dense embeddings, missing the token-level evidence richer predicates require. (3) The proxy is trained against binary yes/no labels, wasting the LLM's per-document confidence at the boundary documents it most needs to learn. (4) Existing calibrations add a uniform safety margin, conflating genuine proxy uncertainty with small-sample noise and inflating cascade cost. We address these by (1) composing families adaptively - model-free clustering first, online proxy only when needed, with oracle calls shared across phases; (2) replacing the cosine bi-encoder with a hybrid of off-the-shelf token-aware models; (3) training the proxy with the oracle's per-document confidence as a soft label; and (4) a calibration that adds the safety margin only where the labeled sample is sparse. We are also the first to use the oracle's per-document confidence for three purposes: a query-level difficulty compass, a lower bound on the minimum oracle calls any proxy-based cascade can make, and the proxy's soft training label. At a 90% accuracy target on three 10K-document corpora, our methods are 1.6-2.0x faster than the best prior method per corpus and meet the target on 95% of queries; the BER-derived lower bound indicates a further ~4-20x of headroom for future work.


翻译:在文档语料库上评估自然语言的是/否断言并满足准确率目标——即语义过滤——是基于大语言模型的数据处理的基石。对每一篇文档调用大语言模型(即预言机)成本高昂,因此级联系统将预言机与快速代理配对。当前部署的级联系统存在四个局限性:(1)每种级联家族——无模型聚类、预构建的小型大语言模型代理、在线训练的代理——都局限于单一表示和流程,仅在狭窄的查询区间内表现优异。(2)最强的在线代理在密集嵌入上的双编码器上投入了定制训练方案,忽略了需要更丰富谓词所需的词元级证据。(3)代理针对二元的“是/否”标签进行训练,浪费了大语言模型在最需要学习的边界文档上的逐文档置信度。(4)现有的校准方法添加了统一的安全裕度,将真正的代理不确定性与小样本噪声混淆,增大了级联成本。我们通过以下方式解决这些问题:(1)自适应地组合家族——先进行无模型聚类,仅在需要时调用在线代理,并在各阶段共享预言机调用;(2)用现成的词元感知模型的混合体替换余弦双编码器;(3)使用预言机的逐文档置信度作为软标签来训练代理;(4)采用仅在标记样本稀疏处添加安全裕度的校准方法。我们也是首次将预言机的逐文档置信度用于三个目的:作为查询级别的难度指南针、作为任何基于代理的级联所需最小预言机调用的下限、以及代理的软训练标签。在三个包含10K文档的语料库上,以90%的准确率为目标,我们的方法比每个语料库上先前最佳方法快1.6-2.0倍,并在95%的查询上达到目标;基于RBER(Rank-Based Expected Reduction)导出的下限表明未来工作尚有约4-20倍的提升空间。

0
下载
关闭预览

相关内容

唯快不破:大型语言模型高效架构综述
专知会员服务
25+阅读 · 2025年8月17日
什么是后训练?大语言模型训练后优化方法综述,87页pdf
Llama-3-SynE:实现有效且高效的大语言模型持续预训练
专知会员服务
36+阅读 · 2024年7月30日
大语言模型评估技术研究进展
专知会员服务
49+阅读 · 2024年7月9日
基于大语言模型的复杂任务自主规划处理框架
专知会员服务
103+阅读 · 2024年4月12日
RecInterpreter:架起大语言模型与传统推荐模型的桥梁
专知会员服务
54+阅读 · 2023年11月9日
绝对干货!NLP预训练模型:从transformer到albert
新智元
13+阅读 · 2019年11月10日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
TextInfoExp:自然语言处理相关实验(基于sougou数据集)
全球人工智能
12+阅读 · 2017年11月12日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
4+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
6+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
3+阅读 · 6月17日
相关基金
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员