We present three algorithms with formal correctness guarantees and complexity bounds for the problem of selecting a diverse, multi-locale set of sources from ranked search results. First, we formulate weighted locale allocation as a constrained integer partition problem and give an $O(n \log n)$ algorithm that simultaneously satisfies minimum-representation, budget-exhaustion, and proportionality-bound constraints; we prove all three hold with a tight deviation bound of $< 1$. Second, we define a cascaded country-code inference function as a deterministic priority chain over heterogeneous signals (TLD structure, model-inferred metadata, language fallback) and prove it satisfies both determinism and graceful degradation. Third, we introduce a $κ$-domain diversity constraint for source selection and give an $O(|K| \cdot R)$ algorithm that maintains the invariant via hash-map lookup, eliminating the aggregator monopolization pathology present in URL-level deduplication. We further formalize Latent Objective Induction (LOI), an environment-shaping operator over prompt spaces that steers downstream model behavior without restricting the feasible output set, and prove its convergence under mild assumptions. Applied to a multi-locale retrieval pipeline, these algorithms yield 62% improvement in first-party source ratio and 89% reduction in same-domain duplication across 120 multilingual queries.


翻译:我们针对从排序搜索结果中选择多样化多区域来源集的问题,提出了三种具有形式化正确性保证与复杂度界限的算法。首先,我们将加权区域分配建模为约束整数划分问题,并给出一种$O(n \log n)$算法,该算法同时满足最小表示、预算耗尽与比例边界约束;我们证明所有三个约束均以$< 1$的紧偏差界成立。其次,我们将级联国家代码推断函数定义为异构信号(顶级域名结构、模型推断元数据、语言回退机制)上的确定性优先级链,并证明其同时满足确定性与优雅降级特性。第三,我们为来源选择引入$κ$域多样性约束,并提出一种通过哈希映射查找保持不变量的$O(|K| \cdot R)$算法,从而消除了URL级去重中存在的聚合器垄断问题。我们进一步形式化潜在目标诱导——一种作用于提示空间的环塑形算子,其能在不限制可行输出集的前提下引导下游模型行为,并在温和假设下证明其收敛性。将这些算法应用于多区域检索管道后,在120个多语言查询中,第一方来源比例提升了62%,同域重复率降低了89%。

0
下载
关闭预览

相关内容

《多机器人规划中基于约束的搜索研究》156页
专知会员服务
20+阅读 · 2月3日
【阿姆斯特丹博士论文】带约束学习的优化算法
专知会员服务
19+阅读 · 2025年4月4日
多样化偏好优化
专知会员服务
12+阅读 · 2025年2月3日
专知会员服务
26+阅读 · 2021年4月21日
推荐系统产品与算法概述 | 深度
AI100
11+阅读 · 2019年6月13日
标签间相关性在多标签分类问题中的应用
人工智能前沿讲习班
23+阅读 · 2019年6月5日
深度学习时代的目标检测算法
炼数成金订阅号
40+阅读 · 2018年3月19日
推荐|机器学习中的模型评价、模型选择和算法选择!
全球人工智能
10+阅读 · 2018年2月5日
推荐算法:Match与Rank模型的交织配合
从0到1
15+阅读 · 2017年12月18日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月16日
VIP会员
相关VIP内容
《多机器人规划中基于约束的搜索研究》156页
专知会员服务
20+阅读 · 2月3日
【阿姆斯特丹博士论文】带约束学习的优化算法
专知会员服务
19+阅读 · 2025年4月4日
多样化偏好优化
专知会员服务
12+阅读 · 2025年2月3日
专知会员服务
26+阅读 · 2021年4月21日
相关基金
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员