Diversity plays a critical role in data selection, improving performance under fixed data budgets by reducing redundancy and repetition. However, optimizing for diversity is inherently challenging, as it is a set-level property that depends on interactions between data points rather than individual examples. As a result, existing approaches typically rely on proxies or approximations, which often fail to ensure sufficiently diverse subsets. In this work, we directly optimize diversity by introducing a probabilistic diversification framework based on the G-Vendi score, optimized via exponentiated gradient descent. Our method produces subsets that are substantially more diverse than those obtained via random sampling, achieving a +489 increase in G-Vendi score on a 500k-sample subset. We evaluate our approach on FineWeb and DCLM, where it consistently outperforms existing methods. Notably, SPOKES (diversity-only) improves average downstream performance by +0.4 and +0.5 points over random sampling on DCLM and FineWeb, respectively. More importantly, jointly optimizing for both quality and diversity yields the strongest results: SPOKES achieves gains of +1.5 and +1.4 points on DCLM and FineWeb, outperforming all baselines, including semantic deduplication and quality filtering.


翻译:多样性在数据选择中扮演关键角色,通过减少冗余与重复可在固定数据预算下提升模型性能。然而,优化多样性本身极具挑战性,因其作为集合级属性依赖于数据点间的交互而非单个样本特征。现有方法通常依赖代理指标或近似策略,但往往难以保证足够多样化的子集。本文基于G-Vendi分数提出概率多样化框架,通过指数梯度下降直接优化多样性。本方法生成的子集多样性显著优于随机采样,在50万样本子集上实现G-Vendi分数提升+489。我们在FineWeb和DCLM数据集上评估该方法,其表现持续优于现有方案。值得注意的是,SPOKES(仅多样性策略)在DCLM和FineWeb上分别将下游任务平均性能较随机采样提升+0.4和+0.5个百分点。更重要的是,质量与多样性的联合优化可实现最优性能:SPOKES在DCLM和FineWeb上分别取得+1.5和+1.4个百分点的增益,超越包括语义去重和质量过滤在内的所有基线方法。

0
下载
关闭预览

相关内容

多样化偏好优化
专知会员服务
12+阅读 · 2025年2月3日
专知会员服务
26+阅读 · 2021年5月23日
专知会员服务
37+阅读 · 2021年4月18日
非平衡数据集 focal loss 多类分类
AI研习社
33+阅读 · 2019年4月23日
推荐|机器学习中的模型评价、模型选择和算法选择!
全球人工智能
10+阅读 · 2018年2月5日
推荐算法:Match与Rank模型的交织配合
从0到1
15+阅读 · 2017年12月18日
从浅层模型到深度模型:概览机器学习优化算法
机器之心
27+阅读 · 2017年7月9日
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
7+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
5+阅读 · 6月17日
相关VIP内容
多样化偏好优化
专知会员服务
12+阅读 · 2025年2月3日
专知会员服务
26+阅读 · 2021年5月23日
专知会员服务
37+阅读 · 2021年4月18日
相关基金
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员