A social highlighter's most useful signal -- which passages a crowd of readers marks -- exists only for documents people have already read. Can the aggregate crowd salience of a document be predicted from its text before its marks accumulate? Prior work on this data found that zero-shot language models recover highlight locations worse than a trivial lead (position) baseline, so we ask whether a model trained on the highlight corpus can beat that baseline. Using a pre-registered ladder of models and a by-document cluster bootstrap, we find a small but robust edge: a logistic ranker over sentence embeddings and positional/contextual features beats the lead baseline by +0.044 average precision (95% CI [+0.029, +0.058]; clears a pre-registered margin delta=0.03 in 97% of resamples, and stable across pipeline re-runs). Two unsupervised extractive baselines (centroid, LexRank-style centrality) lose to lead, and the trained model beats them by +0.108, so the edge is not recovered by generic unsupervised proxies -- it reflects learning from real reader marks. In product terms, precision@3 rises from 0.25 to 0.39 (+55% relative) and the model beats lead on 69% of documents. An ablation attributes the edge to the raw embedding (+0.014) and training augmentation (+0.010), each with a positive CI. The edge is not a temporal-generalization failure, and we find no evidence that content drift or near-duplicate leakage explains it. A standardized regression shows the advantage is governed mainly by document popularity (lower popularity, larger edge) and by label reliability. It nearly vanishes only on the most popular content; there it is the lead baseline that strengthens, not the model that weakens. Because our evaluation conditions on documents that eventually accumulated readers, these results are a retrospective cold-start simulation.


翻译:摘要:社交高亮器最有用的信号——读者群体标记的段落——仅存在于已被阅读的文档中。能否在标记累积之前,从文本中预测文档的聚合群体显著性?此前关于该数据的研究发现,零样本语言模型恢复高亮位置的效果甚至不如简单的起始(位置)基线。因此,我们探究基于高亮语料库训练的模型能否超越该基线。通过使用预注册的模型阶梯和按文档聚类的自助法,我们发现了一个微小但稳健的优势:基于句子嵌入及位置/上下文特征的对数几率排序器,其平均精度比起始基线高出+0.044(95%置信区间[+0.029, +0.058];在97%的重采样中超过了预注册的边际差δ=0.03,并且在多次流水线重运行中保持稳定)。两种无监督的抽取式基线(质心法、LexRank式中心性)均逊于起始基线,而训练模型比它们高出+0.108,因此这一优势并非由通用无监督代理恢复——它反映了从真实读者标记中的学习。在产品术语中,精确率@3从0.25提升至0.39(相对提升55%),且模型在69%的文档上优于起始基线。消融实验将优势归因于原始嵌入(+0.014)和训练增强(+0.010),各具正置信区间。该优势并非时间泛化失败,我们也未发现内容漂移或近重复泄露的证据。标准化回归显示,优势主要受文档流行度(流行度越低,优势越大)和标签可靠性支配。仅在最具流行度的内容上,优势近乎消失;此时是起始基线增强,而非模型减弱。由于我们的评估条件限定于最终积累读者的文档,这些结果属于回顾性冷启动模拟。

0
下载
关闭预览

相关内容

ACM/IEEE第23届模型驱动工程语言和系统国际会议,是模型驱动软件和系统工程的首要会议系列,由ACM-SIGSOFT和IEEE-TCSE支持组织。自1998年以来,模型涵盖了建模的各个方面,从语言和方法到工具和应用程序。模特的参加者来自不同的背景,包括研究人员、学者、工程师和工业专业人士。MODELS 2019是一个论坛,参与者可以围绕建模和模型驱动的软件和系统交流前沿研究成果和创新实践经验。今年的版本将为建模社区提供进一步推进建模基础的机会,并在网络物理系统、嵌入式系统、社会技术系统、云计算、大数据、机器学习、安全、开源等新兴领域提出建模的创新应用以及可持续性。 官网链接:http://www.modelsconference.org/
专知会员服务
33+阅读 · 2021年10月9日
【SIGIR2020】用于冷启动推荐的内容感知神经哈希
专知会员服务
23+阅读 · 2020年6月2日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
学习数据的几何:形状空间分析数学综述
专知会员服务
10+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
12+阅读 · 6月17日
相关VIP内容
专知会员服务
33+阅读 · 2021年10月9日
【SIGIR2020】用于冷启动推荐的内容感知神经哈希
专知会员服务
23+阅读 · 2020年6月2日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员