One Word is Enough: Minimal Adversarial Perturbations for Neural Text Ranking

Neural ranking models (NRMs) achieve strong retrieval effectiveness, yet prior work has shown they are vulnerable to adversarial perturbations. We revisit this robustness question with a minimal, query-aware attack that promotes a target document by inserting or substituting a single, semantically aligned word - the query center. We study heuristic and gradient-guided variants, including a white-box method that identifies influential insertion points. On TREC-DL 2019/2020 with BERT and monoT5 re-rankers, our single-word attacks achieve up to 91% success while modifying fewer than two tokens per document on average, achieving competitive rank and score boosts with far fewer edits under a comparable white-box setup to ensure fair evaluation against PRADA. We also introduce new diagnostic metrics to analyze attack sensitivity beyond aggregate success rates. Our analysis reveals a Goldilocks zone in which mid-ranked documents are most vulnerable. These findings demonstrate practical risks and motivate future defenses for robust neural ranking.

翻译：神经排序模型在检索效能方面表现优异，但已有研究表明其易受对抗性扰动影响。本文通过一种最小化的查询感知攻击重新审视该鲁棒性问题：通过插入或替换单个语义对齐的词汇——即查询中心词——来提升目标文档的排序。我们研究了启发式与梯度引导的变体方法，包括一种识别关键插入位置的白盒方法。在TREC-DL 2019/2020数据集上，针对BERT与monoT5重排序器，我们的单字攻击在平均每文档修改少于两个词元的情况下实现了高达91%的成功率，在与PRADA保持可比的白盒评估框架中，以更少的编辑量获得了具有竞争力的排序提升与分数增益。我们还引入了新的诊断指标，以超越整体成功率的方式分析攻击敏感性。研究发现存在一个"适中区间"，其中中等排名的文档最易受攻击。这些发现揭示了实际风险，并为构建鲁棒的神经排序防御机制提供了研究动机。

相关内容

排序

关注 313

排序是计算机内经常进行的一种操作，其目的是将一组“无序”的记录序列调整为“有序”的记录序列。分内部排序和外部排序。若整个排序过程不需要访问外存便能完成，则称此类排序问题为内部排序。反之，若参加排序的记录数量很大，整个序列的排序过程不可能在内存中完成，则称此类排序问题为外部排序。内部排序的过程是一个逐步扩大记录的有序序列长度的过程。

中科院计算所发布首篇「面向第一阶段检索的语义检索模型」综述论文，43页pdf242篇文献

专知会员服务

25+阅读 · 2021年10月3日

【KDD2021】基于预训练语言模型的百度搜索排序

专知会员服务

16+阅读 · 2021年8月19日

Transformer！「预训练变换器文本排序」首篇综述书，155页pdf概述BERT类模型文本检索进展

专知会员服务

69+阅读 · 2021年3月18日