量化文本嵌入模型中的位置偏差 (Quantifying Positional Biases in Text Embedding Models) - 专知论文

会员服务 ·

0

嵌入 · 偏差 · 文本嵌入 · 相似度 · 位置编码 ·

2025 年 12 月 31 日

Quantifying Positional Biases in Text Embedding Models

翻译：量化文本嵌入模型中的位置偏差

Reagan J. Lee,Samarth Goel,Kannan Ramchandran

from arxiv, 13 pages, 11 figures, NeurIPS

Embedding models are crucial for tasks in Information Retrieval (IR) and semantic similarity measurement, yet their handling of longer texts and associated positional biases remains underexplored. In this study, we investigate the impact of content position and input size on text embeddings. Our experiments reveal that embedding models, irrespective of their positional encoding mechanisms, disproportionately prioritize the beginning of an input. Ablation studies demonstrate that insertion of irrelevant text or removal at the start of a document reduces cosine similarity between altered and original embeddings by up to 12.3% more than ablations at the end. Regression analysis further confirms this bias, with sentence importance declining as position moves further from the start, even with with content-agnosticity. We hypothesize that this effect arises from pre-processing strategies and chosen positional encoding techniques. These findings quantify the sensitivity of retrieval systems and suggest a new lens towards embedding model robustness.

翻译：嵌入模型在信息检索（IR）和语义相似度度量任务中至关重要，然而它们对较长文本的处理及相关位置偏差的研究仍显不足。本研究探讨了内容位置和输入规模对文本嵌入的影响。实验表明，无论采用何种位置编码机制，嵌入模型均会不成比例地优先处理输入文本的开头部分。消融研究证明，在文档起始处插入无关文本或进行删除操作，相较于在末尾进行相同操作，会导致修改后嵌入与原始嵌入之间的余弦相似度额外降低高达12.3%。回归分析进一步证实了这种偏差：即使内容无关，句子的重要性也随着其位置远离起始点而下降。我们推测这种效应源于预处理策略和所选的位置编码技术。这些发现量化了检索系统的敏感性，并为理解嵌入模型的鲁棒性提供了新的视角。

0

相关内容

【博士论文】论视觉 Transformer (Vision Transformers) 中的归纳偏置

【博士论文】论视觉 Transformer (Vision Transformers) 中的归纳偏置

专知会员服务

9+阅读 · 2月13日

大模型如何统一生成和嵌入？最新《生成式表示指令微调》论文详细解答

大模型如何统一生成和嵌入？最新《生成式表示指令微调》论文详细解答

专知会员服务

44+阅读 · 2024年2月18日

基于信息检索的软件缺陷定位方法综述

专知会员服务

10+阅读 · 2021年1月31日

知识图谱嵌入模型的概率标定,Probability Calibration for Knowledge Graph Embedding Models

专知会员服务

36+阅读 · 2020年5月11日

语义相似性算法演化论文，29页pdf，Evolution of Semantic Similarity - A Survey

语义相似性算法演化论文，29页pdf，Evolution of Semantic Similarity - A Survey

专知会员服务

44+阅读 · 2020年4月30日

【新书】自然语言处理嵌入：语义向量表示理论与进展，从Word2Vec到BERT，163页pdf

【新书】自然语言处理嵌入：语义向量表示理论与进展，从Word2Vec到BERT，163页pdf

专知会员服务

190+阅读 · 2020年4月4日

临床自然语言处理中的嵌入综述，SECNLP: A survey of embeddings

临床自然语言处理中的嵌入综述，SECNLP: A survey of embeddings

专知会员服务

39+阅读 · 2020年3月23日

【WSDM 2020 论文】网络嵌入的初始化：一种图划分方法（Initialization for Network Embedding: A Graph Partition Approach）

【WSDM 2020 论文】网络嵌入的初始化：一种图划分方法（Initialization for Network Embedding: A Graph Partition Approach）

专知会员服务

44+阅读 · 2019年11月20日

【AAAI 2019 Tutorial】超越单词的神经向量表示:句子和文档嵌入（Neural Vector Representations beyond Words: Sentence and Document Embeddings），Gerard de Melo

【AAAI 2019 Tutorial】超越单词的神经向量表示:句子和文档嵌入（Neural Vector Representations beyond Words: Sentence and Document Embeddings），Gerard de Melo

专知会员服务

19+阅读 · 2019年11月18日

【AAAI2020论文】概念结构化嵌入医疗文本表示（Learning Conceptual-Contextual Embeddings for Medical Text）

【AAAI2020论文】概念结构化嵌入医疗文本表示（Learning Conceptual-Contextual Embeddings for Medical Text）

专知会员服务

50+阅读 · 2019年11月15日

知识图谱嵌入的Translate模型汇总（TransE，TransH，TransR，TransD）

知识图谱嵌入的Translate模型汇总（TransE，TransH，TransR，TransD）

深度学习自然语言处理

31+阅读 · 2020年6月12日

【新书】自然语言处理嵌入：语义向量表示理论与进展，从Word2Vec到BERT，163页pdf

【新书】自然语言处理嵌入：语义向量表示理论与进展，从Word2Vec到BERT，163页pdf

专知

23+阅读 · 2020年4月4日

Keras新增TextVectorization层，可直接将文本字符串作为模型输入

Keras新增TextVectorization层，可直接将文本字符串作为模型输入

专知

19+阅读 · 2019年11月22日

图嵌入（Graph embedding）综述

图嵌入（Graph embedding）综述

人工智能前沿讲习班

449+阅读 · 2019年4月30日

博客 | 度量学习总结(三) | Deep Metric Learning for Sequential Data

博客 | 度量学习总结(三) | Deep Metric Learning for Sequential Data

AI研习社

27+阅读 · 2019年4月13日

R语言自然语言处理：文本向量化——词嵌入（Word Embedding）

R语言自然语言处理：文本向量化——词嵌入（Word Embedding）

R语言中文社区

10+阅读 · 2019年4月6日

【干货】NLP中“词袋”模型和词嵌入模型的比较（附代码）

【干货】NLP中“词袋”模型和词嵌入模型的比较（附代码）

专知

11+阅读 · 2018年8月4日

Word2Vec与Glove：词嵌入方法的动机和直觉

Word2Vec与Glove：词嵌入方法的动机和直觉

论智

14+阅读 · 2018年6月23日

基于位置注意力机制模型和带标签数据来提升槽填充（EMNLP outstanding paper）

基于位置注意力机制模型和带标签数据来提升槽填充（EMNLP outstanding paper）

科技创新与创业

17+阅读 · 2017年11月17日

深度学习 | 利用词嵌入对文本进行情感分析

深度学习 | 利用词嵌入对文本进行情感分析

沈浩老师

11+阅读 · 2017年10月19日

面向特征提取的低秩与稀疏图嵌入理论与算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

近似计算中基于概率图模型的软错误量化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

测量误差数据下部分线性模型有约束统计推断理论

国家自然科学基金

2+阅读 · 2015年12月31日

方差正则化的分类模型选择方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向微博数据的位置相关事件检测和时空异常聚类模式挖掘研究

国家自然科学基金

0+阅读 · 2014年12月31日

测量误差数据下约束线性模型的有偏估计及变量选择研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于概率图的文本检索模型及算法研究

国家自然科学基金

2+阅读 · 2014年12月31日

隐写模糊安全性测度及其优化嵌入算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

分形几何中的嵌入问题

国家自然科学基金

0+阅读 · 2014年12月31日

支持软件可信演化的故障定位研究

国家自然科学基金

0+阅读 · 2014年12月31日

Bagging-Based Model Merging for Robust General Text Embeddings

Arxiv

0+阅读 · 2月5日

Weight Space Correlation Analysis: Quantifying Feature Utilization in Deep Learning Models

Arxiv

0+阅读 · 2月4日

Fair-GPTQ: Bias-Aware Quantization for Large Language Models

Arxiv

0+阅读 · 2月2日

Distance-to-Distance Ratio: A Similarity Measure for Sentences Based on Rate of Change in LLM Embeddings

Arxiv

0+阅读 · 1月25日

Information Representation Fairness in Long-Document Embeddings: The Peculiar Interaction of Positional and Language Bias

Arxiv

0+阅读 · 1月23日

FocalOrder: Focal Preference Optimization for Reading Order Detection

Arxiv

0+阅读 · 1月12日

Fusion Matters: Length-Aware Analysis of Positional-Encoding Fusion in Transformers

Arxiv

0+阅读 · 1月9日

Layer-wise Positional Bias in Short-Context Language Modeling

Arxiv

0+阅读 · 1月7日

Quantifying LLM Biases Across Instruction Boundary in Mixed Question Forms

Arxiv

0+阅读 · 1月6日

Detecting Performance Degradation under Data Shift in Pathology Vision-Language Model

Arxiv

0+阅读 · 1月2日

VIP会员

文章信息

相关主题

相关VIP内容

【博士论文】论视觉 Transformer (Vision Transformers) 中的归纳偏置

【博士论文】论视觉 Transformer (Vision Transformers) 中的归纳偏置

专知会员服务

9+阅读 · 2月13日

大模型如何统一生成和嵌入？最新《生成式表示指令微调》论文详细解答

大模型如何统一生成和嵌入？最新《生成式表示指令微调》论文详细解答

专知会员服务

44+阅读 · 2024年2月18日

基于信息检索的软件缺陷定位方法综述

专知会员服务

10+阅读 · 2021年1月31日

知识图谱嵌入模型的概率标定,Probability Calibration for Knowledge Graph Embedding Models

专知会员服务

36+阅读 · 2020年5月11日

语义相似性算法演化论文，29页pdf，Evolution of Semantic Similarity - A Survey

语义相似性算法演化论文，29页pdf，Evolution of Semantic Similarity - A Survey

专知会员服务

44+阅读 · 2020年4月30日

【新书】自然语言处理嵌入：语义向量表示理论与进展，从Word2Vec到BERT，163页pdf

【新书】自然语言处理嵌入：语义向量表示理论与进展，从Word2Vec到BERT，163页pdf

专知会员服务

190+阅读 · 2020年4月4日

临床自然语言处理中的嵌入综述，SECNLP: A survey of embeddings

临床自然语言处理中的嵌入综述，SECNLP: A survey of embeddings

专知会员服务

39+阅读 · 2020年3月23日

【WSDM 2020 论文】网络嵌入的初始化：一种图划分方法（Initialization for Network Embedding: A Graph Partition Approach）

【WSDM 2020 论文】网络嵌入的初始化：一种图划分方法（Initialization for Network Embedding: A Graph Partition Approach）

专知会员服务

44+阅读 · 2019年11月20日

【AAAI 2019 Tutorial】超越单词的神经向量表示:句子和文档嵌入（Neural Vector Representations beyond Words: Sentence and Document Embeddings），Gerard de Melo

【AAAI 2019 Tutorial】超越单词的神经向量表示:句子和文档嵌入（Neural Vector Representations beyond Words: Sentence and Document Embeddings），Gerard de Melo

专知会员服务

19+阅读 · 2019年11月18日

【AAAI2020论文】概念结构化嵌入医疗文本表示（Learning Conceptual-Contextual Embeddings for Medical Text）

【AAAI2020论文】概念结构化嵌入医疗文本表示（Learning Conceptual-Contextual Embeddings for Medical Text）

专知会员服务

50+阅读 · 2019年11月15日

热门VIP内容

开通专知VIP会员享更多权益服务

《无人机与战争：被忽视的环境影响及无人机保护潜力》

俄罗斯规划未来无人机驱动军队

《整合杀伤链：一个用于边缘目标验证与战术推理的零样本框架》最新资料

《人工智能、武器与影响力：前沿模型在模拟核危机中展现复杂推理》2026最新46页报告

相关资讯

知识图谱嵌入的Translate模型汇总（TransE，TransH，TransR，TransD）

知识图谱嵌入的Translate模型汇总（TransE，TransH，TransR，TransD）

深度学习自然语言处理

31+阅读 · 2020年6月12日

【新书】自然语言处理嵌入：语义向量表示理论与进展，从Word2Vec到BERT，163页pdf

【新书】自然语言处理嵌入：语义向量表示理论与进展，从Word2Vec到BERT，163页pdf

专知

23+阅读 · 2020年4月4日

Keras新增TextVectorization层，可直接将文本字符串作为模型输入

Keras新增TextVectorization层，可直接将文本字符串作为模型输入

专知

19+阅读 · 2019年11月22日

图嵌入（Graph embedding）综述

图嵌入（Graph embedding）综述

人工智能前沿讲习班

449+阅读 · 2019年4月30日

博客 | 度量学习总结(三) | Deep Metric Learning for Sequential Data

博客 | 度量学习总结(三) | Deep Metric Learning for Sequential Data

AI研习社

27+阅读 · 2019年4月13日

R语言自然语言处理：文本向量化——词嵌入（Word Embedding）

R语言自然语言处理：文本向量化——词嵌入（Word Embedding）

R语言中文社区

10+阅读 · 2019年4月6日

【干货】NLP中“词袋”模型和词嵌入模型的比较（附代码）

【干货】NLP中“词袋”模型和词嵌入模型的比较（附代码）

专知

11+阅读 · 2018年8月4日

Word2Vec与Glove：词嵌入方法的动机和直觉

Word2Vec与Glove：词嵌入方法的动机和直觉

论智

14+阅读 · 2018年6月23日

基于位置注意力机制模型和带标签数据来提升槽填充（EMNLP outstanding paper）

基于位置注意力机制模型和带标签数据来提升槽填充（EMNLP outstanding paper）

科技创新与创业

17+阅读 · 2017年11月17日

深度学习 | 利用词嵌入对文本进行情感分析

深度学习 | 利用词嵌入对文本进行情感分析

沈浩老师

11+阅读 · 2017年10月19日

相关论文

Bagging-Based Model Merging for Robust General Text Embeddings

Arxiv

0+阅读 · 2月5日

Weight Space Correlation Analysis: Quantifying Feature Utilization in Deep Learning Models

Arxiv

0+阅读 · 2月4日

Fair-GPTQ: Bias-Aware Quantization for Large Language Models

Arxiv

0+阅读 · 2月2日

Distance-to-Distance Ratio: A Similarity Measure for Sentences Based on Rate of Change in LLM Embeddings

Arxiv

0+阅读 · 1月25日

Information Representation Fairness in Long-Document Embeddings: The Peculiar Interaction of Positional and Language Bias

Arxiv

0+阅读 · 1月23日

FocalOrder: Focal Preference Optimization for Reading Order Detection

Arxiv

0+阅读 · 1月12日

Fusion Matters: Length-Aware Analysis of Positional-Encoding Fusion in Transformers

Arxiv

0+阅读 · 1月9日

Layer-wise Positional Bias in Short-Context Language Modeling

Arxiv

0+阅读 · 1月7日

Quantifying LLM Biases Across Instruction Boundary in Mixed Question Forms

Arxiv

0+阅读 · 1月6日

Detecting Performance Degradation under Data Shift in Pathology Vision-Language Model

Arxiv

0+阅读 · 1月2日

相关基金

面向特征提取的低秩与稀疏图嵌入理论与算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

近似计算中基于概率图模型的软错误量化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

测量误差数据下部分线性模型有约束统计推断理论

国家自然科学基金

2+阅读 · 2015年12月31日

方差正则化的分类模型选择方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向微博数据的位置相关事件检测和时空异常聚类模式挖掘研究

国家自然科学基金

0+阅读 · 2014年12月31日

测量误差数据下约束线性模型的有偏估计及变量选择研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于概率图的文本检索模型及算法研究

国家自然科学基金

2+阅读 · 2014年12月31日

隐写模糊安全性测度及其优化嵌入算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

分形几何中的嵌入问题

国家自然科学基金

0+阅读 · 2014年12月31日

支持软件可信演化的故障定位研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员