This position paper argues that text embedding research should move beyond surface meaning and embrace implicit semantics as a central modeling objective. Text embeddings are a foundational component of modern NLP, underpinning a wide range of applications and driving sustained research progress. Despite rapid progress, most embedding models remain narrowly focused on surface-level semantics, whereas linguistic theory emphasizes that much of human meaning is implicit, shaped by pragmatics, speaker intent, and sociocultural context. Current models are typically trained on datasets that lack such depth and evaluated using benchmarks that reward surface similarity. As a result, they struggle with tasks that require interpretive reasoning, stance recognition, or socially grounded understanding. Our pilot study makes this limitation explicit, showing that even state-of-the-art embeddings achieve only marginal improvements over simple lexical baselines on tasks probing implicit semantics. We therefore call for a paradigm shift: embedding research should prioritize linguistically grounded and diverse training data, develop benchmarks that probe deeper semantic understanding, and treat implicit meaning as a core modeling objective to better align embeddings with real-world language complexity. The code is available at http://github.com/dukesun99/Implicit-Embeddings.


翻译:本立场论文主张,文本嵌入研究应超越表层含义,将隐含语义作为核心建模目标。文本嵌入是现代自然语言处理的基础组件,支撑着广泛的应用场景并推动持续的研究进展。尽管发展迅速,多数嵌入模型仍局限于聚焦表层语义,而语言学理论强调人类意义的很大一部分是隐含的,由语用学、说话者意图及社会文化语境塑造。当前模型通常在缺乏这种深度的数据集上训练,并使用奖励表层相似性的基准进行评估。因此,它们在需要解释性推理、立场识别或社会性理解的任务中表现困难。我们的初步研究明确了这一局限性,表明即使是最先进的嵌入模型,在探测隐含语义的任务上,相较于简单的词汇基线也仅能取得边际改进。因此,我们呼吁范式转变:嵌入研究应优先采用语言学依据充分且多样化的训练数据,开发探测更深层语义理解的基准,并将隐含意义作为核心建模目标,以使嵌入更好地适应现实语言的复杂性。代码可在 http://github.com/dukesun99/Implicit-Embeddings 获取。

0
下载
关闭预览

相关内容

自然语言处理中的文本表示研究
专知会员服务
58+阅读 · 2022年1月10日
【Contextual Embedding】什么时候上下文嵌入值得使用?
专知会员服务
16+阅读 · 2020年8月2日
临床自然语言处理中的嵌入综述,SECNLP: A survey of embeddings
基于句子嵌入的无监督文本摘要(附代码实现)
图嵌入(Graph embedding)综述
人工智能前沿讲习班
449+阅读 · 2019年4月30日
强化学习与文本生成
微信AI
41+阅读 · 2019年4月4日
Word2Vec与Glove:词嵌入方法的动机和直觉
论智
14+阅读 · 2018年6月23日
干货|当深度学习遇见自动文本摘要,seq2seq+attention
机器学习算法与Python学习
10+阅读 · 2018年5月28日
胶囊网络(Capsule Network)在文本分类中的探索
PaperWeekly
13+阅读 · 2018年4月5日
深度学习 | 利用词嵌入对文本进行情感分析
沈浩老师
11+阅读 · 2017年10月19日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
VIP会员
最新内容
《通过小型无人机系统将情报能力“作战化”》
消耗优势:美军的“精确规模化”概念
专知会员服务
8+阅读 · 6月15日
《离线语言支持系统:面向空战战术决策》
专知会员服务
10+阅读 · 6月15日
相关VIP内容
自然语言处理中的文本表示研究
专知会员服务
58+阅读 · 2022年1月10日
【Contextual Embedding】什么时候上下文嵌入值得使用?
专知会员服务
16+阅读 · 2020年8月2日
临床自然语言处理中的嵌入综述,SECNLP: A survey of embeddings
相关资讯
基于句子嵌入的无监督文本摘要(附代码实现)
图嵌入(Graph embedding)综述
人工智能前沿讲习班
449+阅读 · 2019年4月30日
强化学习与文本生成
微信AI
41+阅读 · 2019年4月4日
Word2Vec与Glove:词嵌入方法的动机和直觉
论智
14+阅读 · 2018年6月23日
干货|当深度学习遇见自动文本摘要,seq2seq+attention
机器学习算法与Python学习
10+阅读 · 2018年5月28日
胶囊网络(Capsule Network)在文本分类中的探索
PaperWeekly
13+阅读 · 2018年4月5日
深度学习 | 利用词嵌入对文本进行情感分析
沈浩老师
11+阅读 · 2017年10月19日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员