Following the success of dot-product attention in Transformers, numerous approximations have been recently proposed to address its quadratic complexity with respect to the input length. However, all approximations thus far have ignored the contribution of the $\textit{value vectors}$ to the quality of approximation. In this work, we argue that research efforts should be directed towards approximating the true output of the attention sub-layer, which includes the value vectors. We propose a value-aware objective, and show theoretically and empirically that an optimal approximation of a value-aware objective substantially outperforms an optimal approximation that ignores values, in the context of language modeling. Moreover, we show that the choice of kernel function for computing attention similarity can substantially affect the quality of sparse approximations, where kernel functions that are less skewed are more affected by the value vectors.


翻译:由于在变形器中对点产品的关注取得了成功,最近提出了许多近似值,以解决其投入长度的二次复杂程度。然而,到目前为止,所有近似值都忽略了$\ textit{ value 矢量} 美元对近似质量的贡献。 在这项工作中,我们主张,研究工作的方向应该是接近关注子层的真正产出,包括值矢量。我们提出了一个有价值认知的目标,并从理论上和经验上表明,一个有价值目标的最佳近似值大大超过一个在语言模型中忽略了值的最佳近似值。 此外,我们表明,为计算关注度而选择内核函数会大大影响微弱的近似值的质量,因为低偏差的内核函数会受到价值矢量的影响更大。

1
下载
关闭预览

相关内容

专知会员服务
56+阅读 · 2020年11月17日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
60+阅读 · 2019年10月17日
注意力机制介绍,Attention Mechanism
专知会员服务
172+阅读 · 2019年10月13日
一文读懂Attention机制
机器学习与推荐算法
63+阅读 · 2020年6月9日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
注意力机制(Attention Mechanism)在自然语言处理中的应用
已删除
将门创投
4+阅读 · 2017年11月1日
最佳实践:深度学习用于自然语言处理(三)
待字闺中
3+阅读 · 2017年8月20日
自然语言处理 (三) 之 word embedding
DeepLearning中文论坛
19+阅读 · 2015年8月3日
自然语言处理(二)机器翻译 篇 (NLP: machine translation)
DeepLearning中文论坛
12+阅读 · 2015年7月1日
Bias in Zipf's Law Estimators
Arxiv
0+阅读 · 2021年5月12日
Arxiv
0+阅读 · 2021年5月12日
Arxiv
0+阅读 · 2021年5月11日
Arxiv
0+阅读 · 2021年5月10日
Arxiv
0+阅读 · 2021年2月22日
Arxiv
5+阅读 · 2018年10月4日
VIP会员
最新内容
2025年大语言模型进展报告
专知会员服务
1+阅读 · 今天13:30
多智能体协作机制
专知会员服务
0+阅读 · 今天13:26
非对称优势:美海军开发低成本反无人机技术
专知会员服务
4+阅读 · 今天4:39
《美战争部小企业创新研究(SBIR)计划》
专知会员服务
6+阅读 · 今天2:48
《军事模拟:将军事条令与目标融入AI智能体》
专知会员服务
9+阅读 · 今天2:43
【NTU博士论文】3D人体动作生成
专知会员服务
7+阅读 · 4月24日
以色列军事技术对美国军力发展的持续性赋能
专知会员服务
8+阅读 · 4月24日
《深度强化学习在兵棋推演中的应用》40页报告
专知会员服务
14+阅读 · 4月24日
《多域作战面临复杂现实》
专知会员服务
10+阅读 · 4月24日
《印度的多域作战:条令与能力发展》报告
专知会员服务
5+阅读 · 4月24日
相关资讯
一文读懂Attention机制
机器学习与推荐算法
63+阅读 · 2020年6月9日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
注意力机制(Attention Mechanism)在自然语言处理中的应用
已删除
将门创投
4+阅读 · 2017年11月1日
最佳实践:深度学习用于自然语言处理(三)
待字闺中
3+阅读 · 2017年8月20日
自然语言处理 (三) 之 word embedding
DeepLearning中文论坛
19+阅读 · 2015年8月3日
自然语言处理(二)机器翻译 篇 (NLP: machine translation)
DeepLearning中文论坛
12+阅读 · 2015年7月1日
Top
微信扫码咨询专知VIP会员