Cross-Lingual Activation Steering for Multilingual Language Models - 专知论文

会员服务 ·

0

跨语言 · 神经元 · 性能提升 · 语言模型 · 不平衡 ·

Cross-Lingual Activation Steering for Multilingual Language Models

翻译：跨语言激活导向用于多语言语言模型

Rhitabrat Pokharel,Ameeta Agrawal,Tanay Nagar

from arxiv, Under review

Large language models exhibit strong multilingual capabilities, yet significant performance gaps persist between dominant and non-dominant languages. Prior work attributes this gap to imbalances between shared and language-specific neurons in multilingual representations. We propose Cross-Lingual Activation Steering (CLAS), a training-free inference-time intervention that selectively modulates neuron activations. We evaluate CLAS on classification and generation benchmarks, achieving average improvements of 2.3% (Acc.) and 3.4% (F1) respectively, while maintaining high-resource language performance. We discover that effective transfer operates through functional divergence rather than strict alignment; performance gains correlate with increased language cluster separation. Our results demonstrate that targeted activation steering can unlock latent multilingual capacity in existing models without modification to model weights.

翻译：大型语言模型展现出强大的多语言能力，但在主导语言与非主导语言之间仍存在显著的性能差距。先前研究将此差距归因于多语言表征中共享神经元与语言特定神经元之间的不平衡。我们提出跨语言激活导向，一种无需训练、在推理时选择性调节神经元激活的干预方法。我们在分类与生成基准测试上评估了该方法，分别实现了平均2.3%（准确率）与3.4%（F1分数）的性能提升，同时保持了高资源语言的性能。我们发现，有效的跨语言迁移通过功能分化而非严格对齐实现；性能提升与语言簇分离度的增加相关。我们的结果表明，定向的激活导向能够在无需修改模型权重的情况下，释放现有模型中潜在的多语言能力。

0

相关内容

跨语言

赋能大型语言模型多领域资源挑战

赋能大型语言模型多领域资源挑战

专知会员服务

10+阅读 · 2025年6月10日

【阿姆斯特丹博士论文】多语言性与多文化主义：迈向高效和包容的神经语言模型

【阿姆斯特丹博士论文】多语言性与多文化主义：迈向高效和包容的神经语言模型

专知会员服务

10+阅读 · 2025年6月4日

当持续学习遇上多模态大型语言模型：综述

当持续学习遇上多模态大型语言模型：综述

专知会员服务

32+阅读 · 2025年3月5日

《多语言大型语言模型：系统综述》

《多语言大型语言模型：系统综述》

专知会员服务

50+阅读 · 2024年11月21日

多语言大型语言模型：资源、分类和前沿综述

多语言大型语言模型：资源、分类和前沿综述

专知会员服务

53+阅读 · 2024年4月9日

RecInterpreter：架起大语言模型与传统推荐模型的桥梁

RecInterpreter：架起大语言模型与传统推荐模型的桥梁

专知会员服务

54+阅读 · 2023年11月9日

EMNLP 2021 | 预训练跨语言模型中的大词表构建及使用

EMNLP 2021 | 预训练跨语言模型中的大词表构建及使用

专知会员服务

22+阅读 · 2022年1月5日

【ACL2021】利用自标注的词对齐提升预训练跨语言语言模型

专知会员服务

17+阅读 · 2021年8月13日

【ACL2020-Facebook AI】跨语言表示学习，Unsupervised Cross-lingual Representation Learning at Scale

【ACL2020-Facebook AI】跨语言表示学习，Unsupervised Cross-lingual Representation Learning at Scale

专知会员服务

27+阅读 · 2020年4月5日

【NLP模型的跨语言/跨领域迁移】《Transferring NLP models across languages and domains》

【NLP模型的跨语言/跨领域迁移】《Transferring NLP models across languages and domains》

专知会员服务

43+阅读 · 2019年11月25日

NLP如何用元学习？李宏毅老师NAACL2022最新《元学习自然语言处理》综述论文阐述最新研究进展

NLP如何用元学习？李宏毅老师NAACL2022最新《元学习自然语言处理》综述论文阐述最新研究进展

专知

25+阅读 · 2022年5月4日

多模态视觉语言表征学习研究综述

多模态视觉语言表征学习研究综述

专知

27+阅读 · 2020年12月3日

大规模跨领域中文任务导向多轮对话数据集及模型CrossWOZ

大规模跨领域中文任务导向多轮对话数据集及模型CrossWOZ

AINLP

10+阅读 · 2020年4月16日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

绝对干货！NLP预训练模型：从transformer到albert

绝对干货！NLP预训练模型：从transformer到albert

新智元

13+阅读 · 2019年11月10日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

NLP通用模型诞生？一个模型搞定十大自然语言常见任务

NLP通用模型诞生？一个模型搞定十大自然语言常见任务

人工智能头条

10+阅读 · 2018年6月29日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

基于反馈型级联连接模型的多模态语义SFM方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于人脸表情、身体姿态和语音的多模态情感识别方法研究

国家自然科学基金

10+阅读 · 2015年12月31日

基于形态和多词的有限语料蒙汉互译调序优化方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

基于神经网络的跨语言实体链指研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于视觉差异特征的跨域图像匹配方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向异构数据库的查询语言设计及其基础理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

Steer2Edit: From Activation Steering to Component-Level Editing

Arxiv

0+阅读 · 2月10日

Tracing Multilingual Representations in LLMs with Cross-Layer Transcoders

Arxiv

0+阅读 · 2月9日

Luth: Efficient French Specialization for Small Language Models and Cross-Lingual Transfer

Arxiv

0+阅读 · 2月9日

The Roots of Performance Disparity in Multilingual Language Models: Intrinsic Modeling Difficulty or Design Choices?

Arxiv

0+阅读 · 2月7日

Language Steering for Multilingual In-Context Learning

Arxiv

0+阅读 · 2月2日

MLLMEraser: Achieving Test-Time Unlearning in Multimodal Large Language Models through Activation Steering

Arxiv

0+阅读 · 2月2日

Language Models as Artificial Learners: Investigating Crosslinguistic Influence

Arxiv

0+阅读 · 1月29日

The Role of Mixed-Language Documents for Multilingual Large Language Model Pretraining

Arxiv

0+阅读 · 1月23日

What Gets Activated: Uncovering Domain and Driver Experts in MoE Language Models

Arxiv

0+阅读 · 1月20日

Multilinguality as Sense Adaptation

Arxiv

0+阅读 · 1月15日

VIP会员

文章信息

相关主题

最新内容

非对称优势：美海军开发低成本反无人机技术

非对称优势：美海军开发低成本反无人机技术

专知会员服务

1+阅读 · 今天4:39

《反无人机技术领域的技术发展综述：C-UAS探测、跟踪与识别技术》80页报告

《反无人机技术领域的技术发展综述：C-UAS探测、跟踪与识别技术》80页报告

专知会员服务

4+阅读 · 今天2:52

《美战争部小企业创新研究（SBIR）计划》

《美战争部小企业创新研究（SBIR）计划》

专知会员服务

3+阅读 · 今天2:48

《军事模拟：将军事条令与目标融入AI智能体》

《军事模拟：将军事条令与目标融入AI智能体》

专知会员服务

5+阅读 · 今天2:43

【NTU博士论文】3D人体动作生成

【NTU博士论文】3D人体动作生成

专知会员服务

5+阅读 · 4月24日

DeepSeek-V4：百万 Token 上下文背后，大模型正在进入“长程智能”时代（附中英文pdf版）

DeepSeek-V4：百万 Token 上下文背后，大模型正在进入“长程智能”时代（附中英文pdf版）

专知会员服务

5+阅读 · 4月24日

以色列军事技术对美国军力发展的持续性赋能

以色列军事技术对美国军力发展的持续性赋能

专知会员服务

8+阅读 · 4月24日

战场之外的较量：美伊冲突中的认知战与心理博弈

战场之外的较量：美伊冲突中的认知战与心理博弈

专知会员服务

6+阅读 · 4月24日

俄乌战争中乌克兰防空能力演变与见解（中文版）

俄乌战争中乌克兰防空能力演变与见解（中文版）

专知会员服务

5+阅读 · 4月24日

《面向巡飞弹药系统的情境感知深度强化学习自主非线性机动控制》

《面向巡飞弹药系统的情境感知深度强化学习自主非线性机动控制》

专知会员服务

9+阅读 · 4月24日

《深度强化学习在兵棋推演中的应用》40页报告

《深度强化学习在兵棋推演中的应用》40页报告

专知会员服务

12+阅读 · 4月24日

《多域作战面临复杂现实》

《多域作战面临复杂现实》

专知会员服务

9+阅读 · 4月24日

《印度的多域作战：条令与能力发展》报告

《印度的多域作战：条令与能力发展》报告

专知会员服务

4+阅读 · 4月24日

《是“修复情报”还是修复部队？阿富汗反叛乱行动中的美军情报调整》400页

《是“修复情报”还是修复部队？阿富汗反叛乱行动中的美军情报调整》400页

专知会员服务

4+阅读 · 4月24日

美军的算法化军备库：无人机优势计划（DDP）、复制者倡议（Replicator）与联合全域指挥控制（JADC2）如何重写战争规则

美军的算法化军备库：无人机优势计划（DDP）、复制者倡议（Replicator）与联合全域指挥控制（JADC2）如何重写战争规则

专知会员服务

4+阅读 · 4月24日

相关VIP内容

赋能大型语言模型多领域资源挑战

赋能大型语言模型多领域资源挑战

专知会员服务

10+阅读 · 2025年6月10日

【阿姆斯特丹博士论文】多语言性与多文化主义：迈向高效和包容的神经语言模型

【阿姆斯特丹博士论文】多语言性与多文化主义：迈向高效和包容的神经语言模型

专知会员服务

10+阅读 · 2025年6月4日

当持续学习遇上多模态大型语言模型：综述

当持续学习遇上多模态大型语言模型：综述

专知会员服务

32+阅读 · 2025年3月5日

《多语言大型语言模型：系统综述》

《多语言大型语言模型：系统综述》

专知会员服务

50+阅读 · 2024年11月21日

多语言大型语言模型：资源、分类和前沿综述

多语言大型语言模型：资源、分类和前沿综述

专知会员服务

53+阅读 · 2024年4月9日

RecInterpreter：架起大语言模型与传统推荐模型的桥梁

RecInterpreter：架起大语言模型与传统推荐模型的桥梁

专知会员服务

54+阅读 · 2023年11月9日

EMNLP 2021 | 预训练跨语言模型中的大词表构建及使用

EMNLP 2021 | 预训练跨语言模型中的大词表构建及使用

专知会员服务

22+阅读 · 2022年1月5日

【ACL2021】利用自标注的词对齐提升预训练跨语言语言模型

专知会员服务

17+阅读 · 2021年8月13日

【ACL2020-Facebook AI】跨语言表示学习，Unsupervised Cross-lingual Representation Learning at Scale

【ACL2020-Facebook AI】跨语言表示学习，Unsupervised Cross-lingual Representation Learning at Scale

专知会员服务

27+阅读 · 2020年4月5日

【NLP模型的跨语言/跨领域迁移】《Transferring NLP models across languages and domains》

【NLP模型的跨语言/跨领域迁移】《Transferring NLP models across languages and domains》

专知会员服务

43+阅读 · 2019年11月25日

热门VIP内容

开通专知VIP会员享更多权益服务

《反无人机技术领域的技术发展综述：C-UAS探测、跟踪与识别技术》80页报告

《军事模拟：将军事条令与目标融入AI智能体》

非对称优势：美海军开发低成本反无人机技术

《美战争部小企业创新研究（SBIR）计划》

相关资讯

NLP如何用元学习？李宏毅老师NAACL2022最新《元学习自然语言处理》综述论文阐述最新研究进展

NLP如何用元学习？李宏毅老师NAACL2022最新《元学习自然语言处理》综述论文阐述最新研究进展

专知

25+阅读 · 2022年5月4日

多模态视觉语言表征学习研究综述

多模态视觉语言表征学习研究综述

专知

27+阅读 · 2020年12月3日

大规模跨领域中文任务导向多轮对话数据集及模型CrossWOZ

大规模跨领域中文任务导向多轮对话数据集及模型CrossWOZ

AINLP

10+阅读 · 2020年4月16日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

绝对干货！NLP预训练模型：从transformer到albert

绝对干货！NLP预训练模型：从transformer到albert

新智元

13+阅读 · 2019年11月10日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

NLP通用模型诞生？一个模型搞定十大自然语言常见任务

NLP通用模型诞生？一个模型搞定十大自然语言常见任务

人工智能头条

10+阅读 · 2018年6月29日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

相关论文

Steer2Edit: From Activation Steering to Component-Level Editing

Arxiv

0+阅读 · 2月10日

Tracing Multilingual Representations in LLMs with Cross-Layer Transcoders

Arxiv

0+阅读 · 2月9日

Luth: Efficient French Specialization for Small Language Models and Cross-Lingual Transfer

Arxiv

0+阅读 · 2月9日

The Roots of Performance Disparity in Multilingual Language Models: Intrinsic Modeling Difficulty or Design Choices?

Arxiv

0+阅读 · 2月7日

Language Steering for Multilingual In-Context Learning

Arxiv

0+阅读 · 2月2日

MLLMEraser: Achieving Test-Time Unlearning in Multimodal Large Language Models through Activation Steering

Arxiv

0+阅读 · 2月2日

Language Models as Artificial Learners: Investigating Crosslinguistic Influence

Arxiv

0+阅读 · 1月29日

The Role of Mixed-Language Documents for Multilingual Large Language Model Pretraining

Arxiv

0+阅读 · 1月23日

What Gets Activated: Uncovering Domain and Driver Experts in MoE Language Models

Arxiv

0+阅读 · 1月20日

Multilinguality as Sense Adaptation

Arxiv

0+阅读 · 1月15日

相关基金

基于反馈型级联连接模型的多模态语义SFM方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于人脸表情、身体姿态和语音的多模态情感识别方法研究

国家自然科学基金

10+阅读 · 2015年12月31日

基于形态和多词的有限语料蒙汉互译调序优化方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

基于神经网络的跨语言实体链指研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于视觉差异特征的跨域图像匹配方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向异构数据库的查询语言设计及其基础理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员