自我改进的多语言长推理：基于翻译-推理集成训练 (Self-Improving Multilingual Long Reasoning via Translation-Reasoning Integrated Training) - 专知论文

会员服务 ·

0

集成 · 问题理解 · 数据集 · 准确率 · 协同 ·

Self-Improving Multilingual Long Reasoning via Translation-Reasoning Integrated Training

翻译：自我改进的多语言长推理：基于翻译-推理集成训练

Junxiao Liu,Zhijun Wang,Yixiao Li,Zhejian Lai,Liqian Huang,Xin Huang,Xue Han,Junlan Feng,Shujian Huang

from arxiv, 16 pages, 11 figures

Long reasoning models often struggle in multilingual settings: they tend to reason in English for non-English questions; when constrained to reasoning in the question language, accuracies drop substantially. The struggle is caused by the limited abilities for both multilingual question understanding and multilingual reasoning. To address both problems, we propose TRIT (Translation-Reasoning Integrated Training), a self-improving framework that integrates the training of translation into multilingual reasoning. Without external feedback or additional multilingual data, our method jointly enhances multilingual question understanding and response generation. On MMATH, our method outperforms multiple baselines by an average of 7 percentage points, improving both answer correctness and language consistency. Further analysis reveals that integrating translation training improves cross-lingual question alignment by over 10 percentage points and enhances translation quality for both mathematical questions and general-domain text, with gains up to 8.4 COMET points on FLORES-200.

翻译：长推理模型在多语言环境下常面临困难：它们倾向于用英语推理非英语问题；当被限制使用问题语言进行推理时，准确率会大幅下降。这种困境源于多语言问题理解与多语言推理能力的双重局限。为同时解决这两个问题，我们提出TRIT（翻译-推理集成训练）——一种将翻译训练融入多语言推理的自我改进框架。该方法无需外部反馈或额外多语言数据，即可协同增强多语言问题理解与响应生成能力。在MMATH数据集上，我们的方法以平均7个百分点的优势超越多个基线模型，同时提升了答案正确性与语言一致性。进一步分析表明，集成翻译训练使跨语言问题对齐度提升超过10个百分点，并显著改善了数学问题及通用领域文本的翻译质量——在FLORES-200数据集上获得最高8.4个COMET分数的提升。

0

相关内容

从感知到推理：深度思考赋能多模态大语言模型

从感知到推理：深度思考赋能多模态大语言模型

专知会员服务

24+阅读 · 2025年11月19日

面向大型语言模型推理的可信研究综述

面向大型语言模型推理的可信研究综述

专知会员服务

22+阅读 · 2025年9月6日

强化多模态大语言模型：基于强化学习的推理综述

强化多模态大语言模型：基于强化学习的推理综述

专知会员服务

35+阅读 · 2025年5月3日

大型语言模型推理前沿综述：推理扩展、学习推理与自主智能系统

大型语言模型推理前沿综述：推理扩展、学习推理与自主智能系统

专知会员服务

37+阅读 · 2025年4月7日

迈向推理时代：大型语言模型的长链推理研究综述

迈向推理时代：大型语言模型的长链推理研究综述

专知会员服务

46+阅读 · 2025年3月13日

通过逻辑推理赋能大语言模型：综述

通过逻辑推理赋能大语言模型：综述

专知会员服务

32+阅读 · 2025年2月24日

如何提升大模型通用推理能力？DeepSeek最新论文《CODEI/O：通过代码输入输出预测凝练推理模式》

如何提升大模型通用推理能力？DeepSeek最新论文《CODEI/O：通过代码输入输出预测凝练推理模式》

专知会员服务

42+阅读 · 2025年2月16日

增强大模型智能：数学推理能力的提升策略与实践

增强大模型智能：数学推理能力的提升策略与实践

专知会员服务

25+阅读 · 2024年8月25日

【CMU博士论文】使用结构化推理增强语言模型，320页pdf

【CMU博士论文】使用结构化推理增强语言模型，320页pdf

专知会员服务

34+阅读 · 2024年6月29日

ChatGPT背后“推理”如何做？浙大等最新《基于语言模型提示的推理》综述，阐述大模型提示推理机制与方法体系

ChatGPT背后“推理”如何做？浙大等最新《基于语言模型提示的推理》综述，阐述大模型提示推理机制与方法体系

专知会员服务

112+阅读 · 2023年5月6日

「知识增强预训练语言模型」最新研究综述

「知识增强预训练语言模型」最新研究综述

专知

18+阅读 · 2022年11月18日

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

专知

29+阅读 · 2021年1月25日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

机器推理系列文章概览：七大NLP任务最新方法与进展

机器推理系列文章概览：七大NLP任务最新方法与进展

AI100

12+阅读 · 2019年9月15日

长文本表示学习概述

长文本表示学习概述

云栖社区

15+阅读 · 2019年5月9日

自然语言处理常识推理综述论文，60页pdf

自然语言处理常识推理综述论文，60页pdf

专知

73+阅读 · 2019年4月4日

理解人类推理的深度学习

理解人类推理的深度学习

论智

19+阅读 · 2018年11月7日

【CVPR2018】如何增强Attention Model的推理能力

【CVPR2018】如何增强Attention Model的推理能力

专知

15+阅读 · 2018年7月2日

【论文推荐】最新5篇自动问答相关论文——多关系自动问答、知识图谱联合实体和关系、生物医学问题、维基百科语料数据、多句式旅游推荐

【论文推荐】最新5篇自动问答相关论文——多关系自动问答、知识图谱联合实体和关系、生物医学问题、维基百科语料数据、多句式旅游推荐

专知

23+阅读 · 2018年1月17日

关系推理：基于表示学习和语义要素

关系推理：基于表示学习和语义要素

计算机研究与发展

19+阅读 · 2017年8月22日

逻辑等价算子在不确定性推理中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于格值逻辑的语言真值α-群锁语义归结自动推理研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于复杂语义的个性化图像集摘要研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于形态和多词的有限语料蒙汉互译调序优化方法

国家自然科学基金

0+阅读 · 2015年12月31日

面向事件分析的信息意图检测、建模与群体意图推理技术研究

国家自然科学基金

12+阅读 · 2014年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

基于潜在语义对偶空间的新词翻译自动识别方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

Training Large Reasoning Models Efficiently via Progressive Thought Encoding

Arxiv

0+阅读 · 2月18日

NPG-Muse: Scaling Long Chain-of-Thought Reasoning with NP-Hard Graph Problems

Arxiv

0+阅读 · 2月17日

LongR: Unleashing Long-Context Reasoning via Reinforcement Learning with Dense Utility Rewards

Arxiv

0+阅读 · 2月5日

Asynchronous Reasoning: Training-Free Interactive Thinking LLMs

Arxiv

0+阅读 · 2月4日

Evolving from Tool User to Creator via Training-Free Experience Reuse in Multimodal Reasoning

Arxiv

0+阅读 · 2月2日

Taming the Long-Tail: Efficient Reasoning RL Training with Adaptive Drafter

Arxiv

0+阅读 · 1月21日

AStar: Boosting Multimodal Reasoning with Automated Structured Thinking

Arxiv

0+阅读 · 1月21日

Efficient Test-Time Scaling of Multi-Step Reasoning by Probing Internal States of Large Language Models

Arxiv

0+阅读 · 1月14日

Multiplex Thinking: Reasoning via Token-wise Branch-and-Merge

Arxiv

0+阅读 · 1月13日

Pushing on Multilingual Reasoning Models with Language-Mixed Chain-of-Thought

Arxiv

0+阅读 · 1月13日

VIP会员

文章信息

相关主题

相关VIP内容

从感知到推理：深度思考赋能多模态大语言模型

从感知到推理：深度思考赋能多模态大语言模型

专知会员服务

24+阅读 · 2025年11月19日

面向大型语言模型推理的可信研究综述

面向大型语言模型推理的可信研究综述

专知会员服务

22+阅读 · 2025年9月6日

强化多模态大语言模型：基于强化学习的推理综述

强化多模态大语言模型：基于强化学习的推理综述

专知会员服务

35+阅读 · 2025年5月3日

大型语言模型推理前沿综述：推理扩展、学习推理与自主智能系统

大型语言模型推理前沿综述：推理扩展、学习推理与自主智能系统

专知会员服务

37+阅读 · 2025年4月7日

迈向推理时代：大型语言模型的长链推理研究综述

迈向推理时代：大型语言模型的长链推理研究综述

专知会员服务

46+阅读 · 2025年3月13日

通过逻辑推理赋能大语言模型：综述

通过逻辑推理赋能大语言模型：综述

专知会员服务

32+阅读 · 2025年2月24日

如何提升大模型通用推理能力？DeepSeek最新论文《CODEI/O：通过代码输入输出预测凝练推理模式》

如何提升大模型通用推理能力？DeepSeek最新论文《CODEI/O：通过代码输入输出预测凝练推理模式》

专知会员服务

42+阅读 · 2025年2月16日

增强大模型智能：数学推理能力的提升策略与实践

增强大模型智能：数学推理能力的提升策略与实践

专知会员服务

25+阅读 · 2024年8月25日

【CMU博士论文】使用结构化推理增强语言模型，320页pdf

【CMU博士论文】使用结构化推理增强语言模型，320页pdf

专知会员服务

34+阅读 · 2024年6月29日

ChatGPT背后“推理”如何做？浙大等最新《基于语言模型提示的推理》综述，阐述大模型提示推理机制与方法体系

ChatGPT背后“推理”如何做？浙大等最新《基于语言模型提示的推理》综述，阐述大模型提示推理机制与方法体系

专知会员服务

112+阅读 · 2023年5月6日

热门VIP内容

开通专知VIP会员享更多权益服务

《可信人工智能赋能系统的支柱》

《从经典神经网络到不确定性下的拓扑神经网络：军事应用》2026最新40页报告

人工智能赋能边缘与自主系统：美陆军现代化进程聚焦威胁探测与战术边缘情报

《人工智能：对战略与力量的影响》slides

相关资讯

「知识增强预训练语言模型」最新研究综述

「知识增强预训练语言模型」最新研究综述

专知

18+阅读 · 2022年11月18日

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

专知

29+阅读 · 2021年1月25日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

机器推理系列文章概览：七大NLP任务最新方法与进展

机器推理系列文章概览：七大NLP任务最新方法与进展

AI100

12+阅读 · 2019年9月15日

长文本表示学习概述

长文本表示学习概述

云栖社区

15+阅读 · 2019年5月9日

自然语言处理常识推理综述论文，60页pdf

自然语言处理常识推理综述论文，60页pdf

专知

73+阅读 · 2019年4月4日

理解人类推理的深度学习

理解人类推理的深度学习

论智

19+阅读 · 2018年11月7日

【CVPR2018】如何增强Attention Model的推理能力

【CVPR2018】如何增强Attention Model的推理能力

专知

15+阅读 · 2018年7月2日

【论文推荐】最新5篇自动问答相关论文——多关系自动问答、知识图谱联合实体和关系、生物医学问题、维基百科语料数据、多句式旅游推荐

【论文推荐】最新5篇自动问答相关论文——多关系自动问答、知识图谱联合实体和关系、生物医学问题、维基百科语料数据、多句式旅游推荐

专知

23+阅读 · 2018年1月17日

关系推理：基于表示学习和语义要素

关系推理：基于表示学习和语义要素

计算机研究与发展

19+阅读 · 2017年8月22日

相关论文

Training Large Reasoning Models Efficiently via Progressive Thought Encoding

Arxiv

0+阅读 · 2月18日

NPG-Muse: Scaling Long Chain-of-Thought Reasoning with NP-Hard Graph Problems

Arxiv

0+阅读 · 2月17日

LongR: Unleashing Long-Context Reasoning via Reinforcement Learning with Dense Utility Rewards

Arxiv

0+阅读 · 2月5日

Asynchronous Reasoning: Training-Free Interactive Thinking LLMs

Arxiv

0+阅读 · 2月4日

Evolving from Tool User to Creator via Training-Free Experience Reuse in Multimodal Reasoning

Arxiv

0+阅读 · 2月2日

Taming the Long-Tail: Efficient Reasoning RL Training with Adaptive Drafter

Arxiv

0+阅读 · 1月21日

AStar: Boosting Multimodal Reasoning with Automated Structured Thinking

Arxiv

0+阅读 · 1月21日

Efficient Test-Time Scaling of Multi-Step Reasoning by Probing Internal States of Large Language Models

Arxiv

0+阅读 · 1月14日

Multiplex Thinking: Reasoning via Token-wise Branch-and-Merge

Arxiv

0+阅读 · 1月13日

Pushing on Multilingual Reasoning Models with Language-Mixed Chain-of-Thought

Arxiv

0+阅读 · 1月13日

相关基金

逻辑等价算子在不确定性推理中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于格值逻辑的语言真值α-群锁语义归结自动推理研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于复杂语义的个性化图像集摘要研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于形态和多词的有限语料蒙汉互译调序优化方法

国家自然科学基金

0+阅读 · 2015年12月31日

面向事件分析的信息意图检测、建模与群体意图推理技术研究

国家自然科学基金

12+阅读 · 2014年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

基于潜在语义对偶空间的新词翻译自动识别方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员