EngGPT2: Sovereign, Efficient and Open Intelligence - 专知论文

会员服务 ·

0

Qwen3 · 算力 · 语言模型 · Engineering · GROUP ·

EngGPT2: Sovereign, Efficient and Open Intelligence

翻译：EngGPT2：自主、高效与开放的人工智能

G. Ciarfaglia,A. Rosanova,S. Cipolla,J. Bartoli,A. Di Domenico,C. Fioroni,A. Fontana,M. R. Scoleri,M. I. Mone,D. Franchi,M. C. Del Gaudio,F. Picariello,M. Gabusi,S. Bonura,V. Morreale,I. Bailo

EngGPT2-16B-A3B is the latest iteration of Engineering Group's Italian LLM and it's built to be a Sovereign, Efficient and Open model. EngGPT2 is trained on 2.5 trillion tokens - less than Qwen3's 36T or Llama3's 15T - and delivers performance on key benchmarks, including MMLU-Pro, GSM8K, IFEval and HumanEval, comparable to dense models in the 8B-16B range, while requiring one-fifth to half of the inference power, and between one-tenth to one-sixth of the training data and consequent needed training power. Designed as a trained-from-scratch Mixture-of-Experts (MoE) architecture, EngGPT2 features 16 billion parameters with 3 billion active per inference, with expert sizes positioned between those used in GPT-OSS and Qwen3. Approximately 25% of its training corpus consists of Italian-language data, to deliver strong capabilities for European and Italian NLP tasks among models of similar scale. This efficiency aims to position EngGPT2 as a key contributor to the growing portfolio of open-weight European models, combining performance and efficiency with full alignment to the EU AI Act. EngGPT2 is also a single model capable of multiple reasoning modes: non-reasoning, reasoning in Italian or English, and turbo-reasoning (a concise, bullet-point style reasoning available in both languages designed for real-time reasoning use cases). EngGPT2 aims to set a new standard for resource-conscious, high-performance LLMs tailored to European and Italian contexts.

翻译：EngGPT2-16B-A3B是Engineering Group意大利大语言模型的最新迭代版本，旨在构建一个自主、高效且开放的模型。EngGPT2基于2.5万亿token进行训练（少于Qwen3的36万亿和Llama3的15万亿），在MMLU-Pro、GSM8K、IFEval和HumanEval等关键基准测试中展现出与8B-16B参数规模稠密模型相当的性能，同时仅需1/5至1/2的推理算力，以及1/10至1/6的训练数据及相应训练算力。该模型采用从头训练的混合专家架构，拥有160亿参数且每次推理激活30亿参数，其专家模块规模介于GPT-OSS与Qwen3之间。训练语料中约25%为意大利语数据，使其在同等规模模型中具备出色的欧洲及意大利自然语言处理任务能力。这种高效性旨在使EngGPT2成为日益增长的欧洲开放权重模型家族的关键成员，在实现性能与效率平衡的同时完全符合《欧盟人工智能法案》。EngGPT2还具备多模态推理能力：支持非推理模式、意大利语/英语推理模式以及涡轮推理模式（一种适用于实时推理场景的双语简明要点式推理）。该模型致力于为欧洲及意大利语境下的资源节约型高性能大语言模型树立新标杆。

0

相关内容

Qwen3

《人工智能安全治理框架》2.0版发布，90页pdf

《人工智能安全治理框架》2.0版发布，90页pdf

专知会员服务

23+阅读 · 2025年10月8日

Gemini 2.5：推动前沿，具备先进推理、多模态、长上下文及下一代智能体能力

Gemini 2.5：推动前沿，具备先进推理、多模态、长上下文及下一代智能体能力

专知会员服务

20+阅读 · 2025年7月13日

AI Agent下一个热点？复旦最新86页《大型语言模型智能体的崛起与潜力》综述，详述LLM Agent: 大脑、感知和行动

AI Agent下一个热点？复旦最新86页《大型语言模型智能体的崛起与潜力》综述，详述LLM Agent: 大脑、感知和行动

专知会员服务

170+阅读 · 2023年9月15日

官方正式版！哈工大最新93页《ChatGPT调研报告》，系统介绍大模型技术，内测哈工大“活字”对话大模型

官方正式版！哈工大最新93页《ChatGPT调研报告》，系统介绍大模型技术，内测哈工大“活字”对话大模型

专知会员服务

441+阅读 · 2023年5月4日

清华大学唐杰团队ChatGLM-6B，《从千亿模型到ChatGPT的⼀点思考》，67页ppt

清华大学唐杰团队ChatGLM-6B，《从千亿模型到ChatGPT的⼀点思考》，67页ppt

专知会员服务

135+阅读 · 2023年4月15日

图灵奖获得者Yann LeCun：最新《自主人工智能之路》报告，附70页ppt

图灵奖获得者Yann LeCun：最新《自主人工智能之路》报告，附70页ppt

专知会员服务

63+阅读 · 2022年2月26日

tf_geometric — 基于TensorFlow的友好高效的图神经网络（GNN）库

tf_geometric — 基于TensorFlow的友好高效的图神经网络（GNN）库

专知会员服务

26+阅读 · 2021年8月9日

Google-EfficientNet v2来了！更快，更小，更强！

Google-EfficientNet v2来了！更快，更小，更强！

专知会员服务

19+阅读 · 2021年4月4日

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

专知会员服务

71+阅读 · 2020年1月17日

微软发布DialoGPT预训练语言模型，论文与代码 Large-Scale Generative Pre-training for Conversational Response Generation

微软发布DialoGPT预训练语言模型，论文与代码 Large-Scale Generative Pre-training for Conversational Response Generation

专知会员服务

28+阅读 · 2019年11月8日

精通ChatGPT等大模型，掌握最前沿技术，这有份绝佳资源

精通ChatGPT等大模型，掌握最前沿技术，这有份绝佳资源

机器之心

15+阅读 · 2023年4月12日

【JADC2指南】《实现联合全域指挥与控制的JADC2基本指南》11页slides，Splunk公司产品助力JADC2实施

【JADC2指南】《实现联合全域指挥与控制的JADC2基本指南》11页slides，Splunk公司产品助力JADC2实施

专知

23+阅读 · 2022年6月3日

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

专知

19+阅读 · 2020年8月31日

这个项目火了！各种深度学习架构，模型和技巧的集合

这个项目火了！各种深度学习架构，模型和技巧的集合

大数据技术

14+阅读 · 2019年6月13日

谷歌EfficientNet缩放模型，PyTorch实现登热榜

谷歌EfficientNet缩放模型，PyTorch实现登热榜

机器学习算法与Python学习

11+阅读 · 2019年6月4日

Keras作者推荐的Github项目，基于TensorFlow2的生成式模型合集

Keras作者推荐的Github项目，基于TensorFlow2的生成式模型合集

专知

15+阅读 · 2019年5月17日

百度提出ERNIE，多项中文NLP任务表现出色（已开源）

百度提出ERNIE，多项中文NLP任务表现出色（已开源）

AI100

33+阅读 · 2019年3月16日

LeCun推荐：最新PyTorch图神经网络库，速度快15倍（GitHub+论文）

LeCun推荐：最新PyTorch图神经网络库，速度快15倍（GitHub+论文）

新智元

17+阅读 · 2019年3月10日

一文告诉你Adam、AdamW、Amsgrad区别和联系，助你实现Super-convergence的终极目标

一文告诉你Adam、AdamW、Amsgrad区别和联系，助你实现Super-convergence的终极目标

深度学习与NLP

12+阅读 · 2018年7月11日

Word2Vec —— 深度学习的一小步，自然语言处理的一大步

Word2Vec —— 深度学习的一小步，自然语言处理的一大步

AI研习社

21+阅读 · 2018年6月14日

软件定义网络（SDN）环境下基于机器学习的路由预规划研究

国家自然科学基金

6+阅读 · 2015年12月31日

战略构想、知识搜寻与双元导向下企业技术创新能力演进：基于适应性演进和协同视角

国家自然科学基金

2+阅读 · 2015年12月31日

两类保密排序问题的算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

保留时域精细结构的高生物拟真全植入式神经形态人工耳蜗芯片设计

国家自然科学基金

0+阅读 · 2015年12月31日

基于格的高效签名方案的设计与应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

复杂非完整多自主体网络协同算法设计与性能极限分析

国家自然科学基金

1+阅读 · 2015年12月31日

Tie1调控内皮细胞Ang/Tie通路的结构基础及靶向Tie1的多肽设计

国家自然科学基金

0+阅读 · 2015年12月31日

提高移动最小二乘近似无网格方法计算效率的技术和理论

国家自然科学基金

0+阅读 · 2014年12月31日

千万自由度量级并行有限元模态和振动分析软件研发

国家自然科学基金

0+阅读 · 2014年12月31日

领导行为作用下技术二元创新与商业模式匹配机理研究

国家自然科学基金

1+阅读 · 2014年12月31日

LLaDA2.0-Uni: Unifying Multimodal Understanding and Generation with Diffusion Large Language Model

Arxiv

0+阅读 · 4月22日

OmniGen2: Towards Instruction-Aligned Multimodal Generation

Arxiv

0+阅读 · 4月21日

OpenSpatial: A Principled Data Engine for Empowering Spatial Intelligence

Arxiv

0+阅读 · 4月8日

F2LLM-v2: Inclusive, Performant, and Efficient Embeddings for a Multilingual World

Arxiv

0+阅读 · 3月19日

IQuest-Coder-V1 Technical Report

Arxiv

0+阅读 · 3月17日

AeroGen: Agentic Drone Autonomy through Single-Shot Structured Prompting & Drone SDK

Arxiv

0+阅读 · 3月15日

AutoControl Arena: Synthesizing Executable Test Environments for Frontier AI Risk Evaluation

Arxiv

0+阅读 · 3月14日

IronEngine: Towards General AI Assistant

Arxiv

1+阅读 · 3月9日

TildeOpen LLM: Leveraging Curriculum Learning to Achieve Equitable Language Representation

Arxiv

0+阅读 · 3月9日

NL2GDS: LLM-aided interface for Open Source Chip Design

Arxiv

0+阅读 · 3月5日

VIP会员

文章信息

相关主题

最新内容

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

专知会员服务

9+阅读 · 5月29日

AutoScientists：自组织智能体团队驱动长期科学实验

AutoScientists：自组织智能体团队驱动长期科学实验

专知会员服务

4+阅读 · 5月29日

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

专知会员服务

5+阅读 · 5月29日

战略前沿人工智能的再思考（中文）

战略前沿人工智能的再思考（中文）

专知会员服务

5+阅读 · 5月29日

《量化地基防空系统间接效应的博弈论方法》

《量化地基防空系统间接效应的博弈论方法》

专知会员服务

5+阅读 · 5月29日

传感器网络：美国如何探测来自伊朗的导弹与无人机

传感器网络：美国如何探测来自伊朗的导弹与无人机

专知会员服务

5+阅读 · 5月29日

《无人机战争中的经济不对称：伊朗“沙赫德-136”对抗以色列“铁穹”防御系统的案例研究》

《无人机战争中的经济不对称：伊朗“沙赫德-136”对抗以色列“铁穹”防御系统的案例研究》

专知会员服务

7+阅读 · 5月29日

“史诗怒火行动”中美军损失的作战飞机

“史诗怒火行动”中美军损失的作战飞机

专知会员服务

5+阅读 · 5月29日

ICML 2026 | 理解上下文持续学习中的泛化与遗忘

ICML 2026 | 理解上下文持续学习中的泛化与遗忘

专知会员服务

5+阅读 · 5月28日

Agent Harness综述：大模型智能体执行器工程全景

Agent Harness综述：大模型智能体执行器工程全景

专知会员服务

15+阅读 · 5月28日

审视现代战争中的 AI 赋能杀伤链系统及印度防务的战略要务（中文版）

审视现代战争中的 AI 赋能杀伤链系统及印度防务的战略要务（中文版）

专知会员服务

14+阅读 · 5月28日

分布式作战效能：乌克兰如何在战术层面重新定义火力打击、电子战与防空（中文版）

分布式作战效能：乌克兰如何在战术层面重新定义火力打击、电子战与防空（中文版）

专知会员服务

9+阅读 · 5月28日

马赛克防御与分布式指挥：伊朗的回击（中文版）

马赛克防御与分布式指挥：伊朗的回击（中文版）

专知会员服务

10+阅读 · 5月28日

《基于理论的威慑效能评估》

《基于理论的威慑效能评估》

专知会员服务

8+阅读 · 5月28日

《移动旅级战斗队转型中的支援单元指挥控制挑战》

《移动旅级战斗队转型中的支援单元指挥控制挑战》

专知会员服务

15+阅读 · 5月27日

相关VIP内容

《人工智能安全治理框架》2.0版发布，90页pdf

《人工智能安全治理框架》2.0版发布，90页pdf

专知会员服务

23+阅读 · 2025年10月8日

Gemini 2.5：推动前沿，具备先进推理、多模态、长上下文及下一代智能体能力

Gemini 2.5：推动前沿，具备先进推理、多模态、长上下文及下一代智能体能力

专知会员服务

20+阅读 · 2025年7月13日

AI Agent下一个热点？复旦最新86页《大型语言模型智能体的崛起与潜力》综述，详述LLM Agent: 大脑、感知和行动

AI Agent下一个热点？复旦最新86页《大型语言模型智能体的崛起与潜力》综述，详述LLM Agent: 大脑、感知和行动

专知会员服务

170+阅读 · 2023年9月15日

官方正式版！哈工大最新93页《ChatGPT调研报告》，系统介绍大模型技术，内测哈工大“活字”对话大模型

官方正式版！哈工大最新93页《ChatGPT调研报告》，系统介绍大模型技术，内测哈工大“活字”对话大模型

专知会员服务

441+阅读 · 2023年5月4日

清华大学唐杰团队ChatGLM-6B，《从千亿模型到ChatGPT的⼀点思考》，67页ppt

清华大学唐杰团队ChatGLM-6B，《从千亿模型到ChatGPT的⼀点思考》，67页ppt

专知会员服务

135+阅读 · 2023年4月15日

图灵奖获得者Yann LeCun：最新《自主人工智能之路》报告，附70页ppt

图灵奖获得者Yann LeCun：最新《自主人工智能之路》报告，附70页ppt

专知会员服务

63+阅读 · 2022年2月26日

tf_geometric — 基于TensorFlow的友好高效的图神经网络（GNN）库

tf_geometric — 基于TensorFlow的友好高效的图神经网络（GNN）库

专知会员服务

26+阅读 · 2021年8月9日

Google-EfficientNet v2来了！更快，更小，更强！

Google-EfficientNet v2来了！更快，更小，更强！

专知会员服务

19+阅读 · 2021年4月4日

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

Google AI博客解读论文《Reformer: The Efficient Transformer》，百万量级注意力机制

专知会员服务

71+阅读 · 2020年1月17日

微软发布DialoGPT预训练语言模型，论文与代码 Large-Scale Generative Pre-training for Conversational Response Generation

微软发布DialoGPT预训练语言模型，论文与代码 Large-Scale Generative Pre-training for Conversational Response Generation

专知会员服务

28+阅读 · 2019年11月8日

热门VIP内容

开通专知VIP会员享更多权益服务

AutoScientists：自组织智能体团队驱动长期科学实验

战略前沿人工智能的再思考（中文）

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

相关资讯

精通ChatGPT等大模型，掌握最前沿技术，这有份绝佳资源

精通ChatGPT等大模型，掌握最前沿技术，这有份绝佳资源

机器之心

15+阅读 · 2023年4月12日

【JADC2指南】《实现联合全域指挥与控制的JADC2基本指南》11页slides，Splunk公司产品助力JADC2实施

【JADC2指南】《实现联合全域指挥与控制的JADC2基本指南》11页slides，Splunk公司产品助力JADC2实施

专知

23+阅读 · 2022年6月3日

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

字节跳动李航提出AMBERT！超越BERT！多粒度token预训练语言模型

专知

19+阅读 · 2020年8月31日

这个项目火了！各种深度学习架构，模型和技巧的集合

这个项目火了！各种深度学习架构，模型和技巧的集合

大数据技术

14+阅读 · 2019年6月13日

谷歌EfficientNet缩放模型，PyTorch实现登热榜

谷歌EfficientNet缩放模型，PyTorch实现登热榜

机器学习算法与Python学习

11+阅读 · 2019年6月4日

Keras作者推荐的Github项目，基于TensorFlow2的生成式模型合集

Keras作者推荐的Github项目，基于TensorFlow2的生成式模型合集

专知

15+阅读 · 2019年5月17日

百度提出ERNIE，多项中文NLP任务表现出色（已开源）

百度提出ERNIE，多项中文NLP任务表现出色（已开源）

AI100

33+阅读 · 2019年3月16日

LeCun推荐：最新PyTorch图神经网络库，速度快15倍（GitHub+论文）

LeCun推荐：最新PyTorch图神经网络库，速度快15倍（GitHub+论文）

新智元

17+阅读 · 2019年3月10日

一文告诉你Adam、AdamW、Amsgrad区别和联系，助你实现Super-convergence的终极目标

一文告诉你Adam、AdamW、Amsgrad区别和联系，助你实现Super-convergence的终极目标

深度学习与NLP

12+阅读 · 2018年7月11日

Word2Vec —— 深度学习的一小步，自然语言处理的一大步

Word2Vec —— 深度学习的一小步，自然语言处理的一大步

AI研习社

21+阅读 · 2018年6月14日

相关论文

LLaDA2.0-Uni: Unifying Multimodal Understanding and Generation with Diffusion Large Language Model

Arxiv

0+阅读 · 4月22日

OmniGen2: Towards Instruction-Aligned Multimodal Generation

Arxiv

0+阅读 · 4月21日

OpenSpatial: A Principled Data Engine for Empowering Spatial Intelligence

Arxiv

0+阅读 · 4月8日

F2LLM-v2: Inclusive, Performant, and Efficient Embeddings for a Multilingual World

Arxiv

0+阅读 · 3月19日

IQuest-Coder-V1 Technical Report

Arxiv

0+阅读 · 3月17日

AeroGen: Agentic Drone Autonomy through Single-Shot Structured Prompting & Drone SDK

Arxiv

0+阅读 · 3月15日

AutoControl Arena: Synthesizing Executable Test Environments for Frontier AI Risk Evaluation

Arxiv

0+阅读 · 3月14日

IronEngine: Towards General AI Assistant

Arxiv

1+阅读 · 3月9日

TildeOpen LLM: Leveraging Curriculum Learning to Achieve Equitable Language Representation

Arxiv

0+阅读 · 3月9日

NL2GDS: LLM-aided interface for Open Source Chip Design

Arxiv

0+阅读 · 3月5日

相关基金

软件定义网络（SDN）环境下基于机器学习的路由预规划研究

国家自然科学基金

6+阅读 · 2015年12月31日

战略构想、知识搜寻与双元导向下企业技术创新能力演进：基于适应性演进和协同视角

国家自然科学基金

2+阅读 · 2015年12月31日

两类保密排序问题的算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

保留时域精细结构的高生物拟真全植入式神经形态人工耳蜗芯片设计

国家自然科学基金

0+阅读 · 2015年12月31日

基于格的高效签名方案的设计与应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

复杂非完整多自主体网络协同算法设计与性能极限分析

国家自然科学基金

1+阅读 · 2015年12月31日

Tie1调控内皮细胞Ang/Tie通路的结构基础及靶向Tie1的多肽设计

国家自然科学基金

0+阅读 · 2015年12月31日

提高移动最小二乘近似无网格方法计算效率的技术和理论

国家自然科学基金

0+阅读 · 2014年12月31日

千万自由度量级并行有限元模态和振动分析软件研发

国家自然科学基金

0+阅读 · 2014年12月31日

领导行为作用下技术二元创新与商业模式匹配机理研究

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员