Nemotron 3 Ultra: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning

NVIDIA, :,Aaron Blakeman,Aaron Thomas,Aastha Jhunjhunwala,Abhibha Gupta,Abhinav Khattar,Adam Rajfer,Adi Renduchintala,Adil Asif,Aditya Vavre,Adriana Flores Miranda,Ahmad Bilal,Aileen Zaman,Ajay Hotchandani,Akanksha Shukla,Akhiad Bercovich,Aleksander Ficek,Alex Gronskiy,Alex Kondratenko,Alex Steiner,Alex Ye,Alexander Bukharin,Alexandre Milesi,Ali Taghibakhshi,Alice Gatti,Alisa Liu,Alok Kumar,Amar Phanishayee,Ameya Sunil Mahabaleshwarkar,Amir Klein,Amit Zuker,Amnon Geifman,Anahita Bhiwandiwalla,Ananth Subramaniam,Andrea Santilli,Andrew Fulks,Andrew McHarg,Andrew Tao,Andrii Skliar,Anjulie Agrusa,Ankur Srivastava,Ankur Verma,Anna Shors,Anna Warno,Antoni-Joan Solergibert I Llaquet,Arham Mehta,Arkadiusz Nowaczynski,Arti Jain,Ashwath Aithal,Ashwin Poojary,Asif Ahamed,Asit Mishra,Asma Kuriparambil Thekkumpate,Atefeh Sohrabizadeh,Avinash Kaur,Avinash Vem,Ayush Dattagupta,Barath Subramaniam Anandan,Bardiya Sadeghi,Ben Lanir,Benedikt Schifferer,Besmira Nushi,Bilal Kartal,Bill Thiede,Bita Darvish Rouhani,Bo Deng,Bob Schatz,Boris Ginsburg,Boxin Wang,Brad Nemire,Brandon Norick,Brian Dang,Brian Westphal,Brian Yu,Brucek Khailany,Bryan Catanzaro,Carlo del Mundo,Caryln Aarish,Chankyu Lee,Chantal Hwang,Charbel Sakr,Charles Wang,Charlie Truong,Chen Cui,Cheng Cheng,Cheng-Ping Hsieh,Chenghao Zhang,Chenhui Deng,Chintan Patel,Chris Alexiuk,Christian Cosgrove,Christian Munley,Christine Harvey,Christopher Parisien,Chunyang Shen,Coco Li,Collin Neale,Cynthia Gao,Cyril Meurillon,Dan Gil,Dan Su,Dan Zhao,Dane Corneil,Daniel Afrimi,Daniel Egert,Daniel Korzekwa,Daniel Lo,Daniel Machlab,Daniel Serebrenik,Daniil Sorokin,Daria Gitman,Daria Levy,Darko Stosic,David Mosallanezhad,David Yu,Davit Karamyan,Deena Donia,Deep Debroy,Deepak Narayanan,Devin O'Kelly,Dheeraj Peri,Dhruv Nathawani, Di, Wu,Dima Rekesh,Divyanshu Kakwani,Donald Plummer,Dong Anh,Dongfeng Yu,Dongfu Jiang,Donnie Kim,Dorrin Poorkay,Duncan Riach,Dusan Stosic,Dustin VanStee,Eavan Meng,Edgar Minasyan,Edward Lin,Eileen Margaret Peters Long,Elad Sarafin,Elad Segal,Elena Lantz,Ellie Evans,Elliott Ning,Eric Chung,Eric Harper,Eric Pham-Hung,Eric Tramel,Eric Yang,Erick Galinkin,Erik Pounds,Erika Goncalves Goncalves,Evan Briones,Evan Wu,Evelina Bakhturina,Evgeny Tsykunov,Ewa Dobrowolska,Faisal Ladhak,Farzan Memarian,Fay Wang,Fei Jia,Felipe Soares,Felipe Vieira Frujeri,Feng Chen,Fengguang Lin,Ferenc Galko,Frank Sun,Frankie Siino,Frida Hou,Gal Hubara Agam,Gal Kaplun,Gantavya Bhatt,Gargi Prasad,Garvit Kulshreshtha,George Armstrong,Gerald Shen,Giulio Borghesi,Gordana Neskovic,Gorkem Batmaz,Grace Lam,Greg Mason,Greg Pauloski,Grigor Nalbandyan,Grzegorz Chlebus,Grzegorz Karch,Guan-Ting Liu,Guoming Zhang,Guyue Huang,Haggai Maron,Haifeng Qian,Haim Elisha,Haoxing Ren,Haran Kumar Shiv Kumar,Haribhau Hud,Harris Nover,Harrison Saturley Hall,Hayate Iso,Helen Ngo,Herbert Hum,Herman Sahota,Hexin Wang,Himanshu Soni,Hovhannes Tamoyan,Hua Li,Huanhuan Chen,Hui Li,Hui Wang,Huy Nguyen,Ian Chiles,Ido Galil,Ido Shahaf,Igor Gitman,Igor Shovkun,Ilya Loshchilov,Ingo Guehring,Itamar Schen,Itay Levy,Itay Neeman,Ivan Moshkov,Izik Golan,Izzy Putterman,Jaemin Choi,Jakub Slowikowski,Jan Kautz,Jane Polak Scowcroft,Jared Casper,Jatin Mitra,Jeffrey Glick,Jenny Chen,Jesse Oliver,Jiacheng Xu,Jiafan Zhu,Jialin Song,Jian Zhang,Jiantao Jiao,Jiaqi Zeng,Jie Lou,Jim King,Jimmy Zhang,Jingquan Wang,Jinhang Choi,Jinju Chu,Joey Conway,Joey Guman,Johan Jatko,Johannes Rausch,John Kamalu,John Roberts,Johnny Greco,Johnny Mensel,Jonah Alben,Jonas Yang,Jonathan Cohen,Jonathan Raiman,Joseph Jennings,Joshua Mabry,Joshua Pierce,Joyjit Daw,Julien Veron Vialard,Junkeun Yi,Jupinder Parmar,Kajal Jain,Kan Zhu,Kari Briski,Katherine Cheung,Katherine Luna,Keith Willowhawk,Keith Wyss,Keshav Santhanam,Kevin Shih,Kezhi Kong,Khanh Nguyen,Khushi Bhardwaj,Kirthi Shankar Sivamani,Konstantinos Krommydas,Krishna C. Puvvada,Krzysztof Pawelec,Kumar Anik,Kyle Keprios,Kylie Day,Lawrence McAfee,Leo Du,Leon Derczynski,Li Ding,Linda Liu,Lingjie Wu,Lior Kadoch,Lizzie Wei,Luis Vega,Luke Robison,Lun Su,Maarten Van Segbroeck,Maciej Jakub Mikulski,Maer Rodrigues de Melo,Magda Sypula,Mahan Fathi,Makesh Narsimhan Sreedhar,Makesh Tarun Chandran,Manoj Kilaru,Maor Ashkenazi,Marc Cuevas,Marc Romeijn,Marcin Chochowski,Mark Cai,Mark Mozolewski,Markus Kliegl,Marta Stepniewska-Dziubinska,Martyna Patelka,Mattei Machczynski,Matvei Novikov,Mauricio Ferrato,Maximilian Golub,Mehrzad Samadi,Melissa Corpuz,Mengru Wang,Mengxi Wu,Meredith Price,Meriem Boubdir,Micah Schaffer,Michael Andersch,Michael Boone,Michael Gschwind,Michael Lightstone,Michael Loh,Michal Bien,Michal Zawalski,Michelle Gill,Miguel Martinez,Mikail Khona,Mike Chrzanowski,Mike Houston,Mingyuan Ma,Minseok Lee,Mohamed Fawzy,Mohammad Dabbah,Mohammad Shoeybi,Mostofa Patwary,Nabin Mulepati,Najeeb Nabwani,Namit Dhameja,Narimane Hennouni,Natalie Hereth,Nathaniel Pinckney,Nave Algarici,Nave Assaf,Netanel Haber,Nicholas Knight,Nick Reamaroon,Nickson Quak,Nidhi Bhatia,Nikhil Desai,Nikolai Ludwig,Nima Tajbakhsh,Ning Xu,Nir Ailon,Nirmal Juluru,Nitin Nitin,Ofri Masad,Oleg Rybakov,Oleksii Hrinchuk,Oleksii Kuchaiev,Olivia Viessmann,Olivier Delalleau,Oluwatobi Olabiyi,Omer Ullman Argov,Omri Puny,Oren Tropp,Pablo Ribalta,Pallab Bhattacharya,Panos Lampropoulos,Parth Mannan,Pasha Shamis,Patrick Legresley,Paul Gibbons,Pavlo Molchanov,Pawel Morkisz,Peter Dykas,Peter Jin,Pierre-Yves Aquilanti,Pinky Xu,Piotr Januszewski,Piotr Laskiewicz,Pooya Jannaty,Prakash Gurumurthy,Pranav Prashant Thombre,Prasoon Varshney,Pritam Gundecha,Przemek Tredak,Puhui Meng,Qiyu Wan,Rabeeh Karimi Mahabadi,Rachel Oberman,Rachit Garg,Radha Sri-Tharan,Rahul Kandu,Rakshit Sanadhya,Ran El-Yaniv,Ran Zilberstein,Rasoul Shafipour,Ray Macalisang,Rayen Tian,Reka Kovacs,Renjie Pi,Rick Izzo,Rima Shahbazyan,Rishabh Garg,Rishi Puri,Rita Fernandes Neves,Ritchie Zhao,Ritika Borkar,Ritu Gala,Riyad Islam,Robert Clark,Robert Hesse,Robert Kirby,Roger Waleffe,Rohit Watve,Roi Koren,Ron Banner,Ruoxi Zhang,Russell J. Hewett,Ryan Prenger,Ryan Stewart,Ryota Egashira,Sadegh Mahdavi,Saee Paliwal,Sagar Singh,Sahil Modi,Salika Dave,Samantha Shinagawa,Samuel Kriman,Sandip Bhaskar,Sangkug Lym,Sanjay Kariyappa,Sanjeev Satheesh,Saran Vikas Murari,Satish Pasumarthi,Saurabh Mishra,Saurav Muralidharan,Scott Hara,Sean Narentharen,Selvaraj Anandaraj,Seonjin Na,Seonmeyong Bak,Seonmyeong Bak,Sepehr Sameni,Seph Mard,Serge Panev,Seth Henneman,Seth Poulos,Shahar Mor,Shantanu Acharya,Shaona Ghosh,Sharath Turuvekere Sreenivas,Sharon Mendelson,Shaun Kotek,Shawn Wang,Shay Aharon,Shaya Gharghabi,Sheng-Chieh Lin,Shi Chen,Shiqing Fan,Shirish Baskaran,Shreya Gopa,Shrimai Prabhumoye,Shubham Pachori,Shubham Toshniwal,Shuoyang Ding,Shwetha Krishnamurthy,Siddharth Singh,Simeng Sun,Sirshak Das,Sivakumar Arayandi Thottakara,Smita Ithape,Somshubra Majumdar,Soumye Singhal,Sri Harsha Singudasu,Sridhar Bhuvanapalli,Srimukh Veccham,Stas Sergienko,Stefania Alborghetti,Stephen Ge,Su Rong,Sugam Dipak Devare,Sukrit Rao,Sumeet Kumar Barua,Sungsoo Ha,Sunny Gai,Suriya Gunasekar,Suseella Panguluri,Suyog Gupta,Sviataslau Hinzburh,Sweta Priyadarshi,Syeda Nahida Akter,Talor Abramovich,Tan Bui,Tanay Varshney,Tatevik Ter-Hovhannisyan,Teodor-Dumitru Ene,Terry Kong,Thanh Do,Tianhe Zhang,Tiffany Moore,Tijmen Blankevoort,Tim Moon,Tiyasa Mitra,Tom Balough,Tomasz Grzegorzek,Tomasz Hliwiak,Tomer Asida,Tomer Bar Natan,Tomer Keren,Tomer Ronen,Tony Salim,Tony Wang,Traian Rebedea,Tugrul Konuk,Twinkle Vashishth,Udi Karpas,Ushnish De,Vahid Noorozi,Venkat Srinivasan,Venmugil Elango,Vibhor Agrawal,Victor Cui,Vijay Korthikanti,Vikas Mehta,Vinay Rao,Virginia Wu,Vitaly Kurin,Vitaly Lavrukhin,Vladimir Anisimov,Vu Pham,Wanli Jiang,Wasi Uddin Ahmad,Wataru Ishihara,Wei Du,Wei Ping,Weiheng Chai,Wenliang Dai,Wesley Helmholz,Will Jennings,Will Zhu,Wojciech Prazuch,Xiaowei Ren,Xiwen Yu,Yan Breek,Yang Chen,Yang Yu,Yangyi Chen,Yaniv Galron,Yashaswi Karnati,Yejin Choi,Yev Meyer,Yi-Fu Wu,Yian Zhang,Ying Lin,Yonatan Geifman,Yonggan Fu,Youngeun Kwon,Yu Yao,Yugi Guvvla,Yuki Huang,Yunsheng Liu,Zach Moshe,Zachary Newell,Zhilin Wang,Zhiyu Li,Zhongbo Zhu,Zhuolin Yang,Zihan Liu,Zijie Yan,Zsolt-Alon Wertheimer

We introduce Nemotron 3 Ultra, a 550 billion total and 55 billion active parameter Mixture-of-Experts Hybrid Mamba-Attention language model. We pre-trained Nemotron 3 Ultra on 20 trillion text tokens, then extended the context length to 1M tokens, and post-trained using Supervised Fine Tuning (SFT), Reinforcement Learning (RL), and Multi-teacher On-Policy Distillation (MOPD). Nemotron 3 Ultra is our most capable model yet, employing multiple key technologies - LatentMoE, Multi Token Prediction (MTP), NVFP4 pre-training, multi-environment RLVR, MOPD, and reasoning budget control. Nemotron 3 Ultra achieves up to ~6x higher inference throughput as compared to state-of-the-art publicly available LLMs while attaining on-par accuracy. The state-of-the-art accuracy, high inference throughput, and 1M token context length make Nemotron 3 Ultra ideal for long-running autonomous agentic tasks. We open-source the base, post-trained, and quantized checkpoints, along with the training data and recipe on HuggingFace.

翻译：我们提出Nemotron 3 Ultra，一种总参数量为5500亿、激活参数量为550亿的混合专家（Mixture-of-Experts）Mamba-注意力机制语言模型。我们在20万亿文本令牌上预训练Nemotron 3 Ultra，随后将上下文长度扩展至100万令牌，并通过监督微调（SFT）、强化学习（RL）和多教师同策略蒸馏（MOPD）进行后训练。Nemotron 3 Ultra是我们能力最强的模型，融合了多项核心技术——LatentMoE、多令牌预测（MTP）、NVFP4预训练、多环境RLVR、MOPD以及推理预算控制。与当前最先进的开源大语言模型相比，Nemotron 3 Ultra在达到同等准确率的同时，推理吞吐量提升高达约6倍。其顶尖的准确率、高推理吞吐量以及100万令牌的上下文长度，使其成为长期自主智能任务的理想选择。我们在HuggingFace上开源了基础模型、后训练模型和量化检查点，以及训练数据和配方。