We introduce LongCat-Image, a pioneering open-source and bilingual (Chinese-English) foundation model for image generation, designed to address core challenges in multilingual text rendering, photorealism, deployment efficiency, and developer accessibility prevalent in current leading models. 1) We achieve this through rigorous data curation strategies across the pre-training, mid-training, and SFT stages, complemented by the coordinated use of curated reward models during the RL phase. This strategy establishes the model as a new state-of-the-art (SOTA), delivering superior text-rendering capabilities and remarkable photorealism, and significantly enhancing aesthetic quality. 2) Notably, it sets a new industry standard for Chinese character rendering. By supporting even complex and rare characters, it outperforms both major open-source and commercial solutions in coverage, while also achieving superior accuracy. 3) The model achieves remarkable efficiency through its compact design. With a core diffusion model of only 6B parameters, it is significantly smaller than the nearly 20B or larger Mixture-of-Experts (MoE) architectures common in the field. This ensures minimal VRAM usage and rapid inference, significantly reducing deployment costs. Beyond generation, LongCat-Image also excels in image editing, achieving SOTA results on standard benchmarks with superior editing consistency compared to other open-source works. 4) To fully empower the community, we have established the most comprehensive open-source ecosystem to date. We are releasing not only multiple model versions for text-to-image and image editing, including checkpoints after mid-training and post-training stages, but also the entire toolchain of training procedure. We believe that the openness of LongCat-Image will provide robust support for developers and researchers, pushing the frontiers of visual content creation.


翻译:我们推出LongCat-Image,这是一个开创性的开源双语(中文-英文)图像生成基础模型,旨在解决当前主流模型在多语言文本渲染、照片级真实感、部署效率和开发者可访问性方面的核心挑战。1)我们通过在预训练、中期训练和SFT阶段实施严格的数据筛选策略,并在强化学习阶段协调使用精选的奖励模型来实现这一目标。该策略使模型成为新的最先进(SOTA)技术,提供卓越的文本渲染能力和出色的照片级真实感,并显著提升了美学质量。2)值得注意的是,该模型为汉字渲染设定了新的行业标准。通过支持甚至复杂和罕见的字符,它在覆盖范围上超越了主要的开源和商业解决方案,同时实现了更高的准确性。3)该模型通过紧凑设计实现了显著的效率。其核心扩散模型仅包含60亿参数,远小于该领域常见的近200亿或更大规模的专家混合(MoE)架构。这确保了最小的显存使用和快速推理,显著降低了部署成本。除了生成功能,LongCat-Image在图像编辑方面也表现出色,在标准基准测试中取得了SOTA结果,与其他开源作品相比具有更优的编辑一致性。4)为了全面赋能社区,我们建立了迄今为止最全面的开源生态系统。我们不仅发布了用于文本到图像和图像编辑的多个模型版本(包括中期训练和后训练阶段的检查点),还公开了整个训练流程的工具链。我们相信LongCat-Image的开放性将为开发者和研究人员提供有力支持,推动视觉内容创作的前沿发展。

0
下载
关闭预览

相关内容

OpenAI GPT 4.5 报告 (中英文版)
专知会员服务
40+阅读 · 2025年3月1日
DeepSeek模型综述:V1 V2 V3 R1-Zero
专知会员服务
116+阅读 · 2025年2月11日
【ICML2024】量化稳定扩散中的原创性
专知会员服务
17+阅读 · 2024年8月18日
【ICML2023】面向决策Transformer的未来条件无监督预训练
专知会员服务
44+阅读 · 2023年5月30日
【NAACL2022】信息提取前沿
专知会员服务
59+阅读 · 2022年7月11日
【Tutorial】计算机视觉中的Transformer,98页ppt
专知
21+阅读 · 2021年10月25日
Pytorch多模态框架MMF
专知
50+阅读 · 2020年6月20日
【论文笔记】Graph U-Nets
专知
81+阅读 · 2019年11月25日
PointNet系列论文解读
人工智能前沿讲习班
17+阅读 · 2019年5月3日
iOS如何区分App和SDK内部crash
CocoaChina
11+阅读 · 2019年4月17日
Auto-Keras与AutoML:入门指南
云栖社区
18+阅读 · 2019年2月9日
GAN | GAN介绍(2)
中国科学院网络数据重点实验室
44+阅读 · 2017年8月4日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
18+阅读 · 2024年12月27日
Arxiv
175+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
499+阅读 · 2023年3月31日
Arxiv
83+阅读 · 2023年3月26日
Arxiv
181+阅读 · 2023年3月24日
Arxiv
27+阅读 · 2023年3月17日
VIP会员
相关VIP内容
相关资讯
【Tutorial】计算机视觉中的Transformer,98页ppt
专知
21+阅读 · 2021年10月25日
Pytorch多模态框架MMF
专知
50+阅读 · 2020年6月20日
【论文笔记】Graph U-Nets
专知
81+阅读 · 2019年11月25日
PointNet系列论文解读
人工智能前沿讲习班
17+阅读 · 2019年5月3日
iOS如何区分App和SDK内部crash
CocoaChina
11+阅读 · 2019年4月17日
Auto-Keras与AutoML:入门指南
云栖社区
18+阅读 · 2019年2月9日
GAN | GAN介绍(2)
中国科学院网络数据重点实验室
44+阅读 · 2017年8月4日
相关论文
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员