SVGFusion: A VAE-Diffusion Transformer for Vector Graphic Generation - 专知论文

会员服务 ·

0

向量化 · 变换 · MoDELS · 代码 · 词元分析器 ·

SVGFusion: A VAE-Diffusion Transformer for Vector Graphic Generation

翻译：暂无翻译

Ximing Xing,Juncheng Hu,Ziteng Xue,Jing Zhang,Buyu Li,Sheng Wang,Dong Xu,Qian Yu

from arxiv, project page: https://ximinng.github.io/SVGFusionProject/

Generating high-quality Scalable Vector Graphics (SVGs) from text remains a significant challenge. Existing LLM-based models that generate SVG code as a flat token sequence struggle with poor structural understanding and error accumulation, while optimization-based methods are slow and yield uneditable outputs. To address these limitations, we introduce SVGFusion, a unified framework that adapts the VAE-diffusion architecture to bridge the dual code-visual nature of SVGs. Our model features two core components: a Vector-Pixel Fusion Variational Autoencoder (VP-VAE) that learns a perceptually rich latent space by jointly encoding SVG code and its rendered image, and a Vector Space Diffusion Transformer (VS-DiT) that achieves globally coherent compositions through iterative refinement. Furthermore, this architecture is enhanced by a Rendering Sequence Modeling strategy, which ensures accurate object layering and occlusion. Evaluated on our novel SVGX-Dataset comprising 240k human-designed SVGs, SVGFusion establishes a new state-of-the-art, generating high-quality, editable SVGs that are strictly semantically aligned with the input text.

翻译：暂无翻译

0

相关内容

向量化

NeurIPS 2025｜从层次化掩码的视角统一并增强 Graph Transformer

NeurIPS 2025｜从层次化掩码的视角统一并增强 Graph Transformer

专知会员服务

9+阅读 · 2025年11月13日

【ICML2024】揭示Graph Transformers 中的过全局化问题

【ICML2024】揭示Graph Transformers 中的过全局化问题

专知会员服务

21+阅读 · 2024年5月27日

WSDM 2024| LLMs助力图学习？基于大模型的图数据增强

WSDM 2024| LLMs助力图学习？基于大模型的图数据增强

专知会员服务

27+阅读 · 2023年11月19日

Graph Transformer近期进展

Graph Transformer近期进展

专知会员服务

65+阅读 · 2023年1月5日

【CVPR 2022】利用变分图信息瓶颈改进子图识别，Improving Subgraph Recognition with Variational Graph Information Bottleneck

【CVPR 2022】利用变分图信息瓶颈改进子图识别，Improving Subgraph Recognition with Variational Graph Information Bottleneck

专知会员服务

11+阅读 · 2022年3月12日

【东京大学】图采样，Sampling on Graphs: From Theory to Applications

【东京大学】图采样，Sampling on Graphs: From Theory to Applications

专知会员服务

19+阅读 · 2020年3月10日

【DeepMind】基于变换的大规模数据对抗视频预测，Transformation-based Adversarial Video Prediction on Large-Scale Data

【DeepMind】基于变换的大规模数据对抗视频预测，Transformation-based Adversarial Video Prediction on Large-Scale Data

专知会员服务

17+阅读 · 2020年3月9日

【微软研究院】IMAGEBERT: CROSS-MODAL PRE-TRAINING WITH LARGE-SCALE WEAK-SUPERVISED IMAGE-TEXT DATA

【微软研究院】IMAGEBERT: CROSS-MODAL PRE-TRAINING WITH LARGE-SCALE WEAK-SUPERVISED IMAGE-TEXT DATA

专知会员服务

43+阅读 · 2020年1月28日

【NeurlPS2019论文强烈推荐】vGraph:联合社区检测和节点表示学习的生成模型，vGraph: A Generative Model for Joint Community Detection and Node Representational Learning

【NeurlPS2019论文强烈推荐】vGraph:联合社区检测和节点表示学习的生成模型，vGraph: A Generative Model for Joint Community Detection and Node Representational Learning

专知会员服务

30+阅读 · 2019年12月17日

【图机器学习论文】图摘要方法与应用综述（Graph Summarization Methods and Applications: A Survey）

【图机器学习论文】图摘要方法与应用综述（Graph Summarization Methods and Applications: A Survey）

专知会员服务

42+阅读 · 2019年12月16日

Transformer模型-深度学习自然语言处理，17页ppt

Transformer模型-深度学习自然语言处理，17页ppt

专知

14+阅读 · 2020年8月30日

WWW 2020 开源论文 | 异构图Transformer

WWW 2020 开源论文 | 异构图Transformer

PaperWeekly

13+阅读 · 2020年4月3日

从知识图谱到文本：结合局部和全局图信息生成更高质量的文本

从知识图谱到文本：结合局部和全局图信息生成更高质量的文本

PaperWeekly

21+阅读 · 2020年3月22日

学习一个宫崎骏画风的图像风格转换GAN

学习一个宫崎骏画风的图像风格转换GAN

AI科技评论

18+阅读 · 2020年3月13日

【泡泡图灵智库】VITAMIN-E:极密集特征点的视觉跟踪和建图（CVPR）

【泡泡图灵智库】VITAMIN-E:极密集特征点的视觉跟踪和建图（CVPR）

泡泡机器人SLAM

10+阅读 · 2019年6月14日

disentangled-representation-papers

disentangled-representation-papers

CreateAMind

26+阅读 · 2018年9月12日

洛桑理工：Graph上的深度学习报告（附PPT下载）

洛桑理工：Graph上的深度学习报告（附PPT下载）

专知

24+阅读 · 2018年6月12日

概率图模型体系：HMM、MEMM、CRF

概率图模型体系：HMM、MEMM、CRF

机器学习研究会

30+阅读 · 2018年2月10日

【论文推荐】最新5篇图像分割（Image Segmentation）相关论文—多重假设、超像素分割、自监督、图、生成对抗网络

【论文推荐】最新5篇图像分割（Image Segmentation）相关论文—多重假设、超像素分割、自监督、图、生成对抗网络

专知

27+阅读 · 2018年2月7日

Word2Vec 与 GloVe 技术浅析与对比

Word2Vec 与 GloVe 技术浅析与对比

LibRec智能推荐

25+阅读 · 2017年5月15日

曲面上图像处理的非局部变分模型与算法

国家自然科学基金

0+阅读 · 2017年12月31日

大规模多视角高维图像特征提取

国家自然科学基金

4+阅读 · 2017年12月31日

基于张量的高维多通道图像压缩感知重建理论与算法及其应用

国家自然科学基金

0+阅读 · 2015年12月31日

函数数据变换模型及降维方法的研究

国家自然科学基金

1+阅读 · 2015年12月31日

高维时间序列的降维与建模

国家自然科学基金

23+阅读 · 2015年12月31日

在轨视频图像特征提取与压缩关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

图像复原中非凸稀疏优化问题的快速算法

国家自然科学基金

0+阅读 · 2015年12月31日

基于框架提升变换的多源图像融合研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于超像素稀疏表示的图像超分辨率方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

高维复杂结构数据降维

国家自然科学基金

10+阅读 · 2014年12月31日

Render-in-the-Loop: Vector Graphics Generation via Visual Self-Feedback

Arxiv

0+阅读 · 4月22日

SceneCritic: A Symbolic Evaluator for 3D Indoor Scene Synthesis

Arxiv

0+阅读 · 4月14日

FlexVector: A SpMM Vector Processor with Flexible VRF for GCNs on Varying-Sparsity Graphs

Arxiv

0+阅读 · 4月11日

Structural Evaluation Metrics for SVG Generation via Leave-One-Out Analysis

Arxiv

0+阅读 · 4月9日

VFIG: Vectorizing Complex Figures in SVG with Vision-Language Models

Arxiv

0+阅读 · 3月25日

Image Generation from Contextually-Contradictory Prompts

Arxiv

0+阅读 · 3月23日

Texture Vector-Quantization and Reconstruction Aware Prediction for Generative Super-Resolution

Arxiv

0+阅读 · 3月22日

VesselTok: Tokenizing Vessel-like 3D Biomedical Graph Representations for Reconstruction and Generation

Arxiv

0+阅读 · 3月19日

SVGBuilder: Component-Based Colored SVG Generation with Text-Guided Autoregressive Transformers

Arxiv

0+阅读 · 3月19日

Attributed Graph Clustering via Adaptive Graph Convolution

Arxiv

11+阅读 · 2019年6月4日

VIP会员

文章信息

相关主题

词元分析器

最新内容

DeepSeek 版Claude Code，免费小白安装教程来了！

DeepSeek 版Claude Code，免费小白安装教程来了！

专知会员服务

7+阅读 · 5月5日

【ICML Spotlight 2026】 T²PO: 不确定性引导的探索控制框架，实现稳定多轮Agentic强化学习

【ICML Spotlight 2026】 T²PO: 不确定性引导的探索控制框架，实现稳定多轮Agentic强化学习

专知会员服务

3+阅读 · 5月5日

基础模型驱动的工业智能体：技术成熟度、能力变迁与未竟之挑战

基础模型驱动的工业智能体：技术成熟度、能力变迁与未竟之挑战

专知会员服务

3+阅读 · 5月5日

《机动炮兵的演进与未来：技术进步、历史沿革与炮兵作战前瞻》

《机动炮兵的演进与未来：技术进步、历史沿革与炮兵作战前瞻》

专知会员服务

4+阅读 · 5月5日

《火炮弹药快速效能建模：提升互操作性与技术优势》（报告）

《火炮弹药快速效能建模：提升互操作性与技术优势》（报告）

专知会员服务

5+阅读 · 5月5日

《美空军条令出版物 2-0：情报（2026版）》

《美空军条令出版物 2-0：情报（2026版）》

专知会员服务

12+阅读 · 5月5日

美陆军“飞蝇陷阱5.0”项目将新兴技术交到作战人员手中

美陆军“飞蝇陷阱5.0”项目将新兴技术交到作战人员手中

专知会员服务

4+阅读 · 5月5日

帕兰提尔 Gotham：一个游戏规则改变器

帕兰提尔 Gotham：一个游戏规则改变器

专知会员服务

6+阅读 · 5月5日

【ICML 2026】用测试时训练线性化视觉Transformer：T⁵ 实现 Softmax 注意力到线性复杂度的快速转换

【ICML 2026】用测试时训练线性化视觉Transformer：T⁵ 实现 Softmax 注意力到线性复杂度的快速转换

专知会员服务

2+阅读 · 5月5日

【AAAI 2026】大模型做知识蒸馏：CMM将LLM特征拆解给小模型协同学习

【AAAI 2026】大模型做知识蒸馏：CMM将LLM特征拆解给小模型协同学习

专知会员服务

2+阅读 · 5月5日

【ICML Spotlight 2026 】NonZero：交互引导探索的多智能体蒙特卡洛树搜索

【ICML Spotlight 2026 】NonZero：交互引导探索的多智能体蒙特卡洛树搜索

专知会员服务

8+阅读 · 5月4日

【综述】机器人学习中的世界模型：全面综述

【综述】机器人学习中的世界模型：全面综述

专知会员服务

11+阅读 · 5月4日

伊朗的导弹-无人机行动及其对美国威慑的影响

伊朗的导弹-无人机行动及其对美国威慑的影响

专知会员服务

9+阅读 · 5月4日

《未来战术无人机系统案例研究：量身定制采办策略方法》100页报告

《未来战术无人机系统案例研究：量身定制采办策略方法》100页报告

专知会员服务

9+阅读 · 5月4日

战争贩子：2026年第一季度美国对中东潜在军售激增

战争贩子：2026年第一季度美国对中东潜在军售激增

专知会员服务

7+阅读 · 5月4日

相关VIP内容

NeurIPS 2025｜从层次化掩码的视角统一并增强 Graph Transformer

NeurIPS 2025｜从层次化掩码的视角统一并增强 Graph Transformer

专知会员服务

9+阅读 · 2025年11月13日

【ICML2024】揭示Graph Transformers 中的过全局化问题

【ICML2024】揭示Graph Transformers 中的过全局化问题

专知会员服务

21+阅读 · 2024年5月27日

WSDM 2024| LLMs助力图学习？基于大模型的图数据增强

WSDM 2024| LLMs助力图学习？基于大模型的图数据增强

专知会员服务

27+阅读 · 2023年11月19日

Graph Transformer近期进展

Graph Transformer近期进展

专知会员服务

65+阅读 · 2023年1月5日

【CVPR 2022】利用变分图信息瓶颈改进子图识别，Improving Subgraph Recognition with Variational Graph Information Bottleneck

【CVPR 2022】利用变分图信息瓶颈改进子图识别，Improving Subgraph Recognition with Variational Graph Information Bottleneck

专知会员服务

11+阅读 · 2022年3月12日

【东京大学】图采样，Sampling on Graphs: From Theory to Applications

【东京大学】图采样，Sampling on Graphs: From Theory to Applications

专知会员服务

19+阅读 · 2020年3月10日

【DeepMind】基于变换的大规模数据对抗视频预测，Transformation-based Adversarial Video Prediction on Large-Scale Data

【DeepMind】基于变换的大规模数据对抗视频预测，Transformation-based Adversarial Video Prediction on Large-Scale Data

专知会员服务

17+阅读 · 2020年3月9日

【微软研究院】IMAGEBERT: CROSS-MODAL PRE-TRAINING WITH LARGE-SCALE WEAK-SUPERVISED IMAGE-TEXT DATA

【微软研究院】IMAGEBERT: CROSS-MODAL PRE-TRAINING WITH LARGE-SCALE WEAK-SUPERVISED IMAGE-TEXT DATA

专知会员服务

43+阅读 · 2020年1月28日

【NeurlPS2019论文强烈推荐】vGraph:联合社区检测和节点表示学习的生成模型，vGraph: A Generative Model for Joint Community Detection and Node Representational Learning

【NeurlPS2019论文强烈推荐】vGraph:联合社区检测和节点表示学习的生成模型，vGraph: A Generative Model for Joint Community Detection and Node Representational Learning

专知会员服务

30+阅读 · 2019年12月17日

【图机器学习论文】图摘要方法与应用综述（Graph Summarization Methods and Applications: A Survey）

【图机器学习论文】图摘要方法与应用综述（Graph Summarization Methods and Applications: A Survey）

专知会员服务

42+阅读 · 2019年12月16日

热门VIP内容

开通专知VIP会员享更多权益服务

【ICML Spotlight 2026】 T²PO: 不确定性引导的探索控制框架，实现稳定多轮Agentic强化学习

《机动炮兵的演进与未来：技术进步、历史沿革与炮兵作战前瞻》

DeepSeek 版Claude Code，免费小白安装教程来了！

基础模型驱动的工业智能体：技术成熟度、能力变迁与未竟之挑战

相关资讯

Transformer模型-深度学习自然语言处理，17页ppt

Transformer模型-深度学习自然语言处理，17页ppt

专知

14+阅读 · 2020年8月30日

WWW 2020 开源论文 | 异构图Transformer

WWW 2020 开源论文 | 异构图Transformer

PaperWeekly

13+阅读 · 2020年4月3日

从知识图谱到文本：结合局部和全局图信息生成更高质量的文本

从知识图谱到文本：结合局部和全局图信息生成更高质量的文本

PaperWeekly

21+阅读 · 2020年3月22日

学习一个宫崎骏画风的图像风格转换GAN

学习一个宫崎骏画风的图像风格转换GAN

AI科技评论

18+阅读 · 2020年3月13日

【泡泡图灵智库】VITAMIN-E:极密集特征点的视觉跟踪和建图（CVPR）

【泡泡图灵智库】VITAMIN-E:极密集特征点的视觉跟踪和建图（CVPR）

泡泡机器人SLAM

10+阅读 · 2019年6月14日

disentangled-representation-papers

disentangled-representation-papers

CreateAMind

26+阅读 · 2018年9月12日

洛桑理工：Graph上的深度学习报告（附PPT下载）

洛桑理工：Graph上的深度学习报告（附PPT下载）

专知

24+阅读 · 2018年6月12日

概率图模型体系：HMM、MEMM、CRF

概率图模型体系：HMM、MEMM、CRF

机器学习研究会

30+阅读 · 2018年2月10日

【论文推荐】最新5篇图像分割（Image Segmentation）相关论文—多重假设、超像素分割、自监督、图、生成对抗网络

【论文推荐】最新5篇图像分割（Image Segmentation）相关论文—多重假设、超像素分割、自监督、图、生成对抗网络

专知

27+阅读 · 2018年2月7日

Word2Vec 与 GloVe 技术浅析与对比

Word2Vec 与 GloVe 技术浅析与对比

LibRec智能推荐

25+阅读 · 2017年5月15日

相关论文

Render-in-the-Loop: Vector Graphics Generation via Visual Self-Feedback

Arxiv

0+阅读 · 4月22日

SceneCritic: A Symbolic Evaluator for 3D Indoor Scene Synthesis

Arxiv

0+阅读 · 4月14日

FlexVector: A SpMM Vector Processor with Flexible VRF for GCNs on Varying-Sparsity Graphs

Arxiv

0+阅读 · 4月11日

Structural Evaluation Metrics for SVG Generation via Leave-One-Out Analysis

Arxiv

0+阅读 · 4月9日

VFIG: Vectorizing Complex Figures in SVG with Vision-Language Models

Arxiv

0+阅读 · 3月25日

Image Generation from Contextually-Contradictory Prompts

Arxiv

0+阅读 · 3月23日

Texture Vector-Quantization and Reconstruction Aware Prediction for Generative Super-Resolution

Arxiv

0+阅读 · 3月22日

VesselTok: Tokenizing Vessel-like 3D Biomedical Graph Representations for Reconstruction and Generation

Arxiv

0+阅读 · 3月19日

SVGBuilder: Component-Based Colored SVG Generation with Text-Guided Autoregressive Transformers

Arxiv

0+阅读 · 3月19日

Attributed Graph Clustering via Adaptive Graph Convolution

Arxiv

11+阅读 · 2019年6月4日

相关基金

曲面上图像处理的非局部变分模型与算法

国家自然科学基金

0+阅读 · 2017年12月31日

大规模多视角高维图像特征提取

国家自然科学基金

4+阅读 · 2017年12月31日

基于张量的高维多通道图像压缩感知重建理论与算法及其应用

国家自然科学基金

0+阅读 · 2015年12月31日

函数数据变换模型及降维方法的研究

国家自然科学基金

1+阅读 · 2015年12月31日

高维时间序列的降维与建模

国家自然科学基金

23+阅读 · 2015年12月31日

在轨视频图像特征提取与压缩关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

图像复原中非凸稀疏优化问题的快速算法

国家自然科学基金

0+阅读 · 2015年12月31日

基于框架提升变换的多源图像融合研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于超像素稀疏表示的图像超分辨率方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

高维复杂结构数据降维

国家自然科学基金

10+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员