Generative models have substantially expanded video generation capabilities, yet practical thought-to-video creation remains a multi-stage, multi-modal, and decision-intensive process. However, existing tools either hide intermediate decisions behind repeated reruns or expose operator-level workflows that make exploration traces difficult to manage, compare, and reuse. We present T2VTree, a user-centered visual analytics approach for agent-assisted thought-to-video authoring. T2VTree represents the authoring process as a tree visualization. Each node in the tree binds an editable specification (intent, referenced inputs, workflow choice, prompts, and parameters) with the resulting multimodal outputs, making refinement, branching, and provenance inspection directly operable. To reduce the burden of deciding what to do next, a set of collaborating agents translates step-level intent into an executable plan that remains visible and user-editable before execution. We further implement a visual analytics system that integrates branching authoring with in-place preview and stitching for convergent assembly, enabling end-to-end multi-scene creation without leaving the authoring context. We demonstrate T2VTreeVA through two multi-scene case studies and a comparative user study, showing how the T2VTree visualization and editable agent planning support reliable refinement, localized comparison, and practical reuse in real authoring workflows. T2VTree is available at: https://github.com/tezuka0210/T2VTree.


翻译:生成模型已显著扩展了视频生成能力,但实际的思维到视频创作仍是一个多阶段、多模态且决策密集的过程。然而,现有工具要么将中间决策隐藏在重复的重新运行背后,要么暴露操作员级别的工作流程,使得探索轨迹难以管理、比较和重用。我们提出了T2VTree,一种面向用户的可视化分析方法,用于智能体辅助的思维到视频创作。T2VTree将创作过程表示为树状可视化结构。树中的每个节点将一个可编辑的规范(意图、参考输入、工作流选择、提示词和参数)与生成的多模态输出绑定,使得细化、分支和溯源检查可直接操作。为减轻决定下一步操作的负担,一组协作智能体将步骤级意图转化为可执行计划,该计划在执行前保持可见且用户可编辑。我们进一步实现了一个可视化分析系统,该系统将分支创作与就地预览及用于收敛组装的拼接功能相结合,从而支持在不离开创作上下文的情况下进行端到端多场景创作。我们通过两个多场景案例研究和一项对比用户研究展示了T2VTreeVA,说明了T2VTree可视化与可编辑智能体规划如何在真实创作工作流中支持可靠的细化、局部化比较和实际重用。T2VTree可在以下网址获取:https://github.com/tezuka0210/T2VTree。

0
下载
关闭预览

相关内容

《可控视频生成:综述》
专知会员服务
17+阅读 · 2025年7月24日
IMAGINE-E:最先进文本到图像模型的图像生成智能评估
专知会员服务
13+阅读 · 2025年2月3日
【CVPR2024】OmniViD: 一个用于通用视频理解的生成框架
专知会员服务
25+阅读 · 2024年3月27日
文本+视觉,多篇 Visual/Video BERT 论文介绍
AI科技评论
22+阅读 · 2019年8月30日
DLI精选课程 | 用TensorRT实现视频分析部署(内文有礼)
英伟达NVIDIA中国
11+阅读 · 2019年4月26日
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员