Human experience in digital environments offers a vast, underexplored resource of authentic, untrimmed interactions that contain rich procedural knowledge. We introduce Demo2Tutorial, a framework that transforms this experience captured via screen recordings and interaction logs into structured, multimodal software tutorials for teaching both humans and agents. Demo2Tutorial first collects human experience via a dedicated recorder, then parses raw experience using a multimodal Action Parser to reconstruct perception, action, and intent. A Step Planner then abstracts these steps into hierarchical task graphs representing goals and steps. Finally, a Tutorial Composer transforms the parsed experience into structured, reusable image-text instructions. We evaluate the tutorial generation quality on a new benchmark derived from official software documentation. We further demonstrate that this distilled representation benefits (i) human learning, by automatically generating multimodal tutorials, and (ii) agent learning, by improving downstream GUI-agent planning and generalization. Experiments show Demo2Tutorial produces high-quality tutorials that surpass human-authored ones and significantly outperform baseline methods, while enabling both faster human task completion and improved GUI agent planning, demonstrating that structured tutorials distilled from human experience can serve as effective knowledge representations for advancing both human learning and agent capabilities. Code and data will be available at https://github.com/showlab/Demo2Tutorial.


翻译:数字环境中的人类经验提供了大量未经开发的真实、未修剪的交互资源,其中蕴含丰富的程序性知识。我们提出了Demo2Tutorial框架,该框架将通过屏幕录制和交互日志捕捉到的这些经验转化为结构化的多模态软件教程,用于同时教导人类和智能体。Demo2Tutorial首先通过专用记录器收集人类经验,然后利用多模态动作解析器解析原始经验以重构感知、动作和意图。步骤规划器随后将这些步骤抽象为表示目标和步骤的分层任务图。最后,教程合成器将解析后的经验转化为结构化的、可复用的图文指令。我们基于官方软件文档构建的新基准评估了教程生成质量。我们进一步证明,这种提炼后的表示对(i)人类学习有益,通过自动生成多模态教程;以及(ii)智能体学习有益,通过改进下游图形用户界面智能体的规划与泛化能力。实验表明,Demo2Tutorial生成的教程质量超越了人工编写的教程,并显著优于基线方法,同时能够加速人类任务完成并改进图形用户界面智能体的规划,从而证明从人类经验中提炼的结构化教程可作为推进人类学习与智能体能力的有效知识表示。代码与数据将发布于 https://github.com/showlab/Demo2Tutorial。

0
下载
关闭预览

相关内容

多模态数字人建模、合成与驱动综述
专知会员服务
30+阅读 · 2024年9月19日
多模态人机交互综述
专知会员服务
150+阅读 · 2022年7月3日
【Paul Liang】多模态深度学习,Multimodal Deep Learning
专知会员服务
186+阅读 · 2022年4月12日
专知会员服务
68+阅读 · 2021年10月15日
多模态深度学习综述,18页pdf
专知
51+阅读 · 2020年3月29日
专访俞栋:多模态是迈向通用人工智能的重要方向
AI科技评论
27+阅读 · 2019年9月9日
这可能是「多模态机器学习」最通俗易懂的介绍
计算机视觉life
113+阅读 · 2018年12月20日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2013年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
7+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
8+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2013年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员