Talking-head avatars are increasingly adopted in educational technology to deliver content with social presence and improved engagement. However, many recent talking-head generation (THG) methods rely on GPU-centric neural rendering, large training sets, or high-capacity diffusion models, which limits deployment in offline or resource-constrained learning environments. A deterministic and CPU-oriented THG framework is described, termed Symbolic Vedic Computation, that converts speech to a time-aligned phoneme stream, maps phonemes to a compact viseme inventory, and produces smooth viseme trajectories through symbolic coarticulation inspired by Vedic sutra Urdhva Tiryakbhyam. A lightweight 2D renderer performs region-of-interest (ROI) warping and mouth compositing with stabilization to support real-time synthesis on commodity CPUs. Experiments report synchronization accuracy, temporal stability, and identity consistency under CPU-only execution, alongside benchmarking against representative CPU-feasible baselines. Results indicate that acceptable lip-sync quality can be achieved while substantially reducing computational load and latency, supporting practical educational avatars on low-end hardware. GitHub: https://vineetkumarrakesh.github.io/vedicthg


翻译:说话头虚拟人日益被教育技术采用,以提供具有社交临场感和更高参与度的内容。然而,许多近期的说话头生成方法依赖于以GPU为中心的神经渲染、大规模训练集或高容量扩散模型,这限制了其在离线或资源受限学习环境中的部署。本文描述了一种确定性的、面向CPU的说话头生成框架,称为符号化吠陀计算。该框架将语音转换为时间对齐的音素流,将音素映射到紧凑的视素库,并通过受吠陀经《Urdhva Tiryakbhyam》启发的符号化协同发音生成平滑的视素轨迹。一个轻量级的2D渲染器执行感兴趣区域扭曲和带稳定化的嘴部合成,以支持在商用CPU上进行实时合成。实验报告了在仅CPU执行下的同步准确性、时间稳定性和身份一致性,并与代表性的CPU可行基线进行了基准测试。结果表明,在显著降低计算负载和延迟的同时,可以实现可接受的唇形同步质量,从而支持在低端硬件上实现实用的教育虚拟人。GitHub:https://vineetkumarrakesh.github.io/vedicthg

0
下载
关闭预览

相关内容

【ICLR2025】VEVO:基于自监督解耦的可控零样本语音模仿
专知会员服务
9+阅读 · 2025年2月15日
【CVPR2023】高保真自由可控的说话头视频生成
专知会员服务
21+阅读 · 2023年4月22日
专知会员服务
16+阅读 · 2021年5月13日
自然语言生成资源列表
专知
17+阅读 · 2020年1月4日
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
相关VIP内容
【ICLR2025】VEVO:基于自监督解耦的可控零样本语音模仿
专知会员服务
9+阅读 · 2025年2月15日
【CVPR2023】高保真自由可控的说话头视频生成
专知会员服务
21+阅读 · 2023年4月22日
专知会员服务
16+阅读 · 2021年5月13日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员