小扎下血本！Meta专为元宇宙搞了个AI模型

会员服务 ·

小扎下血本！Meta专为元宇宙搞了个AI模型

2022 年 7 月 28 日 新智元

新智元报道

编辑：David Joey

【新智元导读】专门为元宇宙打造的AI框架，是什么样子的？

人工智能将成为虚拟世界的支柱。

人工智能在元宇宙中可与多种相关技术结合，如计算机视觉、自然语言处理、区块链和数字双胞胎。

2月，扎克伯格在该公司的第一个虚拟活动——Inside The Lab中展示了元宇宙的样子。他说，该公司正在开发一系列新的生成式AI模型，用户只需通过描述就可以生成自己的虚拟现实化身。

扎克伯格宣布了一系列即将推出的项目，例如CAIRaoke项目，一项用于构建设备语音助手的完全端到端的神经模型，可帮助用户更自然地与语音助手进行交流。

同时，Meta正努力构建一个通用语音翻译器，可为所有语言提供直接的语音到语音翻译。

几个月后，Meta兑现了他们的承诺。

然而，Meta并不是唯一一家在游戏中拥有皮肤的科技公司。

英伟达等公司也发布了其自主研发的AI模型以提供更丰富的元宇宙体验。

开源预训练Transformer（OPT-1750亿参数)

GAN verse 3D

GANverse 3D由英伟达AI Research开发，是一种使用深度学习将2D图像处理成3D动画版本的模型，去年的ICLR和CVPR上发表的一篇研究论文中介绍了该工具，它可以用更低的成本更快地生成模拟。

该模型使用StyleGAN可自动从单个图像生成多个视图。该应用程序可以作为NVIDIA Omniverse的扩展导入，以在虚拟世界中准确地渲染3D对象。

英伟达推出的Omniverse可帮助用户在虚拟环境中创建他们最终想法的模拟。

3D模型的制作已成为构建元宇宙的关键因素。耐克和Forever21等零售商已经在元宇宙建立了他们的虚拟商店，以推动电子商务销售。

视觉声学匹配模型（AViTAR）

Meta的现实实验室团队与德克萨斯大学合作，建立了一个人工智能模型，以改善元空间的声音质量。该模型帮助匹配场景中的音频和视频。

它对音频片段进行转换，使其听起来像是在特定环境中录制的。该模型在从随机的在线视频中提取数据后使用了自我监督学习。

理想情况下，用户应该能够在他们的AR眼镜上观看他们最喜欢的记忆，并聆听实际体验中产生的确切声音。

Meta AI发布了AViTAR的开源，同时还发布了其他两个声学模型，考虑到声音是metaverse体验中经常被忽视的部分，这是非常罕见的。

视觉影响的减震（VIDA）

Meta AI发布的第二个声学模型被用来去除声学中的混响。

该模型是在一个大规模的数据集上训练出来的，该数据集有各种来自家庭三维模型的真实音频渲染。混响不仅降低了音频的质量，使其难以理解，而且还提高了自动语音识别的准确性。

VIDA的独特之处在于，它在使用视觉线索的同时也使用音频方式进行观察。在典型的仅有音频的方法的基础上进行改进，VIDA可以增强语音，并识别语音和说话者。

视觉语音（VisualVoice）

Meta AI发布的第三个声学模型VisualVoice可以从视频中提取语音。与VIDA一样，VisualVoice也是根据未标记的视频中的视听线索进行训练。该模型已经自动分离了语音。

这个模型有重要的应用场景，如为听障人士制作技术，增强可穿戴AR设备的声音，从环境嘈杂的在线视频中转录语音等。

Audio2Face

去年，英伟达发布了Omniverse Audio2Face的开放测试版，以生成人工智能驱动的面部动画，以匹配任何配音。该工具简化了为游戏和视觉效果制作动画的漫长而繁琐的过程。该应用还允许用户以多种语言发出指令。

今年年初，英伟达发布了该工具的更新，增加了BlendShape Generation等功能，帮助用户从一个中性头像中创建一组blendhapes。此外，还增加了流媒体音频播放器的功能，允许使用文本到语音应用程序的音频数据流。

Audio2Face设置了一个3D人物模型，可以用音轨做动画。然后，音频被送入一个深度神经网络。用户还可以在后期处理中编辑角色，改变角色的表现。

参考资料：

https://analyticsindiamag.com/ai-models-built-for-the-metaverse/

登录查看更多

相关内容

构建

关注 0

虚拟人创作更真更快！浪潮信息联手NVIDIA打造元宇宙算力方案

专知会员服务

22+阅读 · 2022年7月25日

斯坦福大学首个Transformers专题讲座视频放出，NLP、CV和RL无所不包

专知会员服务

47+阅读 · 2022年7月12日

北约防务学院：元宇宙对安全与情报的影响

专知会员服务

37+阅读 · 2022年7月2日

AlphaFold教程与最新蛋白质结构预测进展，附视频与Slides

专知会员服务

29+阅读 · 2022年6月16日

【ICLR 2022】MIT论文解读：谈到人工智能，我们可以抛弃数据集吗？基于ML创建合成数据，Generative Models As A Data Source For Multiview Representation Learning

专知会员服务

42+阅读 · 2022年3月15日

【CVPR 2022】paper解读——从头盔信号中解析生成3D姿势，这为AR/VR创造可信虚拟形象迈出了重要一步，FLAG: Flow-based 3D Avatar Generation from Sparse Observations

专知会员服务

19+阅读 · 2022年3月6日

元宇宙知识 | 如何在元宇宙中应用众多GAN模型？？？

专知会员服务

35+阅读 · 2022年1月29日

【斯坦福&Facebook】生成式对抗变换器，Generative Adversarial Transformers

专知会员服务

21+阅读 · 2021年4月21日

新杀器来了！Facebook AI提出DETR：用Transformers来进行端到端的目标检测

专知会员服务

51+阅读 · 2020年5月28日

【论文推荐】小样本视频合成，Few-shot Video-to-Video Synthesis

专知会员服务

24+阅读 · 2019年12月15日

Meta再放大招！VR新模型登CVPR Oral：像人一样「读」懂语音

新智元

0+阅读 · 2022年7月1日

2000多亿市值蒸发后，Meta放出多个AI大招，剑指元宇宙

AI前线

0+阅读 · 2022年2月25日

扎克伯格凌晨放大招！LeCun称世界模型将带来像人一样的AI

THU数据派

0+阅读 · 2022年2月24日

Meta祭出元宇宙「阿拉丁神灯」！LeCun称世界模型将带来像人一样的AI

新智元

0+阅读 · 2022年2月24日

元宇宙不是泡沫

AI前线

0+阅读 · 2022年2月7日

沈腾自比元宇宙DogKing，小扎变身「光头强」！Meta推出3D化身

新智元

0+阅读 · 2022年2月1日

每秒5百亿亿次！Meta祭出元宇宙巨兽，联手英伟达打造全球最强超算

新智元

0+阅读 · 2022年1月25日

元宇宙新地王2740万元刷爆纪录！虚拟炒房一周成交6.37亿，约为100套北京学区房

新智元

0+阅读 · 2021年12月26日

元宇宙中可跨语种交流！Meta 发布新语音模型，支持128种语言无障碍对话

THU数据派

2+阅读 · 2021年11月26日

脸书Meta公开了一款神奇的元宇宙硬件：一个手套

机器之心

1+阅读 · 2021年11月17日

基于内容感知编辑算子的复合型人脸图像真实感绘制

国家自然科学基金

0+阅读 · 2015年12月31日

基于语义分析的三维模型表面属性交互式编辑技术研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于非局部自回归模型的遥感图像高保真抑噪方法研究

国家自然科学基金

1+阅读 · 2013年12月31日

多类型数据驱动的智能形状建模

国家自然科学基金

2+阅读 · 2013年12月31日

基于对象分析的图像/视频内容编辑

国家自然科学基金

2+阅读 · 2012年12月31日

基于语义分析的三维模型生成技术研究

国家自然科学基金

1+阅读 · 2012年12月31日

儿童从3D媒体中能学得更快更多吗？——三维媒体到现实世界的迁移学习机制

国家自然科学基金

0+阅读 · 2012年12月31日

4D人体活动理解中的稀疏表达、建模与学习

国家自然科学基金

1+阅读 · 2012年12月31日

白桦FT及SOC1基因的RNAi研究

国家自然科学基金

0+阅读 · 2009年12月31日

面向动漫游戏的虚拟角色自主情绪模型研究

国家自然科学基金

0+阅读 · 2009年12月31日

UnGANable: Defending Against GAN-based Face Manipulation

Arxiv

0+阅读 · 2022年10月3日

Fine-grained Contrastive Learning for Definition Generation

Arxiv

0+阅读 · 2022年10月2日

A Closer Look at Temporal Ordering in the Segmentation of Instructional Videos

Arxiv

0+阅读 · 2022年9月30日

Equivariant maps from invariant functions

Arxiv

0+阅读 · 2022年9月29日

META-STORM: Generalized Fully-Adaptive Variance Reduced SGD for Unbounded Functions

Arxiv

0+阅读 · 2022年9月29日

Make-A-Video: Text-to-Video Generation without Text-Video Data

Arxiv

0+阅读 · 2022年9月29日

Privacy-Aware Rejection Sampling

Arxiv

0+阅读 · 2022年9月29日

Domain Generalization in Vision: A Survey

Arxiv

17+阅读 · 2021年7月18日

Embedding-based Retrieval in Facebook Search

Arxiv

12+阅读 · 2020年6月20日

Attention-based Group Recommendation

Arxiv

14+阅读 · 2018年4月18日

VIP会员