成为VIP会员查看完整内容
VIP会员码认证
首页
主题
会员
服务
注册
·
登录
0
小扎下血本!Meta专为元宇宙搞了个AI模型
2022 年 7 月 28 日
新智元
新智元报道
编辑:David Joey
【新智元导读】
专门为元宇宙打造的AI框架,是什么样子的?
人工智能将成为虚拟世界的支柱。
人工智能在元宇宙中可与多种相关技术结合,如计算机视觉、自然语言处理、区块链和数字双胞胎。
2月,扎克伯格在该公司的第一个虚拟活动——Inside The Lab中展示了元宇宙的样子。他说,该公司正在开发一系列新的生成式AI模型,用户只需通过描述就可以生成自己的虚拟现实化身。
扎克伯格宣布了一系列即将推出的项目,例如CAIRaoke项目,一项用于构建设备语音助手的完全端到端的神经模型,可帮助用户更自然地与语音助手进行交流。
同时,Meta正努力构建一个通用语音翻译器,可为所有语言提供直接的语音到语音翻译。
几个月后,Meta兑现了他们的承诺。
然而,Meta并不是唯一一家在游戏中拥有皮肤的科技公司。
英伟达等公司也发布了其自主研发的AI模型以提供更丰富的元宇宙体验。
开源预训练Transformer(OPT-1750亿参数)
GAN verse 3D
GANverse 3D由英伟达AI Research开发,是一种使用深度学习将2D图像处理成3D动画版本的模型,去年的ICLR和CVPR上发表的一篇研究论文中介绍了该工具,它可以用更低的成本更快地生成模拟。
该模型使用StyleGAN可自动从单个图像生成多个视图。该应用程序可以作为NVIDIA Omniverse的扩展导入,以在虚拟世界中准确地渲染3D对象。
英伟达推出的Omniverse可帮助用户在虚拟环境中创建他们最终想法的模拟。
3D模型的制作已成为构建元宇宙的关键因素。耐克和Forever21等零售商已经在元宇宙建立了他们的虚拟商店,以推动电子商务销售。
视觉声学匹配模型(AViTAR)
Meta的现实实验室团队与德克萨斯大学合作,建立了一个人工智能模型,以改善元空间的声音质量。该模型帮助匹配场景中的音频和视频。
它对音频片段进行转换,使其听起来像是在特定环境中录制的。该模型在从随机的在线视频中提取数据后使用了自我监督学习。
理想情况下,用户应该能够在他们的AR眼镜上观看他们最喜欢的记忆,并聆听实际体验中产生的确切声音。
Meta AI发布了AViTAR的开源,同时还发布了其他两个声学模型,考虑到声音是metaverse体验中经常被忽视的部分,这是非常罕见的。
视觉影响的减震(VIDA)
Meta AI发布的第二个声学模型被用来去除声学中的混响。
该模型是在一个大规模的数据集上训练出来的,该数据集有各种来自家庭三维模型的真实音频渲染。
混响不仅降低了音频的质量,使其难以理解,而且还提高了自动语音识别的准确性。
VIDA的独特之处在于,它在使用视觉线索的同时也使用音频方式进行观察。在典型的仅有音频的方法的基础上进行改进,VIDA可以增强语音,并识别语音和说话者。
视觉语音(VisualVoice)
Meta AI发布的第三个声学模型VisualVoice可以从视频中提取语音。
与VIDA一样,VisualVoice也是根据未标记的视频中的视听线索进行训练。
该模型已经自动分离了语音。
这个模型有重要的应用场景,如为听障人士制作技术,增强可穿戴AR设备的声音,从环境嘈杂的在线视频中转录语音等。
Audio2Face
去年,英伟达发布了Omniverse Audio2Face的开放测试版,以生成人工智能驱动的面部动画,以匹配任何配音。
该工具简化了为游戏和视觉效果制作动画的漫长而繁琐的过程。
该应用还允许用户以多种语言发出指令。
今年年初,英伟达发布了该工具的更新,增加了BlendShape Generation等功能,帮助用户从一个中性头像中创建一组blendhapes。此外,还增加了流媒体音频播放器的功能,允许使用文本到语音应用程序的音频数据流。
Audio2Face设置了一个3D人物模型,可以用音轨做动画。然后,音频被送入一个深度神经网络。用户还可以在后期处理中编辑角色,改变角色的表现。
参考资料:
https://analyticsindiamag.com/ai-models-built-for-the-metaverse/
登录查看更多
点赞并收藏
0
暂时没有读者
0
权益说明
本文档仅做收录索引使用,若发现您的权益受到侵害,请立即联系客服(微信: zhuanzhi02,邮箱:bd@zhuanzhi.ai),我们会尽快为您处理
相关内容
构建
关注
0
北约防务学院:元宇宙对安全与情报的影响
专知会员服务
36+阅读 · 2022年7月2日
【ICLR 2022】MIT论文解读:谈到人工智能,我们可以抛弃数据集吗?基于ML创建合成数据,Generative Models As A Data Source For Multiview Representation Learning
专知会员服务
41+阅读 · 2022年3月15日
元宇宙知识 | 如何在元宇宙中应用众多GAN模型???
专知会员服务
35+阅读 · 2022年1月29日
【斯坦福&Facebook】生成式对抗变换器,Generative Adversarial Transformers
专知会员服务
21+阅读 · 2021年4月21日
【论文推荐】小样本视频合成,Few-shot Video-to-Video Synthesis
专知会员服务
24+阅读 · 2019年12月15日
Meta再放大招!VR新模型登CVPR Oral:像人一样「读」懂语音
新智元
0+阅读 · 2022年7月1日
2000多亿市值蒸发后,Meta放出多个AI大招,剑指元宇宙
AI前线
0+阅读 · 2022年2月25日
扎克伯格凌晨放大招!LeCun称世界模型将带来像人一样的AI
THU数据派
0+阅读 · 2022年2月24日
Meta祭出元宇宙「阿拉丁神灯」!LeCun称世界模型将带来像人一样的AI
新智元
0+阅读 · 2022年2月24日
沈腾自比元宇宙DogKing,小扎变身「光头强」!Meta推出3D化身
新智元
0+阅读 · 2022年2月1日
基于内容感知编辑算子的复合型人脸图像真实感绘制
国家自然科学基金
0+阅读 · 2015年12月31日
基于语义分析的三维模型表面属性交互式编辑技术研究
国家自然科学基金
0+阅读 · 2013年12月31日
基于语义分析的三维模型生成技术研究
国家自然科学基金
1+阅读 · 2012年12月31日
儿童从3D媒体中能学得更快更多吗?——三维媒体到现实世界的迁移学习机制
国家自然科学基金
0+阅读 · 2012年12月31日
4D人体活动理解中的稀疏表达、建模与学习
国家自然科学基金
1+阅读 · 2012年12月31日
UnGANable: Defending Against GAN-based Face Manipulation
Arxiv
0+阅读 · 2022年10月3日
META-STORM: Generalized Fully-Adaptive Variance Reduced SGD for Unbounded Functions
Arxiv
0+阅读 · 2022年9月29日
Make-A-Video: Text-to-Video Generation without Text-Video Data
Arxiv
0+阅读 · 2022年9月29日
Domain Generalization in Vision: A Survey
Arxiv
17+阅读 · 2021年7月18日
Embedding-based Retrieval in Facebook Search
Arxiv
12+阅读 · 2020年6月20日
VIP会员
自助开通(推荐)
客服开通
详情
相关主题
构建
语音翻译
语音助手
马克·扎克伯格(Mark Zuckerberg)
英伟达(NVIDIA)
3D
相关VIP内容
北约防务学院:元宇宙对安全与情报的影响
专知会员服务
36+阅读 · 2022年7月2日
【ICLR 2022】MIT论文解读:谈到人工智能,我们可以抛弃数据集吗?基于ML创建合成数据,Generative Models As A Data Source For Multiview Representation Learning
专知会员服务
41+阅读 · 2022年3月15日
元宇宙知识 | 如何在元宇宙中应用众多GAN模型???
专知会员服务
35+阅读 · 2022年1月29日
【斯坦福&Facebook】生成式对抗变换器,Generative Adversarial Transformers
专知会员服务
21+阅读 · 2021年4月21日
【论文推荐】小样本视频合成,Few-shot Video-to-Video Synthesis
专知会员服务
24+阅读 · 2019年12月15日
热门VIP内容
开通专知VIP会员 享更多权益服务
《俄乌战场:俄罗斯“沙希德”-136无人机部署月度分析(2025.12)》
《有人-无人编队作战:美陆军机器人僚机车队》
面向现代战场的特种作战无人机网络
《面向无GPS及复杂环境的鲁棒自主探索导航框架》350页
相关资讯
Meta再放大招!VR新模型登CVPR Oral:像人一样「读」懂语音
新智元
0+阅读 · 2022年7月1日
2000多亿市值蒸发后,Meta放出多个AI大招,剑指元宇宙
AI前线
0+阅读 · 2022年2月25日
扎克伯格凌晨放大招!LeCun称世界模型将带来像人一样的AI
THU数据派
0+阅读 · 2022年2月24日
Meta祭出元宇宙「阿拉丁神灯」!LeCun称世界模型将带来像人一样的AI
新智元
0+阅读 · 2022年2月24日
沈腾自比元宇宙DogKing,小扎变身「光头强」!Meta推出3D化身
新智元
0+阅读 · 2022年2月1日
相关基金
基于内容感知编辑算子的复合型人脸图像真实感绘制
国家自然科学基金
0+阅读 · 2015年12月31日
基于语义分析的三维模型表面属性交互式编辑技术研究
国家自然科学基金
0+阅读 · 2013年12月31日
基于语义分析的三维模型生成技术研究
国家自然科学基金
1+阅读 · 2012年12月31日
儿童从3D媒体中能学得更快更多吗?——三维媒体到现实世界的迁移学习机制
国家自然科学基金
0+阅读 · 2012年12月31日
4D人体活动理解中的稀疏表达、建模与学习
国家自然科学基金
1+阅读 · 2012年12月31日
相关论文
UnGANable: Defending Against GAN-based Face Manipulation
Arxiv
0+阅读 · 2022年10月3日
META-STORM: Generalized Fully-Adaptive Variance Reduced SGD for Unbounded Functions
Arxiv
0+阅读 · 2022年9月29日
Make-A-Video: Text-to-Video Generation without Text-Video Data
Arxiv
0+阅读 · 2022年9月29日
Domain Generalization in Vision: A Survey
Arxiv
17+阅读 · 2021年7月18日
Embedding-based Retrieval in Facebook Search
Arxiv
12+阅读 · 2020年6月20日
大家都在搜
Palantir
分布式事务
最新报告
俄乌战争
MIT博士论文
篮球制作
对抗特征转移
反恐
grid_map
rNPV (风险调整现金流折现法)
Top
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top