The globalization of education and rapid growth of online learning have made localizing educational content a critical challenge. Lecture materials are inherently multimodal, combining spoken audio with visual slides, which requires systems capable of processing multiple input modalities. To provide an accessible and complete learning experience, translations must preserve all modalities: text for reading, slides for visual understanding, and speech for auditory learning. We present \textbf{BOOM}, a multimodal multilingual lecture companion that jointly translates lecture audio and slides to produce synchronized outputs across three modalities: translated text, localized slides with preserved visual elements, and synthesized speech. This end-to-end approach enables students to access lectures in their native language while aiming to preserve the original content in its entirety. Our experiments demonstrate that slide-aware transcripts also yield cascading benefits for downstream tasks such as summarization and question answering. The demo video and code can be found at https://ai4lt.github.io/boom/ \footnote{All released code and models are licensed under the MIT License}.


翻译:教育的全球化与在线学习的迅猛发展使得教育内容本地化成为一项关键挑战。讲座材料本质上是多模态的,结合了语音音频与视觉幻灯片,这要求系统能够处理多种输入模态。为提供无障碍且完整的学习体验,翻译必须保留所有模态:用于阅读的文本、用于视觉理解的幻灯片以及用于听觉学习的语音。我们提出 \textbf{BOOM},一种多模态多语言讲座伴侣,它联合翻译讲座音频与幻灯片,以生成跨三个模态的同步输出:翻译文本、保留视觉元素的本地化幻灯片以及合成语音。这种端到端的方法使学生能够以母语访问讲座,同时力求完整保留原始内容。我们的实验表明,具备幻灯片感知的转录文本还能为摘要生成和问答等下游任务带来级联效益。演示视频和代码可在 https://ai4lt.github.io/boom/ 查看\footnote{所有发布的代码和模型均遵循 MIT 许可证}。

0
下载
关闭预览

相关内容

多模态大型语言模型:综述
专知会员服务
46+阅读 · 2025年6月14日
迈向可解释和可理解的多模态大规模语言模型
专知会员服务
40+阅读 · 2024年12月7日
专知会员服务
68+阅读 · 2021年10月15日
专知会员服务
149+阅读 · 2020年9月6日
专访俞栋:多模态是迈向通用人工智能的重要方向
AI科技评论
26+阅读 · 2019年9月9日
这可能是「多模态机器学习」最通俗易懂的介绍
计算机视觉life
113+阅读 · 2018年12月20日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
《对信息环境分析实现人工智能预测冲突》96页
专知会员服务
3+阅读 · 今天9:59
《面向海军应用的无人机网络安全仿真环境》
专知会员服务
4+阅读 · 今天9:41
无人机与僵局:俄乌战争难以突破
专知会员服务
3+阅读 · 今天9:02
《控制对手感知:电子战愿景与赋能技术》
专知会员服务
5+阅读 · 今天8:51
自主、人工智能与可消耗集群时代的海军情报
专知会员服务
8+阅读 · 4月6日
“史诗狂怒行动”中的海军动态
专知会员服务
10+阅读 · 4月5日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员