From Hype to Insight: Rethinking Large Language Model Integration in Visual Speech Recognition - 专知论文

会员服务 ·

0

解码 · 视觉语音 · 识别 · 语音识别 · 数据集 ·

From Hype to Insight: Rethinking Large Language Model Integration in Visual Speech Recognition

翻译：从炒作到洞见：重新思考大语言模型在视觉语音识别中的整合

Rishabh Jain,Naomi Harte

from arxiv, Accepted for publication in ICASSP 2026

Advances in self-supervised encoders have improved Visual Speech Recognition (VSR). Recent approaches integrating these encoders with LLM decoders improves transcription accuracy; however, it remains unclear whether these gains stem from visual understanding or stronger language modeling. In this work, we systematically evaluate LLM decoders by freezing or selectively updating the visual encoder, scaling decoder size, comparing adaptation strategies and architectures, and varying training data across LRS2, LRS3, and their combination. Evaluation on LRS2, LRS3, and WildVSR shows that scaling and adaptation yield limited improvements, while combining datasets enhances generalization. Semantic analysis reveals that gains arise primarily from lexical rather than semantic processing. Our Llama-2-13B model trained on the combined set achieves 24.7% WER on LRS3 and 47.0% on WildVSR, establishing SOTA among models trained without additional supervision. Our findings indicate LLM decoders refine contextual reasoning rather than visual features, emphasizing the need for stronger visual encoders to drive meaningful progress.

翻译：自监督编码器的进展提升了视觉语音识别（VSR）的性能。近期研究将这些编码器与大语言模型（LLM）解码器相结合，提高了转录准确率；然而，尚不清楚这些增益是源于视觉理解还是更强的语言建模能力。在本工作中，我们通过冻结或选择性更新视觉编码器、扩展解码器规模、比较适应策略与架构，以及在LRS2、LRS3及其组合数据集上调整训练数据，系统评估了LLM解码器。在LRS2、LRS3和WildVSR上的评估表明，规模扩展和适应策略带来的改进有限，而组合数据集能增强泛化能力。语义分析揭示，性能提升主要源于词汇处理而非语义处理。我们在组合数据集上训练的Llama-2-13B模型在LRS3上实现了24.7%的词错误率（WER），在WildVSR上达到47.0%，在无额外监督训练的模型中确立了最先进水平。我们的研究结果表明，LLM解码器主要优化上下文推理而非视觉特征，这强调了需要更强的视觉编码器来推动实质性进展。

0

相关内容

多模态大语言模型的自我改进：综述

多模态大语言模型的自我改进：综述

专知会员服务

28+阅读 · 2025年10月8日

《语音大语言模型》最新进展综述

《语音大语言模型》最新进展综述

专知会员服务

57+阅读 · 2024年10月8日

大模型如何做视频理解？最新《多模态大语言模型在全面长视频理解》综述

大模型如何做视频理解？最新《多模态大语言模型在全面长视频理解》综述

专知会员服务

30+阅读 · 2024年10月2日

《多模态大语言模型视觉提示》综述

《多模态大语言模型视觉提示》综述

专知会员服务

36+阅读 · 2024年9月25日

《多模态大语言模型评估综述》

《多模态大语言模型评估综述》

专知会员服务

41+阅读 · 2024年8月29日

大语言模型增强知识表示学习综述

大语言模型增强知识表示学习综述

专知会员服务

70+阅读 · 2024年7月2日

探索视觉语言模型的前沿：当前方法和未来方向的综述

探索视觉语言模型的前沿：当前方法和未来方向的综述

专知会员服务

49+阅读 · 2024年4月12日

《大型语言模型视频理解》综述

《大型语言模型视频理解》综述

专知会员服务

59+阅读 · 2024年1月2日

大模型怎么用知识？哈工大等最新《知识与大型语言模型整合趋势》综述，详述知识编辑与检索增强方法

大模型怎么用知识？哈工大等最新《知识与大型语言模型整合趋势》综述，详述知识编辑与检索增强方法

专知会员服务

98+阅读 · 2023年11月13日

大模型如何重塑推荐？中科大等最新《面向推荐的大型语言模型》综述，全面阐述LLM4Rec进展

大模型如何重塑推荐？中科大等最新《面向推荐的大型语言模型》综述，全面阐述LLM4Rec进展

专知会员服务

93+阅读 · 2023年6月1日

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

【ICML2020】多视角对比图表示学习，Contrastive Multi-View GRL

【ICML2020】多视角对比图表示学习，Contrastive Multi-View GRL

专知

37+阅读 · 2020年6月11日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

性能超越经典ASR模型！谷歌重磅推出全新语音识别数据增强方法

性能超越经典ASR模型！谷歌重磅推出全新语音识别数据增强方法

AI前线

10+阅读 · 2019年4月28日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

最新《深度神经网络自监督视觉特征学习综述》论文（附24页全文下载）

最新《深度神经网络自监督视觉特征学习综述》论文（附24页全文下载）

专知

36+阅读 · 2019年2月20日

语音识别的前沿论文，看我们推荐的这4篇

语音识别的前沿论文，看我们推荐的这4篇

人工智能前沿讲习班

26+阅读 · 2019年1月14日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

从NLP到CV+NLP: 计算机视觉和自然语言处理结合介绍 | 公开课

从NLP到CV+NLP: 计算机视觉和自然语言处理结合介绍 | 公开课

AI研习社

14+阅读 · 2018年1月28日

基于因子分析的会话语音说话人识别研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于压缩感知理论的图像采样、编码和重建研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向CELP语音压缩域的通用隐写分析方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度学习和马尔科夫逻辑网络的特殊视频识别研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

基于发音特征的汉语语音识别分层解码方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

大数据环境下多媒体网络舆情信息的语义识别与危机响应研究

国家自然科学基金

4+阅读 · 2014年12月31日

智能视频监控中图像超分辨率重建关键技术研究

国家自然科学基金

4+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

Saliency-Aware Multi-Route Thinking: Revisiting Vision-Language Reasoning

Arxiv

0+阅读 · 2月18日

Revisiting Privacy, Utility, and Efficiency Trade-offs when Fine-Tuning Large Language Models

Arxiv

0+阅读 · 2月9日

Challenges and Research Directions for Large Language Model Inference Hardware

Arxiv

0+阅读 · 2月6日

Vision-DeepResearch Benchmark: Rethinking Visual and Textual Search for Multimodal Large Language Models

Arxiv

0+阅读 · 2月2日

Streaming Speech Recognition with Decoder-Only Large Language Models and Latency Optimization

Arxiv

0+阅读 · 1月30日

Rethinking Speech Representation Aggregation in Speech Enhancement: A Phonetic Mutual Information Perspective

Arxiv

0+阅读 · 1月30日

dLLM-ASR: A Faster Diffusion LLM-based Framework for Speech Recognition

Arxiv

0+阅读 · 1月25日

Advances in LLMs with Focus on Reasoning, Adaptability, Efficiency and Ethics

Arxiv

0+阅读 · 1月22日

Omni-AVSR: Towards Unified Multimodal Speech Recognition with Large Language Models

Arxiv

0+阅读 · 1月21日

Challenges and Research Directions for Large Language Model Inference Hardware

Arxiv

0+阅读 · 1月14日

VIP会员

文章信息

相关主题

最新内容

BES：让语言模型通过双向进化搜索自我改进

BES：让语言模型通过双向进化搜索自我改进

专知会员服务

2+阅读 · 5月30日

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

专知会员服务

2+阅读 · 5月30日

以色列-美国-伊朗战争中的无人机：关键要点

以色列-美国-伊朗战争中的无人机：关键要点

专知会员服务

4+阅读 · 5月30日

美以伊战争：首次人工智能战争——军事自主性困境

美以伊战争：首次人工智能战争——军事自主性困境

专知会员服务

4+阅读 · 5月30日

《Palantir任务保障性软件安全标准（MA-S2）》

《Palantir任务保障性软件安全标准（MA-S2）》

专知会员服务

9+阅读 · 5月30日

《美海军利用扩展现实增强知识流动研究》300页报告

《美海军利用扩展现实增强知识流动研究》300页报告

专知会员服务

5+阅读 · 5月30日

基于声学的无人机检测技术综述

基于声学的无人机检测技术综述

专知会员服务

6+阅读 · 5月30日

《当代混合战争分析框架：俄乌战争经验教训》

《当代混合战争分析框架：俄乌战争经验教训》

专知会员服务

6+阅读 · 5月30日

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

专知会员服务

11+阅读 · 5月29日

AutoScientists：自组织智能体团队驱动长期科学实验

AutoScientists：自组织智能体团队驱动长期科学实验

专知会员服务

6+阅读 · 5月29日

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

专知会员服务

6+阅读 · 5月29日

战略前沿人工智能的再思考（中文）

战略前沿人工智能的再思考（中文）

专知会员服务

8+阅读 · 5月29日

《量化地基防空系统间接效应的博弈论方法》

《量化地基防空系统间接效应的博弈论方法》

专知会员服务

6+阅读 · 5月29日

传感器网络：美国如何探测来自伊朗的导弹与无人机

传感器网络：美国如何探测来自伊朗的导弹与无人机

专知会员服务

6+阅读 · 5月29日

《无人机战争中的经济不对称：伊朗“沙赫德-136”对抗以色列“铁穹”防御系统的案例研究》

《无人机战争中的经济不对称：伊朗“沙赫德-136”对抗以色列“铁穹”防御系统的案例研究》

专知会员服务

9+阅读 · 5月29日

相关VIP内容

多模态大语言模型的自我改进：综述

多模态大语言模型的自我改进：综述

专知会员服务

28+阅读 · 2025年10月8日

《语音大语言模型》最新进展综述

《语音大语言模型》最新进展综述

专知会员服务

57+阅读 · 2024年10月8日

大模型如何做视频理解？最新《多模态大语言模型在全面长视频理解》综述

大模型如何做视频理解？最新《多模态大语言模型在全面长视频理解》综述

专知会员服务

30+阅读 · 2024年10月2日

《多模态大语言模型视觉提示》综述

《多模态大语言模型视觉提示》综述

专知会员服务

36+阅读 · 2024年9月25日

《多模态大语言模型评估综述》

《多模态大语言模型评估综述》

专知会员服务

41+阅读 · 2024年8月29日

大语言模型增强知识表示学习综述

大语言模型增强知识表示学习综述

专知会员服务

70+阅读 · 2024年7月2日

探索视觉语言模型的前沿：当前方法和未来方向的综述

探索视觉语言模型的前沿：当前方法和未来方向的综述

专知会员服务

49+阅读 · 2024年4月12日

《大型语言模型视频理解》综述

《大型语言模型视频理解》综述

专知会员服务

59+阅读 · 2024年1月2日

大模型怎么用知识？哈工大等最新《知识与大型语言模型整合趋势》综述，详述知识编辑与检索增强方法

大模型怎么用知识？哈工大等最新《知识与大型语言模型整合趋势》综述，详述知识编辑与检索增强方法

专知会员服务

98+阅读 · 2023年11月13日

大模型如何重塑推荐？中科大等最新《面向推荐的大型语言模型》综述，全面阐述LLM4Rec进展

大模型如何重塑推荐？中科大等最新《面向推荐的大型语言模型》综述，全面阐述LLM4Rec进展

专知会员服务

93+阅读 · 2023年6月1日

热门VIP内容

开通专知VIP会员享更多权益服务

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

美以伊战争：首次人工智能战争——军事自主性困境

BES：让语言模型通过双向进化搜索自我改进

以色列-美国-伊朗战争中的无人机：关键要点

相关资讯

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

【ICML2020】多视角对比图表示学习，Contrastive Multi-View GRL

【ICML2020】多视角对比图表示学习，Contrastive Multi-View GRL

专知

37+阅读 · 2020年6月11日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

性能超越经典ASR模型！谷歌重磅推出全新语音识别数据增强方法

性能超越经典ASR模型！谷歌重磅推出全新语音识别数据增强方法

AI前线

10+阅读 · 2019年4月28日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

最新《深度神经网络自监督视觉特征学习综述》论文（附24页全文下载）

最新《深度神经网络自监督视觉特征学习综述》论文（附24页全文下载）

专知

36+阅读 · 2019年2月20日

语音识别的前沿论文，看我们推荐的这4篇

语音识别的前沿论文，看我们推荐的这4篇

人工智能前沿讲习班

26+阅读 · 2019年1月14日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

从NLP到CV+NLP: 计算机视觉和自然语言处理结合介绍 | 公开课

从NLP到CV+NLP: 计算机视觉和自然语言处理结合介绍 | 公开课

AI研习社

14+阅读 · 2018年1月28日

相关论文

Saliency-Aware Multi-Route Thinking: Revisiting Vision-Language Reasoning

Arxiv

0+阅读 · 2月18日

Revisiting Privacy, Utility, and Efficiency Trade-offs when Fine-Tuning Large Language Models

Arxiv

0+阅读 · 2月9日

Challenges and Research Directions for Large Language Model Inference Hardware

Arxiv

0+阅读 · 2月6日

Vision-DeepResearch Benchmark: Rethinking Visual and Textual Search for Multimodal Large Language Models

Arxiv

0+阅读 · 2月2日

Streaming Speech Recognition with Decoder-Only Large Language Models and Latency Optimization

Arxiv

0+阅读 · 1月30日

Rethinking Speech Representation Aggregation in Speech Enhancement: A Phonetic Mutual Information Perspective

Arxiv

0+阅读 · 1月30日

dLLM-ASR: A Faster Diffusion LLM-based Framework for Speech Recognition

Arxiv

0+阅读 · 1月25日

Advances in LLMs with Focus on Reasoning, Adaptability, Efficiency and Ethics

Arxiv

0+阅读 · 1月22日

Omni-AVSR: Towards Unified Multimodal Speech Recognition with Large Language Models

Arxiv

0+阅读 · 1月21日

Challenges and Research Directions for Large Language Model Inference Hardware

Arxiv

0+阅读 · 1月14日

相关基金

基于因子分析的会话语音说话人识别研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于压缩感知理论的图像采样、编码和重建研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向CELP语音压缩域的通用隐写分析方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度学习和马尔科夫逻辑网络的特殊视频识别研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

基于发音特征的汉语语音识别分层解码方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

大数据环境下多媒体网络舆情信息的语义识别与危机响应研究

国家自然科学基金

4+阅读 · 2014年12月31日

智能视频监控中图像超分辨率重建关键技术研究

国家自然科学基金

4+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员