Artificial Rigidities vs. Biological Noise: A Comparative Analysis of Multisensory Integration in AV-HuBERT and Human Observers - 专知论文

会员服务 ·

0

生物 · 噪声 · 分析 · 人类表现 · 一致 ·

Artificial Rigidities vs. Biological Noise: A Comparative Analysis of Multisensory Integration in AV-HuBERT and Human Observers

翻译：人工刚性 vs 生物噪声：AV-HuBERT与人类观察者多感官整合的比较分析

Francisco Portillo López

from arxiv, 18 pages, 6 figures

This study evaluates AV-HuBERT's perceptual bio-fidelity by benchmarking its response to incongruent audiovisual stimuli (McGurk effect) against human observers (N=44). Results reveal a striking quantitative isomorphism: AI and humans exhibited nearly identical auditory dominance rates (32.0% vs. 31.8%), suggesting the model captures biological thresholds for auditory resistance. However, AV-HuBERT showed a deterministic bias toward phonetic fusion (68.0%), significantly exceeding human rates (47.7%). While humans displayed perceptual stochasticity and diverse error profiles, the model remained strictly categorical. Findings suggest that current self-supervised architectures mimic multisensory outcomes but lack the neural variability inherent to human speech perception.

翻译：本研究通过将AV-HuBERT对不一致视听刺激（McGurk效应）的反应与人类观察者（N=44）进行基准测试，评估其感知生物保真度。结果揭示了一种显著的定量同构现象：AI与人类表现出几乎相同的听觉主导率（32.0% vs 31.8%），表明该模型捕捉到了听觉抵抗的生物阈值。然而，AV-HuBERT表现出对语音融合的确定性偏向（68.0%），显著超过人类比率（47.7%）。人类表现出感知随机性和多样化的错误模式，而该模型则保持严格的范畴化。研究结果表明，当前的自监督架构能够模拟多感官整合结果，但缺乏人类语音感知固有的神经变异性。

0

相关内容

具有动能的生命体。

对抗性实验：利用敏感性分析、邻域搜索启发式算法和概率性想定生成来暴露人工智能弱点 | 2025最新83页

对抗性实验：利用敏感性分析、邻域搜索启发式算法和概率性想定生成来暴露人工智能弱点 | 2025最新83页

专知会员服务

29+阅读 · 2025年10月21日

《跨领域人工智能感知：公众态度的比较性述评》最新65页

《跨领域人工智能感知：公众态度的比较性述评》最新65页

专知会员服务

8+阅读 · 2025年10月8日

人工智能与战场态势感知：声音检测

人工智能与战场态势感知：声音检测

专知会员服务

26+阅读 · 2025年4月3日

视觉中的生成物理人工智能：综述

视觉中的生成物理人工智能：综述

专知会员服务

36+阅读 · 2025年1月26日

美国陆军研究实验室《用于语音分类的人工智能 (AI) 算法综述：对人机交互 (HRI) 的影响》28页技术报告

美国陆军研究实验室《用于语音分类的人工智能 (AI) 算法综述：对人机交互 (HRI) 的影响》28页技术报告

专知会员服务

51+阅读 · 2022年7月23日

【AI+军事】附论文《通过处理多通道声学和无线电频率信号实现无人机的识别和定位：一种深度学习方法》

【AI+军事】附论文《通过处理多通道声学和无线电频率信号实现无人机的识别和定位：一种深度学习方法》

专知会员服务

40+阅读 · 2022年4月24日

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

专知会员服务

22+阅读 · 2022年3月29日

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

专知会员服务

33+阅读 · 2022年3月13日

剑桥大学《人工智能在药物发现中的作用》，附论文与31页PPT

剑桥大学《人工智能在药物发现中的作用》，附论文与31页PPT

专知会员服务

54+阅读 · 2021年2月20日

【DeepMind】人工智能、价值与对齐，Artificial Intelligence, Values, and Alignment

【DeepMind】人工智能、价值与对齐，Artificial Intelligence, Values, and Alignment

专知会员服务

38+阅读 · 2020年1月13日

谷歌ALBERT模型V2+中文版来了：之前刷新NLP各大基准，现在GitHub热榜第二

谷歌ALBERT模型V2+中文版来了：之前刷新NLP各大基准，现在GitHub热榜第二

量子位

14+阅读 · 2020年1月2日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

文本+视觉，多篇 Visual/Video BERT 论文介绍

文本+视觉，多篇 Visual/Video BERT 论文介绍

AI科技评论

22+阅读 · 2019年8月30日

【学界】造假AI又进化！只要一张照片，说话唱歌视频自动生成，降维打击Deepfakes丨已开源

【学界】造假AI又进化！只要一张照片，说话唱歌视频自动生成，降维打击Deepfakes丨已开源

GAN生成式对抗网络

12+阅读 · 2019年6月24日

无需建模：谷歌SpecAugment即可获得最先进的语音识别性能

无需建模：谷歌SpecAugment即可获得最先进的语音识别性能

云头条

18+阅读 · 2019年4月23日

AI赋能法律 | NLP最强之谷歌BERT模型在智能司法领域的实践浅谈

AI赋能法律 | NLP最强之谷歌BERT模型在智能司法领域的实践浅谈

AINLP

24+阅读 · 2018年11月30日

干货|85页最新《人机对话系统》神经方法综述论文，微软与谷歌研究员联合出品：

干货|85页最新《人机对话系统》神经方法综述论文，微软与谷歌研究员联合出品：

专知

35+阅读 · 2018年10月7日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

【论文推荐】最新六篇视觉问答（VQA）相关论文—盲人问题、物体计数、多模态解释、视觉关系、对抗性网络、对偶循环注意力

【论文推荐】最新六篇视觉问答（VQA）相关论文—盲人问题、物体计数、多模态解释、视觉关系、对抗性网络、对偶循环注意力

专知

32+阅读 · 2018年2月28日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

基于虚拟现实的认知负荷与情绪干扰交互性分析关键技术研究

国家自然科学基金

1+阅读 · 2017年12月31日

基于感性工学与视觉感知协同优化的产品设计理论及应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

噪声不确定下基于计算智能的多跳认知无线电网络协作频谱感知优化

国家自然科学基金

0+阅读 · 2015年12月31日

基于环境异质信息的机器觉察与仿生知觉方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于咬合力和食性的蝙蝠回声定位声波地理进化研究

国家自然科学基金

0+阅读 · 2015年12月31日

人中耳系统结构与功能适应性相互依存的生物力学研究

国家自然科学基金

0+阅读 · 2015年12月31日

有噪声纠缠比特的纠缠辅助量子纠错码研究

国家自然科学基金

0+阅读 · 2014年12月31日

耳蜗放大器的位置和分布的在体测量及其产生机制的研究

国家自然科学基金

0+阅读 · 2014年12月31日

自然刺激下的多维度与多尺度脑电信号处理方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

FGF-1及其 3'UTR区SNP多态性与噪声性听力损失关系及机制的研究

国家自然科学基金

0+阅读 · 2014年12月31日

Exploring the Interplay Between Voice, Personality, and Gender in Human-Agent Interactions

Arxiv

0+阅读 · 2月11日

HyperPotter: Spell the Charm of High-Order Interactions in Audio Deepfake Detection

Arxiv

0+阅读 · 2月5日

Do Models Hear Like Us? Probing the Representational Alignment of Audio LLMs and Naturalistic EEG

Arxiv

0+阅读 · 2月3日

Bias in the Ear of the Listener: Assessing Sensitivity in Audio Language Models Across Linguistic, Demographic, and Positional Variations

Arxiv

0+阅读 · 2月1日

End-to-end audio-visual learning for cochlear implant sound coding simulations in noisy environments

Arxiv

0+阅读 · 1月29日

Auditory Attention Decoding without Spatial Information: A Diotic EEG Study

Arxiv

0+阅读 · 1月23日

Attentive AV-FusionNet: Audio-Visual Quality Prediction with Hybrid Attention

Arxiv

0+阅读 · 1月22日

Exploring the Impacts of Background Noise on Auditory Stimuli of Audio-Visual eHMIs for Hearing, Deaf, and Hard-of-Hearing People

Arxiv

0+阅读 · 1月19日

Human-AI Collaborative Inductive Thematic Analysis: AI Guided Analysis and Human Interpretive Authority

Arxiv

0+阅读 · 1月17日

Hallucination, reliability, and the role of generative AI in science

Arxiv

0+阅读 · 1月13日

VIP会员

文章信息

相关主题

最新内容

《利用大语言模型增强多域作战兵棋推演》（报告）

《利用大语言模型增强多域作战兵棋推演》（报告）

专知会员服务

9+阅读 · 4月18日

《增强准备状态与战备水平：态势感知与数据驱动决策》报告

《增强准备状态与战备水平：态势感知与数据驱动决策》报告

专知会员服务

9+阅读 · 4月18日

中文版《可靠定位、导航与授时 (APNT)：美军相关研发项目》报告

中文版《可靠定位、导航与授时 (APNT)：美军相关研发项目》报告

专知会员服务

7+阅读 · 4月18日

《自主武器系统人类-AI指挥控制中的动态管理》（2026最新450页）

《自主武器系统人类-AI指挥控制中的动态管理》（2026最新450页）

专知会员服务

13+阅读 · 4月18日

美智库《实现空军战斗出动架次生成能力：对目标、差距、障碍与解决方案的审视》（报告）

美智库《实现空军战斗出动架次生成能力：对目标、差距、障碍与解决方案的审视》（报告）

专知会员服务

7+阅读 · 4月18日

《大规模作战行动中争夺情报优势：情报与电子战营-下一代角色探析》（报告）

《大规模作战行动中争夺情报优势：情报与电子战营-下一代角色探析》（报告）

专知会员服务

9+阅读 · 4月18日

人工智能在战场行动中的演进及伊朗案例

人工智能在战场行动中的演进及伊朗案例

专知会员服务

7+阅读 · 4月18日

美AI公司Anthropic推出网络安全模型“Mythos”

美AI公司Anthropic推出网络安全模型“Mythos”

专知会员服务

4+阅读 · 4月18日

【博士论文】面向城市环境的可解释计算机视觉

【博士论文】面向城市环境的可解释计算机视觉

专知会员服务

5+阅读 · 4月18日

【CVPR2026】SEATrack：一种简明、高效且具备自适应能力的多模态跟踪器

【CVPR2026】SEATrack：一种简明、高效且具备自适应能力的多模态跟踪器

专知会员服务

4+阅读 · 4月18日

大语言模型的自改进机制：技术综述与未来展望

大语言模型的自改进机制：技术综述与未来展望

专知会员服务

6+阅读 · 4月18日

《面向战术决策的广义智能：大语言模型驱动的动态武器-目标分配》

《面向战术决策的广义智能：大语言模型驱动的动态武器-目标分配》

专知会员服务

11+阅读 · 4月18日

《分布式军事人工智能理论：部分可观测与通信条件下的协调约束多智能体强化学习》

《分布式军事人工智能理论：部分可观测与通信条件下的协调约束多智能体强化学习》

专知会员服务

11+阅读 · 4月18日

《第四代军事特种作战部队选拔与评估》

《第四代军事特种作战部队选拔与评估》

专知会员服务

3+阅读 · 4月18日

《迈向可解释强化学习及面向战略决策的定制化学习基准》（70页）

《迈向可解释强化学习及面向战略决策的定制化学习基准》（70页）

专知会员服务

6+阅读 · 4月18日

相关VIP内容

对抗性实验：利用敏感性分析、邻域搜索启发式算法和概率性想定生成来暴露人工智能弱点 | 2025最新83页

对抗性实验：利用敏感性分析、邻域搜索启发式算法和概率性想定生成来暴露人工智能弱点 | 2025最新83页

专知会员服务

29+阅读 · 2025年10月21日

《跨领域人工智能感知：公众态度的比较性述评》最新65页

《跨领域人工智能感知：公众态度的比较性述评》最新65页

专知会员服务

8+阅读 · 2025年10月8日

人工智能与战场态势感知：声音检测

人工智能与战场态势感知：声音检测

专知会员服务

26+阅读 · 2025年4月3日

视觉中的生成物理人工智能：综述

视觉中的生成物理人工智能：综述

专知会员服务

36+阅读 · 2025年1月26日

美国陆军研究实验室《用于语音分类的人工智能 (AI) 算法综述：对人机交互 (HRI) 的影响》28页技术报告

美国陆军研究实验室《用于语音分类的人工智能 (AI) 算法综述：对人机交互 (HRI) 的影响》28页技术报告

专知会员服务

51+阅读 · 2022年7月23日

【AI+军事】附论文《通过处理多通道声学和无线电频率信号实现无人机的识别和定位：一种深度学习方法》

【AI+军事】附论文《通过处理多通道声学和无线电频率信号实现无人机的识别和定位：一种深度学习方法》

专知会员服务

40+阅读 · 2022年4月24日

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

专知会员服务

22+阅读 · 2022年3月29日

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

专知会员服务

33+阅读 · 2022年3月13日

剑桥大学《人工智能在药物发现中的作用》，附论文与31页PPT

剑桥大学《人工智能在药物发现中的作用》，附论文与31页PPT

专知会员服务

54+阅读 · 2021年2月20日

【DeepMind】人工智能、价值与对齐，Artificial Intelligence, Values, and Alignment

【DeepMind】人工智能、价值与对齐，Artificial Intelligence, Values, and Alignment

专知会员服务

38+阅读 · 2020年1月13日

热门VIP内容

开通专知VIP会员享更多权益服务

《增强准备状态与战备水平：态势感知与数据驱动决策》报告

《自主武器系统人类-AI指挥控制中的动态管理》（2026最新450页）

《利用大语言模型增强多域作战兵棋推演》（报告）

中文版《可靠定位、导航与授时 (APNT)：美军相关研发项目》报告

相关资讯

谷歌ALBERT模型V2+中文版来了：之前刷新NLP各大基准，现在GitHub热榜第二

谷歌ALBERT模型V2+中文版来了：之前刷新NLP各大基准，现在GitHub热榜第二

量子位

14+阅读 · 2020年1月2日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

文本+视觉，多篇 Visual/Video BERT 论文介绍

文本+视觉，多篇 Visual/Video BERT 论文介绍

AI科技评论

22+阅读 · 2019年8月30日

【学界】造假AI又进化！只要一张照片，说话唱歌视频自动生成，降维打击Deepfakes丨已开源

【学界】造假AI又进化！只要一张照片，说话唱歌视频自动生成，降维打击Deepfakes丨已开源

GAN生成式对抗网络

12+阅读 · 2019年6月24日

无需建模：谷歌SpecAugment即可获得最先进的语音识别性能

无需建模：谷歌SpecAugment即可获得最先进的语音识别性能

云头条

18+阅读 · 2019年4月23日

AI赋能法律 | NLP最强之谷歌BERT模型在智能司法领域的实践浅谈

AI赋能法律 | NLP最强之谷歌BERT模型在智能司法领域的实践浅谈

AINLP

24+阅读 · 2018年11月30日

干货|85页最新《人机对话系统》神经方法综述论文，微软与谷歌研究员联合出品：

干货|85页最新《人机对话系统》神经方法综述论文，微软与谷歌研究员联合出品：

专知

35+阅读 · 2018年10月7日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

【论文推荐】最新六篇视觉问答（VQA）相关论文—盲人问题、物体计数、多模态解释、视觉关系、对抗性网络、对偶循环注意力

【论文推荐】最新六篇视觉问答（VQA）相关论文—盲人问题、物体计数、多模态解释、视觉关系、对抗性网络、对偶循环注意力

专知

32+阅读 · 2018年2月28日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

相关论文

Exploring the Interplay Between Voice, Personality, and Gender in Human-Agent Interactions

Arxiv

0+阅读 · 2月11日

HyperPotter: Spell the Charm of High-Order Interactions in Audio Deepfake Detection

Arxiv

0+阅读 · 2月5日

Do Models Hear Like Us? Probing the Representational Alignment of Audio LLMs and Naturalistic EEG

Arxiv

0+阅读 · 2月3日

Bias in the Ear of the Listener: Assessing Sensitivity in Audio Language Models Across Linguistic, Demographic, and Positional Variations

Arxiv

0+阅读 · 2月1日

End-to-end audio-visual learning for cochlear implant sound coding simulations in noisy environments

Arxiv

0+阅读 · 1月29日

Auditory Attention Decoding without Spatial Information: A Diotic EEG Study

Arxiv

0+阅读 · 1月23日

Attentive AV-FusionNet: Audio-Visual Quality Prediction with Hybrid Attention

Arxiv

0+阅读 · 1月22日

Exploring the Impacts of Background Noise on Auditory Stimuli of Audio-Visual eHMIs for Hearing, Deaf, and Hard-of-Hearing People

Arxiv

0+阅读 · 1月19日

Human-AI Collaborative Inductive Thematic Analysis: AI Guided Analysis and Human Interpretive Authority

Arxiv

0+阅读 · 1月17日

Hallucination, reliability, and the role of generative AI in science

Arxiv

0+阅读 · 1月13日

相关基金

基于虚拟现实的认知负荷与情绪干扰交互性分析关键技术研究

国家自然科学基金

1+阅读 · 2017年12月31日

基于感性工学与视觉感知协同优化的产品设计理论及应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

噪声不确定下基于计算智能的多跳认知无线电网络协作频谱感知优化

国家自然科学基金

0+阅读 · 2015年12月31日

基于环境异质信息的机器觉察与仿生知觉方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于咬合力和食性的蝙蝠回声定位声波地理进化研究

国家自然科学基金

0+阅读 · 2015年12月31日

人中耳系统结构与功能适应性相互依存的生物力学研究

国家自然科学基金

0+阅读 · 2015年12月31日

有噪声纠缠比特的纠缠辅助量子纠错码研究

国家自然科学基金

0+阅读 · 2014年12月31日

耳蜗放大器的位置和分布的在体测量及其产生机制的研究

国家自然科学基金

0+阅读 · 2014年12月31日

自然刺激下的多维度与多尺度脑电信号处理方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

FGF-1及其 3'UTR区SNP多态性与噪声性听力损失关系及机制的研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员