The Sonar Moment: Benchmarking Audio-Language Models in Audio Geo-Localization - 专知论文

会员服务 ·

0

基准 · 语言模型 · 基准测试 · 可定位性 · 推断 ·

The Sonar Moment: Benchmarking Audio-Language Models in Audio Geo-Localization

翻译：声呐时刻：音频-语言模型在音频地理定位中的基准测试

Ruixing Zhang,Zihan Liu,Leilei Sun,Tongyu Zhu,Weifeng Lv

Geo-localization aims to infer the geographic origin of a given signal. In computer vision, geo-localization has served as a demanding benchmark for compositional reasoning and is relevant to public safety. In contrast, progress on audio geo-localization has been constrained by the lack of high-quality audio-location pairs. To address this gap, we introduce AGL1K, the first audio geo-localization benchmark for audio language models (ALMs), spanning 72 countries and territories. To extract reliably localizable samples from a crowd-sourced platform, we propose the Audio Localizability metric that quantifies the informativeness of each recording, yielding 1,444 curated audio clips. Evaluations on 16 ALMs show that ALMs have emerged with audio geo-localization capability. We find that closed-source models substantially outperform open-source models, and that linguistic clues often dominate as a scaffold for prediction. We further analyze ALMs' reasoning traces, regional bias, error causes, and the interpretability of the localizability metric. Overall, AGL1K establishes a benchmark for audio geo-localization and may advance ALMs with better geospatial reasoning capability.

翻译：地理定位旨在推断给定信号的地理来源。在计算机视觉领域，地理定位已成为组合推理能力的一项严苛基准，并与公共安全密切相关。相比之下，音频地理定位的研究进展因缺乏高质量的音频-地理位置配对数据而受到限制。为弥补这一空白，我们提出了AGL1K——首个面向音频-语言模型的音频地理定位基准数据集，涵盖72个国家和地区。为了从众包平台中提取可靠的可定位样本，我们提出了"音频可定位性"指标，该指标量化了每条录音的信息丰富度，最终筛选出1,444条精选音频片段。对16个音频-语言模型的评估表明，此类模型已展现出音频地理定位能力。研究发现：闭源模型显著优于开源模型；语言线索常作为预测的主要推理框架。我们进一步分析了音频-语言模型的推理轨迹、区域偏见、错误成因以及可定位性指标的可解释性。总体而言，AGL1K为音频地理定位建立了基准，有望推动音频-语言模型发展出更优的地理空间推理能力。

0

相关内容

人工智能与战场态势感知：声音检测

人工智能与战场态势感知：声音检测

专知会员服务

28+阅读 · 2025年4月3日

《面向无人机实时认知任务解决的视觉-语言-动作（VLA）模型与评估基准》

《面向无人机实时认知任务解决的视觉-语言-动作（VLA）模型与评估基准》

专知会员服务

42+阅读 · 2025年3月9日

《面向视觉语言地理基础模型》综述

《面向视觉语言地理基础模型》综述

专知会员服务

47+阅读 · 2024年6月15日

《利用音频传感器网络检测、识别和跟踪无人机的时频协同方法》

《利用音频传感器网络检测、识别和跟踪无人机的时频协同方法》

专知会员服务

41+阅读 · 2023年9月11日

大模型如何用于遥感？NYUAD等最新《遥感中的视觉-语言模型:当前进展与未来趋势》，全面阐述遥感中八项基本视觉语言模型任务应用

大模型如何用于遥感？NYUAD等最新《遥感中的视觉-语言模型:当前进展与未来趋势》，全面阐述遥感中八项基本视觉语言模型任务应用

专知会员服务

77+阅读 · 2023年5月16日

【战场态势感知】《使用仿生 MEMS 传感器进行枪声定位》，含实现方案与代码，美国海军2022最新116页论文

【战场态势感知】《使用仿生 MEMS 传感器进行枪声定位》，含实现方案与代码，美国海军2022最新116页论文

专知会员服务

52+阅读 · 2022年9月26日

【ICASSP 2022教程】声场估计:最新进展与应用，日本东京大学Shoichi Koyama博士

【ICASSP 2022教程】声场估计:最新进展与应用，日本东京大学Shoichi Koyama博士

专知会员服务

24+阅读 · 2022年6月7日

【视觉和语言导航:任务、方法和未来方向的综述】Vision-and-Language Navigation: A Survey of Tasks, Methods, and Future Directions

【视觉和语言导航:任务、方法和未来方向的综述】Vision-and-Language Navigation: A Survey of Tasks, Methods, and Future Directions

专知会员服务

38+阅读 · 2022年3月25日

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

专知会员服务

33+阅读 · 2022年3月13日

多语言语音识别声学模型建模方法最新进展

多语言语音识别声学模型建模方法最新进展

专知会员服务

36+阅读 · 2022年2月7日

语音信号处理：从基本算法到前沿的深度学习方法

语音信号处理：从基本算法到前沿的深度学习方法

PaperWeekly

16+阅读 · 2020年3月26日

自动驾驶高精度定位如何在复杂环境进行

自动驾驶高精度定位如何在复杂环境进行

智能交通技术

18+阅读 · 2019年9月27日

哈工大韩纪庆教授《语音信号处理（第3版）》出版

哈工大韩纪庆教授《语音信号处理（第3版）》出版

哈工大SCIR

16+阅读 · 2019年6月12日

使用 FastAI 和即时频率变换进行音频分类

使用 FastAI 和即时频率变换进行音频分类

AI研习社

11+阅读 · 2019年5月9日

无需建模：谷歌SpecAugment即可获得最先进的语音识别性能

无需建模：谷歌SpecAugment即可获得最先进的语音识别性能

云头条

18+阅读 · 2019年4月23日

近期声学领域前沿论文(No. 3)

近期声学领域前沿论文(No. 3)

深度学习每日摘要

24+阅读 · 2019年3月31日

书单 | 语音研究进阶指南

书单 | 语音研究进阶指南

微软研究院AI头条

12+阅读 · 2019年3月22日

Elasticsearch地理信息存储及查询之Geo_Point

Elasticsearch地理信息存储及查询之Geo_Point

Analysys易观

13+阅读 · 2018年12月29日

基于Tacotron模型的语音合成实践

基于Tacotron模型的语音合成实践

深度学习每日摘要

15+阅读 · 2018年12月25日

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

专知

14+阅读 · 2018年2月4日

“自然语言-草图”耦合的地理场景查询方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

听力损失系统双耳声源定位模型研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于非参数化动态噪声模型的自适应室内定位算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于咬合力和食性的蝙蝠回声定位声波地理进化研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于发音特征的汉语语音识别分层解码方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向微博数据的位置相关事件检测和时空异常聚类模式挖掘研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于空间认知常识的定性地理信息检索研究

国家自然科学基金

2+阅读 · 2014年12月31日

云南高原湿地生态环境音分类技术研究

国家自然科学基金

1+阅读 · 2014年12月31日

语义关联的地理视频数据自适应组织方法

国家自然科学基金

1+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

BASS: Benchmarking Audio LMs for Musical Structure and Semantic Reasoning

Arxiv

0+阅读 · 2月3日

Watch and Listen: Understanding Audio-Visual-Speech Moments with Multimodal LLM

Arxiv

0+阅读 · 2月2日

A Benchmark for Audio Reasoning Capabilities of Multimodal Large Language Models

Arxiv

0+阅读 · 1月27日

Sound event localization and classification using WASN in Outdoor Environment

Arxiv

0+阅读 · 1月24日

GTPred: Benchmarking MLLMs for Interpretable Geo-localization and Time-of-capture Prediction

Arxiv

0+阅读 · 1月19日

Representing Sounds as Neural Amplitude Fields: A Benchmark of Coordinate-MLPs and A Fourier Kolmogorov-Arnold Framework

Arxiv

0+阅读 · 1月10日

CMDAR: A Chinese Multi-scene Dynamic Audio Reasoning Benchmark with Diverse Challenges

Arxiv

0+阅读 · 1月6日

Vision-Language Reasoning for Geolocalization: A Reinforcement Learning Approach

Arxiv

0+阅读 · 1月5日

CMDAR: A Chinese Multi-scene Dynamic Audio Reasoning Benchmark with Diverse Challenges

Arxiv

0+阅读 · 1月5日

Vision-Language Reasoning for Geolocalization: A Reinforcement Learning Approach

Arxiv

0+阅读 · 1月1日

VIP会员

文章信息

相关主题

最新内容

《反无人机蜂群：有人-无人协同防御场景下的编队重构分析》

《反无人机蜂群：有人-无人协同防御场景下的编队重构分析》

专知会员服务

6+阅读 · 7月24日

《史诗怒火/咆哮雄狮行动：针对伊朗空中战役的战略分析》68页智库报告

《史诗怒火/咆哮雄狮行动：针对伊朗空中战役的战略分析》68页智库报告

专知会员服务

6+阅读 · 7月24日

“愈演愈烈的欺骗与干扰博弈”：无人机与人工智能背景下俄乌强化以无人机为核心的电子战

“愈演愈烈的欺骗与干扰博弈”：无人机与人工智能背景下俄乌强化以无人机为核心的电子战

专知会员服务

3+阅读 · 7月24日

乌克兰纵深打击如何重塑俄罗斯的战略选择

乌克兰纵深打击如何重塑俄罗斯的战略选择

专知会员服务

2+阅读 · 7月24日

《分布式太空任务对比分析与综合建模及仿真环境》120页

《分布式太空任务对比分析与综合建模及仿真环境》120页

专知会员服务

2+阅读 · 7月24日

俄乌战争中关于中程打击无人机部署的经验启示

俄乌战争中关于中程打击无人机部署的经验启示

专知会员服务

1+阅读 · 7月24日

《远程自主系统可扩展态势感知的解决方案》32页2026最新报告

《远程自主系统可扩展态势感知的解决方案》32页2026最新报告

专知会员服务

5+阅读 · 7月23日

《基于强化学习的自动化红队测试》

《基于强化学习的自动化红队测试》

专知会员服务

4+阅读 · 7月23日

《下一代无人机-卫星通信：人工智能创新与未来展望》32页长综述

《下一代无人机-卫星通信：人工智能创新与未来展望》32页长综述

专知会员服务

7+阅读 · 7月23日

“天降毒雾”：无人机如何使化学战重返乌克兰战场

“天降毒雾”：无人机如何使化学战重返乌克兰战场

专知会员服务

2+阅读 · 7月23日

伊朗不对称防空战略的演进

伊朗不对称防空战略的演进

专知会员服务

4+阅读 · 7月23日

对抗环境下超视距目标打击的情报支援

对抗环境下超视距目标打击的情报支援

专知会员服务

11+阅读 · 7月22日

《面向复杂地形下无人机跟踪地面机器人（UAV–UGV）的自适应多滤波器扩展卡尔曼滤波框架》

《面向复杂地形下无人机跟踪地面机器人（UAV–UGV）的自适应多滤波器扩展卡尔曼滤波框架》

专知会员服务

5+阅读 · 7月22日

纵深侦察：大规模作战行动中远程侦察与监视之迫切需求

纵深侦察：大规模作战行动中远程侦察与监视之迫切需求

专知会员服务

8+阅读 · 7月22日

共享认知，分布式研判：复杂行动中的美国空军指挥控制（万字长文）

共享认知，分布式研判：复杂行动中的美国空军指挥控制（万字长文）

专知会员服务

11+阅读 · 7月22日

相关VIP内容

人工智能与战场态势感知：声音检测

人工智能与战场态势感知：声音检测

专知会员服务

28+阅读 · 2025年4月3日

《面向无人机实时认知任务解决的视觉-语言-动作（VLA）模型与评估基准》

《面向无人机实时认知任务解决的视觉-语言-动作（VLA）模型与评估基准》

专知会员服务

42+阅读 · 2025年3月9日

《面向视觉语言地理基础模型》综述

《面向视觉语言地理基础模型》综述

专知会员服务

47+阅读 · 2024年6月15日

《利用音频传感器网络检测、识别和跟踪无人机的时频协同方法》

《利用音频传感器网络检测、识别和跟踪无人机的时频协同方法》

专知会员服务

41+阅读 · 2023年9月11日

大模型如何用于遥感？NYUAD等最新《遥感中的视觉-语言模型:当前进展与未来趋势》，全面阐述遥感中八项基本视觉语言模型任务应用

大模型如何用于遥感？NYUAD等最新《遥感中的视觉-语言模型:当前进展与未来趋势》，全面阐述遥感中八项基本视觉语言模型任务应用

专知会员服务

77+阅读 · 2023年5月16日

【战场态势感知】《使用仿生 MEMS 传感器进行枪声定位》，含实现方案与代码，美国海军2022最新116页论文

【战场态势感知】《使用仿生 MEMS 传感器进行枪声定位》，含实现方案与代码，美国海军2022最新116页论文

专知会员服务

52+阅读 · 2022年9月26日

【ICASSP 2022教程】声场估计:最新进展与应用，日本东京大学Shoichi Koyama博士

【ICASSP 2022教程】声场估计:最新进展与应用，日本东京大学Shoichi Koyama博士

专知会员服务

24+阅读 · 2022年6月7日

【视觉和语言导航:任务、方法和未来方向的综述】Vision-and-Language Navigation: A Survey of Tasks, Methods, and Future Directions

【视觉和语言导航:任务、方法和未来方向的综述】Vision-and-Language Navigation: A Survey of Tasks, Methods, and Future Directions

专知会员服务

38+阅读 · 2022年3月25日

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

专知会员服务

33+阅读 · 2022年3月13日

多语言语音识别声学模型建模方法最新进展

多语言语音识别声学模型建模方法最新进展

专知会员服务

36+阅读 · 2022年2月7日

热门VIP内容

开通专知VIP会员享更多权益服务

《史诗怒火/咆哮雄狮行动：针对伊朗空中战役的战略分析》68页智库报告

乌克兰纵深打击如何重塑俄罗斯的战略选择

《反无人机蜂群：有人-无人协同防御场景下的编队重构分析》

“愈演愈烈的欺骗与干扰博弈”：无人机与人工智能背景下俄乌强化以无人机为核心的电子战

相关资讯

语音信号处理：从基本算法到前沿的深度学习方法

语音信号处理：从基本算法到前沿的深度学习方法

PaperWeekly

16+阅读 · 2020年3月26日

自动驾驶高精度定位如何在复杂环境进行

自动驾驶高精度定位如何在复杂环境进行

智能交通技术

18+阅读 · 2019年9月27日

哈工大韩纪庆教授《语音信号处理（第3版）》出版

哈工大韩纪庆教授《语音信号处理（第3版）》出版

哈工大SCIR

16+阅读 · 2019年6月12日

使用 FastAI 和即时频率变换进行音频分类

使用 FastAI 和即时频率变换进行音频分类

AI研习社

11+阅读 · 2019年5月9日

无需建模：谷歌SpecAugment即可获得最先进的语音识别性能

无需建模：谷歌SpecAugment即可获得最先进的语音识别性能

云头条

18+阅读 · 2019年4月23日

近期声学领域前沿论文(No. 3)

近期声学领域前沿论文(No. 3)

深度学习每日摘要

24+阅读 · 2019年3月31日

书单 | 语音研究进阶指南

书单 | 语音研究进阶指南

微软研究院AI头条

12+阅读 · 2019年3月22日

Elasticsearch地理信息存储及查询之Geo_Point

Elasticsearch地理信息存储及查询之Geo_Point

Analysys易观

13+阅读 · 2018年12月29日

基于Tacotron模型的语音合成实践

基于Tacotron模型的语音合成实践

深度学习每日摘要

15+阅读 · 2018年12月25日

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

【论文推荐】最新5篇语音识别（ASR）相关论文—音频对抗样本、对抗性语音识别系统、声学模型、序列到序列、口语可理解性矫正

专知

14+阅读 · 2018年2月4日

相关论文

BASS: Benchmarking Audio LMs for Musical Structure and Semantic Reasoning

Arxiv

0+阅读 · 2月3日

Watch and Listen: Understanding Audio-Visual-Speech Moments with Multimodal LLM

Arxiv

0+阅读 · 2月2日

A Benchmark for Audio Reasoning Capabilities of Multimodal Large Language Models

Arxiv

0+阅读 · 1月27日

Sound event localization and classification using WASN in Outdoor Environment

Arxiv

0+阅读 · 1月24日

GTPred: Benchmarking MLLMs for Interpretable Geo-localization and Time-of-capture Prediction

Arxiv

0+阅读 · 1月19日

Representing Sounds as Neural Amplitude Fields: A Benchmark of Coordinate-MLPs and A Fourier Kolmogorov-Arnold Framework

Arxiv

0+阅读 · 1月10日

CMDAR: A Chinese Multi-scene Dynamic Audio Reasoning Benchmark with Diverse Challenges

Arxiv

0+阅读 · 1月6日

Vision-Language Reasoning for Geolocalization: A Reinforcement Learning Approach

Arxiv

0+阅读 · 1月5日

CMDAR: A Chinese Multi-scene Dynamic Audio Reasoning Benchmark with Diverse Challenges

Arxiv

0+阅读 · 1月5日

Vision-Language Reasoning for Geolocalization: A Reinforcement Learning Approach

Arxiv

0+阅读 · 1月1日

相关基金

“自然语言-草图”耦合的地理场景查询方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

听力损失系统双耳声源定位模型研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于非参数化动态噪声模型的自适应室内定位算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于咬合力和食性的蝙蝠回声定位声波地理进化研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于发音特征的汉语语音识别分层解码方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向微博数据的位置相关事件检测和时空异常聚类模式挖掘研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于空间认知常识的定性地理信息检索研究

国家自然科学基金

2+阅读 · 2014年12月31日

云南高原湿地生态环境音分类技术研究

国家自然科学基金

1+阅读 · 2014年12月31日

语义关联的地理视频数据自适应组织方法

国家自然科学基金

1+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员