Collecting Prosody in the Wild: A Content-Controlled, Privacy-First Smartphone Protocol and Empirical Evaluation - 专知论文

会员服务 ·

0

可控 · 智能手机 · 分析 · 提取 · 特征提取 ·

Collecting Prosody in the Wild: A Content-Controlled, Privacy-First Smartphone Protocol and Empirical Evaluation

翻译：在自然环境中收集韵律数据：一种内容可控、隐私优先的智能手机协议及实证评估

Timo K. Koch,Florian Bemmann,Ramona Schoedel,Markus Buehner,Clemens Stachl

from arxiv, Submitted to Interspeech 2026

Collecting everyday speech data for prosodic analysis is challenging due to the confounding of prosody and semantics, privacy constraints, and participant compliance. We introduce and empirically evaluate a content-controlled, privacy-first smartphone protocol that uses scripted read-aloud sentences to standardize lexical content (including prompt valence) while capturing natural variation in prosodic delivery. The protocol performs on-device prosodic feature extraction, deletes raw audio immediately, and transmits only derived features for analysis. We deployed the protocol in a large study (N = 560; 9,877 recordings), evaluated compliance and data quality, and conducted diagnostic prediction tasks on the extracted features, predicting speaker sex and concurrently reported momentary affective states (valence, arousal). We discuss implications and directions for advancing and deploying the protocol.

翻译：为韵律分析收集日常语音数据面临诸多挑战，包括韵律与语义的混淆、隐私限制以及参与者依从性问题。本文提出并实证评估了一种内容可控、隐私优先的智能手机协议。该协议使用脚本化的朗读句子来标准化词汇内容（包括提示效价），同时捕捉韵律表达的自然变化。协议在设备端执行韵律特征提取，立即删除原始音频，仅传输衍生特征用于分析。我们在一项大规模研究（N = 560；9,877条录音）中部署了该协议，评估了依从性和数据质量，并对提取的特征进行了诊断性预测任务，包括预测说话者性别以及同时报告的瞬时情感状态（效价、唤醒度）。最后，我们讨论了该协议的改进方向、部署意义及应用前景。

0

相关内容

视觉语义通信综述：分类体系、体系架构、关键赋能技术及应用现状

视觉语义通信综述：分类体系、体系架构、关键赋能技术及应用现状

专知会员服务

18+阅读 · 2月2日

【博士论文】面向真实世界音视联合语音识别的可扩展框架

【博士论文】面向真实世界音视联合语音识别的可扩展框架

专知会员服务

13+阅读 · 2025年12月19日

AI大模型赋能手机终端，拥抱AI手机新机遇

AI大模型赋能手机终端，拥抱AI手机新机遇

专知会员服务

35+阅读 · 2024年7月4日

AIGC如何安全可控?中山大学等最新《AIGC中对隐私和安全的挑战及其补救措施：探索隐私计算、区块链潜在应用》全面阐述

AIGC如何安全可控?中山大学等最新《AIGC中对隐私和安全的挑战及其补救措施：探索隐私计算、区块链潜在应用》全面阐述

专知会员服务

49+阅读 · 2023年6月6日

评估ChatGPT的信息提取能力:对性能、可解释性、校准和忠实度的评估

评估ChatGPT的信息提取能力:对性能、可解释性、校准和忠实度的评估

专知会员服务

77+阅读 · 2023年4月26日

自动语音识别:简介、当前趋势和有待解决的问题，97页slides

自动语音识别:简介、当前趋势和有待解决的问题，97页slides

专知会员服务

24+阅读 · 2022年12月20日

【MIT博士论文】自监督学习语音处理，148页pdf

【MIT博士论文】自监督学习语音处理，148页pdf

专知会员服务

54+阅读 · 2022年8月31日

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

专知会员服务

33+阅读 · 2022年3月13日

【CVPR2020-Oral-计算所-旷视】学习用于语义分割的动态路由，Learning Dynamic Routing

【CVPR2020-Oral-计算所-旷视】学习用于语义分割的动态路由，Learning Dynamic Routing

专知会员服务

27+阅读 · 2020年3月24日

【论文推荐】保护隐私的协同过滤综述，Survey of Privacy-Preserving Collaborative Filtering

【论文推荐】保护隐私的协同过滤综述，Survey of Privacy-Preserving Collaborative Filtering

专知会员服务

36+阅读 · 2020年3月19日

《利用多模态移动传感器数据对健康进行建模的机器学习》剑桥大学博士论文

《利用多模态移动传感器数据对健康进行建模的机器学习》剑桥大学博士论文

专知

16+阅读 · 2022年5月3日

语音信号处理：从基本算法到前沿的深度学习方法

语音信号处理：从基本算法到前沿的深度学习方法

PaperWeekly

16+阅读 · 2020年3月26日

最全中文自然语言处理数据集、平台和工具整理

最全中文自然语言处理数据集、平台和工具整理

深度学习与NLP

34+阅读 · 2019年6月22日

用于语音识别的数据增强

用于语音识别的数据增强

AI研习社

24+阅读 · 2019年6月5日

无需建模：谷歌SpecAugment即可获得最先进的语音识别性能

无需建模：谷歌SpecAugment即可获得最先进的语音识别性能

云头条

18+阅读 · 2019年4月23日

1400小时开源语音数据集，你想要都在这儿

1400小时开源语音数据集，你想要都在这儿

AI100

18+阅读 · 2019年3月1日

语音识别的前沿论文，看我们推荐的这4篇

语音识别的前沿论文，看我们推荐的这4篇

人工智能前沿讲习班

26+阅读 · 2019年1月14日

【泡泡图灵智库】SIDD：用于智能手机降噪算法的数据集（CVPR）

【泡泡图灵智库】SIDD：用于智能手机降噪算法的数据集（CVPR）

泡泡机器人SLAM

10+阅读 · 2018年11月29日

自然语言处理（NLP）数据集整理

自然语言处理（NLP）数据集整理

论智

20+阅读 · 2018年4月8日

TextInfoExp:自然语言处理相关实验（基于sougou数据集）

TextInfoExp:自然语言处理相关实验（基于sougou数据集）

全球人工智能

12+阅读 · 2017年11月12日

基于信号理论和众包的社交媒体平台安全性和可信度群体评估方法研究

国家自然科学基金

0+阅读 · 2017年12月31日

移动互联网的用户隐私保护研究

国家自然科学基金

2+阅读 · 2017年12月31日

数据流发布中的隐私保护理论和方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

可恢复的数字语音取证水印技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

内容中心移动社交网络高效安全匿名通信机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

维吾尔语韵律结构的分析与预测模型的研究

国家自然科学基金

0+阅读 · 2014年12月31日

移动云服务中的隐私保护与安全保障机制研究

国家自然科学基金

1+阅读 · 2014年12月31日

Android移动终端多语种基础软件组合的安全技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于自适应模型检测的安全协议自动建模与设计研究

国家自然科学基金

1+阅读 · 2014年12月31日

大数据环境下多媒体网络舆情信息的语义识别与危机响应研究

国家自然科学基金

4+阅读 · 2014年12月31日

DiffAnon: Diffusion-based Prosody Control for Voice Anonymization

Arxiv

0+阅读 · 4月29日

DataClaw: An Autonomous Data Agent with Instant Messaging Integration

Arxiv

0+阅读 · 4月27日

ORBIT: Scalable and Verifiable Data Generation for Search Agents on a Tight Budget

Arxiv

0+阅读 · 4月1日

An Empirical Comparison of Security and Privacy Characteristics of Android Messaging Apps

Arxiv

0+阅读 · 3月31日

Secure Digital Semantic Communications: Fundamentals, Challenges, and Opportunities

Arxiv

0+阅读 · 3月10日

Convenience vs. Control: A Qualitative Study of Youth Privacy with Smart Voice Assistants

Arxiv

0+阅读 · 2月28日

ClawMobile: Rethinking Smartphone-Native Agentic Systems

Arxiv

0+阅读 · 2月26日

SocialPulse: On-Device Detection of Social Interactions in Naturalistic Settings Using Smartwatch Multimodal Sensing

Arxiv

0+阅读 · 2月25日

AI-Wrapped: Participatory, Privacy-Preserving Measurement of Longitudinal LLM Use In-the-Wild

Arxiv

0+阅读 · 2月20日

MusicSem: A Semantically Rich Language--Audio Dataset of Natural Music Descriptions

Arxiv

0+阅读 · 2月19日

VIP会员

文章信息

相关主题

最新内容

印度精确打击与指挥架构的断层

印度精确打击与指挥架构的断层

专知会员服务

4+阅读 · 7月20日

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

专知会员服务

5+阅读 · 7月20日

美空军AI完成F-16战斗机自主空战历史性试飞

美空军AI完成F-16战斗机自主空战历史性试飞

专知会员服务

5+阅读 · 7月20日

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

专知会员服务

5+阅读 · 7月20日

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

专知会员服务

3+阅读 · 7月20日

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

专知会员服务

5+阅读 · 7月20日

综述 | 终身视觉表征：持续自监督学习CSSL系统综述

综述 | 终身视觉表征：持续自监督学习CSSL系统综述

专知会员服务

5+阅读 · 7月20日

深入Project Maven：为何人工智能在战场上依然失灵

深入Project Maven：为何人工智能在战场上依然失灵

专知会员服务

14+阅读 · 7月19日

锻造未来士兵：外骨骼、基因工程与赛博格

锻造未来士兵：外骨骼、基因工程与赛博格

专知会员服务

7+阅读 · 7月19日

《无人机系统（UAS）通信网状网络试验性部署》50页报告

《无人机系统（UAS）通信网状网络试验性部署》50页报告

专知会员服务

7+阅读 · 7月19日

《无人机蜂群通信技术研究》50页

《无人机蜂群通信技术研究》50页

专知会员服务

8+阅读 · 7月19日

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

专知会员服务

12+阅读 · 7月18日

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

专知会员服务

8+阅读 · 7月18日

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

专知会员服务

13+阅读 · 7月18日

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

专知会员服务

10+阅读 · 7月18日

相关VIP内容

视觉语义通信综述：分类体系、体系架构、关键赋能技术及应用现状

视觉语义通信综述：分类体系、体系架构、关键赋能技术及应用现状

专知会员服务

18+阅读 · 2月2日

【博士论文】面向真实世界音视联合语音识别的可扩展框架

【博士论文】面向真实世界音视联合语音识别的可扩展框架

专知会员服务

13+阅读 · 2025年12月19日

AI大模型赋能手机终端，拥抱AI手机新机遇

AI大模型赋能手机终端，拥抱AI手机新机遇

专知会员服务

35+阅读 · 2024年7月4日

AIGC如何安全可控?中山大学等最新《AIGC中对隐私和安全的挑战及其补救措施：探索隐私计算、区块链潜在应用》全面阐述

AIGC如何安全可控?中山大学等最新《AIGC中对隐私和安全的挑战及其补救措施：探索隐私计算、区块链潜在应用》全面阐述

专知会员服务

49+阅读 · 2023年6月6日

评估ChatGPT的信息提取能力:对性能、可解释性、校准和忠实度的评估

评估ChatGPT的信息提取能力:对性能、可解释性、校准和忠实度的评估

专知会员服务

77+阅读 · 2023年4月26日

自动语音识别:简介、当前趋势和有待解决的问题，97页slides

自动语音识别:简介、当前趋势和有待解决的问题，97页slides

专知会员服务

24+阅读 · 2022年12月20日

【MIT博士论文】自监督学习语音处理，148页pdf

【MIT博士论文】自监督学习语音处理，148页pdf

专知会员服务

54+阅读 · 2022年8月31日

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

专知会员服务

33+阅读 · 2022年3月13日

【CVPR2020-Oral-计算所-旷视】学习用于语义分割的动态路由，Learning Dynamic Routing

【CVPR2020-Oral-计算所-旷视】学习用于语义分割的动态路由，Learning Dynamic Routing

专知会员服务

27+阅读 · 2020年3月24日

【论文推荐】保护隐私的协同过滤综述，Survey of Privacy-Preserving Collaborative Filtering

【论文推荐】保护隐私的协同过滤综述，Survey of Privacy-Preserving Collaborative Filtering

专知会员服务

36+阅读 · 2020年3月19日

热门VIP内容

开通专知VIP会员享更多权益服务

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

印度精确打击与指挥架构的断层

美空军AI完成F-16战斗机自主空战历史性试飞

相关资讯

《利用多模态移动传感器数据对健康进行建模的机器学习》剑桥大学博士论文

《利用多模态移动传感器数据对健康进行建模的机器学习》剑桥大学博士论文

专知

16+阅读 · 2022年5月3日

语音信号处理：从基本算法到前沿的深度学习方法

语音信号处理：从基本算法到前沿的深度学习方法

PaperWeekly

16+阅读 · 2020年3月26日

最全中文自然语言处理数据集、平台和工具整理

最全中文自然语言处理数据集、平台和工具整理

深度学习与NLP

34+阅读 · 2019年6月22日

用于语音识别的数据增强

用于语音识别的数据增强

AI研习社

24+阅读 · 2019年6月5日

无需建模：谷歌SpecAugment即可获得最先进的语音识别性能

无需建模：谷歌SpecAugment即可获得最先进的语音识别性能

云头条

18+阅读 · 2019年4月23日

1400小时开源语音数据集，你想要都在这儿

1400小时开源语音数据集，你想要都在这儿

AI100

18+阅读 · 2019年3月1日

语音识别的前沿论文，看我们推荐的这4篇

语音识别的前沿论文，看我们推荐的这4篇

人工智能前沿讲习班

26+阅读 · 2019年1月14日

【泡泡图灵智库】SIDD：用于智能手机降噪算法的数据集（CVPR）

【泡泡图灵智库】SIDD：用于智能手机降噪算法的数据集（CVPR）

泡泡机器人SLAM

10+阅读 · 2018年11月29日

自然语言处理（NLP）数据集整理

自然语言处理（NLP）数据集整理

论智

20+阅读 · 2018年4月8日

TextInfoExp:自然语言处理相关实验（基于sougou数据集）

TextInfoExp:自然语言处理相关实验（基于sougou数据集）

全球人工智能

12+阅读 · 2017年11月12日

相关论文

DiffAnon: Diffusion-based Prosody Control for Voice Anonymization

Arxiv

0+阅读 · 4月29日

DataClaw: An Autonomous Data Agent with Instant Messaging Integration

Arxiv

0+阅读 · 4月27日

ORBIT: Scalable and Verifiable Data Generation for Search Agents on a Tight Budget

Arxiv

0+阅读 · 4月1日

An Empirical Comparison of Security and Privacy Characteristics of Android Messaging Apps

Arxiv

0+阅读 · 3月31日

Secure Digital Semantic Communications: Fundamentals, Challenges, and Opportunities

Arxiv

0+阅读 · 3月10日

Convenience vs. Control: A Qualitative Study of Youth Privacy with Smart Voice Assistants

Arxiv

0+阅读 · 2月28日

ClawMobile: Rethinking Smartphone-Native Agentic Systems

Arxiv

0+阅读 · 2月26日

SocialPulse: On-Device Detection of Social Interactions in Naturalistic Settings Using Smartwatch Multimodal Sensing

Arxiv

0+阅读 · 2月25日

AI-Wrapped: Participatory, Privacy-Preserving Measurement of Longitudinal LLM Use In-the-Wild

Arxiv

0+阅读 · 2月20日

MusicSem: A Semantically Rich Language--Audio Dataset of Natural Music Descriptions

Arxiv

0+阅读 · 2月19日

相关基金

基于信号理论和众包的社交媒体平台安全性和可信度群体评估方法研究

国家自然科学基金

0+阅读 · 2017年12月31日

移动互联网的用户隐私保护研究

国家自然科学基金

2+阅读 · 2017年12月31日

数据流发布中的隐私保护理论和方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

可恢复的数字语音取证水印技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

内容中心移动社交网络高效安全匿名通信机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

维吾尔语韵律结构的分析与预测模型的研究

国家自然科学基金

0+阅读 · 2014年12月31日

移动云服务中的隐私保护与安全保障机制研究

国家自然科学基金

1+阅读 · 2014年12月31日

Android移动终端多语种基础软件组合的安全技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于自适应模型检测的安全协议自动建模与设计研究

国家自然科学基金

1+阅读 · 2014年12月31日

大数据环境下多媒体网络舆情信息的语义识别与危机响应研究

国家自然科学基金

4+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员