Dog emotion recognition plays a crucial role in enhancing human-animal interactions, veterinary care, and the development of automated systems for monitoring canine well-being. However, accurately interpreting dog emotions is challenging due to the subjective nature of emotional assessments and the absence of standardized ground truth methods. We present the CREMD (Crowd-sourced Emotional Multimodal Dogs Dataset), a comprehensive dataset exploring how different presentation modes (e.g., context, audio, video) and annotator characteristics (e.g., dog ownership, gender, professional experience) influence the perception and labeling of dog emotions. The dataset consists of 923 video clips presented in three distinct modes: without context or audio, with context but no audio, and with both context and audio. We analyze annotations from diverse participants, including dog owners, professionals, and individuals with varying demographic backgrounds and experience levels, to identify factors that influence reliable dog emotion recognition. Our findings reveal several key insights: (1) while adding visual context significantly improved annotation agreement, our findings regarding audio cues are inconclusive due to design limitations (specifically, the absence of a no-context-with-audio condition and limited clean audio availability); (2) contrary to expectations, non-owners and male annotators showed higher agreement levels than dog owners and female annotators, respectively, while professionals showed higher agreement levels, aligned with our initial hypothesis; and (3) the presence of audio substantially increased annotators' confidence in identifying specific emotions, particularly anger and fear.


翻译:犬类情感识别在促进人-动物互动、提升兽医诊疗水平以及开发犬类健康状态自动化监测系统方面具有关键作用。然而,由于情感评估的主观性及标准化真实标注方法的缺失,准确解读犬类情感仍面临挑战。本文提出CREMD(众包情感多模态犬类数据集),这是一个通过探索不同呈现模式(如情境信息、音频、视频)与标注者特征(如养犬经历、性别、专业经验)如何影响犬类情感的感知与标注而构建的综合数据集。该数据集包含923个视频片段,以三种不同模式呈现:无情境无声频、有情境无声频、以及情境与音频兼备。我们分析了来自多样化参与者的标注数据(包括养犬者、专业人士及具有不同人口背景和经验水平的个体),以识别影响犬类情感识别可靠性的关键因素。研究发现揭示了若干重要结论:(1)虽然添加视觉情境信息显著提升了标注一致性,但关于音频线索的结论因实验设计限制(具体表现为缺少“无情境有音频”的实验条件及清晰音频素材有限)而尚未明确;(2)与预期相反,非养犬者与男性标注者分别比养犬者与女性标注者表现出更高的一致性,而专业人士则展现出更高的一致性,这与初始假设相符;(3)音频的存在显著增强了标注者在识别特定情感(尤其是愤怒与恐惧)时的信心。

0
下载
关闭预览

相关内容

情感推荐系统综述:面向个性化的态度、情绪与情境建模
多模态对话情感识别:方法、趋势、挑战与前景综述
专知会员服务
20+阅读 · 2025年5月28日
大规模多模态模型数据集、应用类别与分类学综述
专知会员服务
58+阅读 · 2024年12月25日
大型语言模型遇上文本中心的多模态情感分析:综述
专知会员服务
25+阅读 · 2024年6月13日
多模态数据的行为识别综述
专知会员服务
88+阅读 · 2022年11月30日
多模态情绪识别研究综述
专知会员服务
170+阅读 · 2020年12月21日
【ACM MM2020】跨模态分布匹配的半监督多模态情感识别
专知会员服务
43+阅读 · 2020年9月8日
多模态情绪识别研究综述
专知
25+阅读 · 2020年12月21日
【团队新作】连续情感识别,精准捕捉你的小情绪!
中国科学院自动化研究所
16+阅读 · 2018年4月17日
情感分析的新方法,使用word2vec对微博文本进行情感分析和分类
数据挖掘入门与实战
22+阅读 · 2018年1月6日
人脸表情分类与识别:人脸检测+情绪分类
北京思腾合力科技有限公司
27+阅读 · 2017年12月18日
特定目标情感分析——神经网络这是要逆天么
计算机研究与发展
14+阅读 · 2017年9月5日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员