AquaFeat+：一种基于水下视觉学习的用于目标检测、分类与跟踪的增强方法 (AquaFeat+: an Underwater Vision Learning-based Enhancement Method for Object Detection, Classification, and Tracking) - 专知论文

会员服务 ·

0

水下 · 视觉学习 · 机器人应用 · 特征增强 · 目标检测 ·

AquaFeat+: an Underwater Vision Learning-based Enhancement Method for Object Detection, Classification, and Tracking

翻译：AquaFeat+：一种基于水下视觉学习的用于目标检测、分类与跟踪的增强方法

Emanuel da Costa Silva,Tatiana Taís Schein,José David García Ramos,Eduardo Lawson da Silva,Stephanie Loi Brião,Felipe Gomes de Oliveira,Paulo Lilles Jorge Drews-Jr

Underwater video analysis is particularly challenging due to factors such as low lighting, color distortion, and turbidity, which compromise visual data quality and directly impact the performance of perception modules in robotic applications. This work proposes AquaFeat+, a plug-and-play pipeline designed to enhance features specifically for automated vision tasks, rather than for human perceptual quality. The architecture includes modules for color correction, hierarchical feature enhancement, and an adaptive residual output, which are trained end-to-end and guided directly by the loss function of the final application. Trained and evaluated in the FishTrack23 dataset, AquaFeat+ achieves significant improvements in object detection, classification, and tracking metrics, validating its effectiveness for enhancing perception tasks in underwater robotic applications.

翻译：水下视频分析因光照不足、色彩失真及水体浑浊等因素而极具挑战，这些因素会损害视觉数据质量，并直接影响机器人应用中感知模块的性能。本文提出AquaFeat+，一种即插即用的处理流程，旨在专门针对自动化视觉任务（而非人类感知质量）进行特征增强。该架构包含色彩校正、分层特征增强和自适应残差输出模块，这些模块以端到端方式训练，并直接由最终应用的损失函数指导。在FishTrack23数据集上进行训练与评估后，AquaFeat+在目标检测、分类与跟踪指标上均取得显著提升，验证了其在水下机器人应用中增强感知任务的有效性。

0

相关内容

《探究图像增强技术对目标检测与分类的影响以提升态势感知系统性能》

《探究图像增强技术对目标检测与分类的影响以提升态势感知系统性能》

专知会员服务

25+阅读 · 2025年6月22日

《用于水下目标定位的平台便携式强化学习方法》

《用于水下目标定位的平台便携式强化学习方法》

专知会员服务

27+阅读 · 2024年1月2日

基于深度学习的水下图像目标检测综述

基于深度学习的水下图像目标检测综述

专知会员服务

50+阅读 · 2023年4月29日

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

专知会员服务

22+阅读 · 2022年3月29日

【CVPR 2022】深度安全多视图聚类:降低因视图增加而导致聚类性能下降的风险，Deep Safe Multi-view Clustering: Reducing the Risk of Clustering Performance Degradation Caused by View Increase

【CVPR 2022】深度安全多视图聚类:降低因视图增加而导致聚类性能下降的风险，Deep Safe Multi-view Clustering: Reducing the Risk of Clustering Performance Degradation Caused by View Increase

专知会员服务

10+阅读 · 2022年3月12日

混合增强视觉认知架构及其关键技术进展

混合增强视觉认知架构及其关键技术进展

专知会员服务

46+阅读 · 2021年11月20日

知识驱动的视觉知识学习，以VQA视觉问答为例，31页ppt

知识驱动的视觉知识学习，以VQA视觉问答为例，31页ppt

专知会员服务

36+阅读 · 2020年9月25日

可解释强化学习，Explainable Reinforcement Learning: A Survey

可解释强化学习，Explainable Reinforcement Learning: A Survey

专知会员服务

132+阅读 · 2020年5月14日

【AAAI2020】用于视觉对话中深度视觉理解的自适应双向编码模型（DualVD: An Adaptive Dual Encoding Model for Deep Visual Understanding in Visual Dialogue）, 中科院信工所于静等

【AAAI2020】用于视觉对话中深度视觉理解的自适应双向编码模型（DualVD: An Adaptive Dual Encoding Model for Deep Visual Understanding in Visual Dialogue）, 中科院信工所于静等

专知会员服务

29+阅读 · 2019年11月23日

【用十亿级半监督学习实现最先进图像与视频分类】《Billion-scale semi-supervised learning for state-of-the-art image and video classification | Facebook》

【用十亿级半监督学习实现最先进图像与视频分类】《Billion-scale semi-supervised learning for state-of-the-art image and video classification | Facebook》

专知会员服务

16+阅读 · 2019年10月21日

全新水下目标检测算法SWIPENet+IMA框架（已开源）

全新水下目标检测算法SWIPENet+IMA框架（已开源）

CVer

17+阅读 · 2020年5月31日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

【泡泡图灵智库】Detect-SLAM：目标检测和SLAM相互收益

【泡泡图灵智库】Detect-SLAM：目标检测和SLAM相互收益

泡泡机器人SLAM

14+阅读 · 2019年6月28日

learn to see in the dark-低照度图像增强算法

learn to see in the dark-低照度图像增强算法

计算机视觉life

16+阅读 · 2019年1月14日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

专知

30+阅读 · 2018年3月22日

Github 项目推荐 | 真实全景图像强化学习 AI 平台 —— Matterport3DSimulator

Github 项目推荐 | 真实全景图像强化学习 AI 平台 —— Matterport3DSimulator

AI研习社

10+阅读 · 2018年3月6日

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

专知

15+阅读 · 2018年2月3日

推荐｜使用 OpenCV和Python基于深度学习实现实时视频目标检测!

推荐｜使用 OpenCV和Python基于深度学习实现实时视频目标检测!

全球人工智能

10+阅读 · 2017年12月19日

【分析】图像分类、目标检测、图像分割、图像生成……一文「计算机视觉」全分析

【分析】图像分类、目标检测、图像分割、图像生成……一文「计算机视觉」全分析

GAN生成式对抗网络

23+阅读 · 2017年9月14日

基于共性视觉特征与反馈机制的SAR图像目标检测方法研究

国家自然科学基金

3+阅读 · 2017年12月31日

基于视觉特性的目标检测算法研究

国家自然科学基金

4+阅读 · 2015年12月31日

仿复眼视觉系统光谱-偏振敏感机制的水下目标检测方法

国家自然科学基金

0+阅读 · 2015年12月31日

面向无人机基于在线场景建模的室外目标检测与跟踪方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于多源证据的繁忙水域交管雷达异常目标识别方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度学习和马尔科夫逻辑网络的特殊视频识别研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于视觉差异特征的跨域图像匹配方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于图像属性和深度学习的大规模物体检测研究与应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于人眼视觉特性与ASIFT的多尺度变换域视频水印算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

StereoAdapter-2: Globally Structure-Consistent Underwater Stereo Depth Estimation

Arxiv

0+阅读 · 2月18日

Learning A Physical-aware Diffusion Model Based on Transformer for Underwater Image Enhancement

Arxiv

0+阅读 · 2月12日

AugVLA-3D: Depth-Driven Feature Augmentation for Vision-Language-Action Models

Arxiv

0+阅读 · 2月11日

Enhancing Underwater Images via Adaptive Semantic-aware Codebook Learning

Arxiv

0+阅读 · 2月11日

MetaphorStar: Image Metaphor Understanding and Reasoning with End-to-End Visual Reinforcement Learning

Arxiv

0+阅读 · 2月11日

VQAThinker: Exploring Generalizable and Explainable Video Quality Assessment via Reinforcement Learning

Arxiv

0+阅读 · 2月2日

QUASAR: An Evolutionary Algorithm to Accelerate High-Dimensional Numerical Optimization

Arxiv

0+阅读 · 2月1日

Development of Domain-Invariant Visual Enhancement and Restoration (DIVER) Approach for Underwater Images

Arxiv

0+阅读 · 1月30日

QualiRAG: Retrieval-Augmented Generation for Visual Quality Understanding

Arxiv

0+阅读 · 1月26日

OceanSplat: Object-aware Gaussian Splatting with Trinocular View Consistency for Underwater Scene Reconstruction

Arxiv

0+阅读 · 1月19日

VIP会员

文章信息

相关主题

机器人应用

相关VIP内容

《探究图像增强技术对目标检测与分类的影响以提升态势感知系统性能》

《探究图像增强技术对目标检测与分类的影响以提升态势感知系统性能》

专知会员服务

25+阅读 · 2025年6月22日

《用于水下目标定位的平台便携式强化学习方法》

《用于水下目标定位的平台便携式强化学习方法》

专知会员服务

27+阅读 · 2024年1月2日

基于深度学习的水下图像目标检测综述

基于深度学习的水下图像目标检测综述

专知会员服务

50+阅读 · 2023年4月29日

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

专知会员服务

22+阅读 · 2022年3月29日

【CVPR 2022】深度安全多视图聚类:降低因视图增加而导致聚类性能下降的风险，Deep Safe Multi-view Clustering: Reducing the Risk of Clustering Performance Degradation Caused by View Increase

【CVPR 2022】深度安全多视图聚类:降低因视图增加而导致聚类性能下降的风险，Deep Safe Multi-view Clustering: Reducing the Risk of Clustering Performance Degradation Caused by View Increase

专知会员服务

10+阅读 · 2022年3月12日

混合增强视觉认知架构及其关键技术进展

混合增强视觉认知架构及其关键技术进展

专知会员服务

46+阅读 · 2021年11月20日

知识驱动的视觉知识学习，以VQA视觉问答为例，31页ppt

知识驱动的视觉知识学习，以VQA视觉问答为例，31页ppt

专知会员服务

36+阅读 · 2020年9月25日

可解释强化学习，Explainable Reinforcement Learning: A Survey

可解释强化学习，Explainable Reinforcement Learning: A Survey

专知会员服务

132+阅读 · 2020年5月14日

【AAAI2020】用于视觉对话中深度视觉理解的自适应双向编码模型（DualVD: An Adaptive Dual Encoding Model for Deep Visual Understanding in Visual Dialogue）, 中科院信工所于静等

【AAAI2020】用于视觉对话中深度视觉理解的自适应双向编码模型（DualVD: An Adaptive Dual Encoding Model for Deep Visual Understanding in Visual Dialogue）, 中科院信工所于静等

专知会员服务

29+阅读 · 2019年11月23日

【用十亿级半监督学习实现最先进图像与视频分类】《Billion-scale semi-supervised learning for state-of-the-art image and video classification | Facebook》

【用十亿级半监督学习实现最先进图像与视频分类】《Billion-scale semi-supervised learning for state-of-the-art image and video classification | Facebook》

专知会员服务

16+阅读 · 2019年10月21日

热门VIP内容

开通专知VIP会员享更多权益服务

《可信人工智能赋能系统的支柱》

《从经典神经网络到不确定性下的拓扑神经网络：军事应用》2026最新40页报告

人工智能赋能边缘与自主系统：美陆军现代化进程聚焦威胁探测与战术边缘情报

《人工智能：对战略与力量的影响》slides

相关资讯

全新水下目标检测算法SWIPENet+IMA框架（已开源）

全新水下目标检测算法SWIPENet+IMA框架（已开源）

CVer

17+阅读 · 2020年5月31日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

【泡泡图灵智库】Detect-SLAM：目标检测和SLAM相互收益

【泡泡图灵智库】Detect-SLAM：目标检测和SLAM相互收益

泡泡机器人SLAM

14+阅读 · 2019年6月28日

learn to see in the dark-低照度图像增强算法

learn to see in the dark-低照度图像增强算法

计算机视觉life

16+阅读 · 2019年1月14日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

专知

30+阅读 · 2018年3月22日

Github 项目推荐 | 真实全景图像强化学习 AI 平台 —— Matterport3DSimulator

Github 项目推荐 | 真实全景图像强化学习 AI 平台 —— Matterport3DSimulator

AI研习社

10+阅读 · 2018年3月6日

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

专知

15+阅读 · 2018年2月3日

推荐｜使用 OpenCV和Python基于深度学习实现实时视频目标检测!

推荐｜使用 OpenCV和Python基于深度学习实现实时视频目标检测!

全球人工智能

10+阅读 · 2017年12月19日

【分析】图像分类、目标检测、图像分割、图像生成……一文「计算机视觉」全分析

【分析】图像分类、目标检测、图像分割、图像生成……一文「计算机视觉」全分析

GAN生成式对抗网络

23+阅读 · 2017年9月14日

相关论文

StereoAdapter-2: Globally Structure-Consistent Underwater Stereo Depth Estimation

Arxiv

0+阅读 · 2月18日

Learning A Physical-aware Diffusion Model Based on Transformer for Underwater Image Enhancement

Arxiv

0+阅读 · 2月12日

AugVLA-3D: Depth-Driven Feature Augmentation for Vision-Language-Action Models

Arxiv

0+阅读 · 2月11日

Enhancing Underwater Images via Adaptive Semantic-aware Codebook Learning

Arxiv

0+阅读 · 2月11日

MetaphorStar: Image Metaphor Understanding and Reasoning with End-to-End Visual Reinforcement Learning

Arxiv

0+阅读 · 2月11日

VQAThinker: Exploring Generalizable and Explainable Video Quality Assessment via Reinforcement Learning

Arxiv

0+阅读 · 2月2日

QUASAR: An Evolutionary Algorithm to Accelerate High-Dimensional Numerical Optimization

Arxiv

0+阅读 · 2月1日

Development of Domain-Invariant Visual Enhancement and Restoration (DIVER) Approach for Underwater Images

Arxiv

0+阅读 · 1月30日

QualiRAG: Retrieval-Augmented Generation for Visual Quality Understanding

Arxiv

0+阅读 · 1月26日

OceanSplat: Object-aware Gaussian Splatting with Trinocular View Consistency for Underwater Scene Reconstruction

Arxiv

0+阅读 · 1月19日

相关基金

基于共性视觉特征与反馈机制的SAR图像目标检测方法研究

国家自然科学基金

3+阅读 · 2017年12月31日

基于视觉特性的目标检测算法研究

国家自然科学基金

4+阅读 · 2015年12月31日

仿复眼视觉系统光谱-偏振敏感机制的水下目标检测方法

国家自然科学基金

0+阅读 · 2015年12月31日

面向无人机基于在线场景建模的室外目标检测与跟踪方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于多源证据的繁忙水域交管雷达异常目标识别方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度学习和马尔科夫逻辑网络的特殊视频识别研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于视觉差异特征的跨域图像匹配方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于图像属性和深度学习的大规模物体检测研究与应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于人眼视觉特性与ASIFT的多尺度变换域视频水印算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员