SAM3-UNet: Simplified Adaptation of Segment Anything Model 3 - 专知论文

会员服务 ·

0

UNet · 适配 · MoDELS · 下游任务 · 包含 ·

2025 年 12 月 1 日

SAM3-UNet: Simplified Adaptation of Segment Anything Model 3

翻译：SAM3-UNet：Segment Anything Model 3的简化适配方案

Xinyu Xiong,Zihuang Wu,Lei Lu,Yufa Xia

from arxiv, Technical Report

In this paper, we introduce SAM3-UNet, a simplified variant of Segment Anything Model 3 (SAM3), designed to adapt SAM3 for downstream tasks at a low cost. Our SAM3-UNet consists of three components: a SAM3 image encoder, a simple adapter for parameter-efficient fine-tuning, and a lightweight U-Net-style decoder. Preliminary experiments on multiple tasks, such as mirror detection and salient object detection, demonstrate that the proposed SAM3-UNet outperforms the prior SAM2-UNet and other state-of-the-art methods, while requiring less than 6 GB of GPU memory during training with a batch size of 12. The code is publicly available at https://github.com/WZH0120/SAM3-UNet.

翻译：本文提出SAM3-UNet，作为Segment Anything Model 3（SAM3）的简化变体，旨在以较低成本将SAM3适配至下游任务。我们的SAM3-UNet包含三个组件：SAM3图像编码器、用于参数高效微调的简单适配器，以及轻量级U-Net风格解码器。在镜像检测和显著目标检测等多个任务上的初步实验表明，所提出的SAM3-UNet在批大小为12的训练过程中仅需不足6 GB的GPU显存，其性能超越了先前的SAM2-UNet及其他先进方法。代码已公开于https://github.com/WZH0120/SAM3-UNet。

0

相关内容

UNet

《面相未来作战空中系统中有人-无人编组的AI驱动协作模式选择》含slides

《面相未来作战空中系统中有人-无人编组的AI驱动协作模式选择》含slides

专知会员服务

30+阅读 · 2025年10月31日

基于Transformer的BERT和GPT语言模型学习, 75页ppt

基于Transformer的BERT和GPT语言模型学习, 75页ppt

专知会员服务

35+阅读 · 2024年6月7日

【CVPR2024】ViewDiff: 3D一致的图像生成与文本到图像模型

【CVPR2024】ViewDiff: 3D一致的图像生成与文本到图像模型

专知会员服务

30+阅读 · 2024年3月10日

《用于代码弱点识别的 LLVM 中间表示》CMU

《用于代码弱点识别的 LLVM 中间表示》CMU

专知会员服务

14+阅读 · 2022年12月12日

【NeurIPS2022】SparCL:边缘稀疏持续学习

【NeurIPS2022】SparCL:边缘稀疏持续学习

专知会员服务

24+阅读 · 2022年9月22日

【CVPR 2022】基于Transformer的图象风格化，StyTr2: Image Style Transfer with Transformers

【CVPR 2022】基于Transformer的图象风格化，StyTr2: Image Style Transfer with Transformers

专知会员服务

11+阅读 · 2022年3月19日

【NeurIPS 2021】类比进化算法：设计统一的序列模型

【NeurIPS 2021】类比进化算法：设计统一的序列模型

专知会员服务

16+阅读 · 2021年10月30日

【AAAI2021】“可瘦身”的生成式对抗网络

【AAAI2021】“可瘦身”的生成式对抗网络

专知会员服务

13+阅读 · 2020年12月12日

【ACL2020-CMU-Google】MobileBERT:用于资源受限设备的任务无关“瘦版”BERT

【ACL2020-CMU-Google】MobileBERT:用于资源受限设备的任务无关“瘦版”BERT

专知会员服务

13+阅读 · 2020年4月9日

微软发布DialoGPT预训练语言模型，论文与代码 Large-Scale Generative Pre-training for Conversational Response Generation

微软发布DialoGPT预训练语言模型，论文与代码 Large-Scale Generative Pre-training for Conversational Response Generation

专知会员服务

28+阅读 · 2019年11月8日

ICLR'21 | GNN联邦学习的新基准

ICLR'21 | GNN联邦学习的新基准

图与推荐

12+阅读 · 2021年11月15日

【NeurIPS2019】图变换网络：Graph Transformer Network

【NeurIPS2019】图变换网络：Graph Transformer Network

专知

245+阅读 · 2019年11月18日

RL解决'LunarLander-v2' (SOTA)

RL解决'LunarLander-v2' (SOTA)

CreateAMind

62+阅读 · 2019年9月27日

RoBERTa中文预训练模型：RoBERTa for Chinese

RoBERTa中文预训练模型：RoBERTa for Chinese

PaperWeekly

57+阅读 · 2019年9月16日

RL解决'BipedalWalkerHardcore-v2' (SOTA)

RL解决'BipedalWalkerHardcore-v2' (SOTA)

CreateAMind

31+阅读 · 2019年7月17日

基于PyTorch/TorchText的自然语言处理库

基于PyTorch/TorchText的自然语言处理库

专知

28+阅读 · 2019年4月22日

Seq2seq强化，Pointer Network简介

Seq2seq强化，Pointer Network简介

机器学习算法与Python学习

15+阅读 · 2018年12月8日

Focal Loss for Dense Object Detection

Focal Loss for Dense Object Detection

统计学习与视觉计算组

12+阅读 · 2018年3月15日

RNN | RNN实践指南（2）

RNN | RNN实践指南（2）

KingsGarden

19+阅读 · 2017年5月4日

Caffe 深度学习框架上手教程

Caffe 深度学习框架上手教程

黑龙江大学自然语言处理实验室

14+阅读 · 2016年6月12日

基于DASH的交互式三维视频系统建模

国家自然科学基金

1+阅读 · 2015年12月31日

MEMS数字地震检波器专用DSP芯片优化设计

国家自然科学基金

1+阅读 · 2015年12月31日

SDN数据平面中大规模流表的高性能查找方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于自主学习的Ad hoc Agent序贯决策研究

国家自然科学基金

47+阅读 · 2015年12月31日

协同特征CAD中支持多用户意图融合的关键技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

Schr？dinger-Poisson方程守恒DDG方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

动态Gr？bner 基与GVW算法

国家自然科学基金

0+阅读 · 2014年12月31日

Biot模型基于有限元离散的多重网格算法研究

国家自然科学基金

1+阅读 · 2014年12月31日

Poisson流形上的修正Hamilton方法

国家自然科学基金

0+阅读 · 2014年12月31日

海量Web用户生成内容物化关键技术

国家自然科学基金

2+阅读 · 2014年12月31日

DeepSeek-V3 Technical Report

Arxiv

18+阅读 · 2024年12月27日

A Survey on Retrieval-Augmented Text Generation for Large Language Models

Arxiv

17+阅读 · 2024年4月17日

Forging Vision Foundation Models for Autonomous Driving: Challenges, Methodologies, and Opportunities

Arxiv

11+阅读 · 2024年1月16日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

501+阅读 · 2023年3月31日

Few-shot Learning with Noisy Labels

Arxiv

13+阅读 · 2022年4月12日

Spatio-Temporal Graph for Video Captioning with Knowledge Distillation

Spatio-Temporal Graph for Video Captioning with Knowledge Distillation

Arxiv

19+阅读 · 2020年3月31日

Few-shot Learning with Meta Metric Learners

Arxiv

13+阅读 · 2019年1月26日

3D Backbone Network for 3D Object Detection

Arxiv

12+阅读 · 2019年1月24日

Single-Shot Object Detection with Enriched Semantics

Arxiv

11+阅读 · 2018年4月8日

Deep Metric Learning with BIER: Boosting Independent Embeddings Robustly

Arxiv

18+阅读 · 2018年1月15日

VIP会员

文章信息

相关主题

最新内容

2025年大语言模型进展报告

2025年大语言模型进展报告

专知会员服务

9+阅读 · 4月25日

多智能体协作机制

多智能体协作机制

专知会员服务

8+阅读 · 4月25日

非对称优势：美海军开发低成本反无人机技术

非对称优势：美海军开发低成本反无人机技术

专知会员服务

9+阅读 · 4月25日

《反无人机技术领域的技术发展综述：C-UAS探测、跟踪与识别技术》80页报告

《反无人机技术领域的技术发展综述：C-UAS探测、跟踪与识别技术》80页报告

专知会员服务

19+阅读 · 4月25日

《美战争部小企业创新研究（SBIR）计划》

《美战争部小企业创新研究（SBIR）计划》

专知会员服务

8+阅读 · 4月25日

《军事模拟：将军事条令与目标融入AI智能体》

《军事模拟：将军事条令与目标融入AI智能体》

专知会员服务

12+阅读 · 4月25日

【NTU博士论文】3D人体动作生成

【NTU博士论文】3D人体动作生成

专知会员服务

9+阅读 · 4月24日

DeepSeek-V4：百万 Token 上下文背后，大模型正在进入“长程智能”时代（附中英文pdf版）

DeepSeek-V4：百万 Token 上下文背后，大模型正在进入“长程智能”时代（附中英文pdf版）

专知会员服务

13+阅读 · 4月24日

以色列军事技术对美国军力发展的持续性赋能

以色列军事技术对美国军力发展的持续性赋能

专知会员服务

9+阅读 · 4月24日

战场之外的较量：美伊冲突中的认知战与心理博弈

战场之外的较量：美伊冲突中的认知战与心理博弈

专知会员服务

7+阅读 · 4月24日

俄乌战争中乌克兰防空能力演变与见解（中文版）

俄乌战争中乌克兰防空能力演变与见解（中文版）

专知会员服务

8+阅读 · 4月24日

《面向巡飞弹药系统的情境感知深度强化学习自主非线性机动控制》

《面向巡飞弹药系统的情境感知深度强化学习自主非线性机动控制》

专知会员服务

11+阅读 · 4月24日

《深度强化学习在兵棋推演中的应用》40页报告

《深度强化学习在兵棋推演中的应用》40页报告

专知会员服务

16+阅读 · 4月24日

《多域作战面临复杂现实》

《多域作战面临复杂现实》

专知会员服务

13+阅读 · 4月24日

《印度的多域作战：条令与能力发展》报告

《印度的多域作战：条令与能力发展》报告

专知会员服务

6+阅读 · 4月24日

相关VIP内容

《面相未来作战空中系统中有人-无人编组的AI驱动协作模式选择》含slides

《面相未来作战空中系统中有人-无人编组的AI驱动协作模式选择》含slides

专知会员服务

30+阅读 · 2025年10月31日

基于Transformer的BERT和GPT语言模型学习, 75页ppt

基于Transformer的BERT和GPT语言模型学习, 75页ppt

专知会员服务

35+阅读 · 2024年6月7日

【CVPR2024】ViewDiff: 3D一致的图像生成与文本到图像模型

【CVPR2024】ViewDiff: 3D一致的图像生成与文本到图像模型

专知会员服务

30+阅读 · 2024年3月10日

《用于代码弱点识别的 LLVM 中间表示》CMU

《用于代码弱点识别的 LLVM 中间表示》CMU

专知会员服务

14+阅读 · 2022年12月12日

【NeurIPS2022】SparCL:边缘稀疏持续学习

【NeurIPS2022】SparCL:边缘稀疏持续学习

专知会员服务

24+阅读 · 2022年9月22日

【CVPR 2022】基于Transformer的图象风格化，StyTr2: Image Style Transfer with Transformers

【CVPR 2022】基于Transformer的图象风格化，StyTr2: Image Style Transfer with Transformers

专知会员服务

11+阅读 · 2022年3月19日

【NeurIPS 2021】类比进化算法：设计统一的序列模型

【NeurIPS 2021】类比进化算法：设计统一的序列模型

专知会员服务

16+阅读 · 2021年10月30日

【AAAI2021】“可瘦身”的生成式对抗网络

【AAAI2021】“可瘦身”的生成式对抗网络

专知会员服务

13+阅读 · 2020年12月12日

【ACL2020-CMU-Google】MobileBERT:用于资源受限设备的任务无关“瘦版”BERT

【ACL2020-CMU-Google】MobileBERT:用于资源受限设备的任务无关“瘦版”BERT

专知会员服务

13+阅读 · 2020年4月9日

微软发布DialoGPT预训练语言模型，论文与代码 Large-Scale Generative Pre-training for Conversational Response Generation

微软发布DialoGPT预训练语言模型，论文与代码 Large-Scale Generative Pre-training for Conversational Response Generation

专知会员服务

28+阅读 · 2019年11月8日

热门VIP内容

开通专知VIP会员享更多权益服务

多智能体协作机制

《反无人机技术领域的技术发展综述：C-UAS探测、跟踪与识别技术》80页报告

2025年大语言模型进展报告

非对称优势：美海军开发低成本反无人机技术

相关资讯

ICLR'21 | GNN联邦学习的新基准

ICLR'21 | GNN联邦学习的新基准

图与推荐

12+阅读 · 2021年11月15日

【NeurIPS2019】图变换网络：Graph Transformer Network

【NeurIPS2019】图变换网络：Graph Transformer Network

专知

245+阅读 · 2019年11月18日

RL解决'LunarLander-v2' (SOTA)

RL解决'LunarLander-v2' (SOTA)

CreateAMind

62+阅读 · 2019年9月27日

RoBERTa中文预训练模型：RoBERTa for Chinese

RoBERTa中文预训练模型：RoBERTa for Chinese

PaperWeekly

57+阅读 · 2019年9月16日

RL解决'BipedalWalkerHardcore-v2' (SOTA)

RL解决'BipedalWalkerHardcore-v2' (SOTA)

CreateAMind

31+阅读 · 2019年7月17日

基于PyTorch/TorchText的自然语言处理库

基于PyTorch/TorchText的自然语言处理库

专知

28+阅读 · 2019年4月22日

Seq2seq强化，Pointer Network简介

Seq2seq强化，Pointer Network简介

机器学习算法与Python学习

15+阅读 · 2018年12月8日

Focal Loss for Dense Object Detection

Focal Loss for Dense Object Detection

统计学习与视觉计算组

12+阅读 · 2018年3月15日

RNN | RNN实践指南（2）

RNN | RNN实践指南（2）

KingsGarden

19+阅读 · 2017年5月4日

Caffe 深度学习框架上手教程

Caffe 深度学习框架上手教程

黑龙江大学自然语言处理实验室

14+阅读 · 2016年6月12日

相关论文

DeepSeek-V3 Technical Report

Arxiv

18+阅读 · 2024年12月27日

A Survey on Retrieval-Augmented Text Generation for Large Language Models

Arxiv

17+阅读 · 2024年4月17日

Forging Vision Foundation Models for Autonomous Driving: Challenges, Methodologies, and Opportunities

Arxiv

11+阅读 · 2024年1月16日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

501+阅读 · 2023年3月31日

Few-shot Learning with Noisy Labels

Arxiv

13+阅读 · 2022年4月12日

Spatio-Temporal Graph for Video Captioning with Knowledge Distillation

Spatio-Temporal Graph for Video Captioning with Knowledge Distillation

Arxiv

19+阅读 · 2020年3月31日

Few-shot Learning with Meta Metric Learners

Arxiv

13+阅读 · 2019年1月26日

3D Backbone Network for 3D Object Detection

Arxiv

12+阅读 · 2019年1月24日

Single-Shot Object Detection with Enriched Semantics

Arxiv

11+阅读 · 2018年4月8日

Deep Metric Learning with BIER: Boosting Independent Embeddings Robustly

Arxiv

18+阅读 · 2018年1月15日

相关基金

基于DASH的交互式三维视频系统建模

国家自然科学基金

1+阅读 · 2015年12月31日

MEMS数字地震检波器专用DSP芯片优化设计

国家自然科学基金

1+阅读 · 2015年12月31日

SDN数据平面中大规模流表的高性能查找方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于自主学习的Ad hoc Agent序贯决策研究

国家自然科学基金

47+阅读 · 2015年12月31日

协同特征CAD中支持多用户意图融合的关键技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

Schr？dinger-Poisson方程守恒DDG方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

动态Gr？bner 基与GVW算法

国家自然科学基金

0+阅读 · 2014年12月31日

Biot模型基于有限元离散的多重网格算法研究

国家自然科学基金

1+阅读 · 2014年12月31日

Poisson流形上的修正Hamilton方法

国家自然科学基金

0+阅读 · 2014年12月31日

海量Web用户生成内容物化关键技术

国家自然科学基金

2+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员