Medical image segmentation is critical for accurate diagnostics and treatment planning, but remains challenging due to complex anatomical structures and limited annotated training data. CNN-based segmentation methods excel at local feature extraction, but struggle with modeling long-range dependencies. Transformers, on the other hand, capture global context more effectively, but are inherently data-hungry and computationally expensive. In this work, we introduce UKAST, a U-Net like architecture that integrates rational-function based Kolmogorov-Arnold Networks (KANs) into Swin Transformer encoders. By leveraging rational base functions and Group Rational KANs (GR-KANs) from the Kolmogorov-Arnold Transformer (KAT), our architecture addresses the inefficiencies of vanilla spline-based KANs, yielding a more expressive and data-efficient framework with reduced FLOPs and only a very small increase in parameter count compared to SwinUNETR. UKAST achieves state-of-the-art performance on four diverse 2D and 3D medical image segmentation benchmarks, consistently surpassing both CNN- and Transformer-based baselines. Notably, it attains superior accuracy in data-scarce settings, alleviating the data-hungry limitations of standard Vision Transformers. These results show the potential of KAN-enhanced Transformers to advance data-efficient medical image segmentation. Code is available at: https://github.com/nsapkota417/UKAST


翻译:医学图像分割对于精确诊断和治疗规划至关重要,但由于复杂的解剖结构和有限的标注训练数据,该任务仍具挑战性。基于CNN的分割方法擅长局部特征提取,但在建模长程依赖关系方面存在不足。而Transformer能更有效地捕获全局上下文,但其本质上对数据需求量大且计算成本高昂。本研究提出UKAST,一种类U-Net架构,将基于有理函数的Kolmogorov-Arnold网络(KANs)集成到Swin Transformer编码器中。通过利用来自Kolmogorov-Arnold Transformer(KAT)的有理基函数和分组有理KAN(GR-KANs),我们的架构解决了原始基于样条的KANs的低效问题,构建出一个更具表达力且数据高效的框架——与SwinUNETR相比,其FLOPs显著降低,参数量仅轻微增加。UKAST在四个不同的2D和3D医学图像分割基准测试中取得了最先进的性能,持续超越基于CNN和Transformer的基线方法。值得注意的是,该模型在数据稀缺场景下仍能获得卓越的准确率,缓解了标准视觉Transformer对数据饥渴的限制。这些结果表明,KAN增强的Transformer在推进数据高效的医学图像分割方面具有巨大潜力。代码发布于:https://github.com/nsapkota417/UKAST

0
下载
关闭预览

相关内容

基于Transformer的视觉分割技术进展
专知会员服务
20+阅读 · 2025年2月10日
【万字长文】视觉Transformer语义分割模型综述
专知会员服务
56+阅读 · 2024年1月2日
【MIT博士论文】利用深度学习改进医学影像分割,165页pdf
深度学习与医学图像分析
人工智能前沿讲习班
40+阅读 · 2019年6月8日
牛逼哄哄的图卷积神经网络将带来哪些机遇?
计算机视觉life
49+阅读 · 2019年3月25日
超像素、语义分割、实例分割、全景分割 傻傻分不清?
计算机视觉life
19+阅读 · 2018年11月27日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
VIP会员
相关VIP内容
基于Transformer的视觉分割技术进展
专知会员服务
20+阅读 · 2025年2月10日
【万字长文】视觉Transformer语义分割模型综述
专知会员服务
56+阅读 · 2024年1月2日
【MIT博士论文】利用深度学习改进医学影像分割,165页pdf
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员