首页 热点 资讯 财经 国内 行业 商业 生活 快讯

中科院版「分割一切」模型来了,比 Meta 原版提速 50 倍 快资讯

来源:量子位      时间:2023-06-27 16:54:05

比 Meta 的「分割一切模型」 ( SAM ) 更快的图像分割工具,来了!


(资料图片)

最近中科院团队开源了 FastSAM 模型,能以50 倍的速度达到与原始 SAM 相同的效果,并实现 25FPS 的实时推理。

该成果在 Github 已经获得 2.4K+ 次星标,在 Twitter、PaperswithCode 等平台也受到了广泛关注。

相关论文预印本现已发表。

以下内容由投稿者提供

视觉基础模型 SAM [ 1 ] 在许多计算机视觉任务中产了重影响。它已经成为图像分割、图像描述和图像编辑等任务的基础。

然,其巨的计算成本阻碍了它在实际场景中的泛应。

最近,中科院动化所提出并开源了种加速替代案 FastSAM。

通过将分割切任务重新划分为全实例分割和提指导选择两个任务,带实例分割分的常规 CNN 检测器以出 50 倍的运速度实现了与 SAM 法相当的性能,是个实时分割切的基础模型。

意义与动机

SAM 的出现带动了 " 分割切 "(Segment Anything)任务的发展。这任务由于其泛化性和可扩展性,有很可能成为未来泛视觉任务的基础。

FastSAM 为该任务提供了套实时解决案,进步推动了分割切模型的实际应和发展。

本将 " 分割切 " 任务解耦为全实例分割和提引导选择两阶段,通过引先验结构,在提速 50 倍的情况下实现了与 SAM 相近的表现。

FastSAM 的优秀表现为视觉任务的架构选择提供了新的视角——对于特定任务,专用模型结构或许在计算效率和精确度上仍具有优势。

从模型压缩的度看,FastSAM 也证明了基于大模型产生高质量数据,通过引先验结构大幅降低计算复杂度的路径的可性。

示例 Web DEMO

在 HuggingFace 的 Space 中,你可以快速体验 FastSAM 的分割效果。

你可以上传一张自定义的图片,选择模式并设置参数,点击分割按钮,就可以得到一个满意的分割结果。

现在支持一切模式和点模式的交互,其他模式将在未来尝试支持。在 Replicate 上已支持所有模式的在线体验。

多种交互式

FastSAM 目前共支持三种交互方式。

多点交互模式

FastSAM 持多个带有前景 / 背景标签的点交互模式,可以很好地适应不同场景的应需求。

以缺陷检测场景为例,只需对缺陷部位添加前景点,对正常药丸部分添加背景点,即可准确地检测出物体缺陷。

框交互模式

FastSAM 也持框交互模式。也以缺陷检测为例,只需对缺陷致位置进框选,即可准确检测出物体缺陷。

本交互模式

FastSAM 也持并开源了本交互模式。通过不同的本提示,FastSAM 可以准确分割出不同颜的狗。

工作原理

如下图所示,FastSAM 的网络架构可分为两个阶段:全实例分割和提示引导选择。

在全实例分割阶段,FastSAM 使用卷积神经网络来对图像中的所有对象或区域进行划分。

在提示引导选择阶段,它采用包括点提示、框提示和文本提示的各种提示来选出关注对象。

与基于 Transformer 的方法不同,FastSAM 融合了与视觉分割任务紧密相关的先验知识,例如局部连接和对象分配策略。这使得它以更低地参数量和计算量下更快地收敛。

定性与定量分析

测试结果表明,FastSAM 各方面的表现完全不输于 Meta 的原始版本。

速度

从表中可以看出,FastSAM 取得了远超 SAM 的速度表现,在「分割切」模式下,SAM 的速度会受到均匀点提数量的影响, FastSAM 由于结构的特点,运时间不随点提数量的增加增加,这使得它成为「分割切」模式的更好选择。

同时,由于 FastSAM 在结构设计中利了的先验知识,使得它在实时推理的同时也具备了与 SAM 相当的性能

边缘检测

下图展了具有代表性的边缘检测结果。经过定性观察可以看出,尽管 FastSAM 的参数明显较少(只有 68M),但它也能产很质量的边缘检测结果

从下表可以看出,FastSAM 取得了与 SAM 类似的性能。与 Ground Truth 相,FastSAM 和 SAM 都倾向于预测更多的边缘,这种偏差在表中得到了定量的反映。物体候选

从下表可以看出,FastSAM 在 bbox AR@1000 的表现上超过了计算量最的 SAM 模型(SAM-H E64),仅次于在 LVIS 数据集上监督训练的 ViTDet-H [ 2 ] 。

可视化结果

SA-1B 分割结果:下图展了 FastSAM 在 SA-1B 数据集上不同场景和掩码数量时的分割结果。

下游应对:下三张图对了 FastSAM 和 SAM 在异常检测、显著物体分割和建筑物提取三个下游任务的效果,FastSAM 在不同模式下均取得了和 SAM 相当的表现。参考献

[ 1 ] Kirillov A, Mintun E, Ravi N, et al. Segment anything [ J ] . arXiv preprint arXiv:2304.02643, 2023.

[ 2 ] Li J, Yang T, Ji W, et al. Exploring denoised cross-video contrast for weakly-supervised temporal action localization [ C ] //Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 19914-19924.

论文地址:

https://arxiv.org/abs/2306.12156

GitHub 项目页:

https://github.com/CASIA-IVA-Lab/FastSAM

HuggingFace DEMO:

https://huggingface.co/spaces/An-619/FastSAM

Replicate demo:

https://replicate.com/casia-iva-lab/fastsam

标签:

最新文章

最新文章