分割研究里程碑!SAM2Point 3D 任意提示! SAM2加持泛化任意3D场景 可提示
发布时间:2024-11-15 01:35:04点击:
文章链接:在线demo:链接:
亮点直击
今天和小伙伴们一起学习的是,这是一种初步探索,是将 Segment Anything Model 2 (SAM 2) 适配于零样本和可提示的3D分割。SAM2POINT 将任何 3D 数据解释为一系列多方向视频,并利用 SAM2 进行3D空间分割,无需进一步训练或 2D-3D 投影。框架支持多种提示类型,包括 3D 点、3D框和mask,并且可以在各种场景中进行泛化,例如 3D 单个物体、室内场景、室外场景和原始 LiDAR。在多个 3D 数据集上的演示,如 Objaverse、S3DIS、ScanNet、Semantic3D 和 KITTI,突出了 SAM2POINT 的强大泛化能力。本方法展示了 SAM 在 3D 中的最忠实实现,这可能成为未来可提示 3D 分割研究的起点。
效果展示
下图 3到图7 展示了 SAM2POINT 在使用不同 3D 提示对不同数据集进行 3D 数据分割的演示。
SAM2Point的3D物体的多方向视频:
SAM2Point的3D室内场景多方向视频:
SAM2Point的3D室外场景多方向视频:
SAM2Point的3D原始激光雷达的多方向视频:
SAM2POINT 的详细方法如下图 2 所示。下面介绍了 SAM2POINT 如何高效地将 3D 数据格式化以兼容 SAM 2,从而避免复杂的投影过程。接下来,以及详细说明了支持的三种 3D 提示类型及其相关的分割技术。最后,展示了 SAM2POINT 有效解决的四种具有挑战性的 3D 场景。
3D 数据作为视频
任意 3D 场景
凭借简洁的框架设计,SAM2POINT 在各种领域中表现出优越的零样本泛化能力,从对象到场景、从室内到室外场景。在下文中详细阐述了四种不同的 3D 场景:
总结展望
SAM2Point,利用 Segment Anything 2 (SAM 2) 实现 3D 分割,采用零样本和可提示框架。通过将 3D 数据表示为多方向视频,SAM2POINT 支持多种类型的用户提供的提示(3D 点、框和mask),并在多种 3D 场景(3D 单个物体、室内场景、室外场景和原始稀疏 LiDAR)中展示了强大的泛化能力。作为初步探索,SAM2POINT 提供了关于将 SAM 2 适配于有效和高效的 3D 理解的独特见解。希望本文的方法能够作为可提示 3D 分割的基础基准,鼓励进一步研究以充分发挥 SAM 2 在 3D 领域的潜力。
原文链接: