437ccm必赢国际(BWIN)官方网站-Official Website

首页» 本科生教育» 教学成果» 典型案例» 优秀大创» 2023年国家级大学生创新训练计划项目结题：精细化分割一切

2023年国家级大学生创新训练计划项目结题：精细化分割一切

发布时间:2024-11-25 阅读次数:

立项年份：2023年

项目成员信息：指导教师信息：

刘梦真-2021级-计算机信息与技术魏云超-教授-计算机视觉

项目简介

图1：提出的Pi-SAM与SAM和HQ-SAM的定性比较。在这些具有挑战性的高分辨率图像样本中，我们的Pi-SAM展示了捕捉极细微细节和感知复杂拓扑结构的卓越能力，实现了高精度的分割结果。

尽管Segment Anything Model (SAM)在许多分割任务和基准测试中取得了令人印象深刻的成果，但当应用于高分辨率图像进行高精度分割时，其性能显著下降，限制了其在许多现实应用中的使用。在本研究中，我们探索了将SAM转移到高分辨率图像领域，并提出了Pi-SAM。与原始SAM及其变体相比，Pi-SAM展现出以下优势：

首先，Pi-SAM在高分辨率图像的极细节感知能力非常强，使其能够生成高精度的分割掩码。因此，Pi-SAM在四个高分辨率数据集上的表现显著超越了以往的方法。

其次，Pi-SAM支持更精确的用户交互。除了SAM的原生提示能力外，Pi-SAM还允许用户通过点击交互来细化分割预测，而原始SAM在高分辨率图像上无法实现这一点。

第三，基于SAM，Pi-SAM冻结了其所有原始参数，仅引入了极少量的额外参数和计算成本来实现上述性能。这确保了模型微调的高效性，同时保留了原始SAM中强大的语义信息。

Pi-SAM的科研价值在于它在高分辨率图像分割领域的突破，推动了图像分割技术的发展。其应用价值则体现在多个领域，包括医学影像处理、遥感图像分析和自动驾驶等，需要高精度图像分割的场景。Pi-SAM不仅提升了分割精度，还增强了用户交互体验，为实际应用提供了更高效、更准确的解决方案。

项目创新点：

1. 极细节感知能力：Pi-SAM在高分辨率图像中的极细节感知能力显著增强，能够捕捉极其细微的图像细节并生成高精度的分割掩码。这使得Pi-SAM在多个高分辨率数据集上表现优异，显著超越了现有的方法。

图2：所提出的Pi-SAM模型图。我们提出了两个附加模块：高分辨率掩码解码器和精确交互器。高分辨率掩码解码器由对象嵌入器和高分辨率卷积头（在图中称为HR-Conv Head）组成。对象嵌入器增强了SAM输出的低分辨率掩码特征。HR-Conv Head替换了SAM基于点积的输出层，以生成高分辨率的预测。精确交互器是一个可选模块，允许用户通过点击错误预测区域来识别预测中的不准确之处，然后自动进行校正。

2. 增强的用户交互体验：Pi-SAM支持更精确的用户交互。除了继承SAM的原生提示功能外，Pi-SAM还允许用户通过点击交互来细化分割预测。这一功能在原始SAM中无法在高分辨率图像上实现，极大地提高了用户操作的便捷性和分割结果的准确性。

3. 高效的模型迁移：Pi-SAM在基于SAM的基础上，冻结了所有原始参数，仅引入极少量的额外参数和计算成本。通过这种方法，Pi-SAM不仅保持了原始SAM的强大语义信息，还确保了模型微调的高效性，提升了其在实际应用中的可操作性和实用性。

表1：DIS5K数据集上的结果。在三种基于SAM的方法中，我们对每种ViT版本的最佳结果进行了加粗处理。在所有方法的比较中，前1、2和3的结果分别用红色、绿色和蓝色突出显示。

项目成果：

目前投稿至ACM MM2024 （ccf-a）