2023年国家级大学生创新训练计划项目结题:精细化分割一切
发布时间:2024-11-25 阅读次数:
立项年份:2023年
项目成员信息: 指导教师信息:
刘梦真-2021级-计算机信息与技术 魏云超-教授-计算机视觉
项目简介
图1:提出的Pi-SAM与SAM和HQ-SAM的定性比较。在这些具有挑战性的高分辨率图像样本中,我们的Pi-SAM展示了捕捉极细微细节和感知复杂拓扑结构的卓越能力,实现了高精度的分割结果。
尽管Segment Anything Model (SAM)在许多分割任务和基准测试中取得了令人印象深刻的成果,但当应用于高分辨率图像进行高精度分割时,其性能显著下降,限制了其在许多现实应用中的使用。在本研究中,我们探索了将SAM转移到高分辨率图像领域,并提出了Pi-SAM。与原始SAM及其变体相比,Pi-SAM展现出以下优势:
首先,Pi-SAM在高分辨率图像的极细节感知能力非常强,使其能够生成高精度的分割掩码。因此,Pi-SAM在四个高分辨率数据集上的表现显著超越了以往的方法。
其次,Pi-SAM支持更精确的用户交互。除了SAM的原生提示能力外,Pi-SAM还允许用户通过点击交互来细化分割预测,而原始SAM在高分辨率图像上无法实现这一点。
第三,基于SAM,Pi-SAM冻结了其所有原始参数,仅引入了极少量的额外参数和计算成本来实现上述性能。这确保了模型微调的高效性,同时保留了原始SAM中强大的语义信息。
Pi-SAM的科研价值在于它在高分辨率图像分割领域的突破,推动了图像分割技术的发展。其应用价值则体现在多个领域,包括医学影像处理、遥感图像分析和自动驾驶等,需要高精度图像分割的场景。Pi-SAM不仅提升了分割精度,还增强了用户交互体验,为实际应用提供了更高效、更准确的解决方案。
项目创新点:
1. 极细节感知能力:Pi-SAM在高分辨率图像中的极细节感知能力显著增强,能够捕捉极其细微的图像细节并生成高精度的分割掩码。这使得Pi-SAM在多个高分辨率数据集上表现优异,显著超越了现有的方法。
图2:所提出的Pi-SAM模型图。我们提出了两个附加模块:高分辨率掩码解码器和精确交互器。高分辨率掩码解码器由对象嵌入器和高分辨率卷积头(在图中称为HR-Conv Head)组成。对象嵌入器增强了SAM输出的低分辨率掩码特征。HR-Conv Head替换了SAM基于点积的输出层,以生成高分辨率的预测。精确交互器是一个可选模块,允许用户通过点击错误预测区域来识别预测中的不准确之处,然后自动进行校正。
2. 增强的用户交互体验:Pi-SAM支持更精确的用户交互。除了继承SAM的原生提示功能外,Pi-SAM还允许用户通过点击交互来细化分割预测。这一功能在原始SAM中无法在高分辨率图像上实现,极大地提高了用户操作的便捷性和分割结果的准确性。
3. 高效的模型迁移:Pi-SAM在基于SAM的基础上,冻结了所有原始参数,仅引入极少量的额外参数和计算成本。通过这种方法,Pi-SAM不仅保持了原始SAM的强大语义信息,还确保了模型微调的高效性,提升了其在实际应用中的可操作性和实用性。
表1:DIS5K数据集上的结果。在三种基于SAM的方法中,我们对每种ViT版本的最佳结果进行了加粗处理。在所有方法的比较中,前1、2和3的结果分别用红色、绿色和蓝色突出显示。
项目成果:
目前投稿至ACM MM2024 (ccf-a)