0%

(CVPR 2018) Learning to segment every thing

Keyword [Weight Transfer] [Mask R-CNN] [Maskx R-CNN]

Hu R, Dollár P, He K, et al. Learning to segment every thing[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 4233-4241.


1. Overview


  • 使用监督学习方式训练object instance segmentation任务,要求数据集有segmentation mask的标注。由于mask的标注成本非常高,现有数据集只有较少mask标注,而物体检测box的标注成本相对较低,现有数据集包含大量box标注。
  • 因此论文提出一种叫做partially supervised (transfer learning)的训练方法,在包含所有box标注和少量mask标注的数据集上训练能够分割所有box标注对象的instance segmentation模型。对maks预测和box预测解耦的Mask R-CNN结构非常适合用于这种训练方法,论文称网络结果为Maskx R-CNN
  • 论文在COCO和Visual Genome数据集上进行实验,训练出能够检测3000种对象类别的instance segmentation模型。



1.1. 思想

  • 在视觉语义空间中,邻近的embedding向量在appearance或semantic上相近。可将box head(最后一层)权重参数和mask head(最后一层)权重参数看作embedding向量。同类别的两个向量在appearance上相似,因此可利用transfer从box head embedding向量学习出mask head embedding向量。
  • 利用weight transfer function基于box权重预测mask权重,weight transfer function通过少量mask标注数据进行学习。由于box权重是针对所有box标注对象而言的,因此transfer后的mask权重也能够针对所有box标注对象, 从而能够预测数据集中mask标注对象以外的对象。换而言之,将category specific信息从box detectors迁移到instance mask predictors.

1.2. 数据集

  • COCO. 为了模拟partially supervised instance segmentation, 将数据集分为两部分:使用box标注和mask标注、只使用box标注。
  • Visual Genome. 规模较大,只有box标注信息。

2. 细节


2.1. 训练数据划分

  • C=A∪B
    • C. 数据集中所有对象类别
    • A. 含有mask标注的对象类别
    • B. 只有box标注的对象类别
      (已知mask标注,可以很容易得到box标注)

2.2. Weight Transfer Function



  1. w_{det}. box head最后一层中的权重,可看作appearance-based visual embedding
  2. w_{seg}. mask head最后一层中的权重
  3. Θ. 学习的参数,class-agnostic

w_{det}的三种类型

  • w_{cls}
  • w_{box}
  • cat(w_{cls}, w_{box})

2.3. 训练

使用A∪B训练box head,使用A训练mask head和τ. 训练方式可分为两种

  1. State-wise Training
    • 第一阶段只使用A∪B中的box标注训练模型。第二阶段固定conv和box head,使用A中的mask标注训练mask head和τ.
  2. End-to-end Joint Training(Mask R-CNN论文中表明multi-stask训练优于分别训练每个任务)
    • Box loss和mask loss都直接回传,但在transfer分支上的mask loss回传至τ后停止(由于只有A的mask loss回传至w_{deg},不存在B的mask loss,为了保持w_{det}在A和B之间的一致性)。


2.4. Baseline

Mask R-CNN with class-agnostic FCN mask head.

2.5. 扩展:融合FCN+MLP Mask Head

  • 两种mask head互补
    • FCN. capture detail
    • MLP. capture gist
  • 对baseline的FCN和论文transfer模型的FCN进行MLP融合来提高效果

3. Experiments on COCO


  • 为了模拟partially supervised训练,将COCO中80个类别分为A(20, 类别包含为VOC数据集中,voc)和B(60, non-voc)
  • Oracle Model. 同时利用A和B中的mask标注进行训练Mask R-CNN

3.1. 实验结果




3.2. Ablation Experiments

  • τ的输入



  • MLP融合



  • 训练方式




4. Experiments on Visual Genome


使用VG数据集的box标注,COCO数据集的mask标注,由于VG没有mask标注,无法计算AP,因为论文直接可视化结果