2018年发表的一篇关于landmark localization的论文, 具体说一下论文的内容,论文的contribution分成两部分:cascade 的网络设计+ data augmentation

  1. Cascade网络结构:第一阶段网络根据检测器出的框crop出人脸回归出初始的landmark位置,这一部分网络通常比较大以保证第一阶段得到的landmark位置比较接近ground truth,第二阶段是一个component-wise的landmark refine网络,主要用来回归mouth、eye等形变比较常见的一些部位的landmark,最后结合第一阶段其他landmark的结果作为最终的输出。至于网络基本的结构是基于VGG的。

  1. Data Augmentation:这一部分感觉也是比较常见的一些操作,论文主要阐述了平移的aug,范围是长宽的30%以内,加之random rotation、random Gaussian blurring、flip等,其实和目前postfilter的训练data aug是差不多的,论文强调了同样的aug在网络的第一阶段和第二阶段都应用了。
    Data augmentation的示意: