人脸检测网络MTCNN原理

MTCNN介绍

论文:Joint Face Detection and Alignment using Multi-task Cascaded Convolutional Networks。
论文地址: https://kpzhang93.github.io/MTCNN_face_detection_alignment/paper/spl.pdf
论文github项目地址: https://github.com/kpzhang93/MTCNN_face_detection_alignment
MTCNN(Multi-task convolutional neural network,多任务卷积神经网络)是一个多任务同时进行的人脸检测网络,该网络使用3个CNN级联算法结构,可以实现人脸检测和5个特征点的标定。

MTCNN网络的结构

该网络可分为图像金字塔、PNet、RNet、和ONet四级网络结构。

图像金字塔

为了检测到不同尺寸大小的人脸,在进入P-Net之前,我们要首先对图像进行金字塔操作。根据设定的min_face_size尺寸,将图像按照一定的尺寸缩小,每次将图像缩小到前级图像面积的一半,形成scales列表,直至边长小于min_face_size,此时可以得到一组不同尺寸的输入图像。

P-Net(Proposal Network)

前面经过图像金字塔得到的这组不同尺寸的图像作为输入,使用全卷积网络(FCN)来提取与标定边框。anchor大小为12x12,经过P-Net全卷积层后变成1。(假设输出为wh,则输出的每个点都对应原img中一个1212的区域)
在训练时该网络最终有3条支路,分别用来做人脸分类(是人脸的概率)、人脸框回归和人脸5个关键点定位(5个点坐标,(x,y)形式),使用0.6的分类阈值来初筛人脸框,并进行边框回归调整与非极大值抑制(NMS,去除一部分重叠窗口)。最后得到的所有边框会放置在一个numberx9的数组里,number表示box的数量,9代表box的坐标信息、score、坐标回归信息[x1、y1、x2、y2、score、reg_x1、reg_y1、reg_x2、reg_y2],利用线性回归对边框进行坐标修正。修正之后,将修正后不规则的框调整为正方形,将超出原img范围的部分填充为0,大小比例不变。
在测试时这一步的输出只有回归框的4个坐标和分类score。
注意:
没有将网络输出做全连接层展开,而是直接将卷积层结果作为输出。原因是在应用端,每一个输入图像都是尺度不一的。如果增加全连接层,当尺度不一的图像输入pnet时,全连接层的特征向量也会不等长。而利用卷积层能将不同size的输入图像最终输出为同一尺寸的特征图(1x1x?)。
网络结构:

                                                                                                        --->1x1x2 face classification
                                                                                                       |
input:12x12x3--->conv:3x3 max pool:2x2 size:5x5x10--->conv:3x3  size:3x3x16--->conv:3x3  size:1x1x32--->--->1x1x4 bounding box regression
                                                                                                       |
                                                                                                        --->1x1x10 facial landmark localization

R-Net(refine network)

R-Net主要用来去除大量的非人脸框。该网络输入是前面P-Net生成的回归框,每个框的大小会resize成24x24。在训练时该网络最终有3条支路,分别用来做人脸分类(是人脸的概率)、人脸框回归和人脸5个关键点定位(5个点坐标,(x,y)形式),设置score阈值,大于阈值的框才留下,留下的框进行坐标的回归修正和非极大值抑制(去除非人脸框)。最后将修正后不规则的框调整为正方形,将超出原img范围的部分填充为0,大小比例不变。
在测试时这一步的输出只有回归框的4个坐标和score。
网络结构:

                                                                                                                                            --->2 face classification
                                                                                                                                           |
input:24x24x3--->conv:3x3 max pool:3x3 size:11x11x28--->conv:3x3 max pool:3x3  size:4x4x48--->conv:2x2  size:3x3x64--->fully connect:128--->--->4 bounding box regression
                                                                                                                                           |
                                                                                                                                            --->10 facial landmark localization

O-Net(output network)

O-Net使用更复杂的CNN网络进一步修正边框坐标,并输出5个人脸特征点位置坐标。该网络输入是前面R-Net最后输出的所有回归框,每个框的大小会resize成48x48。该网络最终也有3条支路,输出包含P个回归框的4个坐标、score和5个关键点坐标。 训练时根据设定的阈值,大于阈值的框才留下,留下的框进行回归框和关键点的坐标的回归修正和非极大值抑制(去除非人脸框)。最后将修正后不规则的框调整为正方形,将超出原img范围的部分填充为0,大小比例不变。
在测试时输出只有回归框的4个坐标、关键点的5个坐标和score。并将坐标映射回原图得到真实的坐标,得到一副包含人脸框与人脸关键点的检测图像。
网络结构:

                                                                                                                                                                                   --->2 face classification
                                                                                                                                                                                  |
input:48x48x3--->conv:3x3 max pool:3x3 size:23x23x32-->conv:3x3 max pool:3x3  size:10x10x64--->conv:3x3 max pool:2x2  size:4x4x64--->conv:2x2 size:3x3x128--->fully connect:256--->--->4 bounding box regression
                                                                                                                                                                                  |
                                                                                                                                                                                   --->10 facial landmark localization

MTCNN的损失函数

face classification支路的损失函数(人脸分类)

$$
L_{i}^{d e t}=-\left(y_{i}^{d e t} \log \left(p_{i}\right)+\left(1-y_{i}^{d e t}\right)\left(1-\log \left(p_{i}\right)\right)\right)
$$
采用交叉熵函数。这里是二分类。pi为是否为face的概率, yi_det是真实label。

bounding box regression支路的损失函数(边界框回归)

$$
L_{i}^{b o x}=||\hat y_{i}^{b o x}-y_{i}^{b o x}||_{2}^{2}
$$
采用平方损失函数。

facial landmark localization支路的损失函数(关键点回归)

$$
L_{i}^{l a n d m a r k}=||\hat y_{i}^{l a n d m a r k}-y_{i}^{l a n d m a r k}||_{2}^{2}
$$
也采用平方损失函数。

总损失函数

$$
\min \sum_{i=1}^{N} \sum_{j \epsilon{d e t, b o x, l a n d m a r k}} \alpha_{j} \beta_{i}^{j} L_{i}^{j}
$$
其中N是样本数,α是任务权重。这就是总损失函数的统一形式。
P-Net训练时权重:
$$
\quad \alpha_{\text {det}}=1, \alpha_{b o x}=0.5, \alpha_{\text {landmark}}=0.5
$$
R-Net训练时权重:
$$
\alpha_{d e t}=1, \alpha_{b o x}=0.5, \alpha_{l a n d m a r k}=0.5
$$
O-Net训练时权重:
$$
\alpha_{d e t}=1, \alpha_{b o x}=0.5, \alpha_{l a n d m a r k}=1
$$
$$
\beta_{j} \in [0,1] \quad 代表样本标签
$$
总损失函数可写成上面的统一形式,但是在每个级联网络进行训练时α的权重不同,所以具体的损失函数是有变化的。在P-Net和R-Net中,关键点的损失权重要小于O-Net部分,这是因为前面2个级联网络的重点在于过滤掉非人脸的回归框。β存在的意义是如果是非人脸输入,就只需要计算分类损失,而不需要计算回归和关键点的损失。

MTCNN网络的训练

三个训练任务

人脸分类任务:利用正样本和负样本进行训练;
人脸边框回归任务:利用正样本和部分样本进行训练;
关键点检测任务:利用关键点样本进行训练。

训练样本的生成

论文中作者主要使用了Wider_face和CelebA数据库,其中Wider_face主要用于检测任务的训练,CelebA主要用于关键点的训练。训练集分为四种:负样本,正样本,部分样本,关键点样本。样本比例为3:1:1:2。
正样本、负样本、部分样本的提取:
从Wider_face中随机裁切生成样本,然后和标注数据计算IOU,如果大于0.65,则为正样本,大于0.4小于0.65为部分样本,小于0.4为负样本;
计算边框偏移。对于边框,(x1,y1)为左上角坐标,(x2,y2)为右下角坐标,新剪裁的边框坐标为(xn1,yn1),(xn2,yn2),width,height。则offset_x1 =(x1 - xn1)/width。类似地,计算另三个点的坐标偏移。
正样本,部分样本均有边框信息,负样本不需要边框信息。

关键点样本提取:
从celeba中提取,可以根据标注的边框,在满足正样本的要求下,随机裁剪出图片,然后调整关键点的坐标。

由于训练过程中需要同时计算3个级联网络的loss函数,但是对于不同的任务,每个任务需要的loss函数不同,因此需要对每张图片进行15个标注:
第1列:正负样本标志(1为正样本,0为负样本,2为部分样本,3为关键点信息);
第2-5列:边框偏移,float类型,对于无边框信息的数据,全部置为-1;
第6-15列:为关键点偏移,为floagt类型,对于无边框信息的数据,全部置为-1。

不同的级联网络训练时loss函数的变化

总损失函数为:
$$
\min \sum_{i=1}^{N} \sum_{j \epsilon{d e t, b o x, l a n d m a r k}} \alpha_{j} \beta_{i}^{j} L_{i}^{j}
$$
其中N是样本数,α是任务权重。这就是总损失函数的统一形式。
P-Net训练时权重:
$$
\quad \alpha_{\text {det}}=1, \alpha_{b o x}=0.5, \alpha_{\text {landmark}}=0.5
$$
R-Net训练时权重:
$$
\alpha_{d e t}=1, \alpha_{b o x}=0.5, \alpha_{l a n d m a r k}=0.5
$$
O-Net训练时权重:
$$
\alpha_{d e t}=1, \alpha_{b o x}=0.5, \alpha_{l a n d m a r k}=1
$$
$$
\beta_{j} \in [0,1] \quad 代表样本标签
$$

困难样本的选择

作者采用了在线困难样本选择的方法,即在训练过程中只对Loss比较大的sample进行反向传播。具体做法是,对每个小批量里所有样本计算loss,对loss进行降序,前70%samples做为hard samples进行反向传播。这个策略在分类和人脸识别中经常用。

MTCNN网络的测试

原始图像首先经过图像金字塔,生成多个尺度的图像,然后输入PNet,,PNet由于尺寸很小,所以可以很快的选出候选区域,但是准确率不高,然后采用非极大值抑制(NMS)算法,剔除重叠候选框。根据候选框提取图像,作为RNet的输入,RNet可以精确的选取边框,一般最后只剩几个边框,最后输入ONet。ONet虽然速度较慢,但是由于经过前两个网络,已经得到了高概率的边框,所以输入ONet的图像较少,最后由ONet输出精确的边框和关键点信息。


 上一篇
CUDA矩阵计算原理和方法 CUDA矩阵计算原理和方法
基本概念主机(host)将CPU及系统的内存(内存条)称为主机。 设备(device)将GPU及GPU本身的显示内存称为设备。 流式处理器(SP)流处理器SP(streaming processor,也叫CUDA core)是最基本的处理单
2019-05-15
下一篇 
目标检测模型性能指标mAP的含义解释 目标检测模型性能指标mAP的含义解释
准确率、精确率、召回率、P-R曲线图、平衡点、F1 score、Fβ真实情况 预测为正 预测为反 正 TP(真正例) FN(假反例) 反 FP(假正例)
2019-05-05
  目录