keras实现简单CNN解决Kaggle人脸关键点检测以及相关学习经验

keras实现简单CNN解决Kaggle人脸关键点检测以及相关学习经验

[转载]http://blog.sina.com.cn/s/blog_1450ac3c60102x9lt.html

标签:keras人脸关键点检测kaggle

最近尝试了人脸关键点检测的相关工作,因此从kaggle的facial keypoint detection开始入手。数据集由有效的2300+的96*96单通道图片组成。每张图片有15个标记点(原来有7000+但是其中5000+的类标有缺失)

image
96*96单通道黑白图片,15个标记点

我们使用了简单的CNN网络结构

image
keras模型plot,输出是线性激活,30个输出是由于15个关键点每个点的x,y坐标

代码地址:https://github.com/ewrfcas/Machine-Learning-Toolbox/blob/master/CNN_facial_keypoint_detection_ex.ipynb

训练500epoch之后,我们可以得到这样的部分结果如下(蓝色为标签信息,红色为模型预测信息):

实验结果:(蓝色为真实标记,红色为算法输出标记)​

image
训练集

image
验证集

image
测试集

可以看到上述结果大多是比较理想的。测试集中第二个数据集是3D动画人物,嘴的标点出现了偏差,验证集中第四张出现了显著偏差,测试集反而表现普遍比较良好。

在网络的搭建过程中踩了几个坑:

1)首先是对15*2=30个输出类标需要归一化到[-1,1],这个操作如果没有做的话在训练的过程中loss的变化会非常不稳定,不利于earlystop的设置,并且会导致结果收敛极不理想。

2)由于我们将输出归一化至[-1,1],并且在大多数的论文中也是使用线性激活函数,因此在本实验中使用了线性激活函数。如果使用tanh作为激活函数,在500个epoch后结果变化不大:

image
tanh激活函数结果,和线性差别不大

但是线性回归模型更加稳定,更适合微调,并且更具有可解释性。并且在epoch数量低的时候,tanh激活函数的收敛显然不理想,即线性模型在该模型上收敛更迅速。

3)优化器optimizer的选择至关重要,一开始选用默认参数的Adadelta,模型失效,在降低了学习率之后仍然失效。选用SGD随机梯度下降,效果有显著提高。Adadelta通过自适应的学习率调整,虽然能够较快地收敛,但是之后会陷入严重的模型均等化误区。每个样本的输出关键点都差不多(即使输入是随机生成的雪花图片),模型欠学习,无法学习到人脸的特征。

4)现在图像分类模型中用globalavgpooling来代替全连接的工作很多,可以有效降低过拟合风险,在这个回归问题中,paper里无一例外都加了至少2层全连接,让人难以接受。这里以avg_pooling代替全连接进行了测试。

image
用​​​​​​​​globalavgpooling代替2层全连接,训练过程

​​​​epoch在patience=20的情况下263次迭代即提前停止,loss难以下降,最终结果的拟合性能也不够理想。

image
用​​globalavgpooling代替2层全连接的测试集结果(欠拟合)

可以发现,缺少全连接的情况下权重的大小减少到了原来的1/300,而GlobalPooling的作用在图像上主要还是体现在泛化性能的提升,防止过拟合以及权重的精简。但是在这个回归任务上,目前看来欠拟合才是最主要的问题,而全连接能够更精致地捕捉嘴角,眼睛的特征,因此不应该为追求泛化性能而放弃全连接。

在CNN出现之前就有很多关键点检测的工作,大多是基于局部约束模型Constrained Local Model (CLM)的。作为传统方法,CLM和CNN有哪些差异和优劣,这些可能下次会有分享(咕咕咕~)。

你可能感兴趣的:(keras实现简单CNN解决Kaggle人脸关键点检测以及相关学习经验)