keras实现简单CNN解决Kaggle人脸关键点检测以及相关学习经验

[转载]http://blog.sina.com.cn/s/blog_1450ac3c60102x9lt.html

标签：keras人脸关键点检测kaggle

最近尝试了人脸关键点检测的相关工作，因此从kaggle的facial keypoint detection开始入手。数据集由有效的2300+的96*96单通道图片组成。每张图片有15个标记点（原来有7000+但是其中5000+的类标有缺失）

image

96*96单通道黑白图片，15个标记点

我们使用了简单的CNN网络结构

image

keras模型plot,输出是线性激活，30个输出是由于15个关键点每个点的x,y坐标

代码地址：https://github.com/ewrfcas/Machine-Learning-Toolbox/blob/master/CNN_facial_keypoint_detection_ex.ipynb

训练500epoch之后，我们可以得到这样的部分结果如下（蓝色为标签信息，红色为模型预测信息）：

实验结果：（蓝色为真实标记，红色为算法输出标记）

image

训练集

image

验证集

image

测试集

可以看到上述结果大多是比较理想的。测试集中第二个数据集是3D动画人物，嘴的标点出现了偏差，验证集中第四张出现了显著偏差，测试集反而表现普遍比较良好。

在网络的搭建过程中踩了几个坑：

1）首先是对15*2=30个输出类标需要归一化到[-1,1]，这个操作如果没有做的话在训练的过程中loss的变化会非常不稳定，不利于earlystop的设置，并且会导致结果收敛极不理想。

2）由于我们将输出归一化至[-1,1]，并且在大多数的论文中也是使用线性激活函数，因此在本实验中使用了线性激活函数。如果使用tanh作为激活函数，在500个epoch后结果变化不大：

image

tanh激活函数结果，和线性差别不大

但是线性回归模型更加稳定，更适合微调，并且更具有可解释性。并且在epoch数量低的时候，tanh激活函数的收敛显然不理想，即线性模型在该模型上收敛更迅速。

3）优化器optimizer的选择至关重要，一开始选用默认参数的Adadelta，模型失效，在降低了学习率之后仍然失效。选用SGD随机梯度下降，效果有显著提高。Adadelta通过自适应的学习率调整，虽然能够较快地收敛，但是之后会陷入严重的模型均等化误区。每个样本的输出关键点都差不多（即使输入是随机生成的雪花图片），模型欠学习，无法学习到人脸的特征。

4）现在图像分类模型中用globalavgpooling来代替全连接的工作很多，可以有效降低过拟合风险，在这个回归问题中，paper里无一例外都加了至少2层全连接，让人难以接受。这里以avg_pooling代替全连接进行了测试。

image

用globalavgpooling代替2层全连接，训练过程

epoch在patience=20的情况下263次迭代即提前停止，loss难以下降，最终结果的拟合性能也不够理想。

image

用globalavgpooling代替2层全连接的测试集结果（欠拟合）

可以发现，缺少全连接的情况下权重的大小减少到了原来的1/300，而GlobalPooling的作用在图像上主要还是体现在泛化性能的提升，防止过拟合以及权重的精简。但是在这个回归任务上，目前看来欠拟合才是最主要的问题，而全连接能够更精致地捕捉嘴角，眼睛的特征，因此不应该为追求泛化性能而放弃全连接。

在CNN出现之前就有很多关键点检测的工作，大多是基于局部约束模型Constrained Local Model （CLM）的。作为传统方法，CLM和CNN有哪些差异和优劣，这些可能下次会有分享（咕咕咕~）。

keras实现简单CNN解决Kaggle人脸关键点检测以及相关学习经验

keras实现简单CNN解决Kaggle人脸关键点检测以及相关学习经验

你可能感兴趣的:(keras实现简单CNN解决Kaggle人脸关键点检测以及相关学习经验)