人脸识别常用数据集和Loss

人脸识别数据集

数据集的noise对训练效果的影响很大!很长一段时间MegaFace的效果都上不去,就是因为数据集噪声的原因。而且自己在训练人脸的时候,如果不对数据集的噪声和属性有一点了解,对训练结果可能会有误判,甚至越训练越差…在选择数据集的时候不要一味求大,有的时候选择一个noise比例极高的大数据集,效果还不如选择一个clean的小数据集呢,可以参见这篇论文The Devil of Face Recognition is in the Noise

LFW

全名是Labeled Faces in the Wild.这个数据集是人脸评估一定会用到的一个数据集,包含了来自1680的13000张人脸图,数据是从网上搜索来的。基本都是正脸。这个数据集也是最简单的,基本主流算法都能跑到99%以上,貌似有6对label错了,所以最高正确率应该是99.9%左右。这个都跑不到99%的话别的数据集表现效果会更差。一般来说这个数据集是用来做人脸识别验证的。

CelebFaces

总共包含10177个人的202599张图片,也是从搜索引擎上爬过来的,噪声不算多,适合作为训练集。同时这个数据对人脸有一些二元标签,比如是否微笑,是否戴帽子等。如果需要特定属性的人脸,也可以从中获取。
40个属性如下(引用自芯尚刃:CelebA数据集详细介绍及其属性提取源代码 ):
5_o_Clock_Shadow:刚长出的双颊胡须,Arched_Eyebrows:柳叶眉, Attractive:吸引人的, Bags_Under_Eyes:眼袋, Bald&#x

你可能感兴趣的:(人脸识别,深度学习)