美图数据分析实习生笔试题

以下题为当时回忆版,只记得部分题目大意。
1. 找规律 0,4,18,(),100
0=1的平方×(1-1)
4=2的平方×(2-1)
18=3的平方×(3-1)
100=5的平方×(5-1)
4的平方×(4-1)=48
2. 如果你有一把剑,一颗宝石有50%的几率能升一级,五级及以上,失败会降级,五级以下失败就不做任何反应。期望有多少颗宝石才能把一把1级的宝剑升到9级。 (考的是期望值)
美图数据分析实习生笔试题_第1张图片
3.现在是00:00,一天内时针和分针会重叠几次?
这是典型的追击问题
时针和分针重合就需要分针比时针多走360度,分针每分钟走6度,时针每分钟走0.5度,
因此重合一次需要的时间为: 360/(6-0.5)=720/11
24小时=1440分钟
1440/(720/11)=22次
如果算开始的00:00时刻就是23次

4.什么是特征工程,是做什么的,对于缺失数据你一般如何处理
特征是数据中抽取出来的对结果预测有用的信息,可以是文本或者数据。
特征工程是使用专业背景知识和技巧处理数据,使得特征能在机器学习算法上发挥更好的作用的过程。过程包含了特征提取、特征构建、特征选择等模块。
这是参考一下R语言中数据缺失的处理方法。原文:https://blog.csdn.net/zhuangailing/article/details/79253768
1、删除缺失值
其实这种方法只有在自己拥有大量的数据进行模型训练才可以选择删除,比如用na.omit()或者
在建模时设置na.action=na.omit。当然,实际业务在过手的时候,数据量不大的情况下,或者你删除
缺失值后,建立的模型不能很好的解释业务,可以考虑缺失值的重新认定。
2、删除个别变量
对于有些确实很严重的数据,比如缺失值的数量超过了你在业务上认定的比例,那么可以删除这个变量。但是我最近接到的数据居然是长这样的,就是这个变量对于要建立的模型很重要,在不能
删除这个变量,我们需要考量变量在模型中的地位以及训练和测试的数量上做一抉择。
3、用普通的方法进行插值
为什么我要说普通的方法呢?使用我稍后举例的方法进行插值,这种方法略显粗糙,我并不否定
这些方法,每一种方法都有其存在的应用场景。

library(Hmisc)

impute(env$Ca,mean)        ####平均值
impute(env$K,median)       ####中位数
impute(env$P,zs)          ####众  数 这里的zs<-MS(env$P)
impute(env$N,"random")      ####随  机

当然在e1071里面也有这函数。还有
众数是需要自己计算的
MS <- function(x){ return(as.numeric(names(table(x))[table(x) == max(table(x))]))}

当然你要直接采用这种方法进行插补数据,

env$Ca<-impute(env$Ca,mean)       ####平均值,适用于接近正态分布
env$K<-impute(env$K,median)       ####中位数,偏态不是很严重
env$P<-impute(env$P,zs)         ####众  数
env$N<-impute(env$N,"random")     ####随  机

这样就将数据生成一个完整的数据集了。分析的事情就可以继续走了。祝好运!
当然不管怎样,这样的数据生成的是否合理?怎么去检验我插补的数据是否客观呢或者近乎合理呢?
此时,我们需要计算插值的精度。我们需要引进DMwR包install.packages(“DMwR”),library(DMwR)
提到这个包,里面有manyNAs(data,0.2)这么个函数返回的是找出缺失值大于列数20%的行,这个0.2是可
以调的。
4.在DMwR包里有centralImputation()这个函数是利用数据的中心趋势值来填补缺失值。
5、K最近邻法
在DMwR包中的knnImputation()函数是基于欧氏距离找到K个与其最近的观测数值,然后对这K个近邻的数据利用距离逆加权得到插补的值,然后替代了源数据中的缺失值。
6、rpart
使用决策树来预测缺失值,它相对于前面的优点是能够对因子类变量进行插补,centralImputation()函数也是可以的,
不过对于名义型变量它采取的是众数。
使用rpart()函数对于数值型变量(method=anova),因子型变量(method=class)。需要注意method的使用方法

  • Hmisc包 对多种函数,支持简单插补、多重插补和典型变量插补
  • longitudinalData 对时间序列缺失值进行插补的一系列函数
  • pan 多元面板数据或着聚类的多重插补
  • kmi 处理生存分析缺失值的Kaplan-Meier的多重插补
  • cat 在对数线性模型中带有多元类别型变量的多重插补
  • mvnmle 对多元正态颁数据中缺失值的最大似然估计

一道sql的题,
取同类记录中最早的时间 (可能会用到CASE WHEN END) 语句
如何个性化的推荐美图的滤镜?
美图产品的不足和应该改进的地方。

你可能感兴趣的:(美图数据分析实习生笔试题)