pandas和spark应用心得

pandas处理千万级以下的数据还是很快的,差不得一个G的数据量

如果追求更好的体验,就要用spark,pyspark可以满足需求,类似于sql语句的操作,主要应用的数据类型还是dataframe,处理方法和pandas类似,因为是集群处理,所以速度快,数据存储和读取都存在hadoop实现的hdfs上,主要文件形式,是csv文件

你可能感兴趣的:(pandas,pyspark)