spark的python API的一些研究成绩记录

from pyspark import SparkContext
    sc = SparkContext(appName="Hello")
    #读取文件
    lines = sc.textFile(Hello,2)
    #主要介绍一下上行代码中的textFile中的参数,第一个是读取文件,一般都是只写第一个,默认不写后面的第二个参数2,第二个参数默认值是2,意思是minPartitions,主要作用是task一共执行多少个,优化的话,这个参数还是很有用的,一个测试文件,过小的话,默认值为1时,是2.9秒 ,设置为10时是3.5S,设置为1000时是16.5s,可见每个参数的重要性。


你可能感兴趣的:(spark的python API的一些研究成绩记录)