RDD

    """
        RDD#union:
            将两个RDD进行合并,要求两个RDD的类型要一致,如果不一样的话,不行
    """
    union_rdd = pv_rdd.union(uv_rdd)
    print union_rdd.collect()
    # [('2015-08-28', 69197), ('2015-08-28', 39007)]

    # 是不对,运行都没有结果
    # sc.parallelize([1, 2, 3, 4]).union(pv_rdd).collect()

    """
        RDD#join:
            将两个RDD进行连接操作,要求RDD的类型应该是(key, value),依据key相同进行关联
    """
    join_rdd = pv_rdd.join(uv_rdd)
    print join_rdd.collect()
    # [('2015-08-28', (69197, 39007))]

你可能感兴趣的:(RDD)