Spark SQL之 UDF自定义函数实战

目录

一:UDF含义

二:使用scala/java 创建的方法直接使用在Hive SQL 中

三:代码


一:UDF含义


UDF:(User Defined Function)用户自定义函数

二:使用scala/java 创建的方法直接使用在Hive SQL 中


作用:真正的把SQL的脚本操作方法与高级语言的方法贯通

三:代码


SCALA:实战
 

def main(args: Array[String]): Unit = {
    val conf = new SparkConf()
        .setMaster("local") 
        .setAppName("UDF")
    val sc = new SparkContext(conf)
    val sqlContext = new SQLContext(sc)
  
    // 构造模拟数据
    val names = Array("Leo", "Marry", "Jack", "Tom") 
    val namesRDD = sc.parallelize(names, 5) 
    val namesRowRDD = namesRDD.map { name => Row(name) }
    val structType = StructType(Array(StructField("name", StringType, true)))  
    val namesDF = sqlContext.createDataFrame(namesRowRDD, structType) 
    
    // 注册一张names表
    namesDF.registerTempTable("names")  
    
    // 定义和注册自定义函数
    // 定义函数:自己写匿名函数
    // 注册函数:SQLContext.udf.register()
    sqlContext.udf.register("strLen", (str: String) => str.length()) 
  
    // 使用自定义函数
    sqlContext.sql("select name,strLen(name) from names")
        .collect()
        .foreach(println)  
  }


  
  
  Java实战:
  class:

  public class ItcastFunc extends UDF{
    //重载
    public String evaluate(String input){
        return input.toLowerCase();//将大写字母转换成小写
    }

    public int evaluate(int a,int b){
        return a+b;//计算两个数之和
    }
}

在Hive环境中:
create temporary function udffunc as 'hive.udf.UDFFunc';//temporary表示为临时方法,当会话结束后失效;udffunc为hive中定义的函数名,‘hive.udf.UDFFunc’为自定义方法的全类路径

select udffunc("ABC") from dual;//输出abc

你可能感兴趣的:(#,Spark,SQL)