Hive基于UDF进行文本分词

Hive系列文章

Hive表的基本操作
Hive中的集合数据类型
Hive动态分区详解
hive中orc格式表的数据导入
Java通过jdbc连接hive
通过HiveServer2访问Hive
SpringBoot连接Hive实现自助取数
hive关联hbase表
Hive udf 使用方法
Hive基于UDF进行文本分词
Hive窗口函数row number的用法
数据仓库之拉链表

本文大纲

Hive基于UDF进行文本分词_第1张图片
UDF 简介

Hive作为一个sql查询引擎,自带了一些基本的函数,比如count(计数),sum(求和),有时候这些基本函数满足不了我们的需求,这时候就要写hive hdf(user defined funation),又叫用户自定义函数。编写Hive UDF的步骤:

添加相关依赖,创建项目,这里我用的管理工具是maven,所以我创建的也是一个maven 项目(这个时候你需要选择合适的依赖版本,主要是Hadoop 和 Hive,可以使用hadoop version和hive --version 来分别查看版本)
继承org.apache.hadoop.hive.ql.exec.UDF类,实现evaluate方法,然后打包;
使用 add方法添加jar 包到分布式缓存,如果jar包是上传到$HIVE_HOME/lib/目录以下,就不需要执行add命令了;
通过create temporary function创建临时函数,不加temporary就创建了一个永久函数;
在SQL 中使用你创建的UDF;

更多请见:http://www.mark-to-win.com/tutorial/52274.html

你可能感兴趣的:(大数据,hive,数据仓库,udf)