苍夜月明

hive重点内容汇总

文章目录

前言
函数
- from_unixtime : 时间戳转日期
- unix_timestamp : 日期转时间戳
- current_date : 当前时间 / unix_timestamp : 当前时间戳
- to_date : 返回日期中的年月日
- datediff : 日期之差 / date_add、date_sub : 日期加减
- collect_set、collect_list : 列转行函数
- concat、concat_ws : 字符串拼接函数
- size : 判断array或map数据的大小
- cast : 转换数据类型
- grouping sets : 替代union all的优化
- get_json_object : 解析json字符串
- split : 按指定分隔符分割字符串
小技巧
- where里面用if : 搭配变量实现动态设置where条件
- t1 join t2 on 1 = 1 : 笛卡尔积
- 开窗直接order by : 窗口大小从第一行到最后一行，最大窗口
分清
- hive执行顺序
- 各种 join 叫法区分（inner join、XX outer join）
- substr 和 substring

前言

这篇文章一方面是帮助我记忆常用函数，如果工作中忘了不用百度，直接翻这篇文章就好。另一方面也想分享给各位，大家一起学习。

函数

from_unixtime : 时间戳转日期

使用格式：
from_unixtime(10位时间戳,'想转成的日期格式')

举例：

select from_unixtime(1686454221,'yyyy-MM-dd HH:mm:ss');	-- 2023-06-11 11:30:21

日期格式写'年-月-日时:分:秒'和不写日期格式的效果是一样的

select from_unixtime(1686454221);	-- 2023-06-11 11:30:21

select from_unixtime(1686454221,'yyyy-MM-dd');	-- 2023-06-11

上面都是10位时间戳的情况，
from_unixtime()不能处理13位时间戳，需要转换成10位后计算
转化方式有两种，

方法一：

cast(1660307098908/1000 as bigint)	-- 1660307098

方法二：

substr(1660307098908,1,10)	-- 1660307098

里面时间戳是string和bigint都可以，因为hive会自动类型转换

unix_timestamp : 日期转时间戳

使用格式：
unix_timestamp(日期,'待转换日期的格式')

举例：

select unix_timestamp('2023-06-11 11:22:00','yyyy-MM-dd HH:mm:ss');	-- 1686453720

select unix_timestamp('2023-06-11','yyyy-MM-dd');	-- 1686412800

年-月-日时:分:秒可以不写日期格式，但年-月-日一定要写

select unix_timestamp('2023-06-11 11:22:00');    -- 1686453720

select unix_timestamp('2023-06-11');    -- null

current_date : 当前时间 / unix_timestamp : 当前时间戳

使用格式：
current_date() 当前时间
unix_timestamp() 当前时间戳

举例：

select current_date ();	-- 2023-06-11

select unix_timestamp();	-- 1686462398

to_date : 返回日期中的年月日

使用格式：
to_date('时间')

举例：

select to_date('2023-06-11 11:22:00');	-- 2023-06-11

datediff : 日期之差 / date_add、date_sub : 日期加减

使用格式：
datediff(日期1,日期2) 日期1-日期2
date_add(日期,数字) 日期+数字
date_sub(日期,数字) 日期-数字

举例：

select datediff('2023-06-11','2023-06-10');	-- 1

select date_add('2023-06-11',2);    -- 2023-06-13

select date_sub('2023-06-11',2);    -- 2023-06-09

这三个函数都是拿日期中的年月日计算的，不涉及时分秒

select datediff('2023-06-11 18:22:00','2023-06-11 10:22:00');	-- 0

select date_add('2023-06-11 18:22:00',2);	-- 2023-06-13

select date_sub('2023-06-11 18:22:00',2);	-- 2023-06-09

加上时分秒后返回的照样只有年月日。有可能是自动进行了to_date，这个回头看源码了解

collect_set、collect_list : 列转行函数

使用格式：
配合 group by 使用，把一列数据转换成一个字段 (一行) ，字段类型是数组
collect_set ：数组值去重
collect_list ：数组值不去重

举例：

name	course
张三	语文
张三	数学
张三	英语
张三	数学
李四	语文
李四	数学
李四	英语
李四	语文
李四	英语

select  name
        ,collect_set(course)	-- 重点！
from    (	-- 这个from不用看，造假数据用
    select  '张三' as name
            ,'语文' as course
    union all 
    select  '张三' as name
            ,'数学' as course
    union all 
    select  '张三' as name
            ,'英语' as course
    union all 
    select  '张三' as name
            ,'数学' as course
    union all 
    select  '李四' as name
            ,'语文' as course
    union all 
    select  '李四' as name
            ,'数学' as course
    union all 
    select  '李四' as name
            ,'英语' as course
    union all 
    select  '李四' as name
            ,'语文' as course
    union all 
    select  '李四' as name
            ,'英语' as course
) t
group by name
;

name	collect_set(course)
李四	[“英语”,“数学”,“语文”]
张三	[“数学”,“语文”,“英语”]

select  name
        ,collect_list(course)	-- 重点！
from    (	-- 这个from不用看，造假数据用
    select  '张三' as name
            ,'语文' as course
    union all 
    select  '张三' as name
            ,'数学' as course
    union all 
    select  '张三' as name
            ,'英语' as course
    union all 
    select  '张三' as name
            ,'数学' as course
    union all 
    select  '李四' as name
            ,'语文' as course
    union all 
    select  '李四' as name
            ,'数学' as course
    union all 
    select  '李四' as name
            ,'英语' as course
    union all 
    select  '李四' as name
            ,'语文' as course
    union all 
    select  '李四' as name
            ,'英语' as course
) t
group by name
;

name	collect_list(course)
李四	[“数学”,“英语”,“语文”,“英语”,“语文”]
张三	[“数学”,“数学”,“英语”,“语文”]

concat、concat_ws : 字符串拼接函数

使用格式：
concat(str1, str2, str3, …)
concat_ws('分隔符', str1, str2, …)

举例：

select concat('1', '+', '1', '=', '2');	-- 1+1=2

select concat_ws('-', 'yyyy', 'MM', 'dd');  -- yyyy-MM-dd

分隔符不同时用concat，分隔符相同时用concat_ws

扩充：
一般collect_set后外面包一层concat_ws：数组转字符串

select  name
        ,concat_ws(',', collect_set(course))	-- 重点！
from    (   -- 这个from不用看，造假数据用
    select  '张三' as name
            ,'语文' as course
    union all 
    select  '张三' as name
            ,'数学' as course
    union all 
    select  '张三' as name
            ,'英语' as course
    union all 
    select  '张三' as name
            ,'数学' as course
    union all 
    select  '李四' as name
            ,'语文' as course
    union all 
    select  '李四' as name
            ,'数学' as course
    union all 
    select  '李四' as name
            ,'英语' as course
    union all 
    select  '李四' as name
            ,'语文' as course
    union all 
    select  '李四' as name
            ,'英语' as course
) t
group by name
;

name	_c1
李四	语文,英语,数学
张三	数学,语文,英语

数组变字符串了

size : 判断array或map数据的大小

使用格式：
size(array/map)

举例：

select size(array("英语","数学","语文"));   -- 3
select size(str_to_map('"英语":90, "数学":70, "语文":80'));    -- 3
select size(array(null));   -- 1

当array或者map为null时，size的值为1

cast : 转换数据类型

使用格式：
cast(XX as 数据类型)

举例：

select  cast(3.14159265358979 as bigint);   -- 3

一般常用在时间戳转日期中，13位时间戳要先变成10位，才能再用from_unixtime()

select  from_unixtime(cast(1660307098908/1000 as bigint), 'yyyy-MM-dd'); -- 2022-08-12

grouping sets : 替代union all的优化

使用格式：
group by… grouping sets((),(),())

举例：

明细

学校	班级	性别	过六级人数
门头沟学院	1	男	53
门头沟学院	1	女	31
门头沟学院	2	男	13
门头沟学院	2	女	21
蚌埠坦克学院	1	男	17
蚌埠坦克学院	1	女	28
蚌埠坦克学院	2	男	22
蚌埠坦克学院	2	女	18

想出的指标

学校	班级	性别	过六级人数
全部	全部	全部	203
门头沟学院	全部	全部	118
蚌埠坦克学院	全部	全部	85
门头沟学院	1	全部	84
门头沟学院	2	全部	34
蚌埠坦克学院	1	全部	45
蚌埠坦克学院	2	全部	40

grouping sets优化写法

select  nvl(`学校`, '全部')
        ,nvl(`班级`, '全部')
        ,nvl(`性别`, '全部')
        ,sum(`过六级人数`)
from    t
group by `学校`, `班级`, `性别` grouping sets((), (`学校`), (`学校`, `班级`))
;

与传统写法对比

select  '全部' as `学校`
        ,'全部' as `班级`
        ,'全部' as `性别`
        ,sum(`过六级人数`)
from    t
union all 
select  `学校`
        ,'全部' as `班级`
        ,'全部' as `性别`
        ,sum(`过六级人数`)
from    t
group by `学校`
union all 
select  `学校`
        ,`班级`
        ,'全部' as `性别`
        ,sum(`过六级人数`)
from    t
group by `学校`, `班级`
;

如果维度多了，用union all得累死。所以 grouping sets 在大数据中至关重要。

get_json_object : 解析json字符串

使用格式：
get_json_object(json_string, '$.key')

举例：

select  get_json_object('{"hi":"hi", "你好":"你好", "hello":"hello", "hi你好":"hi你好"}', "$.hi");  -- hi
select  get_json_object('{"hi":"hi", "你好":"你好", "hello":"hello", "hi你好":"hi你好"}', "$.你好");  -- 你好

如果匹配不上，那就返回null

select  get_json_object('{"hi":"hi", "你好":"你好", "hello":"hello", "hi你好":"hi你好"}', "$.张三");  -- null

这个函数只能返回一个值

select  get_json_object('{"hi":"hi", "hi":"hihi", "你好":"你好", "hello":"hello", "hi你好":"hi你好"}', "$.hi");  -- hi

split : 按指定分隔符分割字符串

使用格式：
split(字符串, 分隔符)

举例：

select  split('2023-06-14', '-');   -- ["2023","06","14"]

小技巧

where里面用if : 搭配变量实现动态设置where条件

使用格式：
where if(判断, 式1, 式2) 满足判断返回表达式1，否则返回式2
if(判断, 式1, 1=1) 满足条件返回表达式1，否则什么都不生效

t1 join t2 on 1 = 1 : 笛卡尔积

因为没有连接条件，所以 t1 的每一列都会跟 t2 的所有列关联上

开窗直接order by : 窗口大小从第一行到最后一行，最大窗口

使用格式：
row_number() over(order by ...)

这样会得到一列自增列，可以定位到具体的数据条数

分清

hive执行顺序

hive的执行顺序也就是mapreduce的执行顺序

有两个select，作用不同
from... where... join on... select(查全表内容,不是自己sql写的select)... group by... select(执行自己sql写的select)... having... select... distinct... order by... limit... union...

看这个就行了
from... where... join on... group by... select... having... select... distinct... order by... limit... union...

group by 的字段，必须是表中的字段；having 的字段，必须是 select 的字段

各种 join 叫法区分（inner join、XX outer join）

join = inner join

left join = left outer join

right join = right outer join

full join = full outer join

full outer join ：左表和右表的数据全部返回，不满足条件的用null填充。所以有可能左边一堆null，右边一堆null

substr 和 substring

使用格式：
第一个参数含义都一样 —— 截取的开始位置
substr(startIndex,lenth) : 第二个参数是截取字符串的长度（从起始点截取某个长度的字符串）
substring(startIndex, endIndex) : 第二个参数是截取字符串最终的下标（截取2个位置之间的字符串，含头不含尾）

但有的sql，比如prestosql，substring就等于hive的substr。所以函数功能和名字可能都有些差异，这个因使用的工具而定。

centos7安装配置 Anaconda3
Anaconda是一个用于科学计算的Python发行版,Anaconda于Python，相当于centos于linux。下载[root@testsrc]#mwgethttps://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anaconda3-5.2.0-Linux-x86_64.shBegintodownload:Anaconda3-5.2.0-L
Ubuntu安装LAMP L_h1 测试 ubuntu linux
在安装vim时遇到了一个问题：E:无法获得锁/var/lib/dpkg/lock-frontend-open(11:资源暂时不可用)E:无法获取dpkg前端锁(/var/lib/dpkg/lock-frontend)，是否有其他进程正占用它？解决办法：强制解锁sudorm/var/lib/dpkg/lock-frontendsudorm/var/cache/apt/archives/locksud
Python 网络科学（三）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/3df7c5feb0bf40d7b9d88197a04b0b37译者：飞龙协议：CCBY-NC-SA4.0第八章：自我中心网络分析前一章内容非常丰富，我们学习了如何可视化和分析整个网络。相比之下，本章应该会感觉更简单，内容也会少得多。在之前的章节中，我们学习了如何获取和创建网络数据，如何从网络数据构建图形，如何清理图形数据，以及如何做一些有趣的事情
精通 Tableau 2023（四）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/dd6efaef313fee7252226d3af4a0b9fd译者：飞龙协议：CCBY-NC-SA4.0第十三章：提升性能一旦人们熟悉了Tableau的功能，他们很快就会遇到另一种类型的问题：性能。你们可能都曾经在屏幕上盯着加载数据或执行查询的字样发呆。但别担心，我们有办法！如果设计得当，Tableau仪表盘即使处理大量数据也能表现得非常好。本章
Hive使用必知必会系列王知无(import_bigdata) Hive系统性学习专栏 hive big data hdfs
一、Hive的几种数据模型内部表(Table将数据保存到Hive自己的数据仓库目录中：/usr/hive/warehouse)外部表(ExternalTable相对于内部表，数据不在自己的数据仓库中，只保存数据的元信息)分区表(PartitionTable将数据按照设定的条件分开存储，提高查询效率，分区----->目录)桶表(BucketTable本质上也是一种分区表，类似hash分区桶---->
Consul 与 Hive：云原生数据仓库集成 AI云原生与云计算技术学院 AI云原生与云计算数据仓库 consul hive ai
Consul与Hive：云原生数据仓库集成关键词：Consul、Hive、云原生、数据仓库集成、服务发现摘要：本文深入探讨了Consul与Hive在云原生环境下的数据仓库集成。首先介绍了集成的背景和相关概念，包括Consul的服务发现机制和Hive作为数据仓库的特点。接着详细阐述了核心概念及联系，通过文本示意图和Mermaid流程图展示其架构。对集成所涉及的核心算法原理进行了讲解，并给出Pytho
Hive详解
一：Hive的历史价值1，Hive是Hadoop上的KillerApplication，Hive是Hadoop上的数据仓库，Hive同时兼具有数据仓库中的存储引擎和查询引擎的作用；而SparkSQL是一个更加出色和高级的查询引擎，所以在现在企业级应用中SparkSQL+Hive成为了业界使用大数据最为高效和流行的趋势。2，Hive是Facebook的推出，主要是为了让不动Java代码编程的人员也能
Hive与Hudi集成：增量大数据处理方案 AI大数据智能洞察大数据与AI人工智能大数据AI应用 hive hadoop 数据仓库 ai
Hive与Hudi集成：增量大数据处理方案关键词：Hive、Hudi、增量大数据处理、数据集成、数据湖摘要：本文主要探讨了Hive与Hudi集成的增量大数据处理方案。我们将深入了解Hive和Hudi的核心概念，剖析它们之间的关系，详细阐述集成的算法原理与操作步骤，通过实际项目案例展示如何进行开发环境搭建、代码实现与解读。同时，会介绍该集成方案的实际应用场景、相关工具和资源，探讨未来发展趋势与挑战。
【自动化运维神器Ansible】Ansible常用模块之archive模块详解 IT成长日记 Ansible自动化运维指南自动化运维技术探索运维自动化 ansible archive 常用模块
目录1Ansiblearchive模块概述1.1archive模块的核心功能1.2为什么需要archive模块2archive模块工作原理3archive模块参数详解3.1必需参数：path3.2常用可选参数3.2.1dest3.2.2format3.2.3exclude3.3高级参数3.3.1remove3.3.2owner/group/mode4archive模块使用场景与示例4.1基础使用场
Hive建表时开启事务机制导致insert失败: This command is not allowed on an ACID table.. with a non-ACID transaction 智海观潮大数据 Hive hive 大数据
建表语句：createtableA(table_codestring,data_dtstring,update_dtstring)clusteredby(table_code)into1bucketsrowformatdelimitedfieldsterminatedby'\033'storedasorc--orc格式tablproperties('transactional'='true');执
面向现代数据湖仓的开放表格式对比分析：Iceberg、Hudi、Delta Lake与Paimon piekill 大数据平台大数据 spark flink big data 数据仓库
文章目录第一章数据湖的演进：从存储到事务型平台1.1前湖仓时代：ApacheHive的局限性1.2湖仓一体的范式转移第二章架构深度剖析2.1ApacheIceberg：以元数据为中心的设计2.2ApacheHudi：流式优先、时间轴驱动的架构2.3DeltaLake：以事务日志为唯一真相源2.4ApachePaimon：面向实时湖仓的LSM树架构第三章核心能力对比分析3.1事务性与并发控制3.2数
【自动化运维神器Ansible】Ansible常用模块之unarchive模块详解
目录1unarchive模块概述1.1unarchive模块的核心价值2unarchive模块工作原理3unarchive模块参数详解3.1源文件相关参数3.1.1src3.1.2remote_src3.2目标路径参数3.2.1dest3.2.2extra_opts3.3高级控制参数3.3.1keep_newer3.3.2validate_certs4unarchive模块使用场景与示例4.1基础
RK3568笔记九十一：QT环境搭建殷忆枫 RK3568学习笔记笔记
若该文为原创文章，转载请注明原文出处。记录按照正点原子给的手册搭建QT环境参考《09【正点原子】ATK-DLRK3568_Qt开发环境搭建V1.2.pdf》一、安装1、下载https://mirrors.sau.edu.cn/qt/archive/online_installers/4.6/qt-unified-linux-x64-4.6.0-online.run2、赋予可执行权限chmod+xq
在python中安装geohash库
pip安装使用镜像网站安装pipinstall-iGeohashhttp://mirrors.aliyun.com/pypi/simple报错：CannotdeterminearchiveformatofC:\Users\Zz\AppData\Local\Temp\pip-req-build-t35bzb_f解决办法：重新安装，添加信任pipinstall-ihttps://pypi.tuna.t
交换两个数组使两个数组和的差最小橙姜
https://www.cnblogs.com/nanduo/archive/2009/06/29/1513035.html
Hive-3.1.2安装部署 ggnff
Hive-3.1.2安装部署一Hive-3.1.2网盘下载：链接：https://pan.baidu.com/s/1c8L3ygVae2kSN-ue8RZNtQ提取码：chjs1.下载完成后，上传到Linux的/opt/module下2.解压并重命名为hivecd/opt/moduletar-zxvfapache-hive-3.1.2-bin.tar.gzmvapache-hive-3.1.2-b
大数据开发系列（六）----Hive3.0.0安装配置以及Mysql5.7安装配置 Xiaoyeforever hive mysql hive hadoop 数据库
一、Hive3.0.0安装配置:(Hive3.1.2有BUG）hadoop3.1.2Hive各个版本下载地址：http://archive.apache.org/dist/hive/，这里我们下载hive3.0.01、解压：tar-xzvfapache-hive-3.0.0-bin.tar.gz-C/usr/lib/JDK_2021cd/usr/lib/JDK_20212.改名称.将解压以后的文件
数据写入因为汉字引发的异常 qq_40841339 spark hadoop hive hive hadoop 数据仓库
spark数据写hive表，发生查询分区异常问题异常：251071241926.49ERRORHive:MelaException(message.Exceptionthrownwhenexeculingquey.SELECTDISTINCT‘orgapache.hadop.hivemelastore.modelMpartionAs"NUCLEUSTYPE,AONCREATETIME,AO.LAS
Quazip库：一站式C++压缩文件处理方案 Mr.Poker
本文还有配套的精品资源，点击获取简介：Quazip是一个开源的C++库，能够方便地处理ZIP和7Z格式的压缩文件，提供了易于使用的API。它集成了zlib和libarchive库，支持多平台运行，如Linux、Windows和macOS。预编译的源码和库文件允许开发者无需自行编译即可直接集成到项目中。该库的特性包括简洁的API设计、丰富的功能支持、健壮的错误处理机制、性能优化、以及源码的可用性和可
阿里云MaxCompute SQL与Apache Hive区别面面观大模型大数据攻城狮阿里云 odps sql 物化 maxcompute udf开发 sql语法
目录1.引爆开场：MaxCompute和Hive，谁才是大数据SQL的王者？2.架构大比拼：从Hadoop到Serverless的进化之路Hive的架构：老派但经典MaxCompute的架构：云原生新贵3.SQL语法的微妙差异：90%相似，10%决定胜负建表语句分区与分桶函数与UDF4.执行引擎的较量：MapReducevs飞天引擎Hive的MapReduce执行流程MaxCompute的飞天引擎
一文说清楚Hive
Hive作为ApacheHadoop生态的核心数据仓库工具，其设计初衷是为熟悉SQL的用户提供大规模数据离线处理能力。以下从底层计算框架、优点、场景、注意事项及实践案例五个维度展开说明。一、Hive底层分布式计算框架对比Hive本身不直接执行计算，而是将HQL转换为底层计算引擎的任务。目前支持的主流引擎及其特点如下：计算引擎核心原理优点缺点适用场景MapReduce基于“Map→Shuffle→R
Python -- cpython ThirstyBlue python python
［转自］http://blog.donews.com/lemur/archive/category/http://blog.csdn.net/balabalamerobert/article/details/567580CPython源码剖析系列Python源码剖析[1]——编译PythonPython源码剖析[2]——对象机制Python源码剖析[3]——整数对象(1)Python源码剖析[4]
ACE入门---很好的文章
转自：http://www.cnblogs.com/dubingsky/archive/2009/07/22/1528292.htmlACE编译1.设置环境变量在操作系统添加一个名为ACE_ROOT的用户环境变量，值为刚才ace的解压路径D:\Develop\ACE_wrappers。添加用户的Path环境变量，值为%ACE_ROOT%\lib，这样才能保证系统能找到ace生成的动态连接库。设置V
在个人PC上搭建jupyter服务并配置远程访问
为了成为一名优秀的炼丹师，最近配了台性能不错的主机，但苦于经常不在家，主机基本处于吃灰状态。因此，综合网上各种资料，在主机上安装jupyter并配置远程访问，能方便我随时随地远程使用。以下为配置教程，供大家参考。话不多说，开始我的表演。1.安装anaconda去anaconda官网下载，可以选择不同的版本。点击archive也可以下载历史版本，推荐下载历史版本，后面配置遇到的问题可能更少。下载完成
Zookeeper简单入门灬哆啦A梦不吃鱼
zookeeper简介ZooKeeper（动物园管理员），顾名思义，是用来管理Hadoop（大象）、Hive（蜜蜂）、Pig（小猪）的管理员，同时ApacheHBase、ApacheSolr、LinkedInSensei等众多项目中都采用了ZooKeeper。ZooKeeper曾是Hadoop的正式子项目，后发展成为Apache顶级项目，与Hadoop密切相关但却没有任何依赖。它是一个针对大型应用
INVALID_COLUMN_NAME _AS_PATH
sparksql异常[INVALID_COLUMN_NAME_AS_PATH]ThedatasourceHiveFileFormatcannotsavethecolumnmin(birth_date)becauseitsnamecontainssomecharactersthatarenotallowedinfilepaths.Piease,useanallastorenameidemosqlSE
【已解决】YOLO11模型转wts时报错:PytorchStreamReader failed reading zip archive lxmyzzs bug 人工智能 python 计算机视觉目标检测神经网络深度学习
问题：在把训练好的新YOLO11s模型转wts文件时报错，具体信息如下图（PytorchStreamReaderfailedreadingziparchive:failedfindingcentraldirectory）解决：新老版本pytorch之间的兼容问题，改动一下生成wts文件即可。代码帖在下面。importsys#noqa:F401importargparseimportosimport
Hive的窗口函数 VictorWuuu hive hadoop 数据仓库
Hive的窗口函数（WindowFunctions）是其SQL功能的核心亮点之一，用于在分组数据上执行计算，同时保留原始表的行数（不压缩分组）。窗口函数特别适用于排名分析、趋势计算、移动统计等复杂场景，是处理时间序列数据和多维分析的利器。一、窗口函数的核心概念窗口函数的语法结构：function_name(arg1,arg2...)OVER([PARTITIONBYcol1,col2...]--分
解锁Hive：高效数据查找的秘密武器 YangRyeon hive hadoop 数据仓库
Hive是什么？Hive是基于Hadoop的一个数据仓库工具，它能够进行数据提取、转化和加载操作，为存储、查询和分析Hadoop中的大规模数据提供了有效的机制。Hive能将结构化的数据文件映射为一张数据库表，让用户可以通过熟悉的SQL查询功能来处理数据。其内部机制是将SQL语句巧妙地转变成MapReduce任务来执行，大大降低了开发的难度和复杂性。例如，在面对海量的用户行为日志数据时，Hive就能
Hive数据加密：大数据安全存储方案 AI大数据智能洞察 hive hadoop 数据仓库 ai
Hive数据加密：大数据安全存储方案关键词：Hive数据加密、大数据安全、存储方案、加密算法、密钥管理摘要：本文深入探讨了Hive数据加密这一重要的大数据安全存储方案。首先介绍了Hive数据加密的背景，包括目的、适用读者、文档结构和相关术语。接着阐述了核心概念，如加密的原理和架构，并通过示意图和流程图进行直观展示。详细讲解了核心算法原理和具体操作步骤，结合Python代码示例。引入了相关的数学模型
Spring中@Value注解，需要注意的地方无量 spring bean @Value xml
Spring 3以后,支持@Value注解的方式获取properties文件中的配置值，简化了读取配置文件的复杂操作 1、在applicationContext.xml文件(或引用文件中)中配置properties文件 <bean id="appProperty" class="org.springframework.beans.fac
mongoDB 分片开窍的石头 mongodb
mongoDB的分片。要mongos查询数据时候先查询configsvr看数据在那台shard上，configsvr上边放的是metar信息，指的是那条数据在那个片上。由此可以看出mongo在做分片的时候咱们至少要有一个configsvr,和两个以上的shard（片）信息。第一步启动两台以上的mongo服务 &nb
OVER(PARTITION BY)函数用法 0624chenhong oracle
这篇写得很好，引自 http://www.cnblogs.com/lanzi/archive/2010/10/26/1861338.html OVER(PARTITION BY)函数用法 2010年10月26日 OVER(PARTITION BY)函数介绍开窗函数 &nb
Android开发中，ADB server didn't ACK 解决方法一炮送你回车库 Android开发
首先通知：凡是安装360、豌豆荚、腾讯管家的全部卸载，然后再尝试。一直没搞明白这个问题咋出现的，但今天看到一个方法，搞定了！原来是豌豆荚占用了 5037 端口导致。参见原文章：一个豌豆荚引发的血案——关于ADB server didn't ACK的问题简单来讲，首先将Windows任务进程中的豌豆荚干掉，如果还是不行，再继续按下列步骤排查。 &nb
canvas中的像素绘制问题换个号韩国红果果 JavaScript canvas
pixl的绘制，1.如果绘制点正处于相邻像素交叉线，绘制x像素的线宽，则从交叉线分别向前向后绘制x/2个像素，如果x/2是整数，则刚好填满x个像素，如果是小数，则先把整数格填满，再去绘制剩下的小数部分，绘制时，是将小数部分的颜色用来除以一个像素的宽度，颜色会变淡。所以要用整数坐标来画的话（即绘制点正处于相邻像素交叉线时），线宽必须是2的整数倍。否则会出现不饱满的像素。 2.如果绘制点为一个像素的
编码乱码问题灵静志远 java jvm jsp 编码
1、JVM中单个字符占用的字节长度跟编码方式有关，而默认编码方式又跟平台是一一对应的或说平台决定了默认字符编码方式；2、对于单个字符：ISO-8859-1单字节编码，GBK双字节编码，UTF-8三字节编码；因此中文平台(中文平台默认字符集编码GBK)下一个中文字符占2个字节，而英文平台(英文平台默认字符集编码Cp1252(类似于ISO-8859-1))。 3、getBytes()、getByte
java 求几个月后的日期 darkranger calendar getinstance
Date plandate = planDate.toDate(); SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd"); Calendar cal = Calendar.getInstance(); cal.setTime(plandate); // 取得三个月后时间 cal.add(Calendar.M
数据库设计的三大范式（通俗易懂） aijuans 数据库复习
关系数据库中的关系必须满足一定的要求。满足不同程度要求的为不同范式。数据库的设计范式是数据库设计所需要满足的规范。只有理解数据库的设计范式，才能设计出高效率、优雅的数据库，否则可能会设计出错误的数据库. 目前，主要有六种范式：第一范式、第二范式、第三范式、BC范式、第四范式和第五范式。满足最低要求的叫第一范式，简称1NF。在第一范式基础上进一步满足一些要求的为第二范式，简称2NF。其余依此类推。
想学工作流怎么入手 atongyeye jbpm
工作流在工作中变得越来越重要，很多朋友想学工作流却不知如何入手。很多朋友习惯性的这看一点，那了解一点，既不系统，也容易半途而废。好比学武功，最好的办法是有一本武功秘籍。研究明白，则犹如打通任督二脉。系统学习工作流，很重要的一本书《JBPM工作流开发指南》。本人苦苦学习两个月，基本上可以解决大部分流程问题。整理一下学习思路，有兴趣的朋友可以参考下。 1 首先要
Context和SQLiteOpenHelper创建数据库百合不是茶 android Context创建数据库
一直以为安卓数据库的创建就是使用SQLiteOpenHelper创建,但是最近在android的一本书上看到了Context也可以创建数据库,下面我们一起分析这两种方式创建数据库的方式和区别,重点在SQLiteOpenHelper 一:SQLiteOpenHelper创建数据库: 1,SQLi
浅谈group by和distinct bijian1013 oracle 数据库 group by distinct
group by和distinct只了去重意义一样，但是group by应用范围更广泛些，如分组汇总或者从聚合函数里筛选数据等。譬如：统计每id数并且只显示数大于3 select id ,count(id) from ta
vi opertion 征客丶 mac opration vi
进入 command mode （命令行模式）按 esc 键再按 shift + 冒号注：以下命令中带 $ 【在命令行模式下进行】，不带 $ 【在非命令行模式下进行】一、文件操作 1.1、强制退出不保存 $ q! 1.2、保存 $ w 1.3、保存并退出 $ wq 1.4、刷新或重新加载已打开的文件 $ e 二、光标移动 2.1、跳到指定行数字
【Spark十四】深入Spark RDD第三部分RDD基本API bit1129 spark
对于K/V类型的RDD,如下操作是什么含义？ val rdd = sc.parallelize(List(("A",3),("C",6),("A",1),("B",5)) rdd.reduceByKey(_+_).collect reduceByKey在这里的操作，是把
java类加载机制 BlueSkator java 虚拟机
java类加载机制 1.java类加载器的树状结构引导类加载器 ^ | 扩展类加载器 ^ | 系统类加载器 java使用代理模式来完成类加载，java的类加载器也有类似于继承的关系，引导类是最顶层的加载器，它是所有类的根加载器，它负责加载java核心库。当一个类加载器接到装载类到虚拟机的请求时，通常会代理给父类加载器，若已经是根加载器了，就自己完成加载。虚拟机区分一个Cla
动态添加文本框 BreakingBad 文本框
<script> var num=1; function AddInput() { var str=""; str+="<input
读《研磨设计模式》-代码笔记-单例模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ public class Singleton { } /* * 懒汉模式。注意，getInstance如果在多线程环境中调用，需要加上synchronized，否则存在线程不安全问题 */ class LazySingleton
iOS应用打包发布常见问题 chenhbc ios iOS发布 iOS上传 iOS打包
这个月公司安排我一个人做iOS客户端开发，由于急着用，我先发布一个版本，由于第一次发布iOS应用，期间出了不少问题，记录于此。 1、使用Application Loader 发布时报错：Communication error.please use diagnostic mode to check connectivity.you need to have outbound acc
工作流复杂拓扑结构处理新思路 comsci 设计模式工作算法企业应用 OO
我们走的设计路线和国外的产品不太一样，不一样在哪里呢？国外的流程的设计思路是通过事先定义一整套规则(类似XPDL)来约束和控制流程图的复杂度(我对国外的产品了解不够多，仅仅是在有限的了解程度上面提出这样的看法)，从而避免在流程引擎中处理这些复杂的图的问题，而我们却没有通过事先定义这样的复杂的规则来约束和降低用户自定义流程图的灵活性，这样一来，在引擎和流程流转控制这一个层面就会遇到很
oracle 11g新特性Flashback data archive daizj oracle
1. 什么是flashback data archive Flashback data archive是oracle 11g中引入的一个新特性。Flashback archive是一个新的数据库对象，用于存储一个或多表的历史数据。Flashback archive是一个逻辑对象，概念上类似于表空间。实际上flashback archive可以看作是存储一个或多个表的所有事务变化的逻辑空间。
多叉树:2-3-4树 dieslrae 树
平衡树多叉树,每个节点最多有4个子节点和3个数据项,2,3,4的含义是指一个节点可能含有的子节点的个数,效率比红黑树稍差.一般不允许出现重复关键字值.2-3-4树有以下特征: 1、有一个数据项的节点总是有2个子节点(称为2-节点) 2、有两个数据项的节点总是有3个子节点(称为3-节
C语言学习七动态分配 malloc的使用 dcj3sjt126com c language malloc
/* 2013年3月15日15:16:24 malloc 就memory(内存) allocate(分配)的缩写本程序没有实际含义，只是理解使用 */ # include <stdio.h> # include <malloc.h> int main(void) { int i = 5; //分配了4个字节静态分配 int * p
Objective-C编码规范[译] dcj3sjt126com 代码规范
原文链接 : The official raywenderlich.com Objective-C style guide 原文作者 : raywenderlich.com Team 译文出自 : raywenderlich.com Objective-C编码规范译者 : Sam Lau
0.性能优化-目录 frank1234 性能优化
从今天开始笔者陆续发表一些性能测试相关的文章，主要是对自己前段时间学习的总结，由于水平有限，性能测试领域很深，本人理解的也比较浅，欢迎各位大咖批评指正。主要内容包括：一、性能测试指标吞吐量、TPS、响应时间、负载、可扩展性、PV、思考时间 http://frank1234.iteye.com/blog/2180305 二、性能测试策略生产环境相同基准测试预热等 htt
Java父类取得子类传递的泛型参数Class类型 happyqing java 泛型父类子类 Class
import java.lang.reflect.ParameterizedType; import java.lang.reflect.Type; import org.junit.Test; abstract class BaseDao<T> { public void getType() { //Class<E> clazz =
跟我学SpringMVC目录汇总贴、PDF下载、源码下载 jinnianshilongnian springMVC
----广告-------------------------------------------------------------- 网站核心商详页开发掌握Java技术，掌握并发/异步工具使用，熟悉spring、ibatis框架；掌握数据库技术，表设计和索引优化，分库分表/读写分离；了解缓存技术，熟练使用如Redis/Memcached等主流技术；了解Ngin
the HTTP rewrite module requires the PCRE library 流浪鱼 rewrite
./configure: error: the HTTP rewrite module requires the PCRE library. 模块依赖性Nginx需要依赖下面3个包 1. gzip 模块需要 zlib 库 ( 下载: http://www.zlib.net/ ) 2. rewrite 模块需要 pcre 库 ( 下载: http://www.pcre.org/ ) 3. s
第12章 Ajax（中） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Optimize query with Query Stripping in Web Intelligence blueoxygen BO
http://wiki.sdn.sap.com/wiki/display/BOBJ/Optimize+query+with+Query+Stripping+in+Web+Intelligence and a very straightfoward video http://www.sdn.sap.com/irj/scn/events?rid=/library/uuid/40ec3a0c-936
Java开发者写SQL时常犯的10个错误 tomcat_oracle java sql
1、不用PreparedStatements 　　有意思的是，在JDBC出现了许多年后的今天，这个错误依然出现在博客、论坛和邮件列表中，即便要记住和理解它是一件很简单的事。开发者不使用PreparedStatements的原因可能有如下几个：　　他们对PreparedStatements不了解　　他们认为使用PreparedStatements太慢了　　他们认为写Prepar
世纪互联与结盟有感阿尔萨斯
10月10日，世纪互联与（Foxcon）签约成立合资公司，有感。全球电子制造业巨头（全球500强企业）与世纪互联共同看好IDC、云计算等业务在中国的增长空间，双方迅速果断出手，在资本层面上达成合作，此举体现了全球电子制造业巨头对世纪互联IDC业务的欣赏与信任，另一方面反映出世纪互联目前良好的运营状况与广阔的发展前景。众所周知，精于电子产品制造（世界第一），对于世纪互联而言，能够与结盟

hive重点内容汇总

文章目录

前言

函数

from_unixtime : 时间戳转日期

unix_timestamp : 日期转时间戳

current_date : 当前时间 / unix_timestamp : 当前时间戳

to_date : 返回日期中的年月日

datediff : 日期之差 / date_add、date_sub : 日期加减

collect_set、collect_list : 列转行函数

concat、concat_ws : 字符串拼接函数

size : 判断array或map数据的大小

cast : 转换数据类型

grouping sets : 替代union all的优化

get_json_object : 解析json字符串

split : 按指定分隔符分割字符串

小技巧

where里面用if : 搭配变量实现动态设置where条件

t1 join t2 on 1 = 1 : 笛卡尔积

开窗直接order by : 窗口大小从第一行到最后一行，最大窗口

分清

hive执行顺序

各种 join 叫法区分 （inner join、XX outer join）

substr 和 substring

你可能感兴趣的:(hive)

各种 join 叫法区分（inner join、XX outer join）