韩顺平的小迷弟

hive面试题

0. 思维导图

1. 简述Hive♥♥

我理解的，hive就是一款构建数据仓库的工具，它可以就结构化的数据映射为一张表，并且可以通过SQL语句进行查询分析。本质上是将SQL转换为MapReduce或者spark来进行计算，数据是存储在hdfs上，简单理解来说hive就是MapReduce的一个客户端工具。

补充1：你可以说一下HQL转换为MR的任务流程吗？♥♥♥
- 首先客户端提交HQL以后，hive通过解析器将SQL转换成抽象语法树，然后通过编译器生成逻辑执行计划，再通过优化器进行优化，最后通过执行器转换为可以运行的物理计划，比如MapReduce/spark，然后提交到yarn上执行
- 详细来说：
  - 首先客户端提交SQL以后，hive利用Antlr框架对HQL完成词法语法解析，将HQL转换成抽象语法树
  - 然后遍历AST，将其转换成queryblock查询块，可以理解为最小的查询执行单元，比如where
  - 然后遍历查询块，将其转换为操作树，也就是逻辑执行计划。
  - 然后遍历优化器对操作树进行逻辑优化，源码中会遍历所有的优化方式，比如mapjoin，谓词下推等，来达到减少MapReduce Job，减少shuffle数据量的目的。
  - 最后通过执行器将逻辑执行计划转换为物理执行计划（MR到这就结束了）（spark还需要使用物理优化器对任务树进行物理优化），提交到hadoop集群运行。
补充2：你可以说一下hive的元数据保存再哪里吗？
- 默认是保存java自带的derby数据库，但是这有一个缺点：derby数据库不支持并发，也就是说不能同时两个客户端去操作derby数据库，因此通常情况下，都会配置一个mysql去存放元数据。

2. 简述Hive读写文件机制

读取文件：
- 首先调用InputFormat（默认TextInputFormat）对文件进行逻辑切片，返回一条一条的kv键值对，然后调用SerDe（LazySimpleSerDe）的反序列化方法，将一条记录中的value根据分隔符切分为各个对应的字段。
写文件：
- 首先调用SerDe（默认LazySimpleSerDe）的序列化方法将对象序列化为字节序列，然后调用OutputFormat将数据写入HDFS文件中。

3. Hive和传统数据库之间的区别♥♥♥

我认为主要有散点的区别：
- 数据量，hive支持大规模的数据计算，mysql支持的小一些
- 数据更新快不快，hive官方是不建议对数据进行修改的，因为非常的慢，这一点我也测试过，而mysql经常会进行数据修改，速度也挺快的。
- 查询快不快，hive大多数延迟都比较高，mysql会低一些，当然这也与数据规模有关，数据规模很大的时候，hive不一定比mysql慢。
为什么处理小表延迟比较高：
- 因为hive计算是通过MapReduce，而MapReduce是批处理，高延迟的。hive的优势在于处理大数据，对于处理小数据是没有优势的。

4. Hive的内部表和外部表的区别♥♥♥

从建表语句来看，加上了external关键字修饰的就是就是外部表，没加的就是内部表。

我认为主要有两点的区别：
1. 内部表的数据由hive自身管理，外部表的数据由hdfs管理。
2. 删除内部表的时候，元数据和原始数据都会被删除，而删除外部表的时候仅仅会删除元数据，原始数据不会被删除。
使用场景：通常都会建外部表，因为一个表通常要多个人使用，以免删除了，还可以找到数据，保证了数据安全。

5. Hive静态分区和动态分区的区别

分区表，也叫分区裁剪，就是分目录，作用就是减少全表扫描。
建表的时候：partitioned by (day string) 加载数据的时候：partition(day=“20210823”)【静态分区】或者partition(day)【动态分区】。
分区字段不能是表中已经存在的字段。

静态分区：
- 分区字段的值是在导入数据的时候手动指定的
- 导入数据的方式可以是load data方式，也可以是insert into + select 方法
动态分区：
- 分区字段的值是基于查询结果自动推断出来的，也就是最后查询结果的最后一个字段值就对应分区字段的值。
- 导入数据的方式必须是insert into + select 方式
- 想使用动态分区表的时候必须要对hive进行两个配置
  1. 开启动态分区功能 hive.exec.dynamic.partition=true
  2. 设置动态分区的模式为非严格模式，也就是说允许所有分区字段都可以使用动态分区hive.exec.dynamic.partition.mode=nonstrict
补充题：你知道分桶表吗，谈谈这两个的区别？
- 分桶表和分区表的作用都是用来减少全表扫描的，那么有了分区表，为啥还要有分桶表呢？
- 因为并非所有的数据都可以进行合理的分区，所以有了新的技术分桶表
  - 分桶表的分桶规则是，根据分桶字段的hash值，对桶的个数进行取余运算，然后得到该数据应该放到哪个桶里面去
- 说了这么多，他们有什么区别呢？
  1. 创建语句不同，分区表是partitioned by，分桶表是clustered by
  2. 分区或分桶字段要求不同，分区字段不能是表中存在的字段，分桶字段一定是表中存在的字段。
  3. 表现形式不同，分区表其实就是分了目录存放数据，分桶表是将一个文件拆分为很多文件存放。

6. 内连接、左外连接、右外连接的区别

内连接：返回的是两个表的交集。
左外连接：返回左表的所有行，如果左表的某行在右表没有匹配行，则将右表返回空值。
右外连接：返回右表的所有行，如果右表的某行在左表没有匹配行，则将左表返回空值。

7. Hive的join底层实现♥♥♥

首先hive的join分为common join 和map join，common join 就是join发生在reduce端，map join就是join发生在map端
common join:
- 分为三个阶段：map阶段、shuffle阶段、reduce阶段
  - map阶段：对来自不同表的数据打标签，然后用连接字段作为key，其余部分和标签作为value,最后进行输出
  - shuffle阶段：根据key的值进行hash，这样就可以将key相同的送入一个reduce中
  - reduce阶段：对来自不同表的数据进行join操作就可以了
map join:
- 首先它是有一个适用前提的，适用于小表和大表的join操作
- 小表多小为小呢？所有就有了一个参数进行配置：hive.mapjoin.smalltable.filesize=25M
- 它的原理是将小表复制多份，让每个map task内存存在一份，比如我们可以存放到HashMap中，然后join的时候，扫描大表，对于大表中的每一条记录key/value,在HashMap中查找是否有相同的key的记录，如果有，则join连接后输出即可，因为这里不涉及reduce操作。
- 0.7版本之后，都会自动转换为map join，如果之前的版本，我们配置一个参数就可以了：hive.auto.convert.join=true。

8. Order By 和 Sort By的区别♥♥

distribute by: 将数据根据by的字段散列到不同的reduce中
cluster by:当distribute by 和sort by 字段相同的时候，等价于cluster by ,但是排序只能是升序。

order by：全局排序，只有一个reducer，缺点：当数据规模大的时候，就会需要很长的计算时间。
sort by：分区排序，保证每个reducer内有序，一般结合distribute by来使用
使用场景：在生产环境中，order by 用的比较少，容易导致OOM；一般使用distribute by + sort by

9. 行转列和列转行函数♥

JSON解析函数：

get_json_object：每次只能返回json对象中的一列值 select get_json_object(data,‘$.movie’) as movie from json;
json_tuple：每次可以返回多列的值 select b.b_movie, b.b_rate,b.b_timeStamp,b.b_uid from json lateral view json_tuple(json.data,‘movie’,‘rate’,‘timeStamp’,‘uid’) b as b_movie,b_rate, b_timeStamp,b_uid;
如果是json数组的话，那么就不能直接使用上述的操作，我们可以先使用regexp_replace方法进行字符串的替换，将它处理成多个json，然后再使用上述的方法就可以了。
URL解析函数：HOST QUERY
parse_url：一对一
parse_url_tuple：一对多

常见的行转列包括：常见的行转列包括：一般的聚合函数，比如max，min，sum：还有汇总函数，比如collect_list，collect_set
常见的列转行就是：explode函数（json_tuple函数），只能传入array或者map的数据，将它拆分成多行，一般会和lateral view一起使用。
- select movie, category_name from movie_info lateral view explode(split(category, “,”)) movie_info_tmp as category_name
窗口函数：
- Rand:
  - rank(): 排序相同的时候，排名会重复，总数不变
  - dense_rank():排序相同的时候，排名会重复，总数减少
  - row_number():排序相同的时候，排名不会重复，总数不变
- lag(col, n, default)：返回往上移n行的数据，不存在则返回default
- lead(col,n, default)：返回往下移n行的数据，不存在则返回default
- first_value(col)：取分组内排序后，第一个值
- last_value(col)：取分组内排序后，最后一个值
over用法：首先通过over来指定窗口的特性，比如可以传入partition by(分组)，order by（排序），rows between … and … 指定窗口的范围
- CURRENT ROW：当前行
- n PRECEDING/FOLLOWING: 往前/后n行数据
- UNBODUNDED PRECEDING/FOLLOWING：表示从前面的起点/到后面的终点
- 默认是rows between UNBOUNDED PRECEDING and current row

10. grouping_sets、cube和rollup

他们都是用于group by后面的一个函数，作用是将不同维度的group by进行简化。

grouping_sets(字段1, 字段2)会对字段1和字段2分别分组聚合，然后UNION ALL
cube（字段1，字段2）会对字段1和字段2的所有组合2的n次方种分别分组聚合，然后UNION ALL with cube
rolllup 是cube的一个子集，rollup会以最左侧的维度为主with rollup

11. 自定义过UDF、UDTF函数吗♥♥♥

自定义函数
（1）自定义UDF:
1. 继承UDF
2. 重写evaluate方法
（2）自定义UDTF：
1. 继承GernericUDTF
2. 重写3个方法:initialize，process，close
打成jar包，上传到服务器中
执行命令：add jar “路径”，目的是将jar添加到hive中
注册临时函数：create temporary function 函数名 as “自定义函数全类名”

12. Hive3的新特性有了解吗

物化视图：
- 简述：和普通视图的不同点在于普通视图不保存数据，仅仅保存查询语句，而物化视图是把查询的结果存入到了磁盘中，它的作用是通过预计算保存好一些复杂的计算结果，提高查询效率
- 语法： create materialized view … as select …
在向动态分区表中导入数据的时候，也可以使用load文件的方式，因为底层会自动转换为inser + select 语句

13. Hive小文件过多怎么办♥

首先我说一下为什么会产生小文件呢
- hive中产生小文件就是在向表中导入数据的时候，通常来说，我们在生产环境下，一般会使用insert+select的方式导入数据，这样会启动MR任务，那么reduce有多少个就会输出多少个文件，也就是说insert每执行一次啊，就至少生产一个文件，有些场景下，数据同步可能每10分钟就会执行一次，这样就会产生大量的小文件。
然后我再说一下问什么要解决小文件呢？不解决不行吗？
- 首先对于hdfs来说，不适合存储大量的小文件，文件多了，namenode需要记录元数据就非常大，就会占用大量的内存，影响hdfs存储性能
- 对于hive来说，每个文件会启动一个maptask来处理，这样也会浪费计算资源。
最后说一下怎么解决：
- 使用hive自带的concatenate命令合并小文件，但是它只支持recfile和orc存储格式
- MR过程中合并小文件
- map前:
  - 设置inputformat为combinehiveinputformat：在map的时候会把多个文件作为一个切片输入
- map后，reduce前：
  - map输出的时候合并小文件 hive.merge.mapfiles
- reduce 后
  - reduce输出的时候合并小文件hive.merge.mapredfiles
- 直接设置少一点的reduce数量mapreduce.job.reduces
- 使用hadoop的archive归档方式

14. Hive优化♥♥♥

建表优化：
- 分区表：减少全表扫描，通常查询的时候先基于分区过滤，再查询
- 分桶表：按照join字段进行分桶，join的时候就不会全局join，而是桶与桶之间进行join
- 合适的文件格式：公司中默认采用的是ORC的存储格式，这样可以降低存储空间，内部有两个索引（行组索引和布隆过滤器索引）的东西，可以加快查询速度
  - 我直到的hive的文件格式有textFile，sequenceFile，ORC，Parque;其中textFile为hive的默认存储格式，它和sequenceFile一样都是基于行存储的，ORC，Parquet是基于列存储的。sequenceFile，ORC，Parque文件都是以二进制的方式存储的。
- 合适的压缩格式：减少了IO读写和网络传输的数据量，比如常用的LZO（可切片）和snappy
语法优化：
- 单表查询优化：
  - 列裁剪和分区裁剪：如果select * 或者不指定分区，全列扫描和全表扫描效率都很低（公司规定了必须指定分区，select * 没有明确规定）
  - group by优化：
    - 开启map端聚合
    - 开启负载均衡：这样生成的查询计划会有两个MR job，一个是局部聚合（加随机数），另一个是全局聚合（删随机数）
  - SQL写成多重模式：有多条SQL重复扫描一张表，那么我们可以写成from 表 select … select
- 多表优化查询：
  - CBO优化：选择代价最小的执行计划：自动优化HQL中多个Join的顺序，并选择合适的Join算法
    - set hive.cbo.enable=true（默认开启）
  - 谓词下推：将SQL语句中的where谓词逻辑都尽可能提前执行，减少下游处理的数据量。
    - hive.optimize.ppd=true（默认开启）
  - MapJoin:将join双方比较小的表直接分发到各个Map进程的内存中，在Map进程中进行join操作，这样就不用进行Reduce，从而提高了速度
    - set hive.auto.convert.join=true（默认开启）
    - set hive.mapjoin.smalltable.filesize=25000000（默认25M以下是小表）
  - SMB Join：分桶join，大表转换为很多小表，然后分别进行join，最后union到一起
job优化：
- map优化
  - 复杂文件增加map数
  - 小文件合并
  - map端聚合
  - 推测执行
- reduce优化
  - 合理设置reduce:
    - 为什么不是reduce的数量越多越好？
      - 过多的启动和初始化reduce也会消耗时间和资源
      - 另外，有多少个reduce，就会有多少个输出文件，如果生成的很多个小文件，那么如果这些小文件作为下一个任务的输入，则也会出现小文件过多的问题；
  - 推测执行
- 任务整体优化：
  - fetch抓取：Hive中对某些情况的查询可以不必使用MapReduce计算【全局查找、字段查找、limit查找】hive.fetch.task.conversion=more
  - 小数据集启用本地模式hive.exec.mode.local.auto=true
  - 多个阶段并行执行 set hive.exec.parallel=true
  - JVM重用：针对小文件过多的时候使用

15. 常用函数的补充

NVL(value, default)：如果value为null，就返回default，否则返回value
IF(expr, value1, value2)：如果expr为true，返回value1,否则返回value2
concat_WS(seperator, str1, str2, …)：参数可以是字符串，也可以是数组
substring(value, start, len)：字符串索引是从1开始，我们要截取value中第start字符开始len长度的字符串
日期函数:
行列转换：

centos7安装配置 Anaconda3
Anaconda是一个用于科学计算的Python发行版,Anaconda于Python，相当于centos于linux。下载[root@testsrc]#mwgethttps://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anaconda3-5.2.0-Linux-x86_64.shBegintodownload:Anaconda3-5.2.0-L
Ubuntu安装LAMP L_h1 测试 ubuntu linux
在安装vim时遇到了一个问题：E:无法获得锁/var/lib/dpkg/lock-frontend-open(11:资源暂时不可用)E:无法获取dpkg前端锁(/var/lib/dpkg/lock-frontend)，是否有其他进程正占用它？解决办法：强制解锁sudorm/var/lib/dpkg/lock-frontendsudorm/var/cache/apt/archives/locksud
Python 网络科学（三）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/3df7c5feb0bf40d7b9d88197a04b0b37译者：飞龙协议：CCBY-NC-SA4.0第八章：自我中心网络分析前一章内容非常丰富，我们学习了如何可视化和分析整个网络。相比之下，本章应该会感觉更简单，内容也会少得多。在之前的章节中，我们学习了如何获取和创建网络数据，如何从网络数据构建图形，如何清理图形数据，以及如何做一些有趣的事情
精通 Tableau 2023（四）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/dd6efaef313fee7252226d3af4a0b9fd译者：飞龙协议：CCBY-NC-SA4.0第十三章：提升性能一旦人们熟悉了Tableau的功能，他们很快就会遇到另一种类型的问题：性能。你们可能都曾经在屏幕上盯着加载数据或执行查询的字样发呆。但别担心，我们有办法！如果设计得当，Tableau仪表盘即使处理大量数据也能表现得非常好。本章
Hive使用必知必会系列王知无(import_bigdata) Hive系统性学习专栏 hive big data hdfs
一、Hive的几种数据模型内部表(Table将数据保存到Hive自己的数据仓库目录中：/usr/hive/warehouse)外部表(ExternalTable相对于内部表，数据不在自己的数据仓库中，只保存数据的元信息)分区表(PartitionTable将数据按照设定的条件分开存储，提高查询效率，分区----->目录)桶表(BucketTable本质上也是一种分区表，类似hash分区桶---->
Consul 与 Hive：云原生数据仓库集成 AI云原生与云计算技术学院 AI云原生与云计算数据仓库 consul hive ai
Consul与Hive：云原生数据仓库集成关键词：Consul、Hive、云原生、数据仓库集成、服务发现摘要：本文深入探讨了Consul与Hive在云原生环境下的数据仓库集成。首先介绍了集成的背景和相关概念，包括Consul的服务发现机制和Hive作为数据仓库的特点。接着详细阐述了核心概念及联系，通过文本示意图和Mermaid流程图展示其架构。对集成所涉及的核心算法原理进行了讲解，并给出Pytho
Hive详解
一：Hive的历史价值1，Hive是Hadoop上的KillerApplication，Hive是Hadoop上的数据仓库，Hive同时兼具有数据仓库中的存储引擎和查询引擎的作用；而SparkSQL是一个更加出色和高级的查询引擎，所以在现在企业级应用中SparkSQL+Hive成为了业界使用大数据最为高效和流行的趋势。2，Hive是Facebook的推出，主要是为了让不动Java代码编程的人员也能
Hive与Hudi集成：增量大数据处理方案 AI大数据智能洞察大数据与AI人工智能大数据AI应用 hive hadoop 数据仓库 ai
Hive与Hudi集成：增量大数据处理方案关键词：Hive、Hudi、增量大数据处理、数据集成、数据湖摘要：本文主要探讨了Hive与Hudi集成的增量大数据处理方案。我们将深入了解Hive和Hudi的核心概念，剖析它们之间的关系，详细阐述集成的算法原理与操作步骤，通过实际项目案例展示如何进行开发环境搭建、代码实现与解读。同时，会介绍该集成方案的实际应用场景、相关工具和资源，探讨未来发展趋势与挑战。
【自动化运维神器Ansible】Ansible常用模块之archive模块详解 IT成长日记 Ansible自动化运维指南自动化运维技术探索运维自动化 ansible archive 常用模块
目录1Ansiblearchive模块概述1.1archive模块的核心功能1.2为什么需要archive模块2archive模块工作原理3archive模块参数详解3.1必需参数：path3.2常用可选参数3.2.1dest3.2.2format3.2.3exclude3.3高级参数3.3.1remove3.3.2owner/group/mode4archive模块使用场景与示例4.1基础使用场
Hive建表时开启事务机制导致insert失败: This command is not allowed on an ACID table.. with a non-ACID transaction 智海观潮大数据 Hive hive 大数据
建表语句：createtableA(table_codestring,data_dtstring,update_dtstring)clusteredby(table_code)into1bucketsrowformatdelimitedfieldsterminatedby'\033'storedasorc--orc格式tablproperties('transactional'='true');执
面向现代数据湖仓的开放表格式对比分析：Iceberg、Hudi、Delta Lake与Paimon piekill 大数据平台大数据 spark flink big data 数据仓库
文章目录第一章数据湖的演进：从存储到事务型平台1.1前湖仓时代：ApacheHive的局限性1.2湖仓一体的范式转移第二章架构深度剖析2.1ApacheIceberg：以元数据为中心的设计2.2ApacheHudi：流式优先、时间轴驱动的架构2.3DeltaLake：以事务日志为唯一真相源2.4ApachePaimon：面向实时湖仓的LSM树架构第三章核心能力对比分析3.1事务性与并发控制3.2数
【自动化运维神器Ansible】Ansible常用模块之unarchive模块详解
目录1unarchive模块概述1.1unarchive模块的核心价值2unarchive模块工作原理3unarchive模块参数详解3.1源文件相关参数3.1.1src3.1.2remote_src3.2目标路径参数3.2.1dest3.2.2extra_opts3.3高级控制参数3.3.1keep_newer3.3.2validate_certs4unarchive模块使用场景与示例4.1基础
SAP BW数据仓库总览 weixin_42559081
[分享]SAPBW数据仓库简介本文从一个简单的业务场景-销售分析入手，介绍SAPBW（BusinessInfomationWarehouse）实现多维分析的基本方案与实现技术;结合销售分析的实际需求,给出了销售分析管理数据仓库在SAPBW(业务信息仓库)模块中的实现过程描述。1、数据仓库的基本理论1.1数据仓库数据仓库是对数据进行提炼、加工和集成含有一定量商务信息和意义的信息。数据仓库不是为了存储
zookeeper和hadoop
zookeeper操作连接zkCli.sh-server服务名称查看客户端指令helpZooKeeper-serverhost:portcmdargs statpath[watch] setpathdata[version] lspath[watch] delquota[-n|-b]path ls2path[watch] setAclpathacl setquot
Hadoop 之 ZooKeeper (一) devalone Hadoop Hadoop ZooKeeper Hbase Chubby znode
Hadoop之ZooKeeper本文介绍使用Hadoop的分布式协调服务构建通用的分布式应用——ZooKeeper。ZooKeeper是Hadoop分布式协调服务。写分布式应用是比较难的，主要是因为部分失败(partialfailure).当一条消息通过网络在两个节点间发送时，如果发生网络错误，发送者无法知道接受者是否接收到了这条消息。接收者可能在发生网络错误之前已经收到了这条消息，也可能没有收到
ZooKeeper在Hadoop中的协同应用：从NameNode选主到分布式锁实现码字的字节 hadoop布道师分布式 zookeeper hadoop 分布式锁
Hadoop与ZooKeeper概述Hadoop与ZooKeeper在大数据生态系统中的核心位置和交互关系Hadoop的架构与核心组件作为大数据处理的基石，Hadoop生态系统由多个关键组件构成。其核心架构主要包含HDFS（HadoopDistributedFileSystem）和YARN（YetAnotherResourceNegotiator）两大模块。HDFS采用主从架构设计，由NameNo
RK3568笔记九十一：QT环境搭建殷忆枫 RK3568学习笔记笔记
若该文为原创文章，转载请注明原文出处。记录按照正点原子给的手册搭建QT环境参考《09【正点原子】ATK-DLRK3568_Qt开发环境搭建V1.2.pdf》一、安装1、下载https://mirrors.sau.edu.cn/qt/archive/online_installers/4.6/qt-unified-linux-x64-4.6.0-online.run2、赋予可执行权限chmod+xq
数据江湖的“三国演义”：数据仓库、数据湖与湖仓一体的全景对比大模型大数据攻城狮数据仓库数据湖湖仓一体 Iceberg hudi Snowflake 流式计算
目录1.数据仓库：秩序井然的“中央档案馆”核心特点：一切为了分析优势：稳定如山，分析无敌短板：灵活性欠佳实战案例：零售巨头的销售分析2.数据湖：自由奔放的“原始丛林”核心特点：包容一切优势：灵活到飞起短板：自由的代价实战案例：流媒体平台的用户行为分析3.湖仓一体：兼得鱼与熊掌的“新物种”核心特点：两全其美优势：全能选手短板：尚在成长实战案例：金融科技的实时风控4.技术选型的“天平”：如何选择适合你
在python中安装geohash库
pip安装使用镜像网站安装pipinstall-iGeohashhttp://mirrors.aliyun.com/pypi/simple报错：CannotdeterminearchiveformatofC:\Users\Zz\AppData\Local\Temp\pip-req-build-t35bzb_f解决办法：重新安装，添加信任pipinstall-ihttps://pypi.tuna.t
交换两个数组使两个数组和的差最小橙姜
https://www.cnblogs.com/nanduo/archive/2009/06/29/1513035.html
Hive-3.1.2安装部署 ggnff
Hive-3.1.2安装部署一Hive-3.1.2网盘下载：链接：https://pan.baidu.com/s/1c8L3ygVae2kSN-ue8RZNtQ提取码：chjs1.下载完成后，上传到Linux的/opt/module下2.解压并重命名为hivecd/opt/moduletar-zxvfapache-hive-3.1.2-bin.tar.gzmvapache-hive-3.1.2-b
大数据开发系列（六）----Hive3.0.0安装配置以及Mysql5.7安装配置 Xiaoyeforever hive mysql hive hadoop 数据库
一、Hive3.0.0安装配置:(Hive3.1.2有BUG）hadoop3.1.2Hive各个版本下载地址：http://archive.apache.org/dist/hive/，这里我们下载hive3.0.01、解压：tar-xzvfapache-hive-3.0.0-bin.tar.gz-C/usr/lib/JDK_2021cd/usr/lib/JDK_20212.改名称.将解压以后的文件
数据写入因为汉字引发的异常 qq_40841339 spark hadoop hive hive hadoop 数据仓库
spark数据写hive表，发生查询分区异常问题异常：251071241926.49ERRORHive:MelaException(message.Exceptionthrownwhenexeculingquey.SELECTDISTINCT‘orgapache.hadop.hivemelastore.modelMpartionAs"NUCLEUSTYPE,AONCREATETIME,AO.LAS
大数据编程基础芝麻开门-新的起点大数据大数据
3.1Java基础（重点）内容讲解Java是大数据领域最重要的编程语言之一。Hadoop、HBase、Elasticsearch等众多核心框架都是用Java开发的。因此，扎实的Java基础对于深入理解这些框架的底层原理和进行二次开发至关重要。为什么Java在大数据领域如此重要？生态系统：Hadoop生态系统原生就是Java构建的，使用Java进行开发可以无缝集成。跨平台性：Java的“一次编译，到
深入解析HBase如何保证强一致性：WAL日志与MVCC机制码字的字节 hadoop布道师 hadoop HBase WAL MVCC
HBase强一致性的重要性在分布式数据库系统中，强一致性是确保数据可靠性和系统可信度的核心支柱。作为Hadoop生态系统中关键的列式存储数据库，HBase需要处理金融交易、实时风控等高敏感场景下的海量数据操作，这使得强一致性成为其设计架构中不可妥协的基础特性。分布式环境下的数据一致性挑战在典型的HBase部署环境中，数据被分散存储在多个RegionServer节点上，同时面临以下核心挑战：1.跨节
Hadoop中MapReduce和Yarn相关内容详解
接上一章写的HDFS说，Hadoop是一个适合海量数据的分布式存储和分布式计算的一个平台，上一章介绍了分布式存储，这一章介绍一下分布式计算——MapReduce。一、MapReduce设计理念map——>映射Reduce——>归纳mapreduce是一种必须构建在hadoop之上的大数据离线计算框架。因为mapreduce是给予磁盘IO来计算存储文件的，所以它具有一定的延时性，因此一般用来处理离线
Quazip库：一站式C++压缩文件处理方案 Mr.Poker
本文还有配套的精品资源，点击获取简介：Quazip是一个开源的C++库，能够方便地处理ZIP和7Z格式的压缩文件，提供了易于使用的API。它集成了zlib和libarchive库，支持多平台运行，如Linux、Windows和macOS。预编译的源码和库文件允许开发者无需自行编译即可直接集成到项目中。该库的特性包括简洁的API设计、丰富的功能支持、健壮的错误处理机制、性能优化、以及源码的可用性和可
【亲测免费】官方Kettle最新8.2版本下载介绍岑婵泉Polly
官方Kettle最新8.2版本下载介绍【下载地址】官方Kettle最新8.2版本下载介绍Kettle是一款功能强大的开源ETL工具，专为数据抽取、转换和加载而设计。它由纯Java编写，支持跨平台操作，适用于Windows、Linux和Unix系统。Kettle以其高效稳定的数据处理能力，成为数据工程师的首选工具。它的中文名“水壶”寓意将各种数据汇聚并按照指定格式输出，广泛应用于数据仓库建设和数据清
数据空间技术在智慧水库管理平台中的赋能小赖同学啊 test Technology Precious 物联网
数据空间技术在智慧水库管理平台中的赋能：设备到应用的数据传输优化数据空间技术为智慧水库管理平台提供了革命性的数据传输、处理和安全保障能力。以下是数据空间技术在设备到应用数据传输过程中的全面赋能方案：数据空间赋能架构设计中心层区域层设备层数据预处理边缘计算本地决策协议转换数据聚合安全传输元数据管理数据治理访问控制数据服务长期存储业务应用系统数据分析平台数据仓库区域数据空间网关中心数据空间平台边缘数据
阿里云MaxCompute SQL与Apache Hive区别面面观大模型大数据攻城狮阿里云 odps sql 物化 maxcompute udf开发 sql语法
目录1.引爆开场：MaxCompute和Hive，谁才是大数据SQL的王者？2.架构大比拼：从Hadoop到Serverless的进化之路Hive的架构：老派但经典MaxCompute的架构：云原生新贵3.SQL语法的微妙差异：90%相似，10%决定胜负建表语句分区与分桶函数与UDF4.执行引擎的较量：MapReducevs飞天引擎Hive的MapReduce执行流程MaxCompute的飞天引擎
PHP，安卓，UI，java，linux视频教程合集 cocos2d-x小菜 java UI linux PHP android
╔-----------------------------------╗┆
zookeeper admin 笔记 braveCS zookeeper
Required Software 1) JDK>=1.6 2)推荐使用ensemble的ZooKeeper(至少3台)，并run on separate machines 3)在Yahoo!，zk配置在特定的RHEL boxes里，2个cpu，2G内存，80G硬盘数据和日志目录 1)数据目录里的文件是zk节点的持久化备份，包括快照和事务日
Spring配置多个连接池 easterfly spring
项目中需要同时连接多个数据库的时候，如何才能在需要用到哪个数据库就连接哪个数据库呢？ Spring中有关于dataSource的配置： <bean id="dataSource" class="com.mchange.v2.c3p0.ComboPooledDataSource" &nb
Mysql 171815164 mysql
例如，你想myuser使用mypassword从任何主机连接到mysql服务器的话。 GRANT ALL PRIVILEGES ON *.* TO 'myuser'@'%'IDENTIFIED BY 'mypassword' WI TH GRANT OPTION; 如果你想允许用户myuser从ip为192.168.1.6的主机连接到mysql服务器，并使用mypassword作
CommonDAO（公共/基础DAO） g21121 DAO
好久没有更新博客了，最近一段时间工作比较忙，所以请见谅，无论你是爱看呢还是爱看呢还是爱看呢，总之或许对你有些帮助。 DAO(Data Access Object)是一个数据访问（顾名思义就是与数据库打交道）接口，DAO一般在业
直言有讳永夜-极光感悟随笔
1.转载地址:http://blog.csdn.net/jasonblog/article/details/10813313 精华: “直言有讳”是阿里巴巴提倡的一种观念，而我在此之前并没有很深刻的认识。为什么呢？就好比是读书时候做阅读理解，我喜欢我自己的解读，并不喜欢老师给的意思。在这里也是。我自己坚持的原则是互相尊重，我觉得阿里巴巴很多价值观其实是基本的做人
安装CentOS 7 和Win 7后，Win7 引导丢失随便小屋 centos
一般安装双系统的顺序是先装Win7，然后在安装CentOS，这样CentOS可以引导WIN 7启动。但安装CentOS7后，却找不到Win7 的引导，稍微修改一点东西即可。一、首先具有root 的权限。即进入Terminal后输入命令su，然后输入密码即可二、利用vim编辑器打开/boot/grub2/grub.cfg文件进行修改 v
Oracle备份与恢复案例 aijuans oracle
Oracle备份与恢复案例一. 理解什么是数据库恢复当我们使用一个数据库时，总希望数据库的内容是可靠的、正确的，但由于计算机系统的故障（硬件故障、软件故障、网络故障、进程故障和系统故障）影响数据库系统的操作，影响数据库中数据的正确性，甚至破坏数据库，使数据库中全部或部分数据丢失。因此当发生上述故障后，希望能重构这个完整的数据库，该处理称为数据库恢复。恢复过程大致可以分为复原(Restore)与
JavaEE开源快速开发平台G4Studio v5.0发布無為子
我非常高兴地宣布,今天我们最新的JavaEE开源快速开发平台G4Studio_V5.0版本已经正式发布。访问G4Studio网站 http://www.g4it.org 2013-04-06 发布G4Studio_V5.0版本功能新增 (1). 新增了调用Oracle存储过程返回游标，并将游标映射为Java List集合对象的标
Oracle显示根据高考分数模拟录取百合不是茶 PL/SQL编程 oracle例子模拟高考录取学习交流
题目要求: 1,创建student表和result表 2,pl/sql对学生的成绩数据进行处理 3,处理的逻辑是根据每门专业课的最低分线和总分的最低分数线自动的将录取和落选 1,创建student表,和result表学生信息表; create table student( student_id number primary key,--学生id
优秀的领导与差劲的领导 bijian1013 领导管理团队
责任优秀的领导：优秀的领导总是对他所负责的项目担负起责任。如果项目不幸失败了，那么他知道该受责备的人是他自己，并且敢于承认错误。差劲的领导：差劲的领导觉得这不是他的问题，因此他会想方设法证明是他的团队不行，或是将责任归咎于团队中他不喜欢的那几个成员身上。努力工作优秀的领导：团队领导应该是团队成员的榜样。至少，他应该与团队中的其他成员一样努力工作。这仅仅因为他
js函数在浏览器下的兼容 Bill_chen jquery 浏览器 IE DWR ext
做前端开发的工程师，少不了要用FF进行测试，纯js函数在不同浏览器下，名称也可能不同。对于IE6和FF，取得下一结点的函数就不尽相同： IE6：node.nextSibling,对于FF是不能识别的； FF：node.nextElementSibling,对于IE是不能识别的；兼容解决方式：var Div = node.nextSibl
【JVM四】老年代垃圾回收：吞吐量垃圾收集器(Throughput GC) bit1129 垃圾回收
吞吐量与用户线程暂停时间衡量垃圾回收算法优劣的指标有两个：吞吐量越高，则算法越好暂停时间越短，则算法越好首先说明吞吐量和暂停时间的含义。垃圾回收时，JVM会启动几个特定的GC线程来完成垃圾回收的任务，这些GC线程与应用的用户线程产生竞争关系，共同竞争处理器资源以及CPU的执行时间。GC线程不会对用户带来的任何价值，因此，好的GC应该占
J2EE监听器和过滤器基础白糖_ J2EE
Servlet程序由Servlet，Filter和Listener组成，其中监听器用来监听Servlet容器上下文。监听器通常分三类：基于Servlet上下文的ServletContex监听，基于会话的HttpSession监听和基于请求的ServletRequest监听。 ServletContex监听器 ServletContex又叫application
博弈AngularJS讲义(16) - 提供者 boyitech js AngularJS api Angular Provider
Angular框架提供了强大的依赖注入机制，这一切都是有注入器(injector)完成. 注入器会自动实例化服务组件和符合Angular API规则的特殊对象，例如控制器，指令，过滤器动画等。那注入器怎么知道如何去创建这些特殊的对象呢？ Angular提供了5种方式让注入器创建对象，其中最基础的方式就是提供者(provider), 其余四种方式(Value, Fac
java-写一函数f(a,b)，它带有两个字符串参数并返回一串字符，该字符串只包含在两个串中都有的并按照在a中的顺序。 bylijinnan java
public class CommonSubSequence { /** * 题目：写一函数f(a,b)，它带有两个字符串参数并返回一串字符，该字符串只包含在两个串中都有的并按照在a中的顺序。 * 写一个版本算法复杂度O(N^2)和一个O(N) 。 * * O(N^2)：对于a中的每个字符，遍历b中的每个字符，如果相同，则拷贝到新字符串中。 * O(
sqlserver 2000 无法验证产品密钥 Chen.H sql windows SQL Server Microsoft
在 Service Pack 4 (SP 4), 是运行 Microsoft Windows Server 2003、 Microsoft Windows Storage Server 2003 或 Microsoft Windows 2000 服务器上您尝试安装 Microsoft SQL Server 2000 通过卷许可协议 (VLA) 媒体。这样做, 收到以下错误信息CD KEY的 SQ
[新概念武器]气象战争 comsci
气象战争的发动者必须是拥有发射深空航天器能力的国家或者组织.... 原因如下: 地球上的气候变化和大气层中的云层涡旋场有密切的关系,而维持一个在大气层某个层次
oracle 中 rollup、cube、grouping 使用详解 daizj oracle grouping rollup cube
oracle 中 rollup、cube、grouping 使用详解 -- 使用oracle 样例表演示转自namesliu -- 使用oracle 的样列库，演示 rollup, cube, grouping 的用法与使用场景 --- ROLLUP ，为了理解分组的成员数量，我增加了分组的计数 COUNT(SAL)
技术资料汇总分享 Dead_knight 技术资料汇总分享
本人汇总的技术资料，分享出来，希望对大家有用。 http://pan.baidu.com/s/1jGr56uE 资料主要包含： Workflow->工作流相关理论、框架(OSWorkflow、JBPM、Activiti、fireflow...) Security->java安全相关资料(SSL、SSO、SpringSecurity、Shiro、JAAS...) Ser
初一下学期难记忆单词背诵第一课 dcj3sjt126com english word
could 能够 minute 分钟 Tuesday 星期二 February 二月 eighteenth 第十八 listen 听 careful 小心的，仔细的 short 短的 heavy 重的 empty 空的 certainly 当然 carry 携带；搬运 tape 磁带 basket 蓝子 bottle 瓶 juice 汁，果汁 head 头；头部
截取视图的图片, 然后分享出去 dcj3sjt126com OS Objective-C
OS 7 has a new method that allows you to draw a view hierarchy into the current graphics context. This can be used to get an UIImage very fast. I implemented a category method on UIView to get the vi
MySql重置密码 fanxiaolong MySql重置密码
方法一: 在my.ini的[mysqld]字段加入： skip-grant-tables 重启mysql服务，这时的mysql不需要密码即可登录数据库然后进入mysql mysql>use mysql; mysql>更新 user set password=password('新密码') WHERE User='root'; mysq
Ehcache（03）——Ehcache中储存缓存的方式 234390216 ehcache MemoryStore DiskStore 存储驱除策略
Ehcache中储存缓存的方式目录 1 堆内存（MemoryStore） 1.1 指定可用内存 1.2 驱除策略 1.3 元素过期 2 &nbs
spring mvc中的@propertysource jackyrong spring mvc
在spring mvc中，在配置文件中的东西，可以在java代码中通过注解进行读取了： @PropertySource 在spring 3.1中开始引入比如有配置文件 config.properties mongodb.url=1.2.3.4 mongodb.db=hello 则代码中 @PropertySource(&
重学单例模式 lanqiu17 单例 Singleton 模式
最近在重新学习设计模式，感觉对模式理解更加深刻。觉得有必要记下来。第一个学的就是单例模式，单例模式估计是最好理解的模式了。它的作用就是防止外部创建实例，保证只有一个实例。单例模式的常用实现方式有两种，就人们熟知的饱汉式与饥汉式，具体就不多说了。这里说下其他的实现方式静态内部类方式: package test.pattern.singleton.statics; publ
.NET开源核心运行时，且行且珍惜 netcome java .net 开源
背景 2014年11月12日，ASP.NET之父、微软云计算与企业级产品工程部执行副总裁Scott Guthrie，在Connect全球开发者在线会议上宣布，微软将开源全部.NET核心运行时，并将.NET 扩展为可在 Linux 和 Mac OS 平台上运行。.NET核心运行时将基于MIT开源许可协议发布，其中将包括执行.NET代码所需的一切项目——CLR、JIT编译器、垃圾收集器（GC）和核心
使用oscahe缓存技术减少与数据库的频繁交互 Everyday都不同 Web 高并发 oscahe缓存
此前一直不知道缓存的具体实现，只知道是把数据存储在内存中，以便下次直接从内存中读取。对于缓存的使用也没有概念，觉得缓存技术是一个比较”神秘陌生“的领域。但最近要用到缓存技术，发现还是很有必要一探究竟的。缓存技术使用背景：一般来说，对于web项目，如果我们要什么数据直接jdbc查库好了，但是在遇到高并发的情形下，不可能每一次都是去查数据库，因为这样在高并发的情形下显得不太合理——
Spring+Mybatis 手动控制事务 toknowme mybatis
@Override public boolean testDelete(String jobCode) throws Exception { boolean flag = false; &nbs
菜鸟级的android程序员面试时候需要掌握的知识点 xp9802 android
熟悉Android开发架构和API调用掌握APP适应不同型号手机屏幕开发技巧熟悉Android下的数据存储熟练Android Debug Bridge Tool 熟练Eclipse/ADT及相关工具熟悉Android框架原理及Activity生命周期熟练进行Android UI布局熟练使用SQLite数据库；熟悉Android下网络通信机制，S