Key-Key

大数据开发之Hive(基本概念、安装、数据类型、DDL数据定义、DML数据操作)

第 1 章：Hive基本概念

1.1 Hive

1.1.1 Hive产生背景

HDFS来存储海量的数据、MapReduce来对海量数据进行分布式并行计算、Yarn来实现资源管理和作业调度。但是面对海量的数据和负责的业务逻辑，开发人员要编写MR对数据进行统计分析难度极大，所以就产生了Hive这个数仓工具。Hive可以帮助开发人员将SQL语句转化为MapReduce在yarn上跑。

1.1.2 hive简介

Hive是基于hadoop的一个数据仓库工具，将结构化的数据文件映射成一张表，并提供类SQL（HQL）查询功能。

1.1.3 Hive本质：将HQL（hiveSQL）转化成MapReduce程序

1、Hive处理的数据存储在HDFS
2、Hive分析数据底层的实现是MapReduce
3、执行程序运行在Yarn上
4、结构化文件如何映射成一张表呢？借助存储在元数据数据库中的元数据来解析结构化文件。

1.2 Hive架构原理

1.2.1 Hive架构介绍

1）用户结构：Client	CLI（command-line interface）、JDBC/ODBC（jdbc访问hive）
2）元数据：Metastore	元数据包括：表名、表所属的数据库（默认是default）、表的拥有者、列/分区字段、表的类型（是否是外部表）、表的数据所在目录等；默认存储在自带的derby数据库中，推荐使用MySQL存储Metastore
3) Hadoop	使用HDFS进行存储，使用MapReduce进行计算
4) 驱动器：Driver	解析器（SQL Parser）	将SQL字符串转换成抽象语法树AST，这一步一般都用第三方工具库完成，比如antlr；对AST进行语法分析，比如表是否存在、字段是否存在、SQL语义是否有误
	编译器（Physical Plan）	将AST编译生成逻辑执行计划
	优化器（Query Optimizer）	对逻辑执行计划进行优化
	执行器（Execution）	把逻辑执行计划转换成可以运行的物理计划。对于Hive来说，就是MR/Spark

1.2.2 Hive的运行机制

hive通过给用户提供的一系列交互接口，接受到的用户指令（SQL），使用自己Driver，结合元数据（metaStore），将这些指令翻译成MapReduce，提交到Hadoop中执行，最后，将执行返回的结果输出到用户交互接口中。

1.3 Hive和数据库比较

	Hive	mysql
语言	类sql	sql
语言规模	大数据pd及以上	数据量小一般在百万左右到达单表极限
数据插入	能增加insert，不能update，delete	能insert，update，delete
数据存储	Hdfs	拥有自己的存储空间
计算引擎	MapReduce/Spark/tez	自己的引擎innodb

第 2 章：Hive安装

2.1 修改hadoop相关参数

1）修改core-site.xml
1、配置该superUser允许通过代理访问的主机节点
2、配置该superUser允许通过代理用户所属组
3、配置该superUser允许通过代理的用户

2）配置yarn-site.xml
1、NodeManager使用内存数，默认是8G，修改成4G内存
2、容器最小内存，默认512M
3、容器最大内存，默认是8G，修改成4G
4、关闭虚拟内存检查（默认开启）

3）分发修改后的配置文件

2.2 Hive解压安装

1）上传压缩包到linux的/opt/softsware目录下
2）将/opt/softsware目录下的压缩包解压到/opt/module目录下
3）将解压后的文件修改成hive
4）修改/etc/profile.d/my_env.sh文件，将hive的/bin目录添加到环境变量

2.3 Hive元数据的三种部署方式

2.3.1 元数据库之Derby

这种方式适用于轻量级或者单机模式的部署，通常用于测试或开发环境。配置相对简单，但不适合高可用性和大规模部署。
1、内嵌模式示意图：

2、Derby数据库：
Derby数据库是Java编写的内存数据库，在内嵌模式中与应用程序共享一个JVM，应用程序负责启动和停止。

3、初始化Derby数据库：
1）在hive根目录下，使用/bin目录下的schematool命令初始化hive自带的Derby元数据库
2）执行上述初始化元数据库时，会发生存在jar包冲突问题
3）解决jar包冲突问题，只需要把hive的/lib目录下的log4j~.jar重命名即可

4、启动Hive
1）执行/bin目录下的hive命令，就可以启动hive，并通过cli方式连接到hive
2）使用hive

show databases; 查看当前所有的数据库
show tables; 查看当前所有的表
create table test_derby(id int); 创建表
insert into test_derby values(1001); 插入数据
select * from test_derby; 查看数据

5、内嵌模式只有一个JVM进程
在内嵌模式下，命令行执行jps -ml命令，只能看到一个CliDriver进程。

2.3.2 元数据库之Mysql

这种方式更加适合生产环境，因为它支持多用户并发访问和更好的可伸延性。需要额外的配置和管理数据库服务。
1、直连模式示意图：

2、Mysql安装部署
1）检测当前系统是否安装过Mysql，如果安装过删除掉
2）将Mysql安装包上传至/opt/software目录下
3）解压到/opt/software下新建的mysql_jars目录
4）查看mysql_jars目录下文件
5）在/opt/software/mysql_jars目录下执行rpm安装，按顺序
6）如果在mysql的数据存储路径下有文件存在，需要将其全部删除，存储路径地址在/etc/my.cnf文件下datadir参数所对应的值
7）初始化数据库，查看临时的root用户的密码
8）启动mysql服务
9）登录mysql，修改root用户的密码
10）修改mysql库下的user表中的root用户允许任意ip连接
11）刷新，使得修改生效

3、配置Hive元数据库为MySQL
1）拷贝驱动
Hive需要将元数据信息存储到元数据库mysql中，需要使用JDBC的方式连接到Mysql，所以，将Mysql的JDBC驱动拷贝到Hive的lib目录下，供hive调用。
2）配置Metastore到Mysql
在/opt/module/hive/conf目录下新建hive-site.xml文件
（1）jdbc连接的URL
（2）jdbc连接的Driver
（3）jdbc连接的username
（4）jdbc连接的password
（5）Hive默认在HDFS的工作目录
（6）Hive元数据存储的验证设置false
（7）元数据存储授权设置false

4、Hive初始化元数据库
在mysql中创建hive存储元数据的数据库metastore，再通过hive的初始化元数据库操作创建表
1）登录mysql
2）新建Hive元数据库
3）初始化Hive元数据库

5、启动Hive
1）启动Hive
2）使用hive

show databases; 查看当前所有的数据库
show tables; 查看当前所有的表
create table test_mysql(id int); 创建表
insert into test_mysql values(1002); 插入数据
select * from test_mysql; 查看数据

3）开启另一个窗口测试，是否支持客户端并发操作

6、在公司生产环境中，网络环境非常的复杂，mysql的所在环境可能存在网络隔离，无法直接访问；另外，mysql的root账户和密码在此模式下会存在泄露风险，存在数据安全隐患。

2.3.3 元数据之MetaStore Server

在这种模式下，Hive与Hadoop生态系统中的其他组件共享元数据，这种方式可以实现元数据的高度集成和优化。
1、元数据服务模式示意图：

2、元数据服务模式
在服务器端访问MetaStore服务，客户端利用Thrift协议通过MetaStore服务访问元数据库。相比于内嵌式，这种更适合在生产环境中部署使用。

3、将Mysql作为元数据库，配置元数据服务
1）首先，将hive的元数据库配置为Mysql，编写hive-site.xml文件。在配置完后，启动hive之前必须先启动元数据服务，否则，hive启动后无法连接到元数据服务。
2）启动元数据服务
注意：启动后窗口不能再操作，需打开一个新的shell窗口做别的操作。
（1）启动hive，查看表和表中的数据，是否是Mysql数据库中的表。
（2）再另一个窗口启动hive，测试多客户端能否同时连接操作。

2.4 hive的两种访问方式

2.4.1 命令行方式

1、cli太过笨重，需要hive的jar支持。

2.4.2 HiveServe2 模式

1、JDBC访问Hive示意图：

2、JDBC方式访问Hive
将hive包装为服务发布出去，开发者使用JDBC的方式连接到服务，从而操作hive，减少对hive环境的依赖。

3、开启Hiveserver2
1）在hive-site.xml文件中添加如下配置信息
（1）指定hiveserver2连接的host
（2）指定hiveserver2连接的端口号
2）重启MetaStore服务
3）启动hive服务（如果是使用元数据服务的模式，需要提前开启元数据服务）
4）启动beeline服务

2.6 Hive常用交互命令

2.6.1 查看bin/hive命令帮助

bin/hive -help

2.6.2 命令中参数-e的使用

使用-e参数，可以不进入hive的交互窗口执行sql语句

2.6.3 命令中参数-f的使用

使用-f参数，可以不进入hive交互窗口，执行脚本中sql语句
1）在/opt/module/hive/下创建datas目录并在目录下创建hive-f.sql文件
2）文件中写入正确的sql语句
3）执行文件中的sql语句，还可以将结果写入指定文件中

第 3 章 Hive数据类型

3.1 基本数据类型

Hive数据类型	Java数据类型	长度
TINYINT	byte	1byte有符号整数
SWALINT	short	2byte有符号整数
INT	int	4byte有符号整数
BIGINT	long	8byte有符号整数
BOOLEAN	boolean	布尔类型，true或者false
FLOAT	float	单精度浮点数
DOUBLE	double	双精度浮点数
STRING	string	字符系列。可以使用单引号或者双引号
TIMESTAMP		时间类型
BINARY		字节数组

Hive的String类型不用声明其中最多能存储多少个字符，理论上它可以存储2GB的字符数。

3.2 集合数据类型

数据类型	描述	语法示例
STRUCT	和c语言中的struct类似，都可以通过“点”符号访问元素内容。例如：如果某个列的数据类型是STRUCT{first STRING, last String}，那么第1个元素可以通过字段.first来引用。	struct() 例如： struct
MAP	MAP是一组键-值对元组集合，使用数组表示法可以访问数据。例如：如果某个列的数据类型是MAP，其中键->值对是’first’->'john’和‘last’->‘doe’，那么可以通过字段名[‘last’]获取最后一个元素	map() 例如：map
ARRAY	数组是一组具有相同类型和名称的变量的集合。这些变量称为数组的元素，每个数组元素都有一个编号，编号从零开始。例如：数组值为[‘john’,‘doe’] ，那么第2个元素可以通过数组名[1]进行引用	Array() 例如：array

3.3 案例操作

3.3.1 简单了解前后端的数据传输

3.3.2 数据结构映射

1）假设某表有如下一行，我们用JSON格式来表示其数据结构。在Hive下访问的格式为

{
    "name": "songsong",
    "friends": ["bingbing" , "lili"] ,       //列表Array, 
    "children": {                      //键值Map,
        "xiao song": 19 ,
        "xiaoxiao song": 18
    }
    "address": {                      //结构Struct,
        "street": "hui long guan" ,
        "city": "beijing" 
    }
}

2）基于上述数据结构，我们在Hive里创建对应的表，并导入数据。
在目录/opt/module/hive/datas下创建本地测试文件personInfo.txt

vim personInfo.txt

songsong,bingbing_lili,xiao song:18_xiaoxiao song:19,hui long guan_beijing
yangyang,caicai_susu,xiao yang:18_xiaoxiao yang:19,chao yang_beijing

3.3.3 测试案例

1）Hive上创建测试表personInfo

hive(default)>create table personInfo (
name string,
friends array<string>,
children map<string, int>,
address struct<street:string, city:string>
)

row format delimited
fields terminated by ','
collection items terminated by '_'
map keys terminated by ':'
lines terminated by '\n';

指定数据文件中行格式的分隔符
指定字段之间用’,’进行分割
指定集合类型的元素之间用’_’进行分割
指定map类型中key和value用’:’进行分割
指定行之间的分隔符为’\n’

2）上传数据到hdfs中上述表的对应路径

hadoop fs  -put /opt/module/hive/datas/personInfo.txt /user/hive/warehouse/personInfo;

3）访问三种集合列里的数据，以下分别是ARRAY，MAP，STRUCT的访问方式

select
friends[1],
children['xiao song'],
address.city
from personInfo
where name="songsong";
结果：
_c0     _c1     city
lili    18      beijing

3.4 类型转换

1）Hive的基本数据类型进行隐性转换类似Java
2）隐式类型转换规则如下
（1）所有整数类型都可以隐式的转换为一个范围更广的类型，如INT可以转换成BIGINT。
（2）所有整数类型、FLOAT和STRING类型都可以隐式地转换成DOUBLE。
（3）TINYINT、SMALLINT、INT都可以转换为FLOAT。
（4）BOOLEAN类型不可以转换为任何其它的类型。
3）可以使用CAST操作显示进行数据类型转换
例如：CAST(‘1’ AS INT)将把字符串‘1’转换成整数1；

第4章：DDL 数据定义

4.1 创建数据库

1）创建数据库，数据库在HDFS上的默认存储路径是/usr/hive/warehouse/*.db。

create database bigdata;

2）避免要创建的数据库已经存在，增加if not exists判断。

create database if not exists bigdata;

3）创建一个数据库，指定数据库在HDFS上存放的位置

create database bigdata2 location '/bigdata2.db';

4.2 查询数据库

4.2.1 显示数据库

1）显示数据库

show databases;

2）过滤显示查询的数据库

show databases like 'bigdata*';

4.2.2 查看数据库详情

1）显示数据库信息

desc database bigdata;
bigdata		hdfs://hadoop102:9000/user/hive/warehouse/bigdata.db	atguigu USER

2）显示数据库详细信息，extended

desc database extended bigdata;
bigdata		hdfs://hadoop102:9000/user/hive/warehouse/bigdata.db	atguigu USER

3）创建数据库bigdata3，并设置其createtime属性

create database bigdata3 with dbproperties('createtime'='20211022');

4）再次查询

desc database bigdata3
OK
bigdata3                hdfs://hadoop102:8020/user/hive/warehouse/bigdata3.db   atguigu USER

desc database extended bigdata3
OK
bigdata3                hdfs://hadoop102:8020/user/hive/warehouse/bigdata3.db   atguigu USER    {createtime=20211022}

4.2.3 切换当前数据库

use bigdata;

4.3 修改数据库

用户可以使用ALTER DATABASE命令为某个数据库的DBPROPERTIES设置键-值对属性值，来描述这个数据库的属性信息。

alter database bigdata set dbproperties('createtime'='20211022');

4.4 删除数据库

1）删除空数据库

drop database if exists bigdata2

2）如果数据库不为空，可以采用cascade命令，强制删除

drop database bigdata cascade;

4.5 创建表

1）建表语句

CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name 
[(col_name data_type [COMMENT col_comment], ...)] 
[COMMENT table_comment] 
[PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)] 
[CLUSTERED BY (col_name, col_name, ...) 
[SORTED BY (col_name [ASC|DESC], ...)] INTO num_buckets BUCKETS] 
[ROW FORMAT row_format] 
[STORED AS file_format] 
[LOCATION hdfs_path]
[TBLPROPERTIES (property_name=property_value, ...)]
[AS select_statement]
[LIKES existing_table_or_view_name]

2）字段解释说明

CREATE TABLE	创建一个指定名称的表。如果相同名称的表已经存在，则抛出异常；用户可以用 IF NOT EXISTS 选项忽略这个异常
EXTERNAL	1）关键字可以让用户创建一个外部表，在建表的同时可以指定一个指向实际数据的路径（LOCATION）2）在删除表的适合，内部表的元数据和数据都被一起删除，外部表只删除元数据，不删除数据。
COMMENT	为表和列添加注释
PARTITIONED BY	创建分区表
CLUSTERED BY	创建分桶表
SORTED BY	不常用，对桶中的一个或多个列另外排序
ROW FROMAT	Fields 指定字段之间的分隔符；Collection 用于指定集合中元素的分隔符等
STORE AS	指定存储文件类型：如SEQUENCEFILE（二进制序列文件）、TEXTFILE（文本）、RCFILE（列式存储格式文件）
LOCATION	指定表在HDFS上的存储位置
AS	后跟查询语句，根据查询语句结果创建表
LIKE	允许用户复制现有的表结构，但是不复制数据

4.5.1 管理表（内部表）

1）理论

默认创建的表都是所谓的管理表，有时也被称为内部表。
管理表，Hive会控制着元数据和真实数据的生命周期。
Hive默认会将这些表的数据存储在hive.metastore.warehouse.dir定义目录的子目录下。
当我们删除一个管理表时，Hive也会删除这个表中数据。
管理表不适合和其他工具共享数据。

2）案例实操
创建数据文件，在/opt/module/hive/datas目录下创建文件student.txt，编辑如下内容：

vim student.txt
1001	ss1
1002	ss2
1003	ss3
1004	ss4
1005	ss5
1006	ss6
1007	ss7
1008	ss8
1009	ss9

（1）创建内部表student

create table if not exists student(
id int,
name string
)
row format delimited
fields terminated by '\t'
stored as textfile
location '/user/hive/warehouse/student';

（2）查询表的类型

desc formatted student;
Table Type:             MANAGED_TABLE

（3）根据查询结果创建表（查询的结果会添加到新创建的表中）

create table if not exists student2 as select id, name from student;

（4）根据已经存在的表结构创建表

create table if not exists student3 like student;

（5）查询表的类型

desc formatted student2;
Table Type:             MANAGED_TABLE

（6）删除表student2后，观察表的元数据和数据文件是否还存在

drop table student2;

4.5.2 外部表

1、理论
因为表是外部表，所以Hive并非认为其完全拥有这份数据。删除该表并不会删除掉这份数据，不过描述表的元数据信息会被删除掉。
元数据信息：指存储在Hive元数据仓库中的关于表的信息，例如表名、表结构（列名和数据类型）、表的物理位置（文件路径）等。这些信息帮助Hive了解如何访问和解释存储在外部位置的数据。
2、管理表和外部表的使用场景
外部表多用来存储原始数据，采用外部表交易共享数据。在原始数据基础上做大量的统计分析，中间用到的中间表、结果表多存于内部表。
3、案例实操
1）创建teacher.txt

1001	teacher1
1002	teacher2
1003	teacher3		
1004	teacher4
1005	teacher5

2）上传数据到HDFS

hadoop fs -mkdir -p /school/teacher
hadoop fs -put teacher.txt /school/teacher

3）在hive中创建外部表teacher

create external table if not exists teacher(
    id int, 
    name string
)
row format delimited fields terminated by '\t'
location '/school/teacher';

4）查看创建的表

show tables;

5）查看表格式化信息

desc formatted dept;
Table Type:             EXTERNAL_TABLE

6）删除外部表，观察表的元数据和相应hdfs中的数据

drop table dept;

外部表删除后，hdfs中的数据还在，但是metadata中dept的元数据已被删除

4.5.3 管理表与外部表的互相转换

1）查询表的类型

desc formatted student2;
Table Type:             MANAGED_TABLE

2）修改内部表student2为外部表

alter table student2 set tblproperties('EXTERNAL'='TRUE');

3）查询表的类型

desc formatted student2;
Table Type:             EXTERNAL_TABLE

4）修改外部表student2为内部表

alter table student2 set tblproperties('EXTERNAL'='FALSE');

4.6 修改表

4.6.1 重命名表

1、语法

ALTER TABLE table_name RENAME TO new_table_name

2、实操案例

alter table student3 rename to student4;

4.6.2 增加/修改/替换列信息

1、语法
1）更新列

ALTER TABLE table_name CHANGE [COLUMN] col_old_name col_new_name column_type [COMMENT col_comment] [FIRST|AFTER column_name]

2）增加和替换列

ALTER TABLE table_name ADD|REPLACE COLUMNS (col_name data_type [COMMENT col_comment], ...)

2、实操案例
1）查询表结构

desc test2;
OK
col_name        data_type       comment
id                      int

2）更新列：将列名id修改为student_id，类型不变

 alter table test2 change column id student_id int;
OK
Time taken: 0.083 seconds
desc test2;
OK
col_name        data_type       comment
student_id              int

3）更新列：不修改列名，仅修改列的类型为string

alter table test2 change column student_id student_id string;
OK
Time taken: 0.083 seconds
desc test2;
OK
col_name        data_type       comment
student_id              string

4）新增列：向test2表中新增一列，列名为name，类型为string

alter table test2 add columns(name string);
desc test2;
OK
col_name        data_type       comment
student_id              string                                      
name                    string

5）调整列的位置：现在想让name的列在最前面，做如下操作

alter table test2 change name name string first;
OK
Time taken: 0.139 seconds
desc test2;
OK
col_name        data_type       comment
name                    string                                      
student_id              string                                      
Time taken: 0.036 seconds, Fetched: 2 row(s)

6）调整列的位置：将name更新到指定列的后面，操作如下

alter table test2 change name name string after student_id;
OK
Time taken: 0.069 seconds
desc test2;
OK
col_name        data_type       comment
student_id              string                                      
name                    string                                      
Time taken: 0.033 seconds, Fetched: 2 row(s)

7）替换列（替换所有的列）

alter table test2 replace columns(id double);
OK
Time taken: 0.058 seconds
desc test2;
OK
col_name        data_type       comment
id                      double                                      
Time taken: 0.032 seconds, Fetched: 1 row(s)

4.7 删除表

drop table test2;

4.8 清除表中数据（Truncate）

truncate table student;

注意：truncate 只能删除管理表，不能删除外部表中数据

第5章 DML 数据操作

5.1 数据导入

5.1.1 向表中状态数据（Load）

1、基本语法

load data [local] inpath '数据的path' [overwrite] into table table_name [partition (partcol1=val1,…)];

Load data	加载数据
Local	表示从本地加载数据到hive表，否则是从HDFS加载数据到Hive表
Inpath	表是加载数据的路径
Overwrite	表示覆盖表中已有数据，否则表示追加
Into table	表示加载数据到哪张表中
Partition	表示加载数据到指定分区。通过分区，可以将表中的数据分散存储在不同的部分，通常基于某些列的值。例如，可以根据日期、地区等属性来分区。

2、实例操作
1）创建一张表student

create table student(
              id string, 
              name string
)
row format delimited fields terminated by '\t';

2）加载本地文件到hive

load data local inpath '/opt/module/hive/datas/student.txt' into table default.student;

3）加载HDFS文件到hive中
（1）上传文件到HDFS

dfs -put /opt/module/hive/datas/student.txt /input;

（2）加载HDFS上数据

load data inpath '/input/student.txt' into table default.student;

4）加载数据覆盖表中已有的数据

load data inpath '/input/student.txt' overwrite into table default.student;
FAILED: SemanticException Line 1:17 Invalid path ''/input/student.txt'': No files matching path hdfs://hadoop102:8020/input/student.txt

竟然报错了，信息显示文件不存在？
显然，加载HDFS上的文件到hive表中，采用的类似剪切的方式，将文件拷贝到表的映射目录下。

上传文件到HDFS

dfs -put /opt/module/hive/datas/student.txt /input;

加载HDFS上数据

load data inpath '/input/student.txt' overwrite into table default.student;

5.1.2 向表中插入数据（Insert）

1）创建一张表

 create table student2(id int, name string) row format delimited fields terminated by '\t';

2）基本插入数据

insert into table  student2 values(1,'wangwu'),(2,'zhaoliu');

3）将查询结果插入表中

insert overwrite table student2 select id, name from student ;

insert into	以追加数据的方式插入到表或分区，原有数据不会删除
insert overwrite	会覆盖表中已存在的数据

注意：insert不支持只插入部分数据

5.1.3 查询语句中创建表并加载数据（AS Select）

根据查询结果创建表

create table if not exists student4
as select id, name from student;

5.1.4 创建表时通过Location指定加载数据路径

1、上传数据到hdfs上

dfs -mkdir /input/student;
dfs -put /opt/module/hive/datas/student.txt /input/student/student.txt;

2、创建表，并指定在hdfs上的位置

create external table if not exists student5(
              id int,
              name string
)
row format delimited fields terminated by '\t'
location '/input/student';

3、查询数据

select * from student5;
OK
student5.id     student5.name
1001    ss1
1002    ss2
……

注意：hive创建表时，默认将表的名称作为默认HDFS上表对应的存储路径的名称，但是，如果你通过location指定存储路径，就不会修改路径名称为表名了。如上边的表名为student5和其在HDFS上的存储路径student。

5.2 数据导入

5.2.1 Insert导入

1、将查询的结果导出到本地

insert overwrite local directory '/opt/module/hive/datas/export/student'
            select * from student;

2、将查询的结果格式化导出到本地

insert overwrite local directory '/opt/module/hive/datas/export/student'
           ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'             select * from bigdata1.student;

3、将查询的结果导出到HDFS上（没有local）

insert overwrite directory '/output/student'
             ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' 
             select * from student;

注意：insert导入时，hive会自动创建导出目录，但是由于是overwrite，所以导出路径一定要写准确，否则存在误删数据的可能。

5.3 数据迁移

export 和 import命令主要用于两个Hadoop平台集群之间Hive表迁移。（元数据源+真实数据）

5.3.1 Export导出到HDFS上

export table default.student2 to '/地址';	导出到哪里

5.3.2 Import数据到指定Hive表中

import table student2  from '/地址 ';		从哪里导入

注意：先用export导出后，再将数据导入。

你可能感兴趣的:(大数据,hive,hadoop)

Deepseek技术深化：驱动大数据时代颠覆性变革的未来引擎荣华富贵8 spring boot 搜索引擎后端缓存 redis
在大数据时代，信息爆炸和数据驱动的决策逐渐重塑各行各业。作为一项前沿技术，Deepseek正在引领新一轮技术革新，颠覆传统数据处理与分析方式。本文将从理论原理、应用场景和前沿代码实践三个层面，深入剖析Deepseek技术如何为大数据时代提供颠覆性变革的解决方案。一、技术背景与核心思想1.1大数据挑战与机遇在数据量呈指数级增长的背景下，传统数据处理方法面临数据存储、计算效率和信息提取精度的诸多挑战。
centos7安装配置 Anaconda3
Anaconda是一个用于科学计算的Python发行版,Anaconda于Python，相当于centos于linux。下载[root@testsrc]#mwgethttps://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anaconda3-5.2.0-Linux-x86_64.shBegintodownload:Anaconda3-5.2.0-L
大数据之路：阿里巴巴大数据实践——大数据领域建模综述
为什么需要数据建模核心痛点数据冗余：不同业务重复存储相同数据（如用户基础信息），导致存储成本激增。计算资源浪费：未经聚合的明细数据直接参与计算（如全表扫描），消耗大量CPU/内存资源。数据一致性缺失：同一指标在不同业务线的口径差异（如“活跃用户”定义不同），引发决策冲突。开发效率低下：每次分析需重新编写复杂逻辑，无法复用已有模型。数据建模核心价值性能提升：分层设计（ODS→DWD→DWS→ADS）
大数据技术笔记—spring入门卿卿老祖
篇一spring介绍spring.io官网快速开始Aop面向切面编程，可以任何位置，并且可以细致到方法上连接框架与框架Spring就是IOCAOP思想有效的组织中间层对象一般都是切入service层spring组成前后端分离已学方式，前后台未分离：Spring的远程通信：明日更新创建第一个spring项目来源：科多大数据
大数据精准获客并实现高转化的核心思路和实现方法 2401_88470328 大数据精准获客数据分析数据挖掘大数据需求分析 big data
大数据精准获客并实现高转化的核心思路和实现方法大数据精准获客并实现高转化的核心思路和实现方法在当今信息爆炸的时代，企业如何通过海量的数据精准获取潜在客户，并提高转化率，已经成为营销策略中的关键环节。大数据精准获客的核心思路在于数据驱动、多渠道触达以及优化转化路径，从而实现高效的市场推广和客户转化。数据驱动原理和机制数据驱动的核心在于通过分析用户行为数据，挖掘潜在客户的需求和喜好，从而制定更加精准的
一地鸡毛—一个中年男人的日常2021241 随止心语所自欲律
2021年8月31日，星期二，阴有小雨。早起5:30，跑步10公里。空气清新，烟雨朦胧，远山如黛，烟雾缭绕，宛若仙境。空气中湿气很大，朦胧细雨拍打在脸上，甚是舒服，跑步的人明显减少。早上开会，领导说起逐年大幅度下滑的工作业绩，越说越激动，说得脸红脖子粗。开完会又讨论了一下会议精神，心情也有波动，学习热情不高。心里还有一个大事，是今日大数据分析第1次考试，因自己前期没学，而且计算机编程方面没有任何基
Ubuntu安装LAMP L_h1 测试 ubuntu linux
在安装vim时遇到了一个问题：E:无法获得锁/var/lib/dpkg/lock-frontend-open(11:资源暂时不可用)E:无法获取dpkg前端锁(/var/lib/dpkg/lock-frontend)，是否有其他进程正占用它？解决办法：强制解锁sudorm/var/lib/dpkg/lock-frontendsudorm/var/cache/apt/archives/locksud
Python 网络科学（三）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/3df7c5feb0bf40d7b9d88197a04b0b37译者：飞龙协议：CCBY-NC-SA4.0第八章：自我中心网络分析前一章内容非常丰富，我们学习了如何可视化和分析整个网络。相比之下，本章应该会感觉更简单，内容也会少得多。在之前的章节中，我们学习了如何获取和创建网络数据，如何从网络数据构建图形，如何清理图形数据，以及如何做一些有趣的事情
精通 Tableau 2023（四）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/dd6efaef313fee7252226d3af4a0b9fd译者：飞龙协议：CCBY-NC-SA4.0第十三章：提升性能一旦人们熟悉了Tableau的功能，他们很快就会遇到另一种类型的问题：性能。你们可能都曾经在屏幕上盯着加载数据或执行查询的字样发呆。但别担心，我们有办法！如果设计得当，Tableau仪表盘即使处理大量数据也能表现得非常好。本章
Hive使用必知必会系列王知无(import_bigdata) Hive系统性学习专栏 hive big data hdfs
一、Hive的几种数据模型内部表(Table将数据保存到Hive自己的数据仓库目录中：/usr/hive/warehouse)外部表(ExternalTable相对于内部表，数据不在自己的数据仓库中，只保存数据的元信息)分区表(PartitionTable将数据按照设定的条件分开存储，提高查询效率，分区----->目录)桶表(BucketTable本质上也是一种分区表，类似hash分区桶---->
Consul 与 Hive：云原生数据仓库集成 AI云原生与云计算技术学院 AI云原生与云计算数据仓库 consul hive ai
Consul与Hive：云原生数据仓库集成关键词：Consul、Hive、云原生、数据仓库集成、服务发现摘要：本文深入探讨了Consul与Hive在云原生环境下的数据仓库集成。首先介绍了集成的背景和相关概念，包括Consul的服务发现机制和Hive作为数据仓库的特点。接着详细阐述了核心概念及联系，通过文本示意图和Mermaid流程图展示其架构。对集成所涉及的核心算法原理进行了讲解，并给出Pytho
Hive详解
一：Hive的历史价值1，Hive是Hadoop上的KillerApplication，Hive是Hadoop上的数据仓库，Hive同时兼具有数据仓库中的存储引擎和查询引擎的作用；而SparkSQL是一个更加出色和高级的查询引擎，所以在现在企业级应用中SparkSQL+Hive成为了业界使用大数据最为高效和流行的趋势。2，Hive是Facebook的推出，主要是为了让不动Java代码编程的人员也能
智慧施工：AI技术赋能建筑安全监测新纪元
开发AI智能应用，就下载InsCodeAIIDE，一键接入DeepSeek-R1满血版大模型！智慧施工：AI技术赋能建筑安全监测新纪元在现代建筑行业中，施工安全始终是核心关注点之一。随着科技的飞速发展，人工智能（AI）和大数据分析逐渐成为提升施工安全的重要工具。本文将探讨如何利用智能化软件和大模型API来构建高效的施工安全监测系统，并介绍一款强大的开发工具——InsCodeAIIDE的应用场景及其
智慧工地系统：建筑行业数字化变革的引领者青云智慧园区 java
在建筑行业积极迈向数字化转型的浪潮中，智慧工地系统凭借“数据驱动、智能管控、协同增效”的核心优势，深度融合物联网、大数据、人工智能等前沿技术，构建起覆盖工程项目全生命周期的精细化管理体系。以下将从系统架构、核心功能模块、应用价值以及未来展望等方面，全方位剖析智慧工地系统如何实现施工全过程的智能化、高效化管理。一、系统架构：打造一体化协同管理平台智慧工地系统采用先进的分层架构设计，以底层的数据采集层
Hive与Hudi集成：增量大数据处理方案 AI大数据智能洞察大数据与AI人工智能大数据AI应用 hive hadoop 数据仓库 ai
Hive与Hudi集成：增量大数据处理方案关键词：Hive、Hudi、增量大数据处理、数据集成、数据湖摘要：本文主要探讨了Hive与Hudi集成的增量大数据处理方案。我们将深入了解Hive和Hudi的核心概念，剖析它们之间的关系，详细阐述集成的算法原理与操作步骤，通过实际项目案例展示如何进行开发环境搭建、代码实现与解读。同时，会介绍该集成方案的实际应用场景、相关工具和资源，探讨未来发展趋势与挑战。
获取三网实时访客---无忧获客大数据无牛_abc3
很多传统行业的公司与企业对于运营商大数据的理解还是很基础的，大多数都是在买资源程度的认识。一些敢于尝试运营商大数据获客的传统企业自然会受益颇多。运营商大数据所提供的获客服务也非常简单，就是将自身的用户数据资源、针对不同的企业去制定有个性化需求的获客标准，运营商大数据根据不同的企业，和行业去进行精准客户的部署和分配，让相关合作的企业通过运营商提供的CRM平台进行一个有效的触达。运营商大数据已经在全国
【自动化运维神器Ansible】Ansible常用模块之archive模块详解 IT成长日记 Ansible自动化运维指南自动化运维技术探索运维自动化 ansible archive 常用模块
目录1Ansiblearchive模块概述1.1archive模块的核心功能1.2为什么需要archive模块2archive模块工作原理3archive模块参数详解3.1必需参数：path3.2常用可选参数3.2.1dest3.2.2format3.2.3exclude3.3高级参数3.3.1remove3.3.2owner/group/mode4archive模块使用场景与示例4.1基础使用场
DeepSeek在大数据领域正掀起一场深刻的变革智海观潮 AI 大数据 deepseek AI
随着人工智能技术的飞速发展，DeepSeek作为一款行业领先的开源大模型，正在大数据领域掀起一场深刻的变革。其强大的数据处理和分析能力，为各行业带来了新的机遇和变革，推动数据与业务的深度融合。以下是DeepSeek在大数据领域的一些典型的潜在应用：1.加速数据处理与分析流程在传统的大数据应用中，数据收集、预处理和分析往往是一个繁琐且耗时的工程。DeepSeek凭借其高效的算法和强大的计算能力，极大
Hive建表时开启事务机制导致insert失败: This command is not allowed on an ACID table.. with a non-ACID transaction 智海观潮大数据 Hive hive 大数据
建表语句：createtableA(table_codestring,data_dtstring,update_dtstring)clusteredby(table_code)into1bucketsrowformatdelimitedfieldsterminatedby'\033'storedasorc--orc格式tablproperties('transactional'='true');执
面向现代数据湖仓的开放表格式对比分析：Iceberg、Hudi、Delta Lake与Paimon piekill 大数据平台大数据 spark flink big data 数据仓库
文章目录第一章数据湖的演进：从存储到事务型平台1.1前湖仓时代：ApacheHive的局限性1.2湖仓一体的范式转移第二章架构深度剖析2.1ApacheIceberg：以元数据为中心的设计2.2ApacheHudi：流式优先、时间轴驱动的架构2.3DeltaLake：以事务日志为唯一真相源2.4ApachePaimon：面向实时湖仓的LSM树架构第三章核心能力对比分析3.1事务性与并发控制3.2数
【自动化运维神器Ansible】Ansible常用模块之unarchive模块详解
目录1unarchive模块概述1.1unarchive模块的核心价值2unarchive模块工作原理3unarchive模块参数详解3.1源文件相关参数3.1.1src3.1.2remote_src3.2目标路径参数3.2.1dest3.2.2extra_opts3.3高级控制参数3.3.1keep_newer3.3.2validate_certs4unarchive模块使用场景与示例4.1基础
IoTDB智能分析节点AINode：时序数据分析的新引擎时序数据说 iotdb 数据分析数据挖掘时序数据库数据库大数据 ai
在大数据与物联网的驱动下，时序数据处理需求激增，如何高效存储、管理并实时分析海量时序数据成为技术挑战。作为专为时序数据设计的数据库，IoTDB通过引入智能分析节点（AINode），将机器学习能力原生集成到数据库中，实现了“数据存储-分析-决策”的一体化闭环。本文将深入解析AINode的核心功能、技术优势及实际应用场景。AINode：IoTDB的智能分析引擎AINode是IoTDB推出的第三种内生节
Python爬虫【五十八章】Python数据清洗与分析全攻略：从Pandas到深度学习的异常检测进阶程序员_CLUB Python入门到进阶 python 爬虫 pandas
目录背景与需求分析第一章：结构化数据清洗实战（Pandas核心技法）1.1数据去重策略矩阵1.2智能缺失值处理体系第二章：深度学习异常检测进阶2.1自动编码器异常检测（时序数据）2.2图神经网络异常检测（关系型数据）第三章：综合案例实战案例1：金融交易反欺诈系统案例2：工业传感器异常检测第四章：性能优化与工程实践4.1大数据处理加速技巧4.2模型部署方案第五章：方法论总结与展望5.1方法论框架5.
zookeeper和hadoop
zookeeper操作连接zkCli.sh-server服务名称查看客户端指令helpZooKeeper-serverhost:portcmdargs statpath[watch] setpathdata[version] lspath[watch] delquota[-n|-b]path ls2path[watch] setAclpathacl setquot
Hadoop 之 ZooKeeper (一) devalone Hadoop Hadoop ZooKeeper Hbase Chubby znode
Hadoop之ZooKeeper本文介绍使用Hadoop的分布式协调服务构建通用的分布式应用——ZooKeeper。ZooKeeper是Hadoop分布式协调服务。写分布式应用是比较难的，主要是因为部分失败(partialfailure).当一条消息通过网络在两个节点间发送时，如果发生网络错误，发送者无法知道接受者是否接收到了这条消息。接收者可能在发生网络错误之前已经收到了这条消息，也可能没有收到
《剑指offer》-算法篇-排序小新学习屋数据结构与算法算法 leetcode 职场和发展数据结构与算法
题目最小的K个数数组中的逆序对代码实现最小的K个数题目描述：输入n个整数，找出其中最小的K个数。例如输入4,5,1,6,2,7,3,8这8个数字，则最小的4个数字是1,2,3,4,。思路：按照各种排序算法，找到排序结果的前K个数。思路1：最简单的方案，对数组进行排序，取最小的k个思路2：借鉴快速排序的思想，找partition的基准点povit，比较povit和k值的大小思路3:大数据处理的思想，
ZooKeeper在Hadoop中的协同应用：从NameNode选主到分布式锁实现码字的字节 hadoop布道师分布式 zookeeper hadoop 分布式锁
Hadoop与ZooKeeper概述Hadoop与ZooKeeper在大数据生态系统中的核心位置和交互关系Hadoop的架构与核心组件作为大数据处理的基石，Hadoop生态系统由多个关键组件构成。其核心架构主要包含HDFS（HadoopDistributedFileSystem）和YARN（YetAnotherResourceNegotiator）两大模块。HDFS采用主从架构设计，由NameNo
优查查PROB版本使用介绍，优查查官网查询入口无忧达人
优查查最新版本PROB版本上线，优查查PROB版本的查询报告更全面，同时价格还是以前的价格，优查查大数据信用查询一次的价格是30，当然这个价格只限本文介绍的渠道，渠道我会放在文末，大家自行获取即可。优查查使用起来非常的流程，可以快速查询出来我们自身有没有信用稳定，优查查官网查询入口，每个人都可以使用优查查一键查询自己的信用，只能查询自己的信用，别人的信用是查询不了的。优查查使用入口放在文末了，划到
RK3568笔记九十一：QT环境搭建殷忆枫 RK3568学习笔记笔记
若该文为原创文章，转载请注明原文出处。记录按照正点原子给的手册搭建QT环境参考《09【正点原子】ATK-DLRK3568_Qt开发环境搭建V1.2.pdf》一、安装1、下载https://mirrors.sau.edu.cn/qt/archive/online_installers/4.6/qt-unified-linux-x64-4.6.0-online.run2、赋予可执行权限chmod+xq
贝融助手要交68块钱查询是合理吗？其实是很多人搞错查询渠道了无忧达人
我们都知道查询信用的平台都是需要收费，具体的收费每个平台都是不一样的，目前行业中收费基本上都是在30-100，其中大平台的收费会低一些，因为体量大可以降低自身的营业成本，这个原理和其它行业一样。贝融助手查询大数据信用收费是30（本文介绍的渠道），这个价格得益于贝融助手平台的体量，已经把价格做的非常低了，像信用行业大平台的价格基本上都是趋于行业的平均值，太高了太低了都不是正常值。贝融助手查询入口放在
mysql主从数据同步林鹤霄 mysql主从数据同步
配置mysql5.5主从服务器(转) 教程开始：一、安装MySQL 说明：在两台MySQL服务器192.168.21.169和192.168.21.168上分别进行如下操作，安装MySQL 5.5.22 二、配置MySQL主服务器（192.168.21.169）mysql -uroot -p &nb
oracle学习笔记 caoyong oracle
1、ORACLE的安装 a>、ORACLE的版本 8i,9i : i是internet 10g,11g : grid (网格) 12c : cloud (云计算) b>、10g不支持win7 &
数据库，SQL零基础入门天子之骄 sql 数据库入门基本术语
数据库，SQL零基础入门做网站肯定离不开数据库，本人之前没怎么具体接触SQL，这几天起早贪黑得各种入门，恶补脑洞。一些具体的知识点，可以让小白不再迷茫的术语，拿来与大家分享。数据库，永久数据的一个或多个大型结构化集合，通常与更新和查询数据的软件相关
pom.xml 一炮送你回车库 pom.xml
1、一级元素dependencies是可以被子项目继承的 2、一级元素dependencyManagement是定义该项目群里jar包版本号的，通常和一级元素properties一起使用，既然有继承，也肯定有一级元素modules来定义子元素 3、父项目里的一级元素<modules> <module>lcas-admin-war</module> <
sql查地区省市县 3213213333332132 sql mysql
-- db_yhm_city SELECT * FROM db_yhm_city WHERE class_parent_id = 1 -- 海南 class_id = 9 港、奥、台 class_id = 33、34、35 SELECT * FROM db_yhm_city WHERE class_parent_id =169 SELECT d1.cla
关于监听器那些让人头疼的事宝剑锋梅花香画图板监听器鼠标监听器
本人初学JAVA，对于界面开发我只能说有点蛋疼，用JAVA来做界面的话确实需要一定的耐心（不使用插件，就算使用插件的话也没好多少）既然Java提供了界面开发，老师又要求做，只能硬着头皮上啦。但是监听器还真是个难懂的地方，我是上了几次课才略微搞懂了些。
JAVA的遍历MAP darkranger map
Java Map遍历方式的选择 1. 阐述　　对于Java中Map的遍历方式，很多文章都推荐使用entrySet，认为其比keySet的效率高很多。理由是：entrySet方法一次拿到所有key和value的集合；而keySet拿到的只是key的集合，针对每个key，都要去Map中额外查找一次value，从而降低了总体效率。那么实际情况如何呢？　　为了解遍历性能的真实差距，包括在遍历ke
POJ 2312 Battle City 优先多列+bfs aijuans 搜索
来源：http://poj.org/problem?id=2312 题意：题目背景就是小时候玩的坦克大战，求从起点到终点最少需要多少步。已知S和R是不能走得，E是空的，可以走，B是砖，只有打掉后才可以通过。思路：很容易看出来这是一道广搜的题目，但是因为走E和走B所需要的时间不一样，因此不能用普通的队列存点。因为对于走B来说，要先打掉砖才能通过，所以我们可以理解为走B需要两步，而走E是指需要1
Hibernate与Jpa的关系，终于弄懂 avords java Hibernate 数据库 jpa
我知道Jpa是一种规范，而Hibernate是它的一种实现。除了Hibernate，还有EclipseLink(曾经的toplink)，OpenJPA等可供选择，所以使用Jpa的一个好处是，可以更换实现而不必改动太多代码。在play中定义Model时，使用的是jpa的annotations，比如javax.persistence.Entity, Table, Column, OneToMany
酸爽的console.log bee1314 console
在前端的开发中，console.log那是开发必备啊，简直直观。通过写小函数，组合大功能。更容易测试。但是在打版本时，就要删除console.log，打完版本进入开发状态又要添加，真不够爽。重复劳动太多。所以可以做些简单地封装，方便开发和上线。 /** * log.js hufeng * The safe wrapper for `console.xxx` functions *
哈佛教授：穷人和过于忙碌的人有一个共同思维特质 bijian1013 时间管理励志人生穷人过于忙碌
一个跨学科团队今年完成了一项对资源稀缺状况下人的思维方式的研究，结论是：穷人和过于忙碌的人有一个共同思维特质，即注意力被稀缺资源过分占据，引起认知和判断力的全面下降。这项研究是心理学、行为经济学和政策研究学者协作的典范。　　这个研究源于穆来纳森对自己拖延症的憎恨。他7岁从印度移民美国，很快就如鱼得水，哈佛毕业
other operate 征客丶 OS osx
一、Mac Finder 设置排序方式，预览栏在显示－》查看显示选项中二、有时预览显示时，卡死在那，有可能是一些临时文件夹被删除了，如：/private/tmp[有待验证] -------------------------------------------------------------------- 若有其他凝问或文中有错误，请及时向我指出，我好及时改正，同时也让我们一
【Scala五】分析Spark源代码总结的Scala语法三 bit1129 scala
1. If语句作为表达式 val properties = if (jobIdToActiveJob.contains(jobId)) { jobIdToActiveJob(stage.jobId).properties } else { // this stage will be assigned to "default" po
ZooKeeper 入门 BlueSkator 中间件 zk
ZooKeeper是一个高可用的分布式数据管理与系统协调框架。基于对Paxos算法的实现，使该框架保证了分布式环境中数据的强一致性，也正是基于这样的特性，使得ZooKeeper解决很多分布式问题。网上对ZK的应用场景也有不少介绍，本文将结合作者身边的项目例子，系统地对ZK的应用场景进行一个分门归类的介绍。值得注意的是，ZK并非天生就是为这些应用场景设计的，都是后来众多开发者根据其框架的特性，利
MySQL取得当前时间的函数是什么格式化日期的函数是什么 BreakingBad mysql Date
取得当前时间用 now() 就行。在数据库中格式化时间用DATE_FORMA T(date, format) . 根据格式串format 格式化日期或日期和时间值date，返回结果串。可用DATE_FORMAT( ) 来格式化DATE 或DATETIME 值，以便得到所希望的格式。根据format字符串格式化date值: %S, %s 两位数字形式的秒（ 00,01,
读《研磨设计模式》-代码笔记-组合模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; abstract class Component { public abstract void printStruct(Str
4_JAVA+Oracle面试题(有答案) chenke oracle
基础测试题卷面上不能出现任何的涂写文字，所有的答案要求写在答题纸上，考卷不得带走。选择题 1、 What will happen when you attempt to compile and run the following code? （3） public class Static { static { int x = 5; // 在static内有效 } st
新一代工作流系统设计目标 comsci 工作算法脚本
用户只需要给工作流系统制定若干个需求，流程系统根据需求，并结合事先输入的组织机构和权限结构，调用若干算法，在流程展示版面上面显示出系统自动生成的流程图，然后由用户根据实际情况对该流程图进行微调，直到满意为止，流程在运行过程中，系统和用户可以根据情况对流程进行实时的调整，包括拓扑结构的调整，权限的调整，内置脚本的调整。。。。。在这个设计中，最难的地方是系统根据什么来生成流
oracle 行链接与行迁移 daizj oracle 行迁移
表里的一行对于一个数据块太大的情况有二种(一行在一个数据块里放不下) 第一种情况: INSERT的时候，INSERT时候行的大小就超一个块的大小。Oracle把这行的数据存储在一连串的数据块里(Oracle Stores the data for the row in a chain of data blocks)，这种情况称为行链接(Row Chain)，一般不可避免(除非使用更大的数据
[JShop]开源电子商务系统jshop的系统缓存实现 dinguangx jshop 电子商务
前言 jeeshop中通过SystemManager管理了大量的缓存数据，来提升系统的性能，但这些缓存数据全部都是存放于内存中的，无法满足特定场景的数据更新（如集群环境）。JShop对jeeshop的缓存机制进行了扩展，提供CacheProvider来辅助SystemManager管理这些缓存数据，通过CacheProvider,可以把缓存存放在内存,ehcache,redis，memcache
初三全学年难记忆单词 dcj3sjt126com english word
several 儿子；若干 shelf 架子 knowledge 知识；学问 librarian 图书管理员 abroad 到国外，在国外 surf 冲浪 wave 浪；波浪 twice 两次；两倍 describe 描写；叙述 especially 特别；尤其 attract 吸引 prize 奖品；奖赏 competition 比赛；竞争 event 大事；事件 O
sphinx实践 dcj3sjt126com sphinx
安装参考地址:http://briansnelson.com/How_to_install_Sphinx_on_Centos_Server yum install sphinx 如果失败的话使用下面的方式安装 wget http://sphinxsearch.com/files/sphinx-2.2.9-1.rhel6.x86_64.rpm yum loca
JPA之JPQL（三） frank1234 orm jpa JPQL
1 什么是JPQL JPQL是Java Persistence Query Language的简称，可以看成是JPA中的HQL， JPQL支持各种复杂查询。 2 检索单个对象 @Test public void querySingleObject1() { Query query = em.createQuery("sele
Remove Duplicates from Sorted Array II hcx2013 remove
Follow up for "Remove Duplicates":What if duplicates are allowed at most twice? For example,Given sorted array nums = [1,1,1,2,2,3], Your function should return length
Spring4新特性——Groovy Bean定义DSL jinnianshilongnian spring 4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装Mysql5.5 liuxingguome centos
CentOS下以RPM方式安装MySQL5.5 首先卸载系统自带Mysql： yum remove mysql mysql-server mysql-libs compat-mysql51 rm -rf /var/lib/mysql rm /etc/my.cnf 查看是否还有mysql软件： rpm -qa|grep mysql 去http://dev.mysql.c
第14章工具函数（下） onestopweb 函数
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
POJ 1050 SaraWon 二维数组子矩阵最大和
POJ ACM第1050题的详细描述，请参照 http://acm.pku.edu.cn/JudgeOnline/problem?id=1050 题目意思：给定包含有正负整型的二维数组，找出所有子矩阵的和的最大值。如二维数组 0 -2 -7 0 9 2 -6 2 -4 1 -4 1 -1 8 0 -2 中和最大的子矩阵是 9 2 -4 1 -1 8 且最大和是15
Java8全新打造，英语学习supertool yangshangchuan java superword 闭包 java8 函数式编程
superword是一个Java实现的英文单词分析软件，主要研究英语单词音近形似转化规律、前缀后缀规律、词之间的相似性规律等等。Clean code、Fluent style、Java8 feature: Lambdas, Streams and Functional-style Programming。升学考试、工作求职、充电提高，都少不了英语的身影，英语对我们来说实在太重要