IT独白者

HBase之java api接口调用与mapreduce整合即从hdfs中通过mapreduce来导入数据到hbase中

此篇分为两部分来探讨，第一部分是hbase的java api接口，第二部分是hbase与mapreduce整合

一、hbase之java api接口

hbase是基于java写的，所以当然可以调用java api一样通过java代码来操纵hbase，可以实现基本的查询hbase表，向hbase表上传某一条记录等操作。那么首先需要依赖一些基本的hbase的maven的jar包，lz是在idea的ide中操作，具体需要添加的jar包如下：



    4.0.0

    com.sunwangdong.hadoop.test
    jkxy
    1.0-SNAPSHOT
    
        
            org.apache.hadoop
            hadoop-common
            2.7.1
        
        
            org.apache.hadoop
            hadoop-hdfs
            2.7.1
        
        
            org.apache.hadoop
            hadoop-mapreduce-client-core
            2.7.1
        
        
            org.apache.hadoop
            hadoop-mapreduce-client-common
            2.7.1
        
        
            org.apache.hadoop
            hadoop-mapreduce-client-jobclient
            2.7.1
        
        
            org.apache.hbase   //hbase的jar包，主要有hbase，hbase-client、hbase-server三个
            hbase
            1.2.6
        
        
            org.apache.hbase
            hbase-client
            1.2.6
        
        
            org.apache.hbase
            hbase-server
            1.2.6

添加完依赖包后，依次来写一些基本的操作，首先是建hbase表的操作，如下：

private static void createTable(HBaseAdmin hBaseAdmin) throws IOException
    {
        if(!hBaseAdmin.tableExists(TABLE_NAME))  //判断是否存在以"hello"为表名的表
        {
            HTableDescriptor hTableDescriptor = new HTableDescriptor(TABLE_NAME); //表名
            HColumnDescriptor hColumnDescriptor = new HColumnDescriptor(FAMILY_NAME); //列族
            hTableDescriptor.addFamily(hColumnDescriptor);  //表添加列族
            hBaseAdmin.createTable(hTableDescriptor);    //添加表


        }
    }

这里主要通过基本类，分别是HTableDescriptor,这个类表示的是表名，可以通过它的构造函数，为它添加具体的表名。然后是HColumnDescriptor类，这个类表示的是列族，通过HTableDescriptor.addFamily(HColumnDescriptor)来为表添加具体的列族。此外还有一个HBaseAdmin接口，这个接口是用来管理hbase数据库的表信息，提供的方法有：创建表、删除表、列出表项等操作，可以通过HBaseAdmin.createTable(HTableDescriptor)来创建一张表。

然后是删除表：

private static void dropTable(HBaseAdmin hBaseAdmin) throws IOException
    {
        if(hBaseAdmin.tableExists(TABLE_NAME))  //是否存在改表
        {
            hBaseAdmin.disableTable(TABLE_NAME);   //先要disable表
            hBaseAdmin.deleteTable(TABLE_NAME);    //然后再delete表
        }
    }

先判断要删除的表是否在hbase数据库中，如果存在，那么调用deleteTable实现删除操作，当然在执行删除操作之前，往往需要先disable那张表，用于使那张表先失效，然后再删除。

接下来是查看数据，具体有两种方法，分别是scan和get方法，分别对应hbase的scan和get方法。

private static void scanTable(HTable hTable) throws IOException
    {
        System.out.printf("遍历表结果如下：");
        Scan scan = new Scan();
        ResultScanner results = hTable.getScanner(scan);
        for(Result result : results)
        {
            byte[] value = result.getValue(FAMILY_NAME.getBytes(),COLUMN_NAME.getBytes());
            System.out.println(new String(value));
        }
    }

注意到，因为scan是扫描整张表，所以会得到很多行的数据，所以这里用到了一个ResultScanner的结果集来表示，我们可以通过一个HTable类的getScanner方法来得到。注意： HTable类是用来与hbase表进行通信，但是此方法是线程不安全的，如果有多个线程尝试与单个HTable实例进行通信，则写缓冲器就会失效。注意，每次获取得到的信息都是bytes类型的，所以都需要转化为string类型即可。

然后是get方法，与scan有点类似，不过get方法只得到某个rowkey下的数据，而不是整张表的数据。

private static void getRecord(HTable hTable) throws IOException
    {
        Get get = new Get(ROW_KEY.getBytes());
        Result result = hTable.get(get);
        byte[] value = result.getValue(FAMILY_NAME.getBytes(),COLUMN_NAME.getBytes());
        System.out.println("查询结果为:" + new String(value));
    }

这里需要指定某一个rowkey的某一列的内容，当然如果有时间戳，那么还需要指明，因为hbase中的一条数据是由四个因素确定的，分别是rowkey,列族，列名和value。结果是一个result，那么同样是bytes数组，然后输出时，需要转化成string类型。

最后是put，也就是向hbase上传、更新某一条记录。

private static void putRecord(HTable hTable) throws IOException
    {
        Put put = new Put(ROW_KEY.getBytes());
        put.add(FAMILY_NAME.getBytes(),COLUMN_NAME.getBytes(),"25".getBytes());
        hTable.put(put);
        System.out.println("insert a record!");
    }

这里用到了put类，它的作用是用来对单个行执行添加操作。当然上传一条记录，同样需要四个信息，行键，列族，列和具体的value值，有时候还需要指定时间戳。

完整的代码如下：

ackage com.hbase;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.hbase.HBaseConfiguration;
import org.apache.hadoop.hbase.HColumnDescriptor;
import org.apache.hadoop.hbase.HTableDescriptor;
import org.apache.hadoop.hbase.client.*;

import java.io.IOException;

/**
 * Created by sunwangdong on 2017/7/20.
 */
public class HbaseTest
{

    //public HBaseAdmin admin = null;

    public static final String TABLE_NAME="hello";   //表名
    public static final String FAMILY_NAME="info";   //列族
    public static final String COLUMN_NAME="age";    //列名
    public static final String ROW_KEY="xiaoming";   //行键rowkey

    public static void main(String[] args) throws IOException
    {
        Configuration conf = HBaseConfiguration.create();  //创建一个configuration
        conf.set("hbase.rootdir","hdfs://localhost:9000/hbase");
        //conf.set("hbase.zookeeper.quorum","");
        HBaseAdmin hBaseAdmin = new HBaseAdmin(conf);
        //createTable(hBaseAdmin);  //创建表
        HTable hTable = new HTable(conf,TABLE_NAME.getBytes());
        //putRecord(hTable);   //插入数据
        putRecord2(hTable,"88");
        getRecord(hTable);   //取出数据

        scanTable(hTable);   //遍历表结果

        //dropTable(hBaseAdmin);  //删除表

    }

    private static void scanTable(HTable hTable) throws IOException
    {
        System.out.printf("遍历表结果如下：");
        Scan scan = new Scan();
        ResultScanner results = hTable.getScanner(scan);
        for(Result result : results)
        {
            byte[] value = result.getValue(FAMILY_NAME.getBytes(),COLUMN_NAME.getBytes());
            System.out.println(new String(value));
        }
    }

    private static void getRecord(HTable hTable) throws IOException
    {
        Get get = new Get(ROW_KEY.getBytes());
        Result result = hTable.get(get);
        byte[] value = result.getValue(FAMILY_NAME.getBytes(),COLUMN_NAME.getBytes());
        System.out.println("查询结果为:" + new String(value));
    }

    private static void putRecord(HTable hTable) throws IOException
    {
        Put put = new Put(ROW_KEY.getBytes());
        put.add(FAMILY_NAME.getBytes(),COLUMN_NAME.getBytes(),"25".getBytes());
        hTable.put(put);
        System.out.println("insert a record!");
    }

    private static void putRecord2(HTable hTable,String value) throws IOException
    {
        Put put = new Put(ROW_KEY.getBytes());
        put.add(FAMILY_NAME.getBytes(),COLUMN_NAME.getBytes(),value.getBytes());
        hTable.put(put);
        System.out.println("insert or update a record!");
    }


    private static void createTable(HBaseAdmin hBaseAdmin) throws IOException
    {
        if(!hBaseAdmin.tableExists(TABLE_NAME))  //判断是否存在以"hello"为表名的表
        {
            HTableDescriptor hTableDescriptor = new HTableDescriptor(TABLE_NAME); //表名
            HColumnDescriptor hColumnDescriptor = new HColumnDescriptor(FAMILY_NAME); //列族
            hTableDescriptor.addFamily(hColumnDescriptor);  //表添加列族
            hBaseAdmin.createTable(hTableDescriptor);    //添加表


        }
    }

    private static void dropTable(HBaseAdmin hBaseAdmin) throws IOException
    {
        if(hBaseAdmin.tableExists(TABLE_NAME))  //是否存在改表
        {
            hBaseAdmin.disableTable(TABLE_NAME);   //先要disable表
            hBaseAdmin.deleteTable(TABLE_NAME);    //然后再delete表
        }
    }
}

注意，main函数里需要新建一个configuration类，且此类中需要指定hbase.rootdir的路径，这个需要与hbase-site.xml中配置的路径一致，否则将无法运行。

二、hbase与mapreduce整合

hbase和mapreduce的整合，其实是将hdfs中的数据导入到hbase的数据库中去，目前主要有两种方式来实现，其中一种就是利用mapreduce程序将hdfs中的数据按行划分成列输入到hbase中去，看以下的这个例子，现在在hdfs中有如下的数据表，其中这张数据表存放在hdfs中，具体的路径为：/t1/t1

1    zhangsan    10    male    NULL
2    lisi    NULL    NULL    NULL
3    wangwu    NULL    NULL    NULL
4    zhaoliu    NULL    NULL    1993

其中每一行中的每一列数据由"\t"来分隔，然后我们通过自定义mapreduce来实现：

首先是map函数

public static class HdfsToHBaseMapper extends Mapper
    {
        private Text outKey = new Text();
        private Text outValue = new Text();
        public void map(LongWritable key,Text value,Context context) throws IOException, InterruptedException
        {
            String[] splits = value.toString().split("\t");
            outKey.set(splits[0]);
            outValue.set(splits[1] + "\t" + splits[2] + "\t" + splits[3] + "\t" + splits[4]);
            context.write(outKey,outValue);
        }
    }

是将输入的数据按照行中的"\t"分隔符来分隔，然后我们通过按照行键和内容的形式输出。

然后是汇总的reduce函数

public static class HdfsToHBaseReducer extends TableReducer
    {
        public void reduce(Text k2, Iterable v2s,Context context) throws IOException, InterruptedException
        {
            Put put = new Put(k2.getBytes());
            for(Text v2 : v2s)
            {
                String[] splis = v2.toString().split("\t");
                if(splis[0] != null && !"NULL".equals(splis[0]))
                {
                    put.addColumn("f1".getBytes(),"name".getBytes(),splis[0].getBytes());
                }
                if(splis[1] != null && !"NULL".equals(splis[1]))
                {
                    put.addColumn("f1".getBytes(),"age".getBytes(),splis[1].getBytes());
                }
                if(splis[2] != null && !"NULL".equals(splis[2]))
                {
                    put.addColumn("f1".getBytes(),"gender".getBytes(),splis[2].getBytes());
                }
                if(splis[3] != null && !"NULL".equals(splis[3]))
                {
                    put.addColumn("f1".getBytes(),"birthday".getBytes(),splis[3].getBytes());
                }
            }
            context.write(NullWritable.get(),put);
        }
    }

注意，这个reduce继承自TableReducer，这个类来自于org.apache.hbase.client的jar包中，一开始，lz因为没有通过maven添加此jar包而出错！！！而且这个reduce的泛型约束也与一般的reducer不一样，只有三个，且最后一个是NullWritable，前两个当然是一样的，都是map的输出格式。最后的context的输出形式也不一样，第一个key的输出格式是 NullWritable.get()，而第二个value是put。

最后完整的代码如下：

package com.hbase;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.hbase.HBaseConfiguration;
import org.apache.hadoop.hbase.client.Put;
import org.apache.hadoop.hbase.mapred.TableOutputFormat;
import org.apache.hadoop.hbase.mapreduce.TableMapReduceUtil;
import org.apache.hadoop.hbase.mapreduce.TableReducer;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import java.io.IOException;


/**
 * Created by sunwangdong on 2017/7/23.
 */
public class HdfsToHBase
{
    public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException
    {
        Configuration conf = HBaseConfiguration.create();
        conf.set("hbase.rootdir","hdfs://localhost:9000/hbase");  //约束hbase.root的路径，与hadoop的配置文件一致
        conf.set(TableOutputFormat.OUTPUT_TABLE ,args[1]);
        Job job = Job.getInstance(conf,HdfsToHBase.class.getSimpleName());  //对job的约束
        TableMapReduceUtil.addDependencyJars(job);
        job.setJarByClass(HdfsToHBase.class);

        job.setMapperClass(HdfsToHBaseMapper.class);
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(Text.class);

        job.setReducerClass(HdfsToHBaseReducer.class);

        FileInputFormat.addInputPath(job,new Path(args[0]));
        job.setOutputFormatClass(org.apache.hadoop.hbase.mapreduce.TableOutputFormat.class); //这里设置的格式特别

        Boolean b = job.waitForCompletion(true);
        if(!b)
        {
            System.err.println("failed");
        }
        else
            System.out.println("finished!");
    }

    public static class HdfsToHBaseMapper extends Mapper
    {
        private Text outKey = new Text();
        private Text outValue = new Text();
        public void map(LongWritable key,Text value,Context context) throws IOException, InterruptedException
        {
            String[] splits = value.toString().split("\t");
            outKey.set(splits[0]);
            outValue.set(splits[1] + "\t" + splits[2] + "\t" + splits[3] + "\t" + splits[4]);
            context.write(outKey,outValue);
        }
    }

    public static class HdfsToHBaseReducer extends TableReducer
    {
        public void reduce(Text k2, Iterable v2s,Context context) throws IOException, InterruptedException
        {
            Put put = new Put(k2.getBytes());
            for(Text v2 : v2s)
            {
                String[] splis = v2.toString().split("\t");
                if(splis[0] != null && !"NULL".equals(splis[0]))
                {
                    put.addColumn("f1".getBytes(),"name".getBytes(),splis[0].getBytes());
                }
                if(splis[1] != null && !"NULL".equals(splis[1]))
                {
                    put.addColumn("f1".getBytes(),"age".getBytes(),splis[1].getBytes());
                }
                if(splis[2] != null && !"NULL".equals(splis[2]))
                {
                    put.addColumn("f1".getBytes(),"gender".getBytes(),splis[2].getBytes());
                }
                if(splis[3] != null && !"NULL".equals(splis[3]))
                {
                    put.addColumn("f1".getBytes(),"birthday".getBytes(),splis[3].getBytes());
                }
            }
            context.write(NullWritable.get(),put);
        }
    }
}

然后需要将此代码打成jar包，注意，运行hbase一定要用hadoop jar的形式，因为lz是在idea中来编译的，所以直接通过idea来编译生成jar包即可，注意，生成jar包，需要删除里面的META-INF/LICENSE.

zip -d ****.jar META-INF/LICENSE
当然因为上述代码中并没有直接写在hbase中的create创建表格的代码，所以我们需要事先在hbase中创建表格，即：

hbase(main):006:0> create 'table1','f1'
0 row(s) in 1.4270 seconds

=> Hbase::Table - table1

完成上述在hbase中的表格创建，其中表格名字为"table1"，它的其中一个行键是"f1"。

那么接下来就可以用hadoop的命令来执行上述jar包了，通过

hadoop jar ./***.jar com.hbase.HdfsToHBase /t1/t1 table1

那么可以看到在hadoop中通过mapreduce来执行了：

localhost:jkxy_jar12 sunwangdong$ hadoop jar ./jkxy.jar com.hbase.HdfsToHBase /t1/t1 table1
17/07/23 11:40:05 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
17/07/23 11:40:06 INFO client.RMProxy: Connecting to ResourceManager at /0.0.0.0:8032
17/07/23 11:40:07 WARN mapreduce.JobSubmitter: Hadoop command-line option parsing not performed. Implement the Tool interface and execute your application with ToolRunner to remedy this.
17/07/23 11:40:08 INFO input.FileInputFormat: Total input paths to process : 1
17/07/23 11:40:08 INFO mapreduce.JobSubmitter: number of splits:1
17/07/23 11:40:08 INFO mapreduce.JobSubmitter: Submitting tokens for job: job_1500776717808_0003
17/07/23 11:40:08 INFO impl.YarnClientImpl: Submitted application application_1500776717808_0003
17/07/23 11:40:08 INFO mapreduce.Job: The url to track the job: http://sunwangdongMacBook-Pro.local:8088/proxy/application_1500776717808_0003/
17/07/23 11:40:08 INFO mapreduce.Job: Running job: job_1500776717808_0003
17/07/23 11:40:16 INFO mapreduce.Job: Job job_1500776717808_0003 running in uber mode : false
17/07/23 11:40:16 INFO mapreduce.Job:  map 0% reduce 0%
17/07/23 11:40:22 INFO mapreduce.Job:  map 100% reduce 0%
17/07/23 11:40:29 INFO mapreduce.Job:  map 100% reduce 100%
17/07/23 11:40:29 INFO mapreduce.Job: Job job_1500776717808_0003 completed successfully
17/07/23 11:40:29 INFO mapreduce.Job: Counters: 49
	File System Counters
		FILE: Number of bytes read=109
		FILE: Number of bytes written=250471
		FILE: Number of read operations=0
		FILE: Number of large read operations=0
		FILE: Number of write operations=0
		HDFS: Number of bytes read=187
		HDFS: Number of bytes written=0
		HDFS: Number of read operations=2
		HDFS: Number of large read operations=0
		HDFS: Number of write operations=0
	Job Counters
		Launched map tasks=1
		Launched reduce tasks=1
		Data-local map tasks=1
		Total time spent by all maps in occupied slots (ms)=3069
		Total time spent by all reduces in occupied slots (ms)=3801
		Total time spent by all map tasks (ms)=3069
		Total time spent by all reduce tasks (ms)=3801
		Total vcore-seconds taken by all map tasks=3069
		Total vcore-seconds taken by all reduce tasks=3801
		Total megabyte-seconds taken by all map tasks=3142656
		Total megabyte-seconds taken by all reduce tasks=3892224
	Map-Reduce Framework
		Map input records=4
		Map output records=4
		Map output bytes=95
		Map output materialized bytes=109
		Input split bytes=92
		Combine input records=0
		Combine output records=0
		Reduce input groups=4
		Reduce shuffle bytes=109
		Reduce input records=4
		Reduce output records=4
		Spilled Records=8
		Shuffled Maps =1
		Failed Shuffles=0
		Merged Map outputs=1
		GC time elapsed (ms)=130
		CPU time spent (ms)=0
		Physical memory (bytes) snapshot=0
		Virtual memory (bytes) snapshot=0
		Total committed heap usage (bytes)=347602944
	Shuffle Errors
		BAD_ID=0
		CONNECTION=0
		IO_ERROR=0
		WRONG_LENGTH=0
		WRONG_MAP=0
		WRONG_REDUCE=0
	File Input Format Counters
		Bytes Read=95
	File Output Format Counters
		Bytes Written=0
finished!

完成成功，那么可以在hbase中看到，刚才创建的"table1"表格已经有了数据

hbase(main):010:0> scan 'table1'
ROW                           COLUMN+CELL
 1                            column=f1:age, timestamp=1500781227480, value=10
 1                            column=f1:gender, timestamp=1500781227480, value=male
 1                            column=f1:name, timestamp=1500781227480, value=zhangsan
 2                            column=f1:name, timestamp=1500781227480, value=lisi
 3                            column=f1:name, timestamp=1500781227480, value=wangwu
 4                            column=f1:birthday, timestamp=1500781227480, value=1993
 4                            column=f1:name, timestamp=1500781227480, value=zhaoliu
4 row(s) in 0.0750 seconds

至此，上述通过mapreduce将hdfs上的表格传递给hbase就成功了！

Hive详解
一：Hive的历史价值1，Hive是Hadoop上的KillerApplication，Hive是Hadoop上的数据仓库，Hive同时兼具有数据仓库中的存储引擎和查询引擎的作用；而SparkSQL是一个更加出色和高级的查询引擎，所以在现在企业级应用中SparkSQL+Hive成为了业界使用大数据最为高效和流行的趋势。2，Hive是Facebook的推出，主要是为了让不动Java代码编程的人员也能
zookeeper和hadoop
zookeeper操作连接zkCli.sh-server服务名称查看客户端指令helpZooKeeper-serverhost:portcmdargs statpath[watch] setpathdata[version] lspath[watch] delquota[-n|-b]path ls2path[watch] setAclpathacl setquot
Hadoop 之 ZooKeeper (一) devalone Hadoop Hadoop ZooKeeper Hbase Chubby znode
Hadoop之ZooKeeper本文介绍使用Hadoop的分布式协调服务构建通用的分布式应用——ZooKeeper。ZooKeeper是Hadoop分布式协调服务。写分布式应用是比较难的，主要是因为部分失败(partialfailure).当一条消息通过网络在两个节点间发送时，如果发生网络错误，发送者无法知道接受者是否接收到了这条消息。接收者可能在发生网络错误之前已经收到了这条消息，也可能没有收到
ZooKeeper在Hadoop中的协同应用：从NameNode选主到分布式锁实现码字的字节 hadoop布道师分布式 zookeeper hadoop 分布式锁
Hadoop与ZooKeeper概述Hadoop与ZooKeeper在大数据生态系统中的核心位置和交互关系Hadoop的架构与核心组件作为大数据处理的基石，Hadoop生态系统由多个关键组件构成。其核心架构主要包含HDFS（HadoopDistributedFileSystem）和YARN（YetAnotherResourceNegotiator）两大模块。HDFS采用主从架构设计，由NameNo
大数据开发系列（六）----Hive3.0.0安装配置以及Mysql5.7安装配置 Xiaoyeforever hive mysql hive hadoop 数据库
一、Hive3.0.0安装配置:(Hive3.1.2有BUG）hadoop3.1.2Hive各个版本下载地址：http://archive.apache.org/dist/hive/，这里我们下载hive3.0.01、解压：tar-xzvfapache-hive-3.0.0-bin.tar.gz-C/usr/lib/JDK_2021cd/usr/lib/JDK_20212.改名称.将解压以后的文件
大数据编程基础芝麻开门-新的起点大数据大数据
3.1Java基础（重点）内容讲解Java是大数据领域最重要的编程语言之一。Hadoop、HBase、Elasticsearch等众多核心框架都是用Java开发的。因此，扎实的Java基础对于深入理解这些框架的底层原理和进行二次开发至关重要。为什么Java在大数据领域如此重要？生态系统：Hadoop生态系统原生就是Java构建的，使用Java进行开发可以无缝集成。跨平台性：Java的“一次编译，到
深入解析HBase如何保证强一致性：WAL日志与MVCC机制码字的字节 hadoop布道师 hadoop HBase WAL MVCC
HBase强一致性的重要性在分布式数据库系统中，强一致性是确保数据可靠性和系统可信度的核心支柱。作为Hadoop生态系统中关键的列式存储数据库，HBase需要处理金融交易、实时风控等高敏感场景下的海量数据操作，这使得强一致性成为其设计架构中不可妥协的基础特性。分布式环境下的数据一致性挑战在典型的HBase部署环境中，数据被分散存储在多个RegionServer节点上，同时面临以下核心挑战：1.跨节
Hadoop中MapReduce和Yarn相关内容详解
接上一章写的HDFS说，Hadoop是一个适合海量数据的分布式存储和分布式计算的一个平台，上一章介绍了分布式存储，这一章介绍一下分布式计算——MapReduce。一、MapReduce设计理念map——>映射Reduce——>归纳mapreduce是一种必须构建在hadoop之上的大数据离线计算框架。因为mapreduce是给予磁盘IO来计算存储文件的，所以它具有一定的延时性，因此一般用来处理离线
阿里云MaxCompute SQL与Apache Hive区别面面观大模型大数据攻城狮阿里云 odps sql 物化 maxcompute udf开发 sql语法
目录1.引爆开场：MaxCompute和Hive，谁才是大数据SQL的王者？2.架构大比拼：从Hadoop到Serverless的进化之路Hive的架构：老派但经典MaxCompute的架构：云原生新贵3.SQL语法的微妙差异：90%相似，10%决定胜负建表语句分区与分桶函数与UDF4.执行引擎的较量：MapReducevs飞天引擎Hive的MapReduce执行流程MaxCompute的飞天引擎
一文说清楚Hive
Hive作为ApacheHadoop生态的核心数据仓库工具，其设计初衷是为熟悉SQL的用户提供大规模数据离线处理能力。以下从底层计算框架、优点、场景、注意事项及实践案例五个维度展开说明。一、Hive底层分布式计算框架对比Hive本身不直接执行计算，而是将HQL转换为底层计算引擎的任务。目前支持的主流引擎及其特点如下：计算引擎核心原理优点缺点适用场景MapReduce基于“Map→Shuffle→R
HBase 简介
HBase简介什么是HBaseApacheHBase是Hadoop数据库，一个分布式的、可伸缩的大数据存储。当您需要对大数据进行随机的、实时的读/写访问时，请使用ApacheHBase。这个项目的目标是在商品硬件的集群上托管非常大的表——数十亿行百万列的列。ApacheHBase是一个开源的、分布式的、版本化的、非关系的数据库，它模仿了Google的Bigtable：一个结构化数据的分布式存储系统
sqoop的几个注意参数 yayooo
vimsqoop_export.shsqoop导出脚本：#!/bin/bashdb_name=gmallexport_data(){/opt/module/sqoop/bin/sqoopexport\--connect"jdbc:mysql://hadoop102:3306/${db_name}?useUnicode=true&characterEncoding=utf-8"\--username
大数据领域Hadoop集群搭建的详细步骤 AI天才研究院 ChatGPT 实战 ChatGPT AI大模型应用入门实战与进阶大数据 hadoop 分布式 ai
大数据领域Hadoop集群搭建的详细步骤关键词：Hadoop集群、HDFS、YARN、大数据平台、分布式系统、集群配置、故障排查摘要：Hadoop作为大数据领域的基石框架，其集群搭建是数据工程师和运维人员的核心技能。本文从Hadoop核心架构出发，结合生产环境实践，详细讲解从环境准备、配置文件调优到集群启动验证的全流程，并涵盖常见问题排查与最佳实践。无论你是初学者还是需要优化现有集群的工程师，本文
Zookeeper简单入门灬哆啦A梦不吃鱼
zookeeper简介ZooKeeper（动物园管理员），顾名思义，是用来管理Hadoop（大象）、Hive（蜜蜂）、Pig（小猪）的管理员，同时ApacheHBase、ApacheSolr、LinkedInSensei等众多项目中都采用了ZooKeeper。ZooKeeper曾是Hadoop的正式子项目，后发展成为Apache顶级项目，与Hadoop密切相关但却没有任何依赖。它是一个针对大型应用
解锁Hive：高效数据查找的秘密武器 YangRyeon hive hadoop 数据仓库
Hive是什么？Hive是基于Hadoop的一个数据仓库工具，它能够进行数据提取、转化和加载操作，为存储、查询和分析Hadoop中的大规模数据提供了有效的机制。Hive能将结构化的数据文件映射为一张数据库表，让用户可以通过熟悉的SQL查询功能来处理数据。其内部机制是将SQL语句巧妙地转变成MapReduce任务来执行，大大降低了开发的难度和复杂性。例如，在面对海量的用户行为日志数据时，Hive就能
Hive/Spark小文件解决方案(企业级实战)–参数和SQL优化陆水A 大数据 hive hadoop spark python
重点是后面的参数优化一、小文件的定义在Hadoop的上下文中，小文件的定义是相对于Hadoop分布式文件系统（HDFS）的块（Block）大小而言的。HDFS是Hadoop生态系统中的核心组件之一，它设计用于存储和处理大规模数据集。在HDFS中，数据被分割成多个块，每个块的大小是固定的，这个大小在Hadoop的不同版本和配置中可能有所不同，但常见的默认块大小包括128MB、256MB等。基于这个背
深入解析Hadoop资源隔离机制：Cgroups、容器限制与OOM Killer防御策略码字的字节 hadoop布道师 Hadoop 资源隔离机制 Cgroups 容器限制 OOM Killer
Hadoop资源隔离机制概述在分布式计算环境中，资源隔离是保障多任务并行执行稳定性的关键技术。Hadoop作为主流的大数据处理框架，其资源管理能力直接影响集群的吞吐量和任务成功率。随着YARN架构的引入，Hadoop实现了计算资源与存储资源的解耦，而资源隔离机制则成为YARN节点管理器（NodeManager）最核心的功能模块之一。资源隔离的必要性在共享集群环境中，典型问题表现为"资源侵占"现象：
CC00096.kafka——|Hadoop&kafka.V03|——|kafka.v03|Kafka源码剖析|Topic创建流程| yanqi_vip kafka java 大数据 python spark
一、Kafka源码剖析之Topic创建流程###---Topic创建~~~有两种创建方式：自动创建、手动创建。~~~在server.properties中配置auto.create.topics.enable=true时，~~~kafka在发现该topic不存在的时候会按照默认配置自动创建topic,~~~触发自动创建topic有以下两种情况：~~~Producer向某个不存在的Topic写入消息
大数据集群多命令脚本小P聊技术
1简介在大数据集群部署过程中，需要查询各个集群节点运行的服务状态，可使用批量命令脚本。2配置集群hostname2.1配置hostname文件1服务器hadoop01[root@localhost~]#echohostname1>/etc/hostnamehostnamehadoop012服务器hadoop02[root@localhost~]#echohadoop02>/etc/hostname
R 和 Hadoop 大数据分析（一）
原文：annas-archive.org/md5/b7f3a14803c1b4d929732471e0b28932译者：飞龙协议：CCBY-NC-SA4.0前言企业每天获取的数据量呈指数增长。现在可以将这些海量信息存储在像Hadoop这样的低成本平台上。这些组织目前面临的难题是如何处理这些数据，以及如何从中提取关键见解。因此，R就成为了关键工具。R是一个非常强大的工具，它使得在数据上运行高级统计模
Zookeeper 在 Kafka 中的作用详解：分布式协调服务的核心价值 lxb_不卑不亢消息队列 MQ 进阶实战分布式 zookeeper kafka rocketmq
摘要ApacheKafka是一个高吞吐、分布式的流处理平台，广泛应用于大数据和实时系统中。而ApacheZookeeper，则是Kafka背后不可或缺的“隐形英雄”。本文将深入剖析Zookeeper在Kafka架构中的核心作用，帮助开发者全面理解其在分布式协调、元数据管理、故障恢复等方面的关键地位。一、Zookeeper简介Zookeeper是一个开源的分布式协调服务，最初由Hadoop生态发展而
深入解析Hadoop中的推测执行：原理、算法与策略码字的字节 hadoop布道师 hadoop 算法推测执行
Hadoop推测执行概述在分布式计算环境中，任务执行速度的不均衡是一个普遍存在的挑战。Hadoop作为主流的大数据处理框架，通过引入推测执行（SpeculativeExecution）机制有效缓解了这一问题。该技术本质上是一种乐观的容错策略，当系统检测到某些任务执行明显落后于预期进度时，会自动在其它计算节点上启动相同任务的冗余副本，最终选择最先完成的任务结果作为输出。核心设计动机推测执行的诞生源于
spark on yarn 不辉放弃 pyspark 大数据开发
SparkonYARN是指将Spark应用程序运行在HadoopYARN集群上，借助YARN的资源管理和调度能力来管理Spark的计算资源。这种模式能充分利用现有Hadoop集群资源，简化集群管理，是企业中常用的Spark部署方式。核心角色•Spark应用：包含Driver进程和Executor进程。Driver负责任务调度、逻辑处理；Executor负责执行具体任务并存储数据。•YARN组件：◦
深入解析Hadoop中的Region分裂与合并机制码字的字节 hadoop布道师 hadoop 大数据分布式 Region 分裂合并
Hadoop与Region的基本概念Hadoop的分布式架构基础作为大数据处理的核心框架，Hadoop通过分布式存储和计算解决了海量数据的处理难题。其架构核心由HDFS（HadoopDistributedFileSystem）和MapReduce组成，前者负责数据的分布式存储，后者实现分布式计算。在HDFS中，数据被分割成固定大小的块（默认128MB）分散存储在集群节点上，而MapReduce则通
深入解析Hadoop RPC：技术细节与推广应用码字的字节 hadoop布道师 Hadoop RPC
HadoopRPC框架概述在分布式系统的核心架构中，远程过程调用（RPC）机制如同神经网络般连接着各个计算节点。Hadoop作为大数据处理的基石，其自主研发的RPC框架不仅支撑着内部组件的协同运作，更以独特的工程哲学诠释了分布式通信的本质。透明性：隐形的通信桥梁HadoopRPC最显著的特征是其对通信细节的完美封装。当NameNode接收DataNode的心跳检测，或ResourceManager
深入解析Hadoop：大数据处理的基石学习的锅 hadoop 大数据分布式
随着信息技术的快速发展和互联网的普及，数据的产生速度极具增加。面对如此海量的数据，传统的数据处理工具显得力不从心。在这种背景下，诞生了一系列用于处理大数据的框架与工具，而ApacheHadoop便是其中最为知名和应用最广泛的一个。本文将深入解析Hadoop的基本原理、架构及其在大数据处理中的重要性。1.Hadoop的起源与发展Hadoop起源于Google公司的三篇奠基性论文：GoogleFile
大数据技术关键技术组件
大数据技术是一组用于处理、分析和管理大规模数据集的复杂方法和技术。这些数据集的特点是容量大、增长速度快，且结构多样化，包括结构化、半结构化和非结构化数据。传统数据库管理和分析工具在处理此类数据时效率低下或无法胜任，因此需要专门的大数据技术栈来支持高效的数据处理和智能决策。大数据技术的关键组件通常包括：分布式存储系统：HadoopDistributedFileSystem(HDFS)：一个高度可扩展
大数据领域HDFS的集群资源管理优化大数据洞察大数据与AI人工智能大数据AI应用大数据 hdfs hadoop ai
大数据领域HDFS的集群资源管理优化关键词：HDFS；集群资源管理；存储优化；性能调优；副本策略；负载均衡；NameNode优化摘要：HDFS（Hadoop分布式文件系统）作为大数据领域的基石，承载着海量数据的存储与管理重任。随着数据规模爆炸式增长和业务复杂度提升，HDFS集群的资源管理面临着"存不下、跑不快、管不好"的三重挑战：存储资源浪费与不足并存、计算与存储资源匹配失衡、集群运维效率低下。本
深入探索Hadoop技术：全面学习指南
引言在大数据时代，高效地存储、处理和分析海量数据已成为企业决策与创新的关键驱动力。Hadoop，作为开源的大数据处理框架，以其强大的分布式存储和并行计算能力，以及丰富的生态系统，为企业提供了应对大规模数据挑战的有效解决方案。本文旨在为初学者和进阶者提供一份详尽的Hadoop技术学习指南，涵盖HDFS、MapReduce、YARN等核心组件，以及Hive、Pig、HBase等生态系统工具，助您踏上H
HDFS文件系统
HDFS文件系统是hadoop生态系统的核心，主要用于分布式文件存储，它具备高可用，流式读取，文件结构简单，跨平台的特点，它的集群采用的是主从结构，分为命名节点和数据节点，命名节点主要用于元数据管理（例如对目录，文件的创建，数据块与数据节点的关系维护管理）及数据节点管理（例如数据节点之间数据的复制，节点状态的维护，节点间数据的均衡），该文件系统最基本的存储单位是block即数据块，默认大小是64M
web报表工具FineReport常见的数据集报错错误代码和解释老A不折腾 web报表 finereport 代码可视化工具
在使用finereport制作报表，若预览发生错误，很多朋友便手忙脚乱不知所措了，其实没什么，只要看懂报错代码和含义，可以很快的排除错误，这里我就分享一下finereport的数据集报错错误代码和解释，如果有说的不准确的地方，也请各位小伙伴纠正一下。 NS-war-remote=错误代码\:1117 压缩部署不支持远程设计 NS_LayerReport_MultiDs=错误代码
Java的WeakReference与WeakHashMap bylijinnan java 弱引用
首先看看 WeakReference wiki 上 Weak reference 的一个例子： public class ReferenceTest { public static void main(String[] args) throws InterruptedException { WeakReference r = new Wea
Linux——（hostname）主机名与ip的映射 eksliang linux hostname
一、什么是主机名无论在局域网还是INTERNET上，每台主机都有一个IP地址，是为了区分此台主机和彼台主机，也就是说IP地址就是主机的门牌号。但IP地址不方便记忆，所以又有了域名。域名只是在公网（INtERNET)中存在，每个域名都对应一个IP地址，但一个IP地址可有对应多个域名。域名类型 linuxsir.org 这样的；主机名是用于什么的呢？答：在一个局域网中，每台机器都有一个主
oracle 常用技巧 18289753290
oracle常用技巧 ①复制表结构和数据 create table temp_clientloginUser as select distinct userid from tbusrtloginlog ②仅复制数据如果表结构一样 insert into mytable select * &nb
使用c3p0数据库连接池时出现com.mchange.v2.resourcepool.TimeoutException 酷的飞上天空 exception
有一个线上环境使用的是c3p0数据库，为外部提供接口服务。最近访问压力增大后台tomcat的日志里面频繁出现 com.mchange.v2.resourcepool.TimeoutException: A client timed out while waiting to acquire a resource from com.mchange.v2.resourcepool.BasicResou
IT系统分析师如何学习大数据蓝儿唯美大数据
我是一名从事大数据项目的IT系统分析师。在深入这个项目前需要了解些什么呢？学习大数据的最佳方法就是先从了解信息系统是如何工作着手，尤其是数据库和基础设施。同样在开始前还需要了解大数据工具，如Cloudera、Hadoop、Spark、Hive、Pig、Flume、Sqoop与Mesos。系统分析师需要明白如何组织、管理和保护数据。在市面上有几十款数据管理产品可以用于管理数据。你的大数据数据库可能
spring学习——简介 a-john spring
Spring是一个开源框架，是为了解决企业应用开发的复杂性而创建的。Spring使用基本的JavaBean来完成以前只能由EJB完成的事情。然而Spring的用途不仅限于服务器端的开发，从简单性，可测试性和松耦合的角度而言，任何Java应用都可以从Spring中受益。其主要特征是依赖注入、AOP、持久化、事务、SpringMVC以及Acegi Security 为了降低Java开发的复杂性，
自定义颜色的xml文件 aijuans xml
<?xml version="1.0" encoding="utf-8"?> <resources> <color name="white">#FFFFFF</color> <color name="black">#000000</color> &
运营到底是做什么的？ aoyouzi 运营到底是做什么的？
文章来源：夏叔叔（微信号：woshixiashushu），欢迎大家关注！很久没有动笔写点东西，近些日子，由于爱狗团产品上线，不断面试，经常会被问道一个问题。问：爱狗团的运营主要做什么？答：带着用户一起嗨。为什么是带着用户玩起来呢？究竟什么是运营？运营到底是做什么的？那么，我们先来回答一个更简单的问题——互联网公司对运营考核什么？以爱狗团为例，绝大部分的移动互联网公司，对运营部门的考核分为三块——用
js面向对象类和对象百合不是茶 js 面向对象函数创建类和对象
接触js已经有几个月了,但是对js的面向对象的一些概念根本就是模糊的,js是一种面向对象的语言但又不像java一样有class,js不是严格的面向对象语言 ,js在java web开发的地位和java不相上下 ,其中web的数据的反馈现在主流的使用json,json的语法和js的类和属性的创建相似下面介绍一些js的类和对象的创建的技术一:类和对
web.xml之资源管理对象配置 resource-env-ref bijian1013 java web.xml servlet
resource-env-ref元素来指定对管理对象的servlet引用的声明，该对象与servlet环境中的资源相关联 <resource-env-ref> <resource-env-ref-name>资源名</resource-env-ref-name> <resource-env-ref-type>查找资源时返回的资源类
Create a composite component with a custom namespace sunjing
https://weblogs.java.net/blog/mriem/archive/2013/11/22/jsf-tip-45-create-composite-component-custom-namespace When you developed a composite component the namespace you would be seeing would
【MongoDB学习笔记十二】Mongo副本集服务器角色之Arbiter bit1129 mongodb
一、复本集为什么要加入Arbiter这个角色回答这个问题，要从复本集的存活条件和Aribter服务器的特性两方面来说。什么是Artiber？ An arbiter does not have a copy of data set and cannot become a primary. Replica sets may have arbiters to add a
Javascript开发笔记白糖_ JavaScript
获取iframe内的元素通常我们使用window.frames["frameId"].document.getElementById("divId").innerHTML这样的形式来获取iframe内的元素，这种写法在IE、safari、chrome下都是通过的，唯独在fireforx下不通过。其实jquery的contents方法提供了对if
Web浏览器Chrome打开一段时间后，运行alert无效 bozch Web chorme alert 无效
今天在开发的时候，突然间发现alert在chrome浏览器就没法弹出了，很是怪异。试了试其他浏览器，发现都是没有问题的。开始想以为是chorme浏览器有啥机制导致的，就开始尝试各种代码让alert出来。尝试结果是仍然没有显示出来。这样开发的结果，如果客户在使用的时候没有提示，那会带来致命的体验。哎，没啥办法了就关闭浏览器重启。结果就好了，这也太怪异了。难道是cho
编程之美-高效地安排会议图着色问题贪心算法 bylijinnan 编程之美
import java.util.ArrayList; import java.util.Collections; import java.util.List; import java.util.Random; public class GraphColoringProblem { /**编程之美高效地安排会议图着色问题贪心算法 * 假设要用很多个教室对一组
机器学习相关概念和开发工具 chenbowen00 算法 matlab 机器学习
基本概念：机器学习(Machine Learning, ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域，它主要使用归纳、综合而不是演绎。开发工具 M
[宇宙经济学]关于在太空建立永久定居点的可能性 comsci 经济
大家都知道,地球上的房地产都比较昂贵,而且土地证经常会因为新的政府的意志而变幻文本格式........ 所以,在地球议会尚不具有在太空行使法律和权力的力量之前,我们外太阳系统的友好联盟可以考虑在地月系的某些引力平衡点上面,修建规模较大的定居点
oracle 11g database control 证书错误 daizj oracle 证书错误 oracle 11G 安装
oracle 11g database control 证书错误 win7 安装完oracle11后打开 Database control 后，会打开em管理页面，提示证书错误，点“继续浏览此网站”，还是会继续停留在证书错误页面解决办法：是 KB2661254 这个更新补丁引起的，它限制了 RSA 密钥位长度少于 1024 位的证书的使用。具体可以看微软官方公告：
Java I/O之用FilenameFilter实现根据文件扩展名删除文件游其是你 FilenameFilter
在Java中，你可以通过实现FilenameFilter类并重写accept(File dir, String name) 方法实现文件过滤功能。在这个例子中，我们向你展示在“c:\\folder”路径下列出所有“.txt”格式的文件并删除。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
C语言数组的简单以及一维数组的简单排序算法示例，二维数组简单示例 dcj3sjt126com c array
# include <stdio.h> int main(void) { int a[5] = {1, 2, 3, 4, 5}; //a 是数组的名字 5是表示数组元素的个数，并且这五个元素分别用a[0], a[1]...a[4] int i; for (i=0; i<5; ++i) printf("%d\n",
PRIMARY, INDEX, UNIQUE 这3种是一类 PRIMARY 主键。就是唯一且不能为空。 INDEX 索引，普通的 UNIQUE 唯一索引 dcj3sjt126com primary
PRIMARY, INDEX, UNIQUE 这3种是一类PRIMARY 主键。就是唯一且不能为空。INDEX 索引，普通的UNIQUE 唯一索引。不允许有重复。FULLTEXT 是全文索引，用于在一篇文章中，检索文本信息的。举个例子来说，比如你在为某商场做一个会员卡的系统。这个系统有一个会员表有下列字段：会员编号 INT会员姓名
java集合辅助类 Collections、Arrays shuizhaosi888 Collections Arrays HashCode
Arrays、Collections 1 ）数组集合之间转换 public static <T> List<T> asList(T... a) { return new ArrayList<>(a); } a）Arrays.asL
Spring Security（10）——退出登录logout 234390216 logout Spring Security 退出登录 logout-url LogoutFilter
要实现退出登录的功能我们需要在http元素下定义logout元素，这样Spring Security将自动为我们添加用于处理退出登录的过滤器LogoutFilter到FilterChain。当我们指定了http元素的auto-config属性为true时logout定义是会自动配置的，此时我们默认退出登录的URL为“/j_spring_secu
透过源码学前端之 Backbone 三 Model 逐行分析JS源代码 backbone 源码分析 js学习
Backbone 分析第三部分 Model 概述： Model 提供了数据存储，将数据以JSON的形式保存在 Model的 attributes里，但重点功能在于其提供了一套功能强大，使用简单的存、取、删、改数据方法，并在不同的操作里加了相应的监听事件，如每次修改添加里都会触发 change，这在据模型变动来修改视图时很常用，并且与collection建立了关联。
SpringMVC源码总结（七）mvc:annotation-driven中的HttpMessageConverter 乒乓狂魔 springMVC
这一篇文章主要介绍下HttpMessageConverter整个注册过程包含自定义的HttpMessageConverter，然后对一些HttpMessageConverter进行具体介绍。 HttpMessageConverter接口介绍： public interface HttpMessageConverter<T> { /** * Indicate
分布式基础知识和算法理论 bluky999 算法 zookeeper 分布式一致性哈希 paxos
分布式基础知识和算法理论 BY [email protected] 本文永久链接：http://nodex.iteye.com/blog/2103218 在大数据的背景下，不管是做存储，做搜索，做数据分析，或者做产品或服务本身，面向互联网和移动互联网用户，已经不可避免地要面对分布式环境。笔者在此收录一些分布式相关的基础知识和算法理论介绍，在完善自我知识体系的同
Android Studio的.gitignore以及gitignore无效的解决 bell0901 android gitignore
　　github上.gitignore模板合集，里面有各种.gitignore ： https://github.com/github/gitignore 　　自己用的Android Studio下项目的.gitignore文件，对github上的android.gitignore添加了　　　　　　# OSX files　　　　　　//mac os下　　　　　　.DS_Store
成为高级程序员的10个步骤 tomcat_oracle 编程
What 软件工程师的职业生涯要历经以下几个阶段：初级、中级，最后才是高级。这篇文章主要是讲如何通过 10 个步骤助你成为一名高级软件工程师。 Why 得到更多的报酬！因为你的薪水会随着你水平的提高而增加提升你的职业生涯。成为了高级软件工程师之后，就可以朝着架构师、团队负责人、CTO 等职位前进历经更大的挑战。随着你的成长，各种影响力也会提高。
mongdb在linux下的安装 xtuhcy mongodb linux
一、查询linux版本号： lsb_release -a LSB Version: :base-4.0-amd64:base-4.0-noarch:core-4.0-amd64:core-4.0-noarch:graphics-4.0-amd64:graphics-4.0-noarch:printing-4.0-amd64:printing-4.0-noa

HBase之java api接口调用与mapreduce整合即从hdfs中通过mapreduce来导入数据到hbase中

你可能感兴趣的:(hadoop)