#HDFS 第40页

2021-02-08a

29.hive/impala/hdfs/kudu的区别hive和impala则更偏向于查询分析，需要基于hdfs或kuduImpala即可操作hdfs上的数据，又可操作kudu上的数据Hive只可操作hdfs

saluch·2023-11-05 11:10

Hadoop

HDFS体系结构.JPGHDFS体系结构2.JPG创建目录hadoopfs-mkdir在HDFS中创建"/user"目录hadoopfs-mkdir/user在HDFS中创建"/user/hadoop"

寻找灯下黑·2023-11-05 10:49

使用 Spark 跨集群同步HDFS数据

importorg.apache.log4j.{Level,Logger}importorg.apache.spark.{SparkConf,SparkContext}importorg.apache.spark.rdd.RDDimportorg.apache.spark.sql.SparkSessionobjectTestFileCopy{defmain(args:Array[String]):

lei_charles·2023-11-05 09:09

2019-02-20

tHiveConnectiontJava:自己写代码tHiveInputtRowGeneratortHDFSOutputtHiveRow查看文件列表!

FlyingPeter·2023-11-05 06:27

The root scratch dir: /tmp/hive on HDFS should be writable.（已解决）

因为修正完毕，没有进行完整错误展示，仅展示部分错误内容：Therootscratchdir:/tmp/hiveonHDFSshouldbewritable.解决方案：进入到/tmp目录下，使用chmod-R777

Han_Lin_·2023-11-05 03:21

java.lang.IllegalArgumentException: java.net.UnknownHostException:XXX 已解决

在HDFS和Hive在安装过程中出现这样的问题，主要是在HDFS的hdfs-site.xml中添加相应的参数：dfs.client.failover.proxy.provider.nsorg.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider

Han_Lin_·2023-11-05 03:21

Hadoop Hive Spark 之间的关系

HDFS（HadoopDistributedFileSystem)的设计本质上是为

Jarkata·2023-11-05 02:32

【大数据】搭建Hadoop集群，超级详细

目录搭建完全分布式运行模式（开发重点）1.1Hadoop部署1.2配置集群1.3配置历史服务器1.4配置日志的聚集1.5分发Hadoop1.6群起集群1.7Hadoop群起脚本第2章调优2.2.1项目经验之HDFS

小源·2023-11-05 00:29

Hadoop集群搭建（超级详细）

tar.gz（提取码：6k1i）、hadoop-3.1.3.tar.gz（提取码：07p6）1集群规划安装VMware，使用三台Ubuntu18.04虚拟机进行集群搭建，下面是每台虚拟机的规划：主机名IP用户HDFSYARNhadoopMaster

阮哈哈哈哈哈·2023-11-05 00:26

搭建hadoop集群

免登录将公钥复制到其他机器中2，安装环节进入文件夹存放安装包解压更改环境变量更新环境变量验证安装修改配置文件修改core-site.xml文件修改hadoop-env.sh文件修改yarn-env.sh文件修改hdfs-site.xml

陆卿之·2023-11-05 00:54

hdfs小文件使用fsimage分析实例

hdfs小文件使用fsimage分析实例1小文件来源分析1.1数据主要来源：2处理方案2.1实时计算任务2.2hive做优化，小文件做合并:2.2.1已有数据2.2.2新接入数据做数据合并后在load进

Direction_Wind·2023-11-05 00:18

Hadoop学习总结（Shell操作）

HDFSShell参数命令参数功能描述-ls查看指定路径的目录结构-du统计目录下所有文件大小-mv移动文件-cp复制文件-rm删除文件/空白文件夹-put上传文件-cat查看内容文件-text将源文件输出文本格式

Qinqin.J·2023-11-04 18:31

HDFS Yarn HA架构图及架构区别

HDFSHA架构图HDFSHA架构图.jpg1.各组件说明activenn(NameNode)接收client的rpc请求并处理，同时自己editlog写一份，也向JN的共享存储上的editlog写一份

cllblogs·2023-11-04 18:36

9.17 hive高级语法01

hive高级语法数据库（Database）表的集合，HDFS中表现为一个文件夹默认在hive.metastore.warehouse.dir属性目录下如果没有指定数据库，默认使用default数据库createdatabaseifnotexistsmyhivebook

伱来打硪啊·2023-11-04 15:43

sqoop数据迁移

导入数据：MySQL，Oracle导入数据到Hadoop的HDFS、HIVE、HBASE等数据存储系统；导出数据：从Hadoop的文件系统中导出数据到关系数据库mysql等工作机制：是将导入和导出的命令翻译成

lsy107816·2023-11-04 14:04

hadoop集群搭建之运行环境准备以及群启HDFS,YARN集群

hadoop入门-运行环境的搭建前期准备工作：制作了一模拟机hadoop101,然后在hadoop101的基础上，进行克隆，制作了一台hadoop102的服务器，配置好了jdk1.8以及hadoop3的环境变量hadoop安装目录介绍[[email protected]]$lldrwxr-xr-x.2atguiguatguigu40969月122019bindrwxr-xr

倔强的耗子·2023-11-04 11:26

【Hadoop】一、Apache Hadoop、 HDFS

一、ApacheHadoop、HDFSmd笔记1、ApacheHadoop概述Hadoop介绍狭义上Hadoop指的是Apache软件基金会的一款开源软件。

陌上人如玉এ·2023-11-04 11:55

hadoop进程启停管理(看这一篇就足够了！)

一、一键启停脚本HadoopHDFS组件内置了HDFS集群的一键启停脚本$HADOP_HOME/sbin/start-all.sh,一键启动HDFS集群执行原理：在执行此脚本的机器上，启动SecondaryNameNode

syst1m'·2023-11-04 11:54

Hdoop入门之Flume

Channel组件提供临时的存储，保存Source组件发送过来的信息，Sink负责读取Channel中临时存储的信息，保存到HDFS等，并删除Channel中的临时信息。

lurenjia·2023-11-04 10:01

Ubuntu18安装Hadoop，zookeeper，hbase--记录

三台电脑都需要统一安装首先安装hadoop下载：Indexof/dist/hadoop/common/hadoop-2.7.7上传文件，并解压cd到haddop目标，创建目录Haddop配置：保存退出：fs.defaultFShdfs

嘟嘟Listing·2023-11-04 09:33

大数据之非常详细Sqoop安装和基本操作

安装和基本操作目录大数据Sqoop1、上传解压2、配置环境变量配置sqoop环境变量配置sqoop-env.sh3、加入mysql的jdbc驱动包4、验证验证是否安装成功验证启动5、导入mysql表数据到HDFS6

派大星子fff·2023-11-04 09:33

Sqoop-day03_export-从hdfs中到出数据到MySQL中_小总结

export-从hdfs中到出数据到MySQL中HDFSToMySQL编写脚本，并保存为HDFSToMySQL.conf在往关系型数据库中导出的时候我们要先在关系型数据库中创建好库以及表，这些sqoop

a-tao必须奥利给·2023-11-04 09:33

数据转换工具sqoop安装和使用

一、Sqoop概述Sqoop是Apache一款开源工具，主要用于在HDFS、Hive、HBase等数据存储系统与关系性数据库之间传输数据。

七羽319·2023-11-04 09:03

CentOS7 Sqoop 安装和使用

核心的功能有两个：导入、迁入导出、迁出导入数据：MySQL，Oracle导入数据到Hadoop的HDFS、HIVE、HBASE等数据存储系统导出数据：从Hadoop的文件系统中导出数据到关系数据库mysql

fangwei1234·2023-11-04 09:01

Sqoop的安装和使用

目录一.安装二.导入1.全量导入一.MySQL导入HDFS二.MySQL导入Hive2.增量导入一.过滤导入hdfs/hive二.导出一.安装1.下载地址：sqoop下载地址2.解压tar-zxvf.

小辉懂编程·2023-11-04 09:31

Impala 入门

Cloudera公司推出，提供对HDFS、Hbase数据的高性能、低延迟的交互式SQL查询功能。基于Hive，使用内存计算，兼顾数据仓库、具有实时、批处理、多并发等优点。

djm猿·2023-11-04 09:26

CDH/CDP中开启kerberos后如何访问HDFS/YARN/HIVESERVER2 等服务的webui

CDH/CDP中开启kerberos后如何访问HDFS/YARN/HIVESERVER2等服务的webui在CDH/CDP等大数据平台中，当开启kerberos安全后，如何访问HDFS/YARN/HIVESERVER2

明哥的IT随笔·2023-11-04 08:16

0706-6.2.0-Windows Kerberos客户端配置并访问CDH

Hadoop_SC·2023-11-04 08:16

Windows 开启 Kerberos 的火狐 Firefox 浏览器访问yarn、hdfs

背景：类型为IPA或者MITKDC，windows目前只支持firefox+MITKerberos客户端的形式，其他windows端浏览器IE、chrome、edge，没有办法去调用MITKerberosWindows客户端的GSSAPI验证方式，所以均无法使用Windows开启Kerberos的浏览器设置目前只支持火狐Firefox浏览器1、打开浏览器，地址栏输入about:config2、在搜

墨卿风竹·2023-11-04 07:45

Hive如何使用Java自定义函数

udf函数1.在hive命令行中使用addjarjar包路径即可加载到临时系统中2.createtemporaryfunction函数名()as‘方法的全类名’永久udf函数1.在liunx命令行使用hdfs

lz_N_one·2023-11-04 06:17

实时处理练习

文章目录1提出任务1.1实时数据采集2完成任务2.1创建Flume运行的配置文件2.2安装netcat2.3启动flume2.4启动netcat2.5Kafka消费数据2.5查看HDFS上的备份数据1提出任务

howard2005·2023-11-04 06:59

10亿数据如何快速插入MySQL？

假设和面试官明确后，有如下约束10亿条数据，每条数据1Kb数据内容是非结构化的用户访问日志，需要解析后写入到数据库数据存放在Hdfs或S3分布式文件存储里10亿条数据并不是1个大文件，而是被近似切分为100

yue_stack·2023-11-04 05:42

大数据之Spark（6）- SparkStreaming

而结果也能保存在很多地方，如HDFS，数据库

jackyan163·2023-11-04 03:34

hadoop hdfs的API调用，在mall商城代码中添加api的调用

在网上下载了现成的商城代码的源码本次旨在熟悉hdfs的api调用，不关注前后端代码的编写，所以直接下载现成的代码，代码下载地址。

wmy102125·2023-11-04 03:07

HDFS原理篇

**hdfs的工作机制**（工作机制的学习主要是为加深对分布式系统的理解，以及增强遇到各种问题时的分析解决能力，形成一定的集群运维能力）注：很多不是真正理解hadoop技术体系的人会常常觉得HDFS可用于网盘类应用

NickYS·2023-11-04 01:50

Apache Doris导出数据到HDFS

部署broker配置文件为apache_hdfs_broker/conf/apache_hdfs_broker.conf注意：Broker没有也不需要priority_networks参数，Broker

贾斯汀玛尔斯·2023-11-03 18:04

Doris之数据导出

该功能可以将用户指定的表或分区的数据，以文本的格式，通过Broker进程导出到远端存储上，如HDFS/BOS等。FE：Frontend，Doris的前端节点。负责元数据管理和请求接入。

墨卿风竹·2023-11-03 18:32

用CentOS搭建hadoop

hadoop是一个开源的大数据框架；hadoop是一个的分布式计算的解决方案；hadoop=HDFS（分布式文件操作系统）+MapReduce（分布式计算）。

我一定要研究生毕业.·2023-11-03 15:09

centos安装配置hadoop超详细过程（含故障排除）

以Hadoop分布式文件系统（HDFS，HadoopDistributedFilesystem）和MapReduce（GoogleMapReduce的开源实现）为核心的Hadoop为用户提供了系统底层细节透明的分布式基础架构

格格巫 MMQ!!·2023-11-03 15:09

Centos7搭建Hadoop集群(V3.3.4)

hosts映射3、关闭防火墙4、同步时间5、关闭selinux6、配置ssh免密登陆7、重启二、安装所需环境1、jdk安装2、hadoop安装三、修改配置hadoop-env.shcore-site.xmlhdfs-site.xmlmapred-site.xmlyarn-site.xmlworkers

GreaterBuilder·2023-11-03 15:38

CentOS-7 Hadoop集群部署

Hadoop集群部署环境Hadoop目录结构Hadoop集群规划Hadoop下载Hadoop安装配置解压文件夹重命名赋予权限设置软连接配置环境变量配置文件修改HDFS集群workershadoop-env.shcore-site.xmlhdfs-site.xmlYARN

HeZaoCha·2023-11-03 15:37

Hive 工作机制

Hive工作机制将清洗过的数据放入到HDFS中，就可以进行各种统计了Hive运行时，元数据信息存储在关系型数据库里面，如Mysql，derby。Hive中的元数据

你看这人，真菜·2023-11-03 14:04

hive工作中分享总结

1.2.数据仓库1.3.Hive与传统数据库的区别1.4.Hive的优缺点1.5.Hive使用场景1.6.Hdfs运行机制1.7.Mapreduce运行机制1.8.SQL转化成MapReduce过程1.9

利剑 -~·2023-11-03 14:29

hive的工作机制

hive的工作机制1、在hive中建一个库---在hive的元数据库中记录---在hdfs的默认路径下/user/hive/warehouse/建一个以"库名.db"为名字的文件夹2、在hive的库中建表

小小哭包·2023-11-03 14:27

大数据复习考试

填空题—范围（10*2）1.大数据概念，2.Hadoop概念及两个配置文件：hadoop-env.sh，core-site.xml3.HDFS概念及底层结构，4.HBASE数据模型及原理简答题—范围（10

我叫小武，不是跳舞的舞·2023-11-03 14:19

[Hive] 查询结果保存

文章目录1.插入新表追加2.插入hdfs文件系统1.插入新表使用INSERTOVERWRITE语句的情况：整个表：可以使用INSERTOVERWRITETABLEtable_name语句将查询结果直接覆盖整个表中的数据

言之。·2023-11-03 12:43

shell 获取hive建表语句并修改orc格式为textfile格式

背景在hive中orc格式会自动将string类型的数据，hdfs文件加载成数据类型，就导致使用多表关联jiononid="11"时报错，或查询不出来结果，或者这外部表时造成表结构与实际数据类型不符。

jzy3711·2023-11-03 12:09

HDFS架构师3.1-元数据管理流程2（日志同步及fsimage互传）

19}20}21}22}元数据源码剖析.png1、内存里面的元数据刷盘image.png19}接上期——1.1.1.1》FSEditLog.logSync（）——1.1.1.1.1》EditLogOutputStream.flush()▼//第一次：FileJouranlManager->EditLogFileOutputStream//第二次：QuorumJounalManager->Quoru

fat32jin·2023-11-03 06:11

【大数据基础平台】星环TDH社区集群版本部署

目录一、概述二、环境配置三、安装Manager四、配置集群五、安装服务六、基本配置6.1开启安全6.2安装TDH客户端6.3集群外使用hadoopclient6.3.1使用hadoop/hdfs6.3.2

开着拖拉机回家·2023-11-03 06:43

4、Spark概要

一、基本特性1、与MapReduce的不同不同于MapReduce的是Job中间输出和结果可以“保存在内存”中，从而不再需要读写HDFS，（1）、基于内存mapreduce任务后期再计算的时候，每一个job

Tu_jc·2023-11-03 05:08

推荐频道

#HDFS