#HDFS 第59页

介绍 Apache Spark 的基本概念和在大数据分析中的应用

Spark支持多种语言，如Scala、Java、Python和R等，也支持多种数据源，包括HDFS、Cassandra、HBase等。

代码之路无极限·2023-09-02 08:08

了解Apache跟Apache Hadoop和Apache Spark的原理，应用；

HDFSHadoop实现了一个分布式文件系统（HadoopDistributedFileSystem），简称HDFS。HDFS有高容错性的特点，并且设

lwh_python·2023-09-02 08:38

Hadoop HDFS 高阶优化方案

目录一、短路本地读取：ShortCircuitLocalReads1.1背景1.2老版本的设计实现1.3安全性改进版设计实现1.4短路本地读取配置1.4.1libhadoop.so1.4.2hdfs-site.xml1.4.3

Stars.Sky·2023-09-02 07:02

Hadoop -HDFS常用操作指令

1.启动HDFShadoop/sbin/start-dfs.sh2.关闭HDFShadoop/sbin/stop-dfs.sh3.在HDFS中创建文件夹#老版本hadoopfs-mkdir-ppath#

是杨杨呀·2023-09-02 07:32

从零开始的Hadoop学习（六）| HDFS读写流程、NN和2NN工作机制、DataNode工作机制

1.HDFS的读写流程（面试重点）1.1HDFS写数据流程1.1.1剖析文件写入（1）客户端通过DistributedFileSystem模块向NameNode请求上传文件，NameNode检查目标文件是否已存在

庭前云落·2023-09-02 07:32

Hadoop 3.2.4 集群搭建详细图文教程

3.2.3各个节点上安装JDK1.8环境3.3安装Hadoop3.4Hadoop安装包目录结构3.5编辑Hadoop配置文件3.5.1hadoop-env.sh3.5.2core-site.xml3.5.3hdfs-site.xm

Stars.Sky·2023-09-02 07:01

Hadoop集群搭建(五)-集群配置文件

目录集群部署规划自定义配置文件节点格式化配置workers启动集群配置历史服务器集群部署规划hadoop102hadoop103hadoop104HDFSNameNodeDataNodeSecondaryNameNodeNataNodeYARNNodeManagerResourceManagerNodeManagerNodeManager

HUA_8376·2023-09-02 06:55

520页（17万字）集团大数据平台整体解决方案word

2023小目标·2023-09-02 01:40

Spark SQL

SparkSQLSparkSQL的概述Hive的诞生，主要是因为开发MapReduce程序对Java要求比较高，为了让他们能够操作HDFS上的数据，推出了Hive。

奋斗的蛐蛐·2023-09-02 00:07

数据库集群的简单了解

Update关于操作的日志1.0redolog读一次写一次一共2次,不安全注意redolog是顺写而file是随机所以Mysql做出类似HDFS的操作行为日志和数据分离，但是不同的是，Mysql在内存中操作修改

叫我莫言鸭·2023-09-01 23:59

线上问诊：数仓开发(一)

业务数据采集线上问诊：数仓数据同步线上问诊：数仓开发(一)文章目录系列文章目录前言一、Hiveonyarn二、数仓开发1.ODS开发2.DIM开发3.DWD开发总结前言上次我们已经将MYSQL的数据传送到了HDFS

超哥--·2023-09-01 18:12

Hudi 核心原理

基本概念TimelineTimeline可以理解为Hudi表的一个时间线，记录了Hudi表在不同时刻的信息和行为，这个Timeline由TimelineServer来管理，通常存在于Hdfs、RDBMS

隔壁寝室老吴·2023-09-01 17:20

大数据平台的SQL查询引擎有哪些？

前言大数据平台中Hadoop的分布式文件系统（HDFS）之上形成了一种极具特色的技术群体，那就是SQL查询引擎。

守护石技术研究·2023-09-01 13:19

Error: Error while compiling statement: FAILED: SemanticException Unable to determine if hdfs://hado.

1.发现问题：在hive客户端或者beeline查询hive表时候报错：根据报错信息查看，是在集群namenode做了HA之后，产生的hdfs路径不对的问题；2.解决问题，修改hive元数据mysql信息表

gongxiucheng·2023-09-01 13:28

线上环境HBASE-1.2.0出现oldWALs无法自动回收情况；

正常情况下，hmaster会定期清理oldWALs文件夹，一般该文件大小也就几百兆，但是我们线上环境出现了该文件没有自动回收情况，如图：该目录占用hdfs空间多达7.6T，浪费空间：后来经过多番查找，找到了问题所在

gongxiucheng·2023-09-01 13:28

HDFS】FsDatasetImpl系列文章（九）：moveBlockAcrossVolumes方法

moveBlockAcrossVolumes方法，主要被用在diskbalancer的场景里。此方法的唯一调用点也是在DiskBalancer.DiskBalancerMover#copyBlocks里。/***Movesagivenblockfromonevolumetoanothervolume.Thisisusedbydisk*balancer.**@paramblock-ExtendedB

叹了口丶气·2023-09-01 11:13

【HDFS】XXXRpcServer和ClientNamenodeProtocolServerSideTranslatorPB小记

初始化RouterRpcServer时候会newClientNamenodeProtocolServerSideTranslatorPB，并把当前RouterRpcServer对象（this）传入构造函数：ClientNamenodeProtocolServerSideTranslatorPBclientProtocolServerTranslator=newClientNamenodeProto

叹了口丶气·2023-09-01 11:07

说说Flink on yarn的启动流程

分析&回答核心流程FlinkYarnSessionCli启动的过程中首先会检查Yarn上有没有足够的资源去启动所需要的container，如果有，则上传一些flink的jar和配置文件到HDFS，这里主要是启动

学一次·2023-09-01 09:34

HBase 和 Phoenix 的结构

HBase结构可以看到HBase集群由Master、RegionServer、ZooKeeper、HDFS组成Master协调管理多个RegionServer，侦测各RegionServer之间的状态，

moon_light_·2023-09-01 08:28

HDFS

FromHDFS:TheHadoopDistributedFileSystem(HDFS)isdesignedtostoreverylargedatasetsreliably,andtostreamthosedatasetsathighbandwidthtouserapplications.AssumptionsHardwarefailureisthenormratherthantheexcept

klory·2023-09-01 06:37

一百六十九、Hadoop——Hadoop退出NameNode安全模式与查看磁盘空间详情（踩坑，附截图）

一、目的在海豚跑定时跑kettle的从Kafka到HDFS的任务时，由于Linux服务器的某个文件磁盘空间满了，导致Hadoop的NodeName进入安全模式，此时光执行hdfsdfsadmin-safemodeleave

天地风雷水火山泽·2023-09-01 06:50

从零开始的Hadoop学习（五）| HDFS概述、shell操作、API操作

1.HDFS概述1.1HDFS产出背景及定义1）HDFS产生背景随着数据量越来越大，在一个操作系统存不下所有的数据，那么就分配到更多的操作系统管理的磁盘中，但是不方便管理和维护，迫切需要一种系统来管理多台机器上的文件

庭前云落·2023-09-01 06:20

HDFS Single Node Java API

HDFSSingleNodeJavaAPIJavaAPIpom.xml4.0.0com.lihaozehadoop1.0.0jarhadoophttp://maven.apache.org1.81.81.8UTF

李昊哲小课·2023-09-01 06:16

0202hdfs的shell操作-hadoop-大数据学习

文章目录1进程启停管理2文件系统操作命令2.1HDFS文件系统基本信息2.2介绍2.3创建文件夹2.4查看指定文件夹下的内容2.5上传文件到HDFS2.6查看HDFS文件内容2.7下载HDFS文件2.8HDFS

gaog2zh·2023-09-01 06:08

Apache Beam实战指南 | 手把手教你玩转大数据存储HdfsIO

关于ApacheBeam实战指南系列文章随着大数据2.0时代悄然到来，大数据从简单的批处理扩展到了实时处理、流处理、交互式查询和机器学习应用。近年来涌现出诸多大数据应用组件，如HBase、Hive、Kafka、Spark、Flink等。开发者经常要用到不同的技术、框架、API、开发语言和SDK来应对复杂应用的开发，这大大增加了选择合适工具和框架的难度，开发者想要将所有的大数据组件熟练运用几乎是一项

yoku酱·2023-09-01 04:40

大数据学习：impala基础

impala基础1.impala介绍1.1impala概述Impala是Cloudera公司推出，提供对HDFS、Hbase数据的高性能、低延迟的交互式SQL查询功能。

zui初的梦想·2023-09-01 04:05

java大数据开发训练营--Impala

第1部分Impala概述1.1Impala是什么Impala是Cloudera提供的⼀款开源的针对HDFS和HBASE中的PB级别数据进⾏交互式实时查询(Impala速度快)，Impala是参照⾕歌的新三篇论

Laozizuiku·2023-09-01 04:34

大数据学习：Hive主流文件存储格式对比

为了更好的阐述使用SerDe的场景，我们需要了解一下Hive是如何读数据的(类似于HDFS中数据的读写操作)：HDFSfiles–>InputFil

zui初的梦想·2023-09-01 04:34

Ambari实战-1:Ambari使用场景及介绍

Ambari目前已支持大多数Hadoop组件，包括HDFS，MapReduce，Hive，Pig，HBase，Zookeeper，Sqoop和HCatalog等。ApacheAmbari支持H

qianmoQ·2023-09-01 00:24

大数据学习之路之HBASE

它可以直接使用本地文件系统，也可以使用Hadoop的HDFS文件存储系统。不过，为了提高数据的可靠性和系统的健壮性，并且发挥HBase处理大数据的能力，使用HDFS作为文件存储系统才更为稳妥。

王小冬·2023-09-01 00:27

spark对接aws s3以及兼容s3接口的对象存储

之前写了一篇如何让spark使用阿里云oss对象存储替代本地存储或者hdfs存储jar包，日志等，文章链接：spark对接oss对象存储今天写一篇比较通用的，即spark对接awss3或者其他厂商兼容s3

铁人史大颗·2023-08-31 13:43

一百六十八、Kettle——用海豚调度器定时调度从Kafka到HDFS的任务脚本（持续更新追踪、持续完善）

一、目的在实际项目中，从Kafka到HDFS的数据是每天自动生成一个文件，按日期区分。而且Kafka在不断生产数据，因此看看kettle是不是需要时刻运行？能不能按照每日自动生成数据文件？

天地风雷水火山泽·2023-08-31 11:54

Centos7 + Apache Ranger 2.4.0 部署

它可以对Hadoop生态的组件如HDFS、Yarn、Hive、Hbase等进行细粒度的数据访问控制。通过操作Ranger控制台,管理员可以轻松的通过配置策略来控制用户访问权限。

snipercai·2023-08-31 09:02

Hive-安装与配置（1）

感谢各位前辈朋友们支持学习~文章目录1.Hive环境介绍2.搭建环境准备3.建立Hive元数据库4.安装配置Hive1.Hive环境介绍Hive在Hadoop生态系统中运行，依赖Hadoop分布式文件系统（HDFS

beixi@·2023-08-31 09:01

大数据高级开发工程师——数据采集框架Flume（1）

FlumeFlume基本介绍概述运行机制Flume采集系统结构图1.简单结构2.复杂结构Flume实战案例采集网络端口数据1.Flume的安装部署2.开发配置文件3.启动4.使用telnet测试采集目录到HDFS1

斗志昂-杨·2023-08-31 08:08

Hadoop优化以及新特性

文章目录HDFS-多目录HDFS-集群扩容以及缩容HDFS故障排查NameNode数据丢失集群安全模式&磁盘修复Hadoop企业优化常用的调优参数Hadoop小文件优化方法Hadoop新特性hadoop2

GambleLife·2023-08-31 07:02

hdfs小文件问题

hdfs小文件问题背景原因：1）hdfs上每个文件都要在NN的上创建对应的元数据，每个文件对应的元数据大概150byte，这个元数据是要存储在NN的内存中。

咖啡F·2023-08-31 07:32

HDFS小文件问题及解决方案（Hadoop Archive，Sequence File和CombineFileInputFormat）

方案（HAR）第一步：创建归档文件第二步：查看归档文件内容第三步：解压归档文件三、SequenceFiles方案四、CombineFileInputFormat方案一、前言概述小文件是指文件size小于HDFS

皮哥四月红·2023-08-31 07:31

【大数据之Hadoop3.x】

一、基本概念特点：大量、高速、多样、低价值密度（4V）主要解决海里数据存储和分析计算起源：GFS–>HDFS;Map-Reduce-->MR;BigTable–>HBase高可靠性：多个数据副本；高扩展性

JMFFFFF·2023-08-31 07:01

Hadoop调优思路

目录1HDFS—核心参数1.1NameNode内存生产配置1.2NameNode心跳并发配置1.3开启回收站配置2HDFS—集群压测2.1测试HDFS写性能2.2测试HDFS读性能4HDFS—集群扩容及缩容

首席撩妹指导官·2023-08-31 07:30

【大数据之Hadoop】三十四、Hadoop综合调优之小文件优化方法

1Hadoop小文件弊端 HDFS上每个文件都要在NameNode上创建对应的元数据，这个元数据的大小约为150byte，这样当小文件比较多的时候，就会产生很多的元数据文件，一方面会大量占用NameNode

阿宁呀·2023-08-31 07:28

[ hadoop ] 集群性能调优全面总结

hadoop]集群性能调优全面总结_bone_ds的博客-CSDN博客_hadoop集群优化引子文章涵盖了hadoop框架的三个组成架构各自的优化方法,涉及存储,计算,故障排除等多个方面的具体调优内容,先后解决HDFS

javastart·2023-08-31 07:27

小文件处理专题

小文件处理专题一MapReduce1.1小数据带来的问题在HDFS上,每个文件在NameNode上占150Byte(在内存中占用),如果小文件过多的话就占用大量的Namenode内存,并且查找元数据的速度会很慢在处理

long_World·2023-08-31 07:27

10、HDFS小文件解决方案--Archive

Hadoop系列文章目录1、hadoop3.1.4简单介绍及部署、简单验证2、HDFS操作-shell客户端3、HDFS的使用（读写、上传、下载、遍历、查找文件、整个目录拷贝、只拷贝文件、列出文件夹下文件

一瓢一瓢的饮 alanchan·2023-08-31 07:56

DataX 异构数据贴源同步产品 - 技术分享篇（一）

DataX是阿里开源的一个异构数据源离线同步工具，致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。

Splicing·2023-08-31 06:07

HBase应用场景、原理与基本架构

1、HBase概述HBase是一个构建在HDFS上的分布式列存储系统;HBase是ApacheHadoop生态系统中的重要一员，主要用于海量结构化数据存储;从逻辑上讲，HBase将数据按照表、行和列进行存储