#HDFS 第44页

HIVE-17824,删除hdfs分区信息,清理metastore元数据

当手动删除HDFS分区数据时,但是并没有清理Hive中的分区元数据,删除操作无法自动更新hive分区表元数据。

jiedaodezhuti·2023-10-23 17:33

hive字段关键字问题处理

xxl_job部署shell调度任务时,发现在编写Hql时，对一些使用关键字命名的字段无法解析，按开发规范，字段命名不应该有关键字,但是数据来源是第三方,无法修改,需要通过flume对从kafka的数据到hdfs

jiedaodezhuti·2023-10-23 17:01

【Hadoop】创建Hadoop集群（3个节点）—— 安装部署一个3个节点构成的hbase集群

前言此实验搭建3个虚拟节点，一个mater，一个slave1，一个slave2集群简介HADOOP集群具体来说包含两个集群：HDFS集群和YARN集群，两者逻辑上分离，但在物理上常在一起。

db_lxm_2072·2023-10-23 14:22

spark 算子详解 java_spark RDD算子详解3

2．HDFSsav

拐个王子回古墓·2023-10-23 14:12

Spark RDD&算子基本操作

（2）由外部存储系统的数据集创建，包括本地的文件系统，还有所有Hadoop支持的数据集，比如HDFS、Cassandra、HBase等。

傍ྂ离ྂ·2023-10-23 14:40

大数据 Hadoop（三）API操作

第03章HadoopAPI操作HDFS操作Maven配置进行haddopHDFS相关开发首先需要引入下面两个开发依赖，当然需要根据开发环境中的Hadoop版本选择相关依赖的版本号。

傅二毛·2023-10-23 12:16

Spark任务中Partition分区与HDFS中的Block数据块

hdfs-block位于存储空间；spark-partition位于计算空间；hdfs-block的大小是固定的；spark-partition大小是不固定的；hdfs-block是有冗余的、不会轻易丢失

liuzx32·2023-10-23 07:32

Redis学习笔记——NoSQL

商品的图片：采用分布式文件系统，如淘宝的TFS、Hadoop的HDFS、Google的GFS等。商品的关键字（搜索引擎）：淘宝内用ISearch。商品的波段性的热点高频信息：内存数据库

从程序猿到程序员·2023-10-23 06:51

Hadoop HDFS分布式文件系统（介绍以及基础操作命令）

二、分布式的基础架构分析三、HDFS基础架构1.HDFS简介四、HDFS集群启停命令1.一键启停脚本2.单进程启停五、HDFS基本操作命令1.创建文件夹2.查看指定目录下内容3.上传文件到HDFS指定目录下

菜鸟一千零八十六号·2023-10-23 05:25

Hadoop之HDFS

目录1.HDFS概述1.1HDFS产出背景及定义1.2HDFS优缺点1.3HDFS组成架构1.4HDFS文件块大小2.HDFS的Shell操作2.1基本语法2.2命令大全2.3常用命令实操2.3.1准备工作

基础不牢，地动山摇...·2023-10-23 05:14

hadoop01 - 大数据启蒙、初识HDFS

分治思想：需求：1.我有一万个元素（比如数字或者单词）需要存储？2.如果查找某一个元素，最简单的遍历方式复杂度是多少3.如果我期望复杂度是O(4)，怎么处理1.使用链表的方式储存数据使用链表的方式储存数据2.使用遍历的方式寻找X，时间复杂度O（n）3.使用数据分治的思想，把数据放到若干链表中（用分为2500个小链表举例，简单举例，不考虑数据倾斜等其他问题）4.分治的思想很多，比如redis集群，e

Doit_0e7c·2023-10-23 05:59

hive初识

是个啥1）hive主要是对mapreduce任务进行简化操作，方便工作人员快速进行数据分析；2）hive是构建在hadoop之上的数据仓库，能够将结构化的数据文件映射成一张表，以HQL作为查询接口，使用HDFS

紫苓·2023-10-23 02:31

一步步练习Hadoop实操之HDFS和YARN，内附详细测试步骤与图解！

启动Hadoop启动HDFS：start-dfs.sh会提示你是否继续连接等等，都yes即可！

ZiTalk梓言梓语·2023-10-23 01:04

高效存储大规模数据

Hadoop分布式文件系统（HDFS）是一个常用的分布式文件系统，它基于大规模集群，并通过数据切割和复制来实现高容错性和可靠性。以下是一个使用HDFS存储数据的Python代码示

心之所向，或千或百·2023-10-23 01:47

Hive—学习笔记（一）

的脚本化运行使用方式5、hive的基本语法--建表语法6、hive的基本语法--内部表和外部表.7、hive的基本语法--create建表likeas8、hive的基本语法--数据导入--从本地--从hdfs9

weixin_30526593·2023-10-22 23:54

分布式文件系统介绍与minio介绍与使用（附minio java client 使用）

前后端分离上传视频/上传大文件——前后端分离断点续传&minio分片上传实现文章目录1.分布式文件系统基本概念1.1文件系统1.2分布式文件系统1.3分布式文件系统的产品1.3.1NFS1.3.2GFS1.3.3HDFS1.3.4

是谢添啊·2023-10-22 21:24

impala+kudu整合(1)

第一次接触impala和kudu这两个组件，刚接触的时候感觉好神秘的两个组件，心里一直有个疑问为什么要两个结合着用，不太理解，就像刚接触hive+hdfs一样，用了之后才发现kudu确实是一个非常好用的一个实时处理数据的一个数据库

焱行软件科技计算机毕设·2023-10-22 20:04

Hadoop3教程（三十）：（生产调优篇）纠删码

文章目录（155）纠删码原理纠删码原理纠删码相关命令纠删码策略解释（156）纠删码案例实操参考文献（155）纠删码原理纠删码原理默认情况下，一个文件在HDFS里会保留3个副本，以此提高数据的可靠性（容灾

经年藏殊·2023-10-22 10:31

Hadoop面试题（HDFS篇）

1.HDFS写流程?以及参与的组件？

Young_IT·2023-10-22 10:57

DataX原理及安装

DataX是阿里巴巴集团内被广泛使用的离线数据同步工具/平台，实现包括MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)

Rudolf_liu·2023-10-22 09:11

Kafka核心API——Connect API

Confluent平台附带了几个内置connector，可以使用这些connector进行关系数据库或HDFS等常用系统到Kafka的数据传输，也是用来构建ETL的一种方案。

端碗吹水·2023-10-22 07:31

Hadoop3教程（三十三）：（生产调优篇）慢磁盘监控与小文件归档

比如说，如果正常在HDFS上创建一个目录，只需要1s左右。但是你偶尔发现创建目录时超过了1分钟或者更久，但次数

经年藏殊·2023-10-22 05:29

hadoop之hdfs详解之一

HDFS是单台或集群伪分布式部署NameNode简称NNSecondaryNameNode简称SNNDataNode简称DNNN、DN、SNN部署在同一台机器上hdfs启动的命令脚本:sbin/start-dfs.sh

仙人掌仙人·2023-10-22 05:48

HDFS命令行操作

二.HDFS命令行操作：1.基本语法bin/hadoopfs具体命令2.参数大全bin/hadoopfs[-appendToFile...][-cat[-ignoreCrc]...]

Movle·2023-10-22 02:41

Hadoop集群主节点迁移

元数据库mysql•zookeeper•freeipaservernamenode迁移先对现有的主从namenode进行一次主备切换a.先重启从节点，再重启主节点，使其完成一次元数据同步；在节点上启用hdfsran

卢说·2023-10-22 01:08

记一次Hadoop集群数据上传缓慢案例分析

项目场景手上管理的其中一个Hadoop集群，承接着大量的数据流量，一直以来运行平稳，最近突然发现集群有时会出现MR作业运行缓慢，put文件至HDFS偶发速度慢的问题，像大数据集群这种问题，有点疑难杂症的味道

卢说·2023-10-22 01:37

Hadoop 系列（七）—— HDFS Java API

一、简介想要使用HDFSAPI，需要导入依赖hadoop-client。

heibaiying·2023-10-22 01:01

初识Hive

其本质是将SQL转换为MapReduce的任务进行运算，底层由HDFS来提供数据的存储，Hive可以理解为一个将SQL转换为MapReduce任务的工具，甚至更进一步可以说Hive就是一个MapReduce

康俊1024·2023-10-22 01:27

HBase：大数据中的NoSQL

HBase概述Hbase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，用于存储海量的结构化或者半结构化，非结构化的数据，底层上的数据是以二进制流的形式存储在HDFS上的数据块中的HBase应用场景写密集型应用

CoLiuRs·2023-10-21 19:54

hadoop完全分布式搭建与集群测试

Hadoop实现了一个分布式文件系统（DistributedFileSystem），其中一个组件是HDFS（HadoopDistributed

青春的样子1·2023-10-21 19:39

修炼k8s+flink+hdfs+dlink（四：k8s（二）架构）

一：节点。1.1为什么使用节点。kubertnetes通过将容器存放在节点（node）上的Pod来执行你的工作负载。所以我们需要提前注册节点。1.2定义。一组工作机器，称为节点，会运行容器化应用程序。每个集群至少有一个工作节点。1.3怎么使用node节点1.3.1增加节点。节点上的kubelet向控制面板自注册。–register-node为true可选参数--kubeconfig-用于向API服

宇智波云·2023-10-21 18:00

iceberg-flink 十一：在dlink代码中建表增加catalog地址。

表的时候，增加了地址，就会成功映射到表CREATECATALOGdk_empowerWITH('type'='iceberg','catalog-type'='hadoop','warehouse'='hdfs

宇智波云·2023-10-21 18:29

k8s No Route to Host from xxx to xxx failed on socket timeout exception

NoRoutetoHostfromxxxtoxxxfailedonsockettimeoutexception，但两个pod相互ping的通，并且通过脚本/opt/flink/bin/flinkrun-myarn-cluster-ynmV2xRTDataPersistenceToHDFS-shdfs

胖胖胖胖胖虎·2023-10-21 18:26

修炼k8s+flink+hdfs+dlink（六：学习k8s）

一：增（创建）。直接进行创建。kubectlrunnginx--image=nginx使用yaml清单方式进行创建。二：删除。kubectldeletepods/nginx三：修改。kubectlexec-itmy-nginx–/bin/bash四：查看。查看所有pod。`kubectlgetpods`.kubectlgetpod-owide查看某个pod的创建信息。kubectldescribe

宇智波云·2023-10-21 18:54

大数据总结

知识点文章目录知识点0.介绍1.HDFS1.1读数据1.2写数据1.3块大小1.4Yarn调度1.4.1Job提交流程1.4.2调度器2.MapReduce、Hive2.1运行过程2.1切片大小2.2CombineTextInputFormat2.3

美美的大猪蹄子·2023-10-21 12:38

hadoop复习题

1.hadoop常用端口号hadoop2.xhadoop3.x访问hdfs端口500709870访问MR执行情况端口80888088历史服务器1988819888客户访问集群端口900080202.HDFS2.1hdfs

梧桐林.·2023-10-21 12:37

SparkStreaming入门

SparkStreaming简介支持的输入源：Kafka,Flume,HDFS等数据输入后，可以用RDD处理数据结果可以保存在很多地方，比如HDFS，数据库等SparkStre

十七✧ᐦ̤·2023-10-21 11:21

Hive用户中文使用手册系列（三）

RemoteHiveServer2模式建议用于production使用，因为它更安全，不需要为用户授予直接HDFS/metastore访问权限。

日复一日伐树的熊哥·2023-10-21 08:32

搭建HBase分布式集群

PrerequisiteThereare3VMs-hadoop3/hadoop4/hadoop5forfully-distributedHBasecluster,thesetupplanlookslike:hadoop3hadoop4hadoop5HadoophdfsNameNode

sun_xo·2023-10-21 07:23

HDFS dfs 操作命令

查看文件常用命令命令格式1.hdfsdfs-lspath查看文件列表2.hdfsdfs-lsrpath递归查看文件列表3.hdfsdfs-dupath查看path下的磁盘情况，单位字节使用示例1.hdfsdfs-ls

Sven_qi·2023-10-21 07:15

HDFS之联邦

文章目录jvm瓶颈常规HDFS联邦MultipleNamenodes/Namespaces：独立的blockpool共用存储联邦的优势FederationConfigurationConfigurationBalancerDecommissoningClusterWebconsolejvm

zincooo·2023-10-21 07:44

大数据平台开发经验

数据存储和处理：精通大数据存储系统，如HDFS，以及数据处理框架，如SparkSQL、Hive等。实时数据处理：了解实时数据处理

三思而后行，慎承诺·2023-10-21 07:04

00-开源离线同步工具DataX3.0重磅详解！

1概览DataX是一个异构数据源离线同步工具，致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。

JavaEdge.·2023-10-21 03:46

Hadoop源码分析-HDFS写数据之申请block

4.申请block下面我们应该再去从dataQueue中读取packet了。而从dataQueue读取packet是Datastream线程,所以我们直接看它的run方法Datastream.run()，代码比较多，分开看看。1.1这里看while的判断条件，如果dataQueue的size=0，那么就等待image1.21:错误判断，pass;2:空判断pass;3:在这里获取了第一个packe

晨磊的微博·2023-10-21 03:06

Java查询HDFS文件系统

1、文件元数据FileStatusimportorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.FileStatus;importorg.apache.hadoop.fs.FileSystem;importorg.apache.hadoop.fs.FsStatus;importorg.apache.hadoop.fs.P

主君_05c4·2023-10-21 02:08

4-MapReduce+Spark(分布式计算框架)

，在介绍大数据编年史时有提到Google最早在04年发表论文MapReduce，之后DougCutting基于这篇论文通过Java做了开源实现，Mapredce如今是作为Hadoop的核心组件之一，而HDFS

小帅明3号·2023-10-21 01:00

Hadoop 概览

两大神兽HDFSHDFS是Hadoop提供的一个分布式存储的文件系统，基本思想就是分而存之，让多台计算机分别存储一个大文件的一部分，这样就解决了大文件无法在单台计算机上存储和无法在单台计算机上快速计算的问题

越过山丘xyz·2023-10-21 00:18

HIVE Row Formats和SerDe

HiveusesSerDe(andFileFormat)toreadandwritetablerows.HDFSfiles-->InputFileFormat--

尼小摩·2023-10-21 00:55

hadoop基础结构

1.hadoop几个点HADOOP免费CDH收费HDP收费后2者合并成为CDP2.结构图HDFS就是分布式存储，包含NameNode（nn）、DataNode(dn)、SecondaryNameNode

阿里纳斯_0097·2023-10-20 20:09

sparkSql外部数据源

1、读取json2、读取csv和tsv3、ObjectFile4、读取hdfs中的数据5、读取Parquet文件6、读取Hive和mysql读取json文件defmain(args:Array[String

Aluha_f289·2023-10-20 19:25

推荐频道

#HDFS