#HDFS 第42页

从主机上传文件到hdfs，从机看不到上传的文件

从主机上传文件到hdfs，从机看不到上传的文件发现是从机未写/etc/profile.d/hadoop.sh文件补全hadoop.sh文件即可

红叶゜·2023-10-30 07:56

Impala概述

1、Impala是什什么Impala是Cloudera提供的一款开源的针对HDFS和HBASE中的PB级别数据进行行交互式实时查询(Impala速度快)，Impala是参照谷歌的新三篇论文当中的Dremel

悠然予夏·2023-10-30 07:48

Impala介绍优缺点

Impala的基本概念1.1什么是ImpalaCloudera公司推出，提供对HDFS、Hbase数据的高性能、低延迟的交互式SQL查询功能。

墨卿风竹·2023-10-30 07:17

Impala基础知识

提供SQL语义，能查询存储在Hadoop的HDFS和HBase上的PB级大数据，在性能上比Hive高出3~30倍。基于Hive的大数据实时分析查询引擎，其运行需要依赖于Hive元数据。

johnny233·2023-10-30 07:46

大数据笔记-关于Cassandra的删除问题

Cassandra是Facebook开源的一个NoSQL数据库，它除了具备一般的NoSQL分布式数据库特点以外，最大的一个特点是去中心化架构设计，这和HadoopHDFS/HBase等不一样，比如HDFS

鬓戈·2023-10-30 06:48

Elasticsearch如何备份到HDFS

es备份到hdfs简介elasticsearch副本提供了高可靠性；它可以保证节点丢失而不会中断服务，但是副本不能做到容灾备份，所以需要把elasticsearch的数据被分到hdfs中。

勇者1108·2023-10-30 04:16

Hadoop 3.x 和2.x主要区别

最低Java版本从7升级到8引入纠删码(ErasureCoding)主要解决数据量大到一定程度磁盘空间存储能力不足的问题.HDFS中的默认3副本方案在存储空间中具有200%的额外开销。

勇者1108·2023-10-30 04:45

Ambari删除节点

1.在需要删除的节点上设置DataNode为Decommissioned查看HDFSWEB页面，等待完成之前的数据之后的数据2.停止节点上所有组件3.删除节点在删除节点的命令行执行ambari-agentstop4

字节侠·2023-10-29 22:10

Hive创建分区表并插入数据

分区表创建分区表的创建本质是在HDFS创建了一个分区字段为名称的文件夹，插入数据时根据分区字段取值插入到文件中。静态分区表定义：静态分区在插入数据时要指定分区名，支持load、inse

Forge_ahead·2023-10-29 19:46

hdfs读写过程是怎样的？

1.文件读取过程1.客户端通过调用FileSyste对象的open()方法来打开希望读取的文件，对于Hdfs来说，这个对象是DistributedFileSystem的一个实例，2.通过使用远程过程调用

乌拉乌拉儿·2023-10-29 14:34

Hive如何处理大量小文件

生成的小文件也越多小文件的危害从HIVE角度来看的话呢，小文件越多，map的个数也会越多，每一个map都会开启一个JVM虚拟机，每个虚拟机都要创建任务，执行任务，这些流程都会造成大量的资源浪费，严重影响性能在HDFS

liuzx32·2023-10-29 12:20

Hbase面试题（面经）整理

Hbase一个分布式的基于列式存储的数据库，基于Hadoop的hdfs存储，zookeeper进行管理。

_Kafka_·2023-10-29 12:03

Hive-day01-简单介绍

2：本质：将HQL转化为MapReduce程序hive处理的数据存储在HDFS，hive分析数据底层的实现是MapReduce，执行程序运行在Yarn上。

总会有天明·2023-10-29 08:40

前端文件上传与下载（含 base64流文件）

@param{*}param*/exportfunctionuploadFile(param,fileInfo){returnrequest({method:'post',url:`document/hdfs

oNexiaoyao·2023-10-29 07:19

【ETL工具】Datax-ETL-SqlServerToHDFS

目录个人主页——个人主页✨一、DataX概览1.1DataX简介1.2DataX框架1.3功能限制1.4SupportDataChannels二、配置样例2.1环境信息2.2SQLServer数据同步到HDFS2.2

开着拖拉机回家·2023-10-29 00:58

大数据Hadoop、Hive、Kafka、Hbase、Spark等框架面经

大数据组件学习路线：阶段1：学习绿色箭头的知识点；阶段2：学习红色箭头的知识点；阶段3：学习蓝色箭头的知识点；1Hadoop1.1Hadoop1.x与Hadoop2.x的区别1.2HDFS架构（1）NameNode

For Coding·2023-10-28 21:50

java如何快速入门Hadoop大数据技术？

全书共16章，第1章讲解了VMware中CentOS7操作系统的安装；第2章讲解了大数据开发之前对操作系统集群环境的配置；第3~16章讲解了Hadoop生态系统各框架HDFS、MapReduce、YARN

xyzkenan·2023-10-28 21:01

新手必备：大数据框架Hadoop主要模块解析

HadoopDistributedFileSystem(HDFS™):分布式文

weixin_34185364·2023-10-28 21:00

sqoop连接mysql数据库导入导出数据Communications link failure错误解决

在将数据从hive存入mysql或者从hdfs存入mysql时出现了如下的错误：ERRORmanager.CatalogQueryManager:Failedtolistdatabasescom.mysql.jdbc.exceptions.jdbc4

马里奥w·2023-10-28 20:02

hadoop常见的面试题

一、hdfs上传和下载文件流程hdfs上传客户端向namenode发出请求建立通信获得存储文件块的datanode节点,然后客户端将文件按照块的大小进行分块(hadoop2.7.3开始由64MB变成128MB

有一束阳光叫温暖·2023-10-28 19:10

Hive分区表和分桶表

本专栏案例数据集链接：https://download.csdn.net/download/shangjg03/884780381.分区表1.1概念Hive中的表对应为HDFS上的指定目录，在查询数据时候

shangjg3·2023-10-28 18:07

HDFS工作流程和机制

HDFS写数据流程（上传文件）核心概念--Pipeline管道HDFS在上传文件写数据过程中采用的一种传输方式。

liyantower·2023-10-28 16:58

Spark(Streaming)写入数据到文件-关键为根据数据内容输出到不同自定义名称文件(saveAsHadoopFile以及自定义MultipleOutputFormat)

之前的Spark实时流处理的数据处理程序，要求把数据从kafka接收之后，分2路分别写入kafka和hdfs，写入kafka的部分之前已经有过总结，现在回过头来把之前的写入HDFS的地方重新总结一下，整个过程从头到尾有一个写入方式的优化

超级侠哥·2023-10-28 15:17

CDH-hdfs配置HA后，hive查询报错

在CDH平台上配置HA后，hdfs服务正常运行，hive服务可以正常连接，但是进行查询时报错。

jay1122·2023-10-28 13:25

hadoop详解

HDFS:1.HDFS文件系统:HDFS是大数据开源框架hadoop的组件之一，全称（HadoopDistributedFileSystem），它是一个分布式文件系统，由多台服务器联合起来实现文件存储功能

不吃饭的猪·2023-10-28 07:46

hadoop--HDFS基础（适合初学者）

文章目录1HDFS分布式文件系统基础1.1文件系统1.2分布式文件系统1.3HDFS简介1.4HDFS起源发展1.5HDFS设计目标1.6HDFS应用场景1.7HDFS重要特性2HDFSshell操作2.1HDFSshell

火玄·2023-10-28 04:07

hadoop 3.x 案例3:datanode 异常

一.问题描述hdfsweb页面显示有的文件是损坏的，需要使用fsck来检查image.png二.解决方案通过fsck检查根目录，看是否有损坏的文件hdfsfsck/image.png将检查到的损坏的文件进行删除

只是甲·2023-10-28 01:17

flink 在idea中编写的wordcount 重新启动后没有从检查点恢复之前的数据，为什么？

启用了检查点和状态后端，看hdfs目录确实有内容，然而重新启动后并没有从检查点恢复数据，这是为什么？？

Jaming R·2023-10-27 22:18

Presto-交互式计算引擎

为了实现高性能数据处理，交互式极端引擎采用mmp架构，并将充分使用内存加速presto的出现时为了应对hadoop的一些缺点：1、io密集，因为mepreduce作业之间的交互是用hdfs作为中介的2、

一个喜欢烧砖的人·2023-10-27 15:18

发布人：夏小权发布时间：2018-12-17

是ApacheHadoop的数据库，是建立在HDFS之上，被设计用来提供高可靠性、高性能、列存储、可伸缩、多版本的NoSQL的分布式数据存储系统，实现对大型数据的实时、随机的读写访问。

黑权·2023-10-27 14:12

Flink savepoint | checkpoint 恢复

/flinksavepoint0d69ad4b526c7d7e491357bc842b1e75hdfs://hdfs-namenode-service:9000/flink-savepoints...Triggeringsavepointforjob0d69ad4b526c7

胖胖胖胖胖虎·2023-10-27 11:55

Hive的内部表/外部表/分区表/分桶表

内部表：普通表，相当于mysql的物理表，对应hdfs数据，删除时同时删除元数据和hdfs表数据外部表：关键字external，指向已存在的hdfs数据，删除时只删除元数据（表结构），指向的hdfs表数据依然存在分区表

DancingBUG·2023-10-27 09:20

Linux安装Mycat1.6.7.6实现Mysql数据库读写分离

简介一个彻底开源的，面向企业应用开发的大数据库集群支持事务、ACID、可以替代MySQL的加强版数据库一个可以视为MySQL集群的企业级数据库，用来替代昂贵的Oracle集群一个融合内存缓存技术、NoSQL技术、HDFS

GeekXuShuo·2023-10-27 09:36

数据仓库Hive

HIveDDL详解HiveDML详解MapReduce编程的不便性传统RDBMS人员的需求由Facebook开源，用于解决海量结构化日志的数据统计问题构建在Hadoop之上的数据仓库（Hive的数据存放在HDFS

V_6619·2023-10-27 07:43

Hadoop-Hdfs-添加节点

tags:[Hadoop,Hdfs,大数据]1.添加白名单创建白名单文件hadoop3.x/etc/hadoop这个目录下创建白名单文件vimdfs.hosts向白名单文件中添加允许访问NameNode

_Unique_楠楠·2023-10-27 06:09

hive笔记

Hive介绍：1.sql2.udf官网：hive.apache.org由Facebook提出的开源=》去解决海量结构化数据的数据统计问题构建在hadoop之上的数据仓库hdfs：hive的数据是存储在hdfs

qq_47721411·2023-10-27 04:41

Hive安装笔记

一、安装元数据库MySQLHive的元数据和数据是分开存放的，数据存放在HDFS上，而元数据默认是存放在Hive自带的Derby数据库，但由于Derby只支持同时一个用户访问Hive，所以不推荐使用。

碣石观海·2023-10-27 04:11

HIVE1.2.1配置

文章目录HIVE1.2.1配置hive配置在hdfs建立hive仓库目录启动单例hive测试配置mysql5.6编辑hive-site.xml使用MySQL做元数据管理HIVE1.2.1配置hive配置

学习做笔记·2023-10-27 04:39

【现场问题】CDH文件权限，Permission denied: user=root, access=WRITE, inode=“/user“:hdfs:supergroup:drwxr-xr

Hive执行语句的时候提示/user权限不够hive>>selectcount(*)fromfact_sale;QueryID=root_20201119152619_16f496b5-2482-4efb-a26c-e18117b2f10cTotaljobs=1LaunchingJob1outof1Numberofreducetasksdeterminedatcompiletime:1Inorde

吃素的哈士奇·2023-10-26 23:09

云计算中的大数据处理：尝试HDFS和MapReduce的应用

云计算中的大数据处理：尝试HDFS和MapReduce的应用文章目录云计算中的大数据处理：尝试HDFS和MapReduce的应用一、前言二、第一题1、命令方式2、javaAPI方式三、第二题1、创建CSV

-北天-·2023-10-26 19:48

【智能大数据分析】实验1 MapReduce实验：单词计数

1MapReduce实验：单词计数文章目录【智能大数据分析】实验1MapReduce实验：单词计数一、实验目的二、实验要求三、实验原理1MapReduce编程2JavaAPI解析四、实验步骤1启动Hadoop2验证HDFS

-北天-·2023-10-26 19:05

尚硅谷Flume（仅有基础）

Flume最主要的作用就是，实时读取服务器本地磁盘的数据，将数据写入到HDFS。1.2架构1.2.1AgentAgent是一个JVM进程，它以事件的形式将数据从源头送至目的。

Int mian[]·2023-10-26 19:43

Windows下利用Eclipse连接HDFS

将hadoop-eclipse插件复制到Eclipse下的plugins目录中image.png解压Windows环境下的Hadoop压缩包image.png将解压后的hadoop-3.1.1中bin目录下的hadoop.dll拷贝到C:\Windows\System32image.png配置环境变量新建：HADOOP_HOME=D:\Document\Hadoop\hadoop-3.1.1新建：

上杉丶零·2023-10-26 17:22

Hadoop所有命令详解

对HDFS文件系统，scheme是hdfs，对本地文件系统，scheme是file。其中scheme和authority参数都是可选的，如果未加指定，就会使用配置中指定的默认scheme。

FantJ·2023-10-26 16:00

大数据架构：flume-ng+Kafka+Storm+HDFS 实时系统组合

转载至:http://www.aboutyun.com/thread-6855-1-1.html个人观点：大数据我们都知道hadoop，但并不都是hadoop.我们该如何构建大数据库项目。对于离线处理，hadoop还是比较适合的，但是对于实时性比较强的，数据量比较大的，我们可以采用Storm，那么Storm和什么技术搭配，才能够做一个适合自己的项目。下面给大家可以参考。可以带着下面问题来阅读本文章

向往的生活Life·2023-10-26 15:06

来看看年薪80W的大数据大牛是如何理解 hbase 的架构及设计原理

它是Apache软件基金会Hadoop项目的一部分，运行于HDFS文件系统之上，为Hadoop提供类似于BigTable规模的服务。

Java程序员YY·2023-10-26 13:13

Flink写入HDFS（文本，parquet，parquet+snappy）

flink版本：1.10.0code://构建env环境valenv=StreamExecutionEnvironment.getExecutionEnvironmentenv.enableCheckpointing(1000*60)//1000*60s一个checkpointenv.getCheckpointConfig.setCheckpointingMode(CheckpointingMod

乖乖猪001·2023-10-26 12:43

【Flink 实战系列】Flink SQL 使用 filesystem connector 同步 Kafka 数据到 HDFS（parquet 格式 + snappy 压缩）

FlinkSQL同步Kafka数据到HDFS（parquet+snappy）在上一篇文章中，我们用datastreamAPI实现了从Kafka读取数据写到HDFS并且用snappy压缩，今天这篇文章我们来实现一个

JasonLee实时计算·2023-10-26 12:12

修炼k8s+flink+hdfs+dlink（六：学习namespace，service）

一：什么是namespace？你可以认为namespaces是你kubernetes集群中的虚拟化集群。在一个Kubernetes集群中可以拥有多个命名空间，它们在逻辑上彼此隔离。他们可以为您和您的团队提供组织，安全甚至性能方面的帮助！二：怎么创建绑定namespace？1.创建。cat>>product_namespaces.yaml<

宇智波云·2023-10-26 12:36

Hadoop HDFS 数据流

HDFS写数据流程HDFS写数据流程.png客户端通过DistributedFileSystem模块向NameNode请求上传文件，NameNode检查目标文件是否已存在，父目录是否存在。

yljphp·2023-10-26 09:51

推荐频道

#HDFS