#HDFS 第52页

hive的安装和使用

hive介绍hive是一款Apache旗下的数据仓库构建软件，能够读取hdfs的数据使用SQL对数据进行处理，大大降低了面向关系型数据库开发人员的学习成本。

Captain_Gu·2023-09-29 08:36

HBase架构详解及读写流程

是建立的hdfs之上，提供高可靠性、高性能、列存储、可伸缩、实时读写的数据库系统。

夜希辰·2023-09-29 07:31

介绍大数据处理架构Hadoop以及其生态系统

Hadoop简介Hadoop是一个开源的、可运行于大规模集群上的分布式计算平台，它实现了MapReduce计算模型和分布式文件系统HDFS等功能，在业内得到了广泛的应用，同时也成为大数据的代名词，借助于

转身丶即天涯·2023-09-29 04:40

2023年大数据面试题--转载

@[TOC]2023年大数据面试题–转载(HDFS)和MapReduceHadoop是一个开源的分布式计算框架，由两部分组成：HadoopDistributedFileSystem(HDFS)和MapReduce

李先生真号·2023-09-29 01:22

小米云原生文件存储平台化实践：支撑 AI 训练、大模型、容器平台多项业务

在训练平台的存储方案中，小米曾尝试了多种不同的存储方式，包括Ceph+NFS、HDFS和对象存储挂载等。然而，这些不同的存储方式导致了数据冗余和维护管理成本的增加，同时也带来了扩展性和性能方面的问题。

Juicedata·2023-09-28 21:31

HDFS 中 Java API 的使用

HDFS中JavaAPI的使用文件在Hadoop中表示一个Path对象，通常封装一个URI，如HDFS上有个test文件，URI表示成hdfs://master:9000/test。

跟着大数据和AI去旅行·2023-09-28 15:20

Flink基础系列8-Flink on yarn运行wordcount程序

hello.txt文件hellowordhellohdfshellomapreducehelloyarnhellohivehellosparkhelloflink一.Maven配置Flink依赖的配置org

只是甲·2023-09-28 11:10

Hive实战-表创建

因此，在Hive中使用ORC作为表的文件存储格式，不仅节省HDFS存储资源，查询任务的输入数据量减少，使用的MapT

HanhahnaH·2023-09-28 09:14

Pyspark读写csv,txt,json,xlsx,xml,avro等文件

---+|value|+-------------+|a,b,c,d||123,345,789,5||34,45,90,9878|+-------------+2.Spark读写csv文件读：#文件在hdfs

大数据翻身·2023-09-28 07:29

HDFS

HDFS(HadoopDistributedFileSystem)概述特点：一次写入，多次读出，且不支持文件的修改优点高容错性：不同节点保存多个副本某个副本丢失以后，它可以自动恢复适合处理大数据可以构建在廉价机器上

吃块西瓜写代码·2023-09-28 04:47

【HDFS】自动踢除pipeline中的慢节点

写在前面：之前发过一篇文章，【HDFS】HDFS-16348：将慢节点标记为badnode进而从pipeline中踢除并进行pipeline恢复。

小北觅·2023-09-28 03:09

大数据之Hadoop-HDFS

第1章HDFS概述1.1HDFS产出背景及定义1.1.1HDFS产生背景随着数据量越来越大，在一个操作系统存不下所有的数据，那么就分配到更多的操作系统管理的磁盘中，但是不方便管理和维护，迫切需要一种系统来管理多台机器上的文件

jackyan163·2023-09-28 02:50

Hadoop集群安装部署

目录Hadoop集群安装部署1、集群环境准备2、建立免密通道3、集群时间同步4、jdk1.8安装5、hadoop安装部署6、Hadoop配置文件配置7、格式化操作8、启动hadoop集群启动HDFS集群

Wangsh@·2023-09-28 02:50

「大数据-2.1」HDFS集群启停命令

目录一、HDFS集群一键启停脚本1.HDFS集群的一键启动脚本2.HDFS集群的一键关闭脚本二、单进程启停1.hadoop-daemon.sh脚本2.hdfs脚本三、总结1.一键启停脚本2.独立进程启停一

烛火萤辉·2023-09-28 02:19

「大数据-2.2」使用命令操作HDFS文件系统

目录一、HDFS文件系统基本信息1.HDFS的路径表达形式2.HDFS和Linux的根目录的区分二、使用命令操作HDFS文件系统0.Hadoop的两套命令体系1.创建文件夹2.查看指定目录下内容3.上传文件到

烛火萤辉·2023-09-28 02:19

hadoop大数据 - 2 HDFS高可用集群、RM高可用集群

1.高可用简介在任何时候，集群中只有一个NN处于Active状态是很重要的，否则在两个ActiveNN的状态下，NameSpace会出现分歧，这将会导致数据丢失以及其他不正确结果，为了保证这种情况不会发生,在任何时间,JNs只允许一个NN当writer。在故障恢复期间,将要变成Active状态的NN将取得writer的角色,并阻止另外一个NN继续处于Active状态。在典型的HA集群中,通常有两台

Ma_JunSSR·2023-09-28 02:19

-大数据入门-1-Hadoop-hdfs伪分布式部署

Hadoop大象广义:以apachehadoop软件为主的生态圈(hivesqoopsparkflink…)狭义:apachehadoop软件官网APAche:www.apache.orgCDH:http://archive.cloudera.com/cdh5/cdh/5/Hadoop1.x企业不用2.x主流3.x很少敢用坑只能自己踩但是CDH(www.cloudera.com)版本兼容统一的部署

吾..二..二·2023-09-28 02:19

一、大数据技术基础——分布式文件系统HDFS

目录1.引入1.1.传统存储系统面临的难题1.2.解决之道2.Hadoop集群架构3.HDFS1.03.1.概念3.2.Block块3.3.NameNode维护文件：fsimage与editlog3.4

百颂伊·2023-09-28 02:48

「大数据-2.0」安装Hadoop和部署HDFS集群

安装包二、安装Hadoop0.安装Hadoop前的必要准备1.以root用户登录主节点虚拟机2.上传Hadoop安装包到主节点3.解压缩安装包到/export/server/目录中4.构建软链接三、部署HDFS

烛火萤辉·2023-09-28 02:18

一百一十一、Hive——从HDFS到Hive的数据导入（静态分区、动态分区）

一、分区的定义分区表实际上就是对应一个HDFS文件系统上的独立的文件夹，Hive中的分区就是分目录，把一个大的数据集根据业务需要分割成小的数据集。

天地风雷水火山泽·2023-09-27 23:40

一百八十三、大数据离线数仓完整流程——步骤二、在Hive的ODS层建外部表并加载HDFS中的数据

二、数仓实施步骤（二）步骤二、在Hive的ODS层建外部表加载HDFS中的数据1、Hive的ODS层建库建表语句--如果不存在则创建hurys_dc_ods数据库createdatabaseifnotexistshurys_dc_ods

天地风雷水火山泽·2023-09-27 23:07

Hive 表 DML 操作

第1关：将文件中的数据导入（Load）到Hive表中导入命令语法:Load操作执行copy/move命令把数据文件copy/move到Hive表位于HDFS上的目录位置，并不会对数据内容执行格式检查或格式转换操作

峰芒毕露438·2023-09-27 22:21

Hive DML数据操作

database_name.]table_name[partition(partcol1=val1,…)];（1）loaddata:表示加载数据（2）local:表示从本地加载数据到hive表；否则从HDFS

SuperQiu~·2023-09-27 22:20

Hive之DML操作

path'[overwrite]intotablestudent[partition(partcol1=val1,…)];loaddata:表示加载数据local:表示从本地加载数据到hive表；否则从HDFS

何如千泷·2023-09-27 22:19

Hive学习之 DML（数据操作）心得

Hive中DML（数据操作）：1.加载本地文件到hive：lodadatalocalinpath'/'intotable库名.表名;2.上传文件到HDFS：dfs-put/文件路径/HDFS路径;3.加载

顺其自然的济帅哈·2023-09-27 22:17

HiveDML

一、数据导入1.向表中装载数据（Load）local:表示从本地加载数据到hive表；或从HDFS加载数据到hive表loaddata[local]inpath'/opt/module/datas/student.txt

asd623444055·2023-09-27 22:16

Hive DML 数据操作

local：表示从本地加载数据到Hive表；否则从HDFS中加载数据到Hive表。inpath：表示加载数据的路径。overwrite：

努力生活的黄先生·2023-09-27 22:46

Hive【Hive（二）DML】

overwrite]intotablestudent[partition(partcol1=val1,…)];（1）loaddata:表示加载数据（2）local:表示从本地加载数据到hive表；否则从HDFS

让线程再跑一会·2023-09-27 22:44

修炼k8s+flink+hdfs+dlink（一：安装hdfs）

一：安装jdk，并配置环境变量。在对应的所有的节点上进行安装。mkdir/opt/app/javacd/opt/app/javawget--no-cookies--no-check-certificate--header"Cookie:gpw_e24=http%3A%2F%2Fwww.oracle.com%2F;oraclelicense=accept-securebackup-cookie""h

宇智波云·2023-09-27 20:50

修炼k8s+flink+hdfs+dlink（一：安装flink）

一：standalone的ha环境部署。创建目录，上传安装包。mkdir/opt/app/flink上传安装包到本目录。tar-zxvfflink-1.13.6-bin-scala_2.12.tgz配置参数。在flink-conf.yaml中添加zookeeper配置jobmanager.rpc.address:node01high-availability:zookeeperhigh-avail

宇智波云·2023-09-27 20:19

Hive数据仓库你了解了吗

前面我们已经介绍了HDFS和MapReduce了，它俩结合起来能够进行各种运算，可是MapReduce的学习成本太高了，如果有一种工具可以直接使用sql将hdfs中的数据查出来，并自动编写mapreduce

喜讯XiCent·2023-09-27 20:44

Hive数仓项目之数仓分层、数仓工具的使用

往期内容：Hive数仓项目架构说明、环境搭建及数据仓库基础知识今日内容:1)教育项目数仓分层(知道,明确每一层的作用)2)数仓工具的相关的使用(操作)2.1HUE相关的使用(操作HDFSHIVE,OOZIE

黑马程序员官方·2023-09-27 20:14

Hadoop NameNode 高可用 (High Availability) 实现解析

www.ibm.com/developerworks/cn/opensource/os-cn-hadoop-name-node/NameNode高可用整体架构概述在Hadoop1.0时代，Hadoop的两大核心组件HDFSNameNode

AlexYao·2023-09-27 16:58

HDFS 基础

HDFSHDFShadoop分布式文件系统解决目标超大文件流式数据访问商用软件(兼容廉价的硬件设备／强大的跨平台兼容性)HDFS局限性不适合低延迟数据访问（实时性不高）无法高效存储大量小文件（索引结构庞大后搜索效率降低

JM68·2023-09-27 13:44

大数据技术Hadoop笔试题

单项选择题1.下面哪个程序负责HDFS数据存储。

weixin_34235105·2023-09-27 07:51

大数据技术Hadoop面试题

单项选择题1.下面哪个程序负责HDFS数据存储。a)NameNodeb)Jobtrackerc)Datanoded)secondaryNameNodee)taskt

IT时代周刊·2023-09-27 07:19

Hadoop期末复习

hadoop期末复习整理第一章大数据概述1、两大核心技术：HDFS和MapReduce。

在屋顶藏着李的哥·2023-09-27 07:15

云计算技术的选择题Hadoop的知识点

A.为海量数据提供存储的HDFS和对数据进行计算的MapReduceB.提供整个HDFS文件系统的NameSpace(命名空间)管理、块管理等所有服务C.Hadoop不仅可以运行在企业内部的集群中,也可以运行在云计

不想做程序猿的员·2023-09-27 07:11

HDFS数据读写过程及编程实例

1°FileSystem被分布式文件系统HDFS继承，实现DistributedFileSystem子类；2°通过Http的方式去访问相关文件；3°通过FTP的方式去读写文件。

浅沫～·2023-09-27 06:15

【HDFS】读数据流程分析

HDFS读数据流程HDFS的读流程底层是由java实现的，后面还会结合源码理解怎么实现的读读数据第一步，HDFS客户端创建了一个FileSystem实例对象DistributedFileSystem,FileSystem

摸鱼的老山羊·2023-09-27 06:14

【大数据开发技术】实验03-Hadoop读取文件

文章目录Hadoop读取文件一、实验目标二、实验要求三、实验内容四、实验步骤Hadoop读取文件一、实验目标熟练掌握hadoop操作指令及HDFS命令行接口掌握HDFS原理掌握HDFS的API使用方法掌握通过

Want595·2023-09-27 06:13

hive详解

Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能2）Hive本质：将HQL转化成MapReduce程序（1）Hive处理的数据存储在HDFS（2）

MYH516·2023-09-27 03:43

【大数据存储与处理】1. hadoop单机伪分布安装和集群安装

Hadoop实现了一个分布式文件系统（DistributedFileSystem），其中一个组件是HDFS（Hadoop

唐生一·2023-09-27 02:59

Cloudera Hadoop 分层存储实战

HDFS分层存储why为何要使用分层存储(充分利用资源,降低成本)http://developer.51cto.com/art/201504/470660.htmHDFS从Hadoop2.3开始支持分层存储

shaopi0211·2023-09-27 01:25

解决Permission denied: user=root, access=WRITE, inode=“/“:hdfs:supergroup:drwxr-xr-x 问题方法

问题描述：在HDFS目录下创建新文件夹时出现Permissiondenied:user=root,access=WRITE,inode=“/”:hdfs:supergroup:drwxr-xr-x，即使使用

梦痕长情·2023-09-27 00:30

CDH6.3.2 的pyspark读取excel表格数据写入hive中的问题汇总

版本为：6.3.2spark版本为：2.4python版本：2.7.5操作系统：CentOSLinux7集群方式：yarn-cluster一、在linux中将excel文件转换成CSV文件，然后上传到hdfs

梦痕长情·2023-09-27 00:57

移动APP用户数据采集及分析案例

1埋点定义埋点事件客户端调用接口上报埋点数据埋点数据入hdfs埋点数据解析入hive2app埋点数据分析开发计算任务统计统计app各业务数据，主要是写shell，shell里面主要是sql。

SmartNewSexy·2023-09-27 00:51

hive数据库操作,hive函数，FineBI可视化操作

1、数据库操作1.1、创建数据库createdatabaseifnotexistsmyhive;usemyhive;1.2、查看数据库详细信息descdatabasemyhive;数据库本质上就是在HDFS

新征程，再出发·2023-09-26 23:19

【大数据开发技术】实验04-HDFS文件创建与写入

文章目录一、实验目标二、实验要求三、实验内容四、实验步骤一、实验目标熟练掌握hadoop操作指令及HDFS命令行接口掌握HDFS原理熟练掌握HDFS的API使用方法掌握单个本地文件写入到HDFS文件的方法掌握多个本地文件批量写入到

Want595·2023-09-26 22:55

SparkBase

1-【MapReduce的中间数据是基于hdfs磁盘的多次读写，而Spark的中间数据是基于内存的，内存被磁盘快。】

weixin_45882263·2023-09-26 14:21

推荐频道

#HDFS