E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
Mapreduce
Hadoop学习笔记
3)高效性:在
MapReduce
的思想下,Hadoop是并行工作的,以加快任务处理速度。4)高容错性:自动保存多份
静宸丶水默含声
·
2023-04-10 22:44
HDFS和
MapReduce
架构分析----阿冬专栏
来自:http://articles.e-works.net.cn/It_overview/Article103875.htmHadoopHDFS和
MapReduce
架构浅析在简述Hadoopnamenode
阿冬专栏
·
2023-04-10 16:29
Hadoop
Hadoop
Pig的搭建和配置
若要引用,请标注链接地址全文共计2663字,阅读大概需要3分钟欢迎关注我的个人公众号:不懂开发的程序猿一、任务描述Pig内部,每个操作或变换是对输入进行数据处理,然后产生输出结果,这些变换操作被转换成一系列
MapReduce
不懂开发的程序猿
·
2023-04-10 14:50
大数据运维基础
java
服务器
开发语言
MapReduce
r之Shuffle
shuffle是将Map的输出结果进行分区,排序,分组等处理之后交给Reduce进行处理的过程Map端的shuffle写入缓存每一个Map都会被分配一个环形的缓冲区,设置一个缓冲区大小和阈值,当缓存区数据积累达到阈值时,开始向磁盘写入(写入的是序列化完的key和value),在写入的过程中Map继续输出到缓冲区,如何在此期间缓冲区满,则会阻塞Map。设置缓冲区大小,默认是100MBmapreduc
末央酒
·
2023-04-10 07:37
帮做COMP9313 2018s2 Assignment 编程、php调试、帮做php编程
COMP93132018s2AssignmentQuestion1.
MapReduce
(5pts)ProblemBackground:GivenanundirectedgraphG,its“linegraph
panwengle
·
2023-04-10 04:53
Linux实战——Hadoop安装部署
三类组件HadoopHDFS:提供分布式海量数据存储能力HadoopYARN:提供分布式集群资源管理能力Hadoop
MapReduce
:提供分布式海量数据计算能力前置要求请确保完成了集群化环境前置准备即
会不了一点
·
2023-04-10 04:37
ygggy
hadoop
linux
大数据
SparkSQL 概述
1.2HiveandSparkSQLSparkSQL的前身是Shark,给熟悉RDBMS但又不理解
MapReduce
的技术人员
一抹鱼肚白
·
2023-04-10 04:43
大数据
spark
大数据
《Hadoop篇》------HDFS与
MapReduce
目录一、HDFS角色职责总结二、CheckPoint机制三、
Mapreduce
序列化四、Mapper4.1、官方介绍4.2、Split计算4.3、Split和block对应关系4.4、启发式算法五、MapTask
清忖灬
·
2023-04-10 03:40
大数据
hadoop
hdfs
mapreduce
虚拟机开启hive的命令
其本质是将SQL转换为
MapReduce
的任务进行运算,底层由HDFS来提供数据的存储,可以理解为一个将SQL转换为
MapReduce
的任务的工具。
会跑的小蛇
·
2023-04-10 01:20
hive
hadoop
数据仓库
Hive概念、架构、启动方式、基本命令
同时,这个语言也允许熟悉
MapReduce
开发者的开发自定义的mapper和reducer来处理内建的mapper和reducer
宇文心亘
·
2023-04-10 00:01
hive
Hadoop和谷歌的
MapReduce
、GFS等技术之间有密切的关
文章目录三、简要回答“课堂考核”内容四、习题3.9习题!!!xxxx大学流水线式教学方式以及奔溃的教育体系;三、简要回答“课堂考核”内容Hadoop安装有哪些模式?本实验是哪种模式?可不可以安装其他模式?○单节点模式(StandaloneMode)和伪分布式模式(Pseudo-DistributedMode)单点模式是所有的hadoop集群都在一台机器运行,伪分布式是不同组件在不同机器中运行,但这
JaneOnly300
·
2023-04-09 20:50
流水线作业答案
hadoop
大数据
mapreduce
hive兼容性验证
前言Hive是基于Hadoop的数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的SQL查询功能,可以将sql语句转换为
MapReduce
任务进行运行,其优点是学习成本低,可以通过类SQL
雪绒~
·
2023-04-09 19:39
软件兼容性测试
hive
hadoop
大数据
hadoop架构总结(三)
YARNYARN资源管理系统正式出现是在hadoop2.0版本,目的是解决1.0中执行
mapreduce
时JobTracker兼并资源调度和任务监控的过载问题。
苍鹰嘉措
·
2023-04-09 15:53
hadoop
yarn
linux hadoop 关系,最全hadoop架构总结
Hadoop
MapReduce
:一个分布式的离线并行计算框
苏文强
·
2023-04-09 15:20
linux
hadoop
关系
Hadoop架构、组件、及其术语汇总和理解
推荐大象教程,介绍Hadoop、HDFS、
MapReduce
架构和工作原理相对来说非常的清晰。其内容是与《HadooptheDefinitiveGuide》基本一致的。
Just Jump
·
2023-04-09 15:35
Hive
&
Hadoop
hadoop
MapReduce
HDFS
YARN
YARN 聚合日志配置
1、日志聚集介绍
MapReduce
是在各个机器上运行的,在运行过程中产生的日志存在于各个机器上,为了能够统一查看各个机器的运行日志,将日志集中存放在HDFS上,这个过程就是日志聚集。
D奋斗的小菜鸟!
·
2023-04-09 08:39
大数据
hadoop
大数据
hdfs
当运行hive命令报错:command not found时,如何排查问题
执行一条select语句检查
mapreduce
是否存在问题。Selectcount
龙葵1992
·
2023-04-09 07:48
尚硅谷大数据技术Hadoop教程-笔记03【Hadoop-HDFS】
大数据概论】尚硅谷大数据技术Hadoop教程-笔记02【Hadoop-入门】尚硅谷大数据技术Hadoop教程-笔记03【Hadoop-HDFS】尚硅谷大数据技术Hadoop教程-笔记04【Hadoop-
MapReduce
延锋L
·
2023-04-09 07:45
#
Hadoop
大数据
hadoop
hdfs
linux
分布式
程序员避免内卷化?
换成人话来说,以前你只要会Hadoop、
MapReduce
,你就可以很容易找到月薪1W的工作,而现在你可能都找不到工作了;以前一
优越学院UU老师
·
2023-04-09 07:29
详解
MapReduce
Shuffle与Spark Shuffle
而在
MapReduce
中,Shuffle更像是洗牌的逆过程,指的是将map端的无规则输出按指定的规则“打乱”成具有一定规则的数据,以便reduce端接收处理。
阿雅Yage
·
2023-04-09 06:43
spark
MapReduce/Spark
Shuffle
Hadoop开发--
MapReduce
编程--示例(十)
一、手机号分类 中国移动公司想要查看北京用户的打电话情况,手机信号来自附近的基站,要查看北京用户的信息得从全国所有的基站获取信息并一一筛选,假如我们不把用户按省市进行分别存放的话,每次我们想查看某个省市的信息时便需要从全国所有的基站信息中去一一查询,这样做,无疑效率是非常低的。假如我们把数据都分省市进行存放了,以后我们再想查看北京市的打电话信息便非常方便了,直接到存放北京市打电话信息的文件中查找
无剑_君
·
2023-04-09 05:15
Mapreduce
:概述 + 实例:WordCount + yarn
MapReduce
采用的是“分而治之”的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个从节点共同完成,然后通过整合各个节点的中间结果,得到最终结果。
xjfy.h
·
2023-04-09 05:15
MapReduce
WordCount代码和编码规范详细说明
:https://www.cnblogs.com/qingyunzong/p/8573001.html1.WordCount代码自带的wordCount程序执行本地执行hadoopjarhadoop-
mapreduce
-examples
abcdggggggg
·
2023-04-09 05:42
大数据
Hadoop
大数据
hadoop
mapreduce
wordcount
mr
wordcount
python 实现hadoop的
mapreduce
为了用python实现
mapreduce
,我们先引入下面两个个知识sys.stdin()itertools之groupbysys模块的简单学习sys.stdin是一个文件描述符,代表标准输入,不需使用open
凡人求索
·
2023-04-09 05:41
Hadoop
MapReduce
各阶段执行过程以及Python代码实现简单的WordCount程序
视频资料:黑马程序员大数据Hadoop入门视频教程,适合零基础自学的大数据Hadoop教程文章目录Map阶段执行过程Reduce阶段执行过程Python代码实现
MapReduce
的WordCount实例
VenYy
·
2023-04-09 05:09
大数据平台
hadoop
mapreduce
python
Spark参数配置和调优,Spark-SQL、Config
spark;#设置spark提交模式setspark.master=yarn-cluster;#设置作业提交队列setspark.yarn.queue=${queue_name};#设置队列的名字set
mapreduce
.job.queuename
Just Jump
·
2023-04-09 02:55
spark
spark
sql
参数配置和调优
大数据技术之Spark——Spark SQL
1.2HiveandSparkSQL我们之前学习过hive,hive是一个基于hadoop的SQL引擎工具,目的是为了简化
mapreduce
的开发。
five小点心
·
2023-04-09 00:25
#
spark
大数据
spark
hive
bulkload导致性能变慢
bulkload是通过启动
MapReduce
任务直接生成HFile文件,再将HFile文件注册到HBase,因此错误的使用bulkload会因为启动
MapReduce
任务而占用更多的集群内存和
半_调_子
·
2023-04-08 22:05
大数据生态
大数据
hbase
离线数仓和实时数仓架构对比
最经典的就是Hadoop的
MapReduce
方式;一般是根据前一日的数据生成报表,虽然统计指标、报表繁多,但是对时效性不敏感。
万里长江横渡
·
2023-04-08 20:18
大数据
大数据
hadoop
分布式
大数据-学习实践-4
MapReduce
大数据-学习实践-4
MapReduce
(大数据系列)文章目录大数据-学习实践-4
MapReduce
1知识点2具体内容2.1
MapReduce
介绍2.2分布式计算介绍、原理2.2.1
MapReduce
原理剖析
yxyibb
·
2023-04-08 19:48
大数据
大数据
学习
hadoop
Hadoop基础介绍
Hadoop基础介绍一、总体介绍二、HDFS架构三、
MapReduce
结构四、YARN架构一、总体介绍1、定义:是一个开源的、可靠的、可扩展的分布式计算框架。
幸福右手牵
·
2023-04-08 15:01
Hadoop
hadoop
大数据
hdfs
Spark简介
Spark是UCBerkeley所开发的类Hadoop
MapReduce
的通用并行框架,拥有Hadoop
MapReduce
所有优点,区别在于Job中间输出可保存在内存中,无需再读写HDFS,所以比Hadoop
GakkiLove
·
2023-04-08 10:37
用AI找答案:hivesql中set可以设置哪些参数
hivesql中set可以设置哪些参数AI:在HiveQL中,SET命令可以用于设置以下参数:hive.execution.engine:指定Hive的执行引擎,包括
MapReduce
、Tez、Spark
Redamancy_06
·
2023-04-08 09:18
hive
大数据
hadoop
Hbase高手之路 -- 第一章 -- Hbase简介
1970年开始,大多数的公司数据存储和维护使用的是关系型数据库大数据技术出现后,很多拥有海量数据的公司开始选择像Hadoop的方式来存储海量数据Hadoop使用分布式文件系统HDFS来存储海量数据,并使用
MapReduce
落空空。
·
2023-04-08 09:16
hadoop
hbase
hbase
1-3 交互式查询工具Impala
提供的一款开源的针对HDFS和HBASE中PB级别数据进行交互式实时查询(Impala速度快),Impala是参照谷歌中新三篇论文中Dremel实现而来,其中旧三篇论文分别是(BigTable、GFS、
MapReduce
小羊and阿童木
·
2023-04-08 07:48
大数据
impala
交互式查询工具Impala
HDFS和HBASE中的PB级别数据进⾏行行交互式实时查询(Impala速度快),Impala是参照⾕谷歌的新三篇论⽂文当中的Dremel实现⽽而来,其中旧三篇论⽂文分别是(BigTable,GFS,
MapReduce
猿大山
·
2023-04-08 07:46
Hadoop
impala
Impala:大数据交互查询工具
Impala可以实现对PB级别的数据的实时分析,其查询速度比基于
MapReduce
的Hive高出3到90倍。
健鑫.
·
2023-04-08 07:46
大数据
hadoop
hive
ES-Hadoop插件介绍
其中值得一提的是ES-Hadoop全面的支持了Spark框架,其中包括Spark,SparkStreaming,SparkSQL,此外也支持Hive,Pig,Storm,Cascading,当然还有标准的
MapReduce
三劫散仙
·
2023-04-08 04:44
spark
ElasticSearch
elasticsearch
spark
学大数据需要具备什么基础和知识点?
今天主要介绍学大数据应具备的基础,学员从java基础开始,学习大数据开发过程中的离线数据分析、实时数据分析和内存数据计算等重要内容;涵盖大数据体系中核心技术;Linux、Zookeeper、Hadoop、Redis、HDFS、
MapReduce
我想去吃ya
·
2023-04-08 03:23
大数据
hadoop
hive
数据仓库
学习
Linux学习笔记——Hadoop安装部署
HadoopHDFS提供分布式海量数据存储能力HadoopYARN提供分布式集群资源管理能力Hadoop
MapReduce
提供分布式海量数据计算能力5.10.1.1、前置要求请确保完成了集群化环境前置准备章节的
kxttmx
·
2023-04-08 03:22
hadoop
linux
学习
hdfs
大数据训练营课程大纲&项目简介
文章目录课程大纲模块一:大数据的“三驾马车”:HDFS、
MapReduce
/YARN、HBase模块二:大数据时代数据仓库实践:Hive模块三:更快的数据处理引擎:Spark模块四:重构现代化数据仓库:
greedy-hat
·
2023-04-07 21:45
大数据
大数据
MapReduce
并行计算构架流程
MapReduce
概述
MapReduce
是面向大数据并行处理的计算模型、框架和平台。
琳小小小
·
2023-04-07 18:41
虚拟机数据库专栏
mapreduce
大数据
Hadoop3.x入门-搭建3节点分布式集群
HDFS组件包括:NameNode、DataNode、SecondaryNameNodeYarn组件包括:ResourceManager、NodeManager
MapReduce
组件包括:JobHistoryServer2
-小末
·
2023-04-07 13:52
大数据
hadoop
分布式
hdfs
六阶段大数据--day03--hadoop分布式文件系统HDFS/
MapReduce
介绍/ Yarn资源调度
一分布式文件系统HDFS1.HDFS的来源HDFS:HadoopDistributedFilesystem(hadoop分布式文件系统)HDFS起源于Google的GFS论文(GFS,
Mapreduce
心猿意码~~
·
2023-04-07 08:34
hadoop
big
data
mapreduce
大数据之Hive
1、Hive是什么1.1概述在Hadoop项目中,HDFS解决了文件分布式存储的问题,
MapReduce
解决了数据处理分布式计算的问题。
冰河winner
·
2023-04-07 03:28
MapReduce
编程模型
MapReduce
应用广泛的原因之一在于它的易用性。它提供了一个因高度抽象化而变得异常简单的编程模型。
tracy_668
·
2023-04-07 02:54
HADOOP和MPP数据库的区别
更加封闭,但很多MPP数据库使用HDFS存储系统,计算则不采用
MAPREDUCE
,比如:HAWQ.当查询失败时,MPP数据库会终止整个查询,重新提交。
价值成长
·
2023-04-06 23:52
大数据
hadoop
数据库
mapreduce
此文献给正打算入门大数据的朋友:大数据学习笔记1000条(2)
501、
MapReduce
计算框架中的输入和输出的基本数据结构是键-值对。502、Hadoop神奇的一部分在于sort和shuffle过程。503、Hive驱动计算的“语言”是一XML形式编码的。
df_1937
·
2023-04-06 22:48
大数据四大阵营之MPP阵营
和
MapReduce
类似,两者都采用大规模并行处理架构来对海量数据进行以大数据分析为主的工作,不同之处在于MPP通常原生支持并行的关系型查询与应用,不过这一点,Hadoop阵营也在逐渐通过在HDFS之上提供
Ultipa
·
2023-04-06 22:16
数据库
大数据
数据挖掘
神经网络
【大数据】Spark 递归读取 HDFS
HDFS若有子目录,Spark是不能递归读取子目录,需要在spark-submit中配置以下参数:--confspark.hadoop.
mapreduce
.input.fileinputformat.input.dir.recursive
焰火青春
·
2023-04-06 20:09
上一页
47
48
49
50
51
52
53
54
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他