E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
Mapreduce
探索
MapReduce
文章目录一,案例分析(一)TopN分析法介绍(二)案例需求二,案例实施(一)准备数据文件(1)启动hadoop服务(2)在虚拟机上创建文本文件(3)上传文件到HDFS指定目录(二)Map阶段实现(1)创建Maven项目:TopN(2)添加相关依赖(3)创建日志属性文件(4)创建前N成绩映射器类:TopNMapper(三)Reduce阶段实现(1)创建前N归并器类:TopNReducer(四)Dri
人生苦短@我用python
·
2022-12-23 15:51
探索大数据
mapreduce
hadoop
大数据
Hadoop之
MapReduce
标题##
MapReduce
@[toc]Hadoop之
MapReduce
MapReduce
入门#
MapReduce
是hadoop体系下的一种计算模型(计算框架|编程框架),主要是用来对存储在hdfs上的数据进行统计
橙色旋涡
·
2022-12-23 15:50
大数据
MapReduce
案列-数据去重
文章目录一,案例分析(一)数据去重介绍(二)案例需求二,案例实施(一)准备数据文件(1)启动hadoop服务(2)在虚拟机上创建文本文件(3)上传文件到HDFS指定目录(二)Map阶段实现(1)创建Maven项目:Deduplicate(2)添加相关依赖(3)创建日志属性文件(4)创建去重映射器类:DeduplicateMapper(三)Reduce阶段实现(1)创建去重归并器类:Deduplic
人生苦短@我用python
·
2022-12-23 15:19
探索大数据
mapreduce
hadoop
大数据
educoder-HDFS和
MapReduce
综合实训
第1关:WordCount词频统计importjava.io.IOException;importjava.util.StringTokenizer;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.Path;importorg.apache.hadoop.io.IntWritable;importorg.a
刘向阳啊
·
2022-12-23 11:35
educoder-大数据
大数据
hadoop
Hive/HiveQL常用优化方法全面总结
buildtable(小表)前置多表join时key相同利用mapjoin特性分桶表mapjoin倾斜均衡配置项优化SQL处理join数据倾斜空值或无意义值单独处理倾斜key不同数据类型buildtable过大
MapReduce
首席撩妹指导官
·
2022-12-23 10:07
大数据
大数据
hive
数据库
Hive/HiveQL常用优化方法全面总结(上篇)
影响Hive效率的几乎从不是数据量过大,而是数据倾斜、数据冗余、job或I/O过多、
MapReduce
分配不合理等等。
liu_weiliang10405
·
2022-12-23 10:06
大数据
hive
大数据
hive优化基础1
1.hive优化基础1开启分桶sethive.enforce.bucketing=true;设置reduce个数set
mapreduce
.job.reduces=3;hive表->orc和parquet
大道独行之BIGDATA
·
2022-12-23 10:06
hive
hive
hadoop
Hive的优化
影响Hive效率的几乎从不是数据量过大,而是数据倾斜、数据冗余、job或I/O过多、
MapReduce
分配不合理等等。
keepHungery
·
2022-12-23 10:34
Hive学习
hive
Hive Correlation Optimizer(关联优化)
Paper:YSmart:YetAnotherSQL-to-
MapReduce
TranslatorThispagedocumentsCorrelationOptimizer.ItwasoriginallyintroducedbyHIVE
houzhizhen
·
2022-12-23 10:01
hive
Hadoop--yarn--
MapReduce
安装配置
在yarn-site.xml中增加如下的配置yarn.resourcemanager.hostnamemaster表示ResourceManager安装的主机yarn.resourcemanager.addressmaster:8032表示ResourceManager监听的端口yarn.nodemanager.local-dirs/home/hadoop-jrq/bigdata/yarn/loc
没有合适的昵称
·
2022-12-23 09:02
hadoop
hadoop jar share/hadoop/
mapreduce
/hadoop-
mapreduce
-examples-3.1.3.jar wordcount /wcinput /wcoutput报错
执行hadoopjarshare/hadoop/
mapreduce
/hadoop-
mapreduce
-examples-3.1.3.jarwordcount/wcinput/wcoutput报错报错信息
冯额吉家念
·
2022-12-23 09:31
大数据开发
大数据
Hadoop学习----Hadoop介绍
Hadoop核心组件:HadoopHDFS(分布式文件存储系统):解决海量数据存储HaqdoopYARN(集群资源管理和任务调度框架):解决资源任务调用Hadoop
MapReduce
(分布式计算框架):
北海怪兽Monster
·
2022-12-23 09:00
大数据
hadoop
学习
Hadoop学习----
MapReduce
&&YARN
MapReduce
1、
MapReduce
的思想核心是"先分再合,分而治之"所谓"分而治之"就是把一个复杂的问题,按照一定的"分解"方法分为等价的规模较小的若干部分,然后逐个解决,分别找出各部分的结果,最后把各部分的结果组成问题的最终结果
北海怪兽Monster
·
2022-12-23 09:28
大数据
hadoop
mapreduce
学习
大数据2.1 初探
MapReduce
(一)
MapReduce
核心思想
MapReduce
的核心思想是“分而治之”。
YYl543
·
2022-12-23 03:24
mapreduce
大数据
MapReduce
计算框架——初探
MapReduce
【14000字详解】
目录零,学习目标一,学习导入二,讲解(一)
MapReduce
核心思想(二)
MapReduce
模型(三)MapRudce编程实例——词频统计思路1,Map阶段(映射阶段)2,reduce阶段(归并阶段)(
逆风微笑的代码狗qaq
·
2022-12-23 03:54
mapreduce
大数据
hadoop
数据结构
初探
MapReduce
切片
MapTask并行度决定机制数据块:Block是HDFS物理上把数据分成一块一块。数据切片:数据切片只是在逻辑上对输入进行分片,并不会在磁盘上将其切分成片进行存储。数据切片与MapTask并行度决定机制注意第4小点:切片时是逐个针对每一个文件单独切片Job提交流程FileInputFormat源码分析FileInputFormat切片机制CombineTextInputFormat1、应用场景:C
苏瓜皮
·
2022-12-23 03:54
Hadoop
Hadoop初探之
MapReduce
+HBase实例
需要注意的是,本文的需求是在Hadoop上跑
MapReduce
job来分析日志并将结果持久化到HBase,所以,在编译程序时,Hadoop需要用到HBase和Zookeeper包,因此,需要分别将hbase
xuguokun1986
·
2022-12-23 03:54
大数据
大数据- 初探
MapReduce
一、
MapReduce
编程实例——词频统计实现启动hadoop服务1、准备数据文件(1)在虚拟机上创建文本文件创建wordcount目录,在里面创建words.txt文件(2)上传文件到HDFS指定目录创建
没123456
·
2022-12-23 03:24
大数据
mapreduce
hadoop
MapReduce
模型初探(二)
MapReduce
模型初探(二)一、MR执行流程最简单过程:map–>reduce定制了Partitioner分区的过程:map–>partition–>reduce增加了本地优化(本地reduce)过程
yanzhelee
·
2022-12-23 03:24
hadoop
mapreduce
执行流程
MapReduce
初探
编译、打包Hadoop
MapReduce
程序HADOOP_CLASSPATH/app/lib/hadoop-2.7.3/etc/hadoop:/app/lib/hadoop-2.7.3/share/hadoop
solumin
·
2022-12-23 03:53
大数据实验
MongoDB中的
MapReduce
框架初探
引言
MapReduce
原理
MapReduce
的基本使用SpringDataMongoDB对MR的使用小结引言
MapReduce
是一种并行计算的编程思想,在大数据领域得到了广泛的应用。
cs4995
·
2022-12-23 03:23
大数据
MongoDB
MapReduce
MongoDB
Spring
Data
大数据
分布式
谷歌
MapReduce
初探
【这是一猿小讲的第63篇原创分享】谷歌“三驾马车”的出现,才真正把我们带入了大数据时代,毕竟没有谷歌,就没有大数据。上次的分享《从谷歌GFS架构设计聊开去》,我们对谷歌的其中一驾宝车GFS进行了管中窥豹,虽然只见得其中一斑,但是也能清楚的知道GFS能够把大量廉价的普通机器,聚在一起,充分让每台廉价的机器发挥光和热,不但降低了运营成本,而且解决了一个业界数据存储的难题。虽然GFS解决了Google海
一猿小讲
·
2022-12-23 03:23
MapReduce
WordCount 代码初探
MapReduce
WordCount代码初探简单wordcount
mapreduce
程序。
shxy
·
2022-12-23 03:23
mapreduce
MapReduce
源码初探
1.入口在下面的作业提交入口中点入:booleanresult=job.waitForCompletion(true);if(this.state==Job.JobState.DEFINE){this.submit();}确认状态后提交,这便是debug时的代码入口2.状态进入后由方法名称可知是确认任务的状态,状态是enmu类型,但为什么要确认,状态为何异常却不清楚,而且进入submit()之前经
Szcollar
·
2022-12-23 03:53
mapreduce
大数据
Hadoop
MapReduce
初探 自己写的
MapReduce
程序
Hadoop自己写的
MapReduce
WordCount程序以下是我写的WordCount程序,代码的具体讲解已经在注释中给出,所以就不做赘述,我再学习的时候写WordCount程序是用的
MapReduce
troy_wu
·
2022-12-23 03:53
hadoop
hadoop
mapreduce
hadoop
大数据
MapReduce
学习案例:数据去重
一,案例分析(一)数据去重介绍数据去重主要是为了掌握利用并行化思想来对数据进行有意义的筛选,数据去重指去除重复数据的操作。在大数据开发中,统计大数据集上的多种数据指标,这些复杂的任务数据都会涉及数据去重。(二)案例需求文件file1.txt本身包含重复数据,并且与file2.txt同样出现重复数据,现要求使用Hadoop大数据相关技术对以上两个文件进行去重操作,并最终将结果汇总到一个文件中。编写M
Neroiiey
·
2022-12-23 03:52
大数据实训
大数据
mapreduce
hadoop
初探
MapReduce
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录
MapReduce
核心思想
MapReduce
编程模型
MapReduce
编程实例——词频统计思路1、Map阶段(映射阶段)2、Reduce
Argonaut_
·
2022-12-23 03:52
11
hdfs
hadoop
大数据
hbase
大数据
Hivesql常用优化技巧
3.Hive通过HiveSQL进行解析和转换,最终映射成一系列在hadoop上运行的
mapreduce
任务,通过执行这些任务完成分析和处理。
久笙&
·
2022-12-22 21:27
Hivesql
hive
sql
hadoop
hadoop集群配置(保姆级教学)
目录1.集群配置(1)集群部署规划(2)配置文件说明(3)配置集群(1)核心配置文件(2)HDFS配置文件(3)YARN配置文件(4)
MapReduce
配置文件2群起集群(1)配置workers(2)启动集群
Echo bigdata
·
2022-12-22 12:26
hadoop
大数据开发
大数据
hadoop
数据分析
一文搞懂什么是Hadoop?Hadoop的前世今生,Hadoop的优点有哪些?Hadoop面试考查重点,大数据技术生态体系
1.1Hadoop是什么1.2Hadoop发展历史1.3Hadoop三大发行版本1.4Hadoop优势(4高)1.5Hadoop组成(面试重点)1.5.1HDFS架构概述1.5.2YARN架构概述1.5.3
MapReduce
Echo bigdata
·
2022-12-22 12:24
大数据开发
hadoop
大数据
数据分析
hdfs
hive
MapReduce
MapReduce
八个步骤hdfs输入源文件------>读取文件------>InputFormat:TextInputFormat------>//读出来就是------>自定义Map逻辑,将k1和
YysJyj
·
2022-12-22 10:10
hadoop
mapreduce
Hadoop学习——
MapReduce
随堂测验
文章目录一、WordCount1、WordCountDriverNew2、WordCountMapper3、WordCountReducer二、学生信息排序1、Student2、StudentDriver3、StudentMapper4、StudentReduce三、学生成绩求和1、ScoreDriver2、ScoreMapper3、ScoreReduce代码有注释一、WordCount1、Wor
姓余的
·
2022-12-21 16:51
BigData_Study
hadoop
mapreduce
学习
【Hadoop】第三篇--Hadoop运行模式
Hadoop运行模式一、Hadoop运行模式二、本地运行模式2.1官方Grep案例2.2官方WordCount案例三、伪分布式运行模式3.1启动HDFS并运行
MapReduce
程序3.2启动YARN并运行
孙和龚
·
2022-12-21 16:21
自学大数据之深似海
hadoop
mapreduce
大数据
Spark-概述+快速上手+运行环境
SparkandHadoop在之前的学习中,Hadoop的
MapReduce
是大家广
迷雾总会解
·
2022-12-21 16:21
大数据
spark
大数据
Hadoop~Hadoop的三种运行方式
Hadoop的三种运行方式一、独立模式独立模式下只有一个节点,并且所有组件(NameNode、SecondaryNameNode、DataNode等)运行与一个进程内,一般用于
MapReduce
编程时的测试环境二
飞Link
·
2022-12-21 16:49
大数据
mapreduce
hadoop
hdfs
Hadoop简单入门(一):Hadoop概述
第1章Hadoop概述第1章Hadoop概述1.1Hadoop是什么1.2Hadoop优势(4高)1.3Hadoop组成(面试重点)1.3.1HDFS架构概述1.3.2YARN架构概述1.3.3
MapReduce
Richard奇
·
2022-12-21 14:29
#
Hadoop框架
hadoop
大数据
hdfs
【Hive知识体系详细教程】
其本质是将SQL转换为
MapReduce
/Spark的任务进行运算,底层由HDFS来提供数据的存储,说白了hive可以理解为一个将SQL转换为
MapReduce
/Spark的任务的工具,甚至更进
[小六]
·
2022-12-21 12:58
SQL
hive
从0到1搭建大数据平台之数据计算
文章目录前言一、传统的数据计算二、Hadoop的崛起三、离线计算
MapReduce
HiveSparkSQL四、实时计算SparkStreamingFlink总结前言大家好,我是脚丫先生(o^^o)之前有说过
大数据指北
·
2022-12-21 04:35
#
---
大数据
大数据
hadoop
数据库
【面试真题】今日头条大数据面试100题,收藏备用
1、简述WordCount的实现过程2、简述
MapReduce
与Spark的区别与联系3、Spark在客户端与集群运行的区别4、相同的SQL在HiveSql与SparkSQL的实现中,为什么Spark比
大数据研习社
·
2022-12-21 04:02
大数据实战精英+架构师
面试题
Flink
big
data
hadoop
spark
从行业到职业,看数据的现在与未来
开发者峰会「数据的冰与火之歌——从在线数据库技术,到海量数据分析技术」的压轴环节是圆桌对话,由支流科技CEO、腾讯云TVP温铭主持,与偶数科技CEO、腾讯云TVP常雷,易观CTO、腾讯云TVP郭炜,腾讯云弹性
MapReduce
腾讯云开发者
·
2022-12-20 15:08
数据库
腾讯
大数据
编程语言
机器学习
大数据技术应用7-1数据仓库Hive的介绍
Hive起源于Facebook,Facebook公司有着大量的日志数据,而Hadoop是实现了
MapReduce
模式开源的分布式并行计算的框架,可轻松处理大规模数据。
诺特兰德
·
2022-12-20 08:37
大数据
hive
数据仓库
Hive分布式数据仓库
简介Hive是基于静态批处理Hadoop的一个数据仓库工具,通过Hive可以实现将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,同时将sql语句转换为
MapReduce
任务进行运行,所以其优点是学习成本低
咩咩_10538769
·
2022-12-20 08:33
hive
hadoop
数据仓库
大数据
hadoop集群搭建
那
mapreduce
是什么呢?它其实是一个分布式运
·
2022-12-19 18:52
hadoop大数据
Hadoop
MapReduce
shuffle 学习笔记
概述
MapReduce
的shuffle过程分别发生在Map端与Reduce端。
奶糖派大白兔
·
2022-12-19 15:09
hadoop
mapreduce
《Hadoop与大数据挖掘》——2.5 K-Means算法原理及Hadoop
MapReduce
实现
2.5K-Means算法原理及Hadoop
MapReduce
实现2.5.1K-Means算法原理K-Means算法是硬聚类算法,是典型的基于原型的目标函数聚类方法的代表。
weixin_34288121
·
2022-12-19 08:55
大数据
人工智能
数据结构与算法
第七章
MapReduce
详解
MapReduce
是一种并行编程模型,用于大规模数据集(大于1TB)的并行计算,它将复杂的、运行于大规模集群上的并行计算过程高度抽象为两个函数:Map和Reduce。
wyz191
·
2022-12-19 03:18
大数据技术原理与应用
-
概念
存储
处理
分析与应用
大数据
mapreduce
大数据面试题:介绍下YARN
YARN是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而
MapReduce
等运算程序则相当于运行于操作系统之上的应用程序。
蓦然_
·
2022-12-18 22:59
大数据面试题
大数据开发面试题
大数据面试题
YARN面试题总结(大数据面试)
YARN最初是为了修复
MapReduce
实现里的明显不足,并对可伸缩性(支持一万个节点和二十万个内核的集群)、可靠性和集群利用率进行了提升。
404个问号
·
2022-12-18 22:22
大数据
yarn
java
大数据
yarn面试题汇总大全
yarn主要作用YARN的基本设计思想是将
MapReduce
V1中的JobTracker拆分为两个独立的服务:ResourceManager和ApplicationMaster。
hongmofang10
·
2022-12-18 22:19
面试系列
大数据
面试
yarn
大数据面试题(四):Yarn核心高频面试题
1、gzip压缩2、Bzip2压缩3、Lzo压缩4、Snappy压缩四、Hadoop的调度器总结五、
Mapreduce
推测执行算法及原理Yarn核心高频面试题一、简述Hadoop1与Hadoop2的架构异同加入了
Lansonli
·
2022-12-18 22:40
大数据入门核心技术
大数据
大数据核心面试题
上一页
60
61
62
63
64
65
66
67
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他