E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
Mapreduce
分布式计算模型详解:
MapReduce
、数据流、P2P、RPC、Agent
本专栏目录结构和参考文献请见大数据理论体系思维导图
MapReduce
MapReduce
是一种分布式计算模型,用于处理大规模数据集的计算问题。
Shockang
·
2023-07-16 17:48
大数据理论体系
mapreduce
p2p
rpc
【LangChain】概要(Summarization)
一种方法是输入多个较小的文档,将它们分为块后,并使用
MapReduce
DocumentsChai
山鬼谣me
·
2023-07-16 11:14
LangChain
AI
langchain
Hive on Hbase 的性能问题
hbase是NoSql数据库,可以做oltp,hive是基于
mapReduce
的sql查询引擎,可以做大数据分析;hive提供了与hbase整合的机制,也就是hiveonhbase机制,以外表的方式查询
NazgulSun
·
2023-07-16 10:43
【hadoop】部署hadoop的本地模式
hadoop的本地模式本地模式的特点部署本地模式测试本地模式是否部署完成本地模式的特点没有HDFS、也没有Yarn只能测试
MapReduce
程序,作为一个普通的Java程序处理的数据是本地Linux的文件一般用于开发和测试部署本地模式进入该路径
是我樂樂呀
·
2023-07-16 07:33
hadoop
hadoop
eclipse
大数据
16.例:
MapReduce
案例之数据去重
数据去重数据去重主要是为了掌握和利用并行化思想来对数据进行有意义的筛选。统计大数据集上的数据种类个数、从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去重。实例描述对数据文件中的数据进行去重。数据文件中的每行都是一个数据。比如原始输入数据为:File1:2017-3-1a2017-3-2b2017-3-3c2017-3-4d2017-3-5a2017-3-6b2017-3-7c2017-3-
__元昊__
·
2023-07-16 02:07
hadoop -- Hbase
HBase利用Hadoop的HDFS作为其文件存储系统,利用
MapReduce
来处理HBase中的海量数据,利用Zookeeper作为分布式协同服务。
三水写代码
·
2023-07-16 02:22
大数据
hadoop
hbase
大数据
hadoop --- hive
Hive是一个构建在Hadoop之上的数据仓库和分析工具,她提供了一种类SQL的查询语言--HiveQL,用于将结构化的查询SQL转换为
MapReduce
任务和Tez任务,通过Hadoop的分布式计算能力来执行查询任务
三水写代码
·
2023-07-16 01:52
大数据
hadoop
hive
大数据
hadoop ---
MapReduce
MapReduce
定义:
MapReduce
可以分解为Map(映射)+Reduce(规约),具体过程:Map:输入数据集被切分成多个小块,并分配给不同的计算节点进行处理ShuffleandSort:洗牌和排序
三水写代码
·
2023-07-16 01:44
大数据
hadoop
mapreduce
大数据
关于hive on spark的distribute by和group by使用以及小文件合并问题
欢迎关注交流微信公众号:小满锅问题导言最近在使用hive时,发现一些任务的因为使用
mapreduce
的缘故,跑的太慢了,才几十个G的数据就经常跑一个多小时,于是有了切换spark的想法。
小满锅lock
·
2023-07-16 00:30
hive
spark
mapreduce
spark
Hive
大数据
distribute
distribute
by
基于Hadoop的
MapReduce
网站日志大数据分析(含预处理
MapReduce
程序、hdfs、flume、sqoop、hive、mysql、hbase组件、echarts)
本项目包含:PPT,可视化代码,项目源码,配套Hadoop环境(解压可视化),shell脚本,
MapReduce
代码,文档以及相关说明教程,大数据集!
王小王-123
·
2023-07-16 00:44
hadoop
hive
mapreduce
网站日志大数据分析
大数据
【大数据之Hive】二十二、HQL语法优化之Join优化
1CommonJoin CommonJoin是Hive中最稳定的join算法也是默认的join算法,其通过一个
MapReduce
Job完成一个join操作。
阿宁呀
·
2023-07-15 19:26
hive
大数据
hive
hadoop
sql
Spark和Hadoop的对比
调度分布式计算工具场景大规模数据集上的批处理迭代计算,交互式计算,流计算价格对机器要求低,便宜对内存有要求,相对较贵编程范式Map+Reduce,API较为底层,算法适应性差RDD组成DAG有向无环图,API较为顶层,方便使用数据存储结构
MapReduce
飞Link
·
2023-07-15 16:46
Spark计算引擎
hadoop
spark
mapreduce
hadoop知识点汇总
hadoop开源版安装流程hadoop的组成hadoop读写数据的过程描述
mapreduce
过程hadoop调度器hadoop常用端口hdfs小文件的影响hdfs常用操作命令hadoop性能调优
MapReduce
wx740851326
·
2023-07-15 16:50
大数据之路
hadoop
hdfs
mapreduce
Hadoop知识点记录
HDFS和
MapReduce
共同组成了Hadoop分布式系统体系结构的核心,HDFS在集群上实现了分布式文件系统,
MapReduce
在集群上实现了分布式计算和任务处理,HDFS在
MapReduce
任务处理过程中提供了文件操作和存储等支持
benluobo
·
2023-07-15 16:40
Hadoop
知识点总结
大数据01-Hadoop3.3.1伪分布式安装
VMware创建虚拟机安装VMwareTools共享文件夹安装JavaSSH登录权限设置Hadoop伪分布式安装安装单机版HadoopHadoop伪分布式安装HadoopWebUI管理界面测试HDFS集群以及
MapReduce
蓝净云
·
2023-07-15 11:39
大数据
大数据
分布式
hadoop
大数据开发之Windows10上运行第一个hadoop实例wordcount
第一步下载程序
MapReduce
Client.jar及数据文件input_file.txt,地址https://github.com/yjjhkyq/Hadoop-On-Window第二步以管理员身份打开
茅草屋的屋
·
2023-07-15 10:34
大数据开发教程
hadoop
大数据
hdfs
hbase基础(四)——
MapReduce
操作
目录一、前言准备工作二、HDFS——
MapReduce
操作11、Map阶段2、Reduce阶段3、Driver阶段4、结果查询三、HDFS——
MapReduce
操作21、Map阶段2、Reduce阶段3
雨诺风
·
2023-07-15 07:19
Hbase基础
hbase
mapreduce
hadoop
hdfs
大数据
hbase报错org.apache.hadoop.hbase.client.RetriesExhaustedException: Cannot get the location for replica
hbase基础(四)——
MapReduce
操作log4j:WARNNoappenderscouldbefoundforlogger(org.apache.hadoop.util.Shell)
雨诺风
·
2023-07-15 07:19
Hbase报错
hbase
hadoop
apache
大数据
java
Hadoop期末复习贴-
MapReduce
若本文对你有帮助,请记得点赞、关注我喔!从头开始看hadoop程序hhhh1)WordCountimportjava.io.IOException;importjava.util.StringTokenizer;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.Path;importorg.apache.ha
梏十一郎
·
2023-07-15 07:47
大数据期末复习
hadoop
mapreduce
big
data
Spark 练习测试题(答案仅供参考)
编程框架的限制B.过多的磁盘操作,缺乏对分布式内存的支持C.无法高效低支持迭代式计算D.海量的数据存储3.与hadoop相比,Spark主要有以下哪些优点(ABCD)A.提供多种数据集操作类型而不仅限于
MapReduce
Aurora1217
·
2023-07-15 07:46
spark
spark
spark入门知识详解
2、为什么要学习spark
MapReduce
框架局限性1,Map结果写磁盘,Reduce写HDFS,多个MR之间通过HDFS交换数据2,任务调度和
Echo-Niu
·
2023-07-15 07:46
人工智能
spark
大数据
hadoop
hdfs
mapreduce
【Spark】简介
spark是一个用于大规模数据处理的统一分析引擎、它基于hadoop
mapreduce
并扩展了
mapreduce
模型,能
落花生@u
·
2023-07-15 07:15
大数据技术
Spark
hadoop课后题带答案(期末考试复习)
2.Hadoop三大组件包含HDFS、
MapReduce
和Yarn。3.Hadoop2.x版本中的HDFS是由NameNode、DataNode和SecondaryNameNod
闫海南
·
2023-07-15 07:42
考试复习资料
hadoop
大数据
hdfs
2023春季工信部spark高级考试大题
训练数据train:idtextlabel0"abcdespark"1.01"bd"0.02"sparkfgh"1.03"hadoop
mapreduce
"0.0测试数据text:idtext4"s
音九尘
·
2023-07-15 06:00
spark
大数据
20天学习Spark(0)之最简单版Spark入门
所谓大数据分析主要是对大量数据进行分析处理,是目前大数据开发职业必备技能一、简单介绍下面是对spark的简单介绍,嗯,主要就是说下spark有多好多好的,不想看的可以直接去第二步特点1)快:与Hadoop的
MapReduce
浩哥的技术博客
·
2023-07-15 06:59
spark
spark
scala
大数据技术之Hadoop(十一)——网站流量日志数据分析系统
目录素材:一、模块开发——数据预处理1、分析预处理的数据2、实现数据的预处理(1)创建Maven项目,添加相关依赖(2)创建JavaBean对象,封装日志记录(3)创建
MapReduce
程序,执行数据预处理二
雨诺风
·
2023-07-15 06:53
大数据技术之Hadoop学习
大数据
hadoop
分布式
hive
java
【hadoop】常见期末考试客观题大全
文章目录一、选择题二、HBase核心知识点三、HBase高级应用介绍四、关于hadoop的选择题五、
MapReduce
多选题:判断题:一、选择题以下哪一项不属于Hadoop可以运行的模式C。
lanbabela
·
2023-07-15 06:50
hadoop
hadoop
【云存储】主流分布式文件系统介绍
目录1、引言2、云存储与分布式文件系统2.1、云存储2.2、分布式文件系统3、Google的三大云计算与云存储论文3.1、TheGoogleFileSystem(谷歌文件系统)3.2、
MapReduce
dvlinker
·
2023-07-15 06:02
技术分享系列
云存储
分布式文件系统
GFS
FastDFS
HDFS
Ceph
TFS
大数据面试题Spark篇(1)
目录1.spark数据倾斜2.Spark为什么比
mapreduce
快?3.hadoop和spark使用场景?4.spark宕机怎么迅速恢复?5.RDD持久化原理?
后季暖
·
2023-07-15 02:24
大数据
spark
分布式
2023 Hive 面试宝典
先说一些废话总结一下Hive面试宝典,方便读者快速过一遍Hive面试所需要的知识点Hive的介绍Hive和Hadoop的关系Hive利用hdfs存储数据,利用
MapReduce
查询数据Hive的数据存储在
fx67ll
·
2023-07-14 20:47
大数据开发文档
hive
面试
hadoop
Hadoop和Hive的关系
Hadoop最核心的设计就是hdfs和
mapreduce
,hdfs提供存储,
mapreduce
用于计算。2.Hive是Hadoop的延申。
红乘以白
·
2023-07-14 20:32
hadoop
hive
大数据
五大步骤帮你实现Hadoop价值最大化
生产环境中使用Hadoop需要有Sqoop、Hive、Pig和
MapReduce
编程语言经验。企业在部署Hadoop时总会遇到一些问题。
大数据架构师
·
2023-07-14 14:47
ChatGLM-6B+LangChain实战
LangChain实现长文本生成摘要.方法:step1:自定义一个GLM继承LangChain中的langchain.llms.base.LLM,load自己的模型.step2:使用LangChain的
mapreduce
stay_foolish12
·
2023-07-14 13:02
python
自然语言处理
人工智能
langchain
chatglm
【Hadoop 01】简介
适合海量数据分布式存储和分布式计算Hadoop3.x的细节优化:Java改为支持8及以上HDFS支持纠删码HDFS支持多NameNodeMR任务级本地优化多重服务默认端口变更Hadoop主要包含三大组件:HDFS+
MapReduce
不菜不菜
·
2023-07-14 11:56
大数据
hadoop
大数据
分布式
Spark SQL(十):Hive On Spark
其底层默认是基于
MapReduce
实现的,但是由于
MapReduce
速度实在比较慢,因此这几年,陆续出来了新的SQL查询引擎,包括SparkSQL,HiveOnTez,HiveOnSpark等。
雪飘千里
·
2023-07-14 08:42
【搜索引擎Solr】Solr:提高批量索引的性能
mapreduce
作业扫描hbase表,通过上述分片公式计算每个文件的目
超级架构师
·
2023-07-14 07:27
搜索引擎
solr
lucene
Spark基本工作原理和RDD特性
1.spark的基本工作原理1.迭代式计算:Spark与
MapReduce
最大的不用在于其迭代式计算模型:
MapReduce
,分为两个阶段,map和reduce,两个阶段完成,就结束了。
SunnyMore
·
2023-07-14 06:57
HHU云计算期末复习(上)Google、Amazon AWS、Azure
文章目录第一章概论第二章Google云计算2.1Google文件系统(GFS)2.2
MapReduce
和Hadoop2.3分布式锁服务Chubby2.4分布式结构化数据表Bigtable存储形式主服务器子表
丸丸丸子w
·
2023-07-13 21:54
大数据
云计算
azure
阿里云
Hadoop基础——
MapReduce
1.Hadoop序列化和反序列化及自定义bean对象实现序列化?1)序列化和反序列化的含义序列化是将内存中的对象转换为字节序列,以便持久化和网络传输。反序列化就是将字节序列或者是持久化数据转换成内存中的对象。Java的序列化是一个重量级序列化框架(Serializable),一个对象被序列化后,会附带很多额外的信息,不便于在网络中高效传输,所以hadoop开发了一套序列化机制(Writable)2
YuannaY
·
2023-07-13 21:33
大数据组件
hadoop
mapreduce
大数据
Flink实现特定统计的归约聚合reduce操作
从大名鼎鼎的
MapReduce
开始,我们对reduce操作就不陌生:它可以对已有的数据进行归约处理,把每一个新输入的数据和当前已经归约出来的值,再做一个聚合计算。
·
2023-07-13 15:42
Hadoop的核心组件HDFS架构是怎样的?有什么优缺点?今天我们来聊下
就是因为这两个的存在,才会衍生出Spark、
MapReduce
、HBase等组件。今天我们就来聊下HDFS的核心原理。概念HDFS是
熊小哥~
·
2023-06-24 10:02
hadoop
hdfs
大数据
Hadoop的OutputFormat类
Hadoop的OutputFormat类介绍OutputFormat是一个用于描述
MapReduce
作业的输出格式和规范的抽象类,位于org.apache.Hadoop.
mapreduce
.OutputFormat.
Mapreduce
岁月的眸
·
2023-06-24 08:38
hadoop
mapreduce
大数据
MapReduce
分布式计算(三)
JSONJSON(JavaScriptObjectNotation)是一种轻量级的数据交换格式.JSON和Java对象的转换movie.txt{"movie":"1193","rate":"5","timeStamp":"978300760","uid":"1"}{"movie":"661","rate":"3","timeStamp":"978302109","uid":"2"}{"movie"
子非我104
·
2023-06-24 06:50
mapreduce
java
前端
MapReduce
分布式计算(四)
文件关联需求order.txtorder011u001order012u001order033u005order034u002order055u003order066u004order077u010user.txtu001,hangge,18,male,angelababyu002,huihui,58,female,ruhuau003,guanyu,16,male,chungeu004,laodu
子非我104
·
2023-06-24 06:50
数据库
大数据
Spark的核心RDD
ResilientDistributedDatasets弹性分布式数据集)铺垫1、在hadoop中一个独立的计算,例如在一个迭代过程中,除可复制的文件系统(HDFS)外没有提供其他存储的概念,这就导致在网络上进行数据复制而增加了大量的消耗,而对于两个的
MapReduce
·
2023-06-24 03:55
Spark 和
MapReduce
的对比
在此之前,我们先来了解一下
MapReduce
。
MapReduce
本质就是两个过程:Map切分和reduce聚合。一、内存计算spark将数据存储在内存中进行计算;
MapReduce
将数据存储在磁盘上。
five小点心
·
2023-06-24 00:27
#
spark
#
MapReduce
mapreduce
大数据
什么是AWS Lambda?
-----Container-------Lambda虚拟机---容器--------------serverless无服务器架构EC2(ElasticComputeCloud)EMR(Elastic
MapReduce
Data+Science+Insight
·
2023-06-23 15:12
大数据
python
数据挖掘
机器学习
深度学习
实验四:
MapReduce
初级编程实践
1.编程实现文件合并和去重操作对于两个输入文件,即文件A和文件B,编写
MapReduce
程序,对两个文件进行合并,并剔除其中重复的内容,得到一个新的输出文件C。
谢三公主
·
2023-06-23 12:07
mapreduce
hadoop
大数据
【Hadoop】使用
MapReduce
操作HBase
1环境准备1)成功搭建Hadoop-2.2.0开发环境2)成功启动HBase,通过HBaseShell进行测试3)使用MyEclipse作为开发工具4)使用Maven构建项目2创建项目这里我就不带大家如何创建项目了,细节可看HBaseJavaAPI练习中的操作,我们也是使用HBaseJavaAPI练习中的项目。3创建上传数据至HBase的类3.1WordCountUpLoadToHBase.cla
朝和(zixi0825)
·
2023-06-23 08:11
Hadoop
mapreduce
hbase
hadoop
《斯坦福数据挖掘教程·第三版》读书笔记(英文版) Chapter 2
MapReduce
and the New Software Stack
来源:《斯坦福数据挖掘教程·第三版》对应的公开英文书和PPTChapter2
MapReduce
andtheNewSoftwareStackComputingclustermeanslargecollectionsofcommodityhardware
皓哥好运来
·
2023-06-23 06:17
数据挖掘
笔记
数据挖掘
人工智能
上一页
39
40
41
42
43
44
45
46
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他