Reduce 第5页

SparkSQL入门学习

SparkSQLSparkSQL是构建在SparkRDD之上一款ETL（ExtractTransformationLoad）工具（类似Hive-1.x-构建在MapReduce之上）。

田晓彬·2025-05-14 16:12

TDengine 做为 Spark 数据源

简介ApacheSpark是开源大数据处理引擎，它基于内存计算，可用于批、流处理、机器学习、图计算等多种场景，支持MapReduce计算模型及丰富计算操作符、函数等，在大超大规模数据上具有强大的分布式处理计算能力

TDengine （老段）·2025-05-14 07:14

spark基本介绍

以下是其核心要点：核心特点1.内存计算：数据可驻留内存，大幅提升迭代计算（如机器学习、图计算）效率，比HadoopMapReduce快数倍至数十倍。

祈533·2025-05-13 23:49

搭建Hadoop平台（六）（实时更新，随时有新内容，注意多多查看）

目录/*在打开虚拟机之后，要先在master和slave1分别上输入:start-dfs.sh和start-yarn.sh来分别启动hdfs平台和yarn平台*/在mapreduce上运行内置程序1.配置环境变量

Patrick_kafka·2025-05-13 20:32

Spark和Scala的关系

可是λ表达式Java也有，map/reducejava也有，速度上java也会比scala快，心想一定是自己见识不够，无法领悟。

tech_for_future·2025-05-13 14:50

MapReduce之分区器(Partitioner)，这份333页关于性能优化知识点的PDF你不能不看

前言在学习Java基础的过程中，泛型绝对算得上是一个比较难理解的知识点，尤其对于初学者而言，而且就算是已经有基础的Java程序员，可能对泛型的理解也不是那么透彻，属于那种看了明白，时间长了就忘的那种，究其根本，还是对泛型不够理解。大部分人对泛型的认识：“基础知识，但是比较模糊”publicclassHashPartitionerimplementsPartitioner{publicvoidcon

代码可可西·2025-05-13 10:53

MapReduce中分区数与ReduceTask个数关系比较

在MapReduce中如果不设置ReduceTask个数时，默认为1；如果我们使用了自定义分区，那么同时也需要在主类中设置ReduceTask个数，此时要注意分区个数与ReduceTask个数之间的不同组合会产生以下不同结果

QYHuiiQ·2025-05-13 10:20

第0章计算机概论

精简指令集（ReducedInstructionSetComputing，RISC）SPARC架构：常用于学术领域的大型工作站中；PowerPC架构：如Sony公司的PalyStation3；ARM架构

allinallinallin·2025-05-13 04:47

高性能MPI编程实验

文章目录一、实验目的二、实验要求三、华为云平台的功能特性和实践关键步骤四、高性能MPI编程开发关键过程五、WordCount算法的MPI实现关键点六、MPI编程与MapReduce的比较分析七、小结一、

看不见的罗辑·2025-05-13 04:16

Hadoop运行模式介绍

该模式下，HDFS和MapReduce的守护进程不会启动，而是直接在本地文件系统中处理数据。主要用于开发和测试阶段，无需设置复杂的集群环境。

转身成为了码农·2025-05-12 22:41

【5G通信】redcap和bwp 随手记

而在RedCap（ReducedCapability）终端和非RedCap终端中，BWP的应用有所不同，特别是CDBWP（Cell-Defi

不知道叫什么呀·2025-05-12 14:15

【Hadoop】核心组件深度剖析：HDFS、YARN与MapReduce的奥秘

明明跟你说过：个人主页个人专栏：《大数据前沿：技术与应用并进》行路有良友，便是天堂目录一、引言1、Hadoop简介2、Hadoop生态系统概览二、HadoopDistributedFileSystem(HDFS)深度解析1、HDFS核心概念2、HDFS工作机制3、HDFS的优势与局限三、YetAnotherResourceNegotiator(YARN)架构剖析1、YARN诞生背景与意义2、YAR

明明跟你说过·2025-05-12 10:12

大数据生态守护：Hadoop的深度保护策略

PART1从Hadoop运行原理透视数据保护需求1、Hadoop的定义与范畴Hadoop，狭义而言，是一个专为大数据设计的分布式存储与计算平台，其核心组件包括HDFS（Hadoop分布式文件系统）、MapReduce

云祺vinchin·2025-05-12 08:06

谈谈云计算部署方式——关于分布化实现

转:http://labs.chinamobile.com/mblog/107231_26831前言：我们在以前的文章（对云计算中几种基础设施（Dynamo,Bigtable,Map/Reduce等）的朴素看法

chaoqunz·2025-05-12 00:38

Hadoop生态系统：如何高效处理大规模数据集？

不过，很多人对Hadoop还停留在“分布式存储+MapReduce”的基础认知上，而如今的Hadoop生态系统早已发展

Echo_Wish·2025-05-11 17:56

Hadoop中的集群配置规划

在Hadoop3.X中，hadoop一共有三个组成部分：MapReduce，Yarn，HDFS。它们的作用如下：MapReduce:用来提供计算。HDFS:用来提供文件存储功能。

End928·2025-05-11 17:22

Hive JOIN 优化策略详解

BucketJoin、SMBJoin的核心概念、实现原理及适用场景：1.SkewJoin（倾斜连接）问题背景数据倾斜：某些JOIN键的数据量远高于其他键（如用户ID为123的订单占全表50%），导致部分Reducer

静听山水·2025-05-11 10:42

hive分桶表join_Hive:JOIN及JOIN优化 2015.10.25

1.Join的基本原理大家都知道，Hive会将所有的SQL查询转化为Map/Reduce作业运行于Hadoop集群之上。

贺叔·2025-05-11 09:07

pytorch验算CrossEntropyLoss ，BCELoss 和 BCEWithLogitsLoss

nn.CrossEntropyLoss三种方式计算交叉熵：(classtorch.nn.CrossEntropyLoss(weight=None,size_average=None,ignore_index=-100,reduce

咕噜咕噜day·2025-05-11 05:08

【VSCode】ES7 React/Redux/GraphQL/React-Native snippets 插件详解

文章目录一、插件简介1.插件的作用2.安装与配置二、常用代码片段介绍1.React代码片段1.1函数组件1.2类组件2.Redux代码片段2.1创建action2.2创建reducer3.ReactHooks

Peter-Lu·2025-05-11 00:06

SparkStreaming之persist缓存

也允许用户将数据持久化到内存中，只需要使用DStream.persist()方法，就会自动将DSstream中的数据缓存在内存中，这对需要多次计算的DStream数据是一个很好的优化，对于window操作「比如reduceByWindow

稳哥的哥·2025-05-10 09:26

yarn的概述

支持多种计算框架（如MapReduce、Spark、Flink等）。提供资

洋芋爱吃芋头·2025-05-10 08:22

flink常用算子整理

Flink窗口等情况10.窗口举例前言提示：以下是本篇文章正文内容，下面案例可供参考1.重新分配(即打散)2.合并流的算子3.算子链操作*算子链是指在Flink作业中，将多个算子（如map、filter、reduce

工作中的程序员·2025-05-09 02:59

HDFS常用shell命令+MapReduce java编程+HBase常用shell命令+Spark python编程(RDD+df)

本文包含详细的HDFS常用shell命令+MapReducejava编程+HBase常用shell命令+Sparkpython编程(RDD+df)，本文档纯属个人整理，为了应对大数据期末考试的20分程序填空和

菜菜why·2025-05-09 01:25

TBB-Note-Algo-parallel_reduce

TBB学习笔记七（[Algorithms.parallel_reduce]）《Today’sTBB2ndEdition》parallel_reduce 先引入两个概念：归约（reduce）和前缀和（scan

cracker:)·2025-05-08 22:37

揭秘大数据 | 16、OLAP 那些事儿

OLAP阵营主要有两大主流，一大主流是基于MapReduce而构建的Hadoop生态圈，另一大主流是MPP数据库阵营。

XAI嬴图·2025-05-07 09:44

Spark Shuffle参数调优的原理与建议

对性能消耗的原理详解SparkShuffle过程中影响性能的操作：Spark压缩算法的比较如何调优Spark配置参数的源码详解(Spark2.3)spark.shuffle.managerspark.reducer.maxReqsInFlight

聆听金生·2025-05-07 08:36

Spark，所用几个网页地址

文件上传，下载2.MapReduce：计算。

Amu_Yalo·2025-05-07 07:33

大数据领域分布式存储的分布式社交数据处理

从分布式存储架构设计、数据分片策略、一致性协议等核心概念出发，结合MapReduce/Spark分布式计算框架，解析社交数据处理中的高并发、低延迟、高可用技术挑战。通过Python代码实现数

大数据洞察·2025-05-07 07:30

Hadoop总结

目录大数据概述Hadoop大数据开发平台资源管理YARN分布式文件系统HDFS非关系型数据库NOSQL分布式数据库HBASE批处理和MapReduce数据仓库查询分析和Hive基于内存计算的Spark流计算和

Ajekseg·2025-05-06 14:52

Kotlin高阶函数

Kotlin中常用的高阶函数前言一、forEach二、map三、flatMap四、reduce五、fold六、filter七、takeWhile八、let九、apply九、with十、use结束语前言使用

宇暮溪·2025-05-05 22:08

【LangChain】load_qa_chain 迁移到 LCEL 链

LangChainDeprecationWarning，提示load_qa_chain函数及其相关类（如StuffDocumentsChain）已废弃，推荐根据chain_type（如stuff、map_reduce

彬彬侠·2025-05-05 04:10

ES6/ES11知识点续三

functionsum(...numbers){returnnumbers.reduce((total,num)=>to

layman0528·2025-05-04 08:33

spark和hadoop之间的关系对比

1处理速度Hadoop：HadoopMapReduce基于磁盘进行数据处理，数据在Map和Reduce阶段会频繁地写入磁盘和读取磁盘，这使得数据处理速度相对较慢，尤其是在处理迭代式算法和交互式查询时，性能会受到较大影响

锅包肉的九珍·2025-05-04 07:52

用MapReduce把hdfs数据写入HBase中

1.使用Map+Reduce方式publicclassMapReduceImport{/***Mapper*/staticclassHMapperextendsMapper{Textv2=newText

Java海洋·2025-05-04 02:54

【hadoop】案例：MapReduce批量写入HBase

1.需求分析我们仍然以美国各个气象站每年的气温数据集为例，现在要求使用MapReduce读取该数据集，然后批量写入HBase数据库，最后利用HBaseshell根据行键即席查询气温数据。

火龙谷·2025-05-04 02:53

深入解析MapReduce：大数据处理的经典范式

Hadoop生态中的MapReduce框架应运而生，以其“分而治之”的思想解决了大规模数据的并行计算问题。本文将从原理、核心组件到实战案例，带你全面理解这一经典计算模型。

widder_·2025-05-03 22:26

hadoop数据清洗

packagecom.root.mapreduce.weblog;importjava.io.IOException;importorg.apache.hadoop.io.LongWritable;importorg.apache

富能量爆棚·2025-05-03 18:29

【Hive入门】Hive性能调优之资源配置：深入解析执行引擎参数调优

目录前言1Hive执行引擎概述2MapReduce引擎调优2.1Map阶段资源配置2.2Reduce阶段资源配置2.3并发控制参数3Tez引擎调优3.1Tez架构概述3.2内存配置3.3并发与并行度4Spark

IT成长日记·2025-05-03 16:45

Impala原理与代码实例讲解

MapReduce等批处理框架虽然能够处理海量数据,但是延迟较高,无法满足实时交互式查询的需求。

AI天才研究院·2025-05-03 14:35

0901context_useReducer_状态管理-react-仿低代码平台项目

文章目录1React状态管理概述1.1why&what1.2React内置状态管理1.3主流第三方库1.3.1Redux1.3.2MobX1.3.3Recoil1.3.4Zustand1.4选型建议1.5高级模式1.6常见问题1.7总结2Context2.1Context的核心作用2.1.1解决的问题2.1.2核心三要素二、基础使用示例1.创建Context2.提供Context3.消费Conte

gaog2zh·2025-05-03 11:42

Hive性能调优详解系列之hive建表设计层面调优_数仓工程师必备hive调优方案

影响Hive效率的几乎从不是数据量过大，而是数据倾斜、数据冗余、Job或I/O过多、MapReduce分配不合理等等。

老姜的数据江湖·2025-05-03 08:25

Scala中的for循环遍历和yield详解

K-V对的RDD遍历valhashpartitionCounts:RDD[(String,Int)]=kvpartitionRDD.reduceByKey((x,y)=>x+y)hashpartitionCounts.foreach

for your wish·2025-05-03 06:05

Spark和Hadoop之间的对比和联系

Spark和Hadoop都是大数据处理领域的重要框架，它们之间的对比和联系如下：对比-计算模型：Hadoop采用MapReduce计算模型，将任务分为Map和Reduce两个阶段，适用于批处理。

祈533·2025-05-02 06:57

【Hadoop核心技术】

《Hadoop核心技术》一、定义与概述二、Hadoop基础架构三、MapReduce编程模型四、Hadoop生态系统组件一、定义与概述Hadoop是一个开源的分布式计算平台，主要用于存储和处理大规模数据集

谭雪华·2025-04-30 23:33

深入蜂窝物联网第四章 Cat-1 与 5G RedCap：带宽、低时延与未来趋势

1.前言与应用场景随着物联网对带宽与时延的需求不断增长，LTECat-1和5GRedCap（ReducedCapability）应运而生：Cat-1：在传统LTE网络上提供最高10Mbps下行、5Mbps

damo王·2025-04-30 12:55

【课程笔记】华为 HCIA-Big Data 大数据总结

目录HDFS分布式文件系统ZooKeeper分布式应用程序协调服务HBase非关系型分布式数据库Hive分布式数据仓库ClickHouse列式数据库管理系统MapReduce分布式计算框架Yarn资源管理调度器

淵_ken·2025-04-29 22:12

大数据核心面试题（Hadoop，Spark，YARN）

5.解释MapReduce编程模型及其主要组成部分。6.HDFS的读写流程是怎样的？7.什么是SecondaryNameNode？它的作用是什

闲人编程·2025-04-29 12:53

Python 一等函数(支持函数式编程的包)

我们可以使用reduce函数（5.2.1节是这么做的

钢铁男儿·2025-04-29 07:24

React第十五节useReducer使用详解差异

useReducer()的用法注意事项1、概述：useReducer()常用于管理复杂的状态更新逻辑，特别是在状态更新依赖于多个条件或动作时，useReducer提供了一种更加结构化和可维护的方式来处理状态

刺客-Andy·2025-04-29 05:02

推荐频道

Reduce