E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
spark
Spark
Core编程
一文读懂
Spark
Core编程核心要点最近在学习大数据处理框架
Spark
,今天来给大家分享一下
Spark
Core编程中非常重要的内容,包括RDD算子、累加器和广播变量,希望能帮助大家更好地理解和掌握
Spark
美味的大香蕉
·
2025-04-12 03:16
笔记
大数据技术之Scala
Spark
运行架构核心是一个计算引擎核心组件1.Driver(驱动器)角色:
Spark
作业的“大脑”,负责解析用户代码、生成任务并调度执行。功能:将用户程序转换为作业(Job)。
罗婕斯特
·
2025-04-12 02:42
scala
scala中迭代器
操作的值而第二段代码是通过iterator然后在调用flatMap方法可以看到结果是交替输出每次计算好一个值然后输出然后在计算在输出因此可以得到scalaiternator是懒执行的不会直接计算结果,这在
spark
ThomasgGx
·
2025-04-11 19:56
spark
scala
spark
开发语言
【大数据分析】基于
Spark
大数据商品数据分析可视化系统(完整系统源码+数据库+开发笔记+详细部署教程+虚拟机分布式启动教程)✅
文章目录【大数据分析】基于
spark
大数据商品数据分析可视化系统(完整系统源码+数据库+开发笔记+详细部署教程+虚拟机分布式启动教程)✅一、项目背景二、项目目标三、项目功能四、项目优势五、应用场景六、开发技术介绍七
奥特曼it
·
2025-04-11 15:58
Spark
scikit-learn
Hive
大数据
分布式
数据分析
spark
介绍与编程
什么是RDDRDD(ResilientDistributedDataset)叫做弹性分布式数据集,是
Spark
中最基本的数据处理模型。
zzh-
·
2025-04-11 13:46
笔记
【无标题】
spark
编程
RDD[T]defdistinct(numPartitions:Int)(implicitord:Ordering[T]=null):RDD[T]➢函数说明将数据集中重复的数据去重valdataRDD=
spark
Context.makeRDD
zzh-
·
2025-04-11 13:46
笔记
【无标题】
spark
core编程
Spark
默认的分区器是HashPartitionervalrdd:RDD[(Int,String)]=sc.makeRDD(Array((1,"aaa"),(2,"bbb"),(3,"ccc")),3
zzh-
·
2025-04-11 13:46
笔记
scala和
spark
用到的依赖_使用scala开发
spark
入门总结
使用scala开发
spark
入门总结一、
spark
简单介绍关于
spark
的介绍网上有很多,可以自行百度和google,这里只做简单介绍。
淡庸
·
2025-04-11 13:15
hive on
spark
报错解决(基于hive-3.1.3和
spark
-2.3.0)
相关配置可参考:https://blog.csdn.net/weixin_46389691/article/details/134126254原作者:月亮给我抄代码他写的很详细ERROR:Jobfailedwithjava.lang.IllegalAccessError:triedtoaccessmethodcom.google.common.base.Stopwatch.()Vfromclass
我不会敲代码a
·
2025-04-11 13:11
hive
spark
hadoop
构建高可用大数据平台:Hadoop与
Spark
分布式集群搭建指南
Hadoop和
Spark
作为大数据处理的“黄金搭档”,如何在分布式高可用(HA)环境下稳如磐石地运行?答案就在于一个精心构建的HA运行环境。它不仅能扛住故障,还能让你的测试效率起飞。
朱公子的Note
·
2025-04-11 07:38
分布式
hadoop
spark
大数据测试
Spark
Core学习总结
一、
Spark
运行架构1.核心组件Driver(驱动器):执行main方法,负责将用户程序转换为作业(Job)。调度任务(Task)到Executor,并监控任务执行状态。通过UI展示作业运行情况。
淋一遍下雨天
·
2025-04-11 07:01
spark
学习
大数据
Spark
Core
以下是今天学习的知识点与代码测试:
Spark
Core
Spark
-Core编程(二)RDD转换算子RDD根据数据处理方式的不同将算子整体上分为Value类型、双Value类型和Key-Value类型。
[太阳]88
·
2025-04-11 07:01
windows
python
linux
大数据分析(
Spark
/Flink实时计算)
(即生成、即决策分析)Apache
Spark
和ApacheFlink是两种广泛使用的开源框架,它们在处理实时数据流方面各有优势。
小柚净静
·
2025-04-10 22:12
spark
flink
大数据
spark
第二章
Spark
Core第四节RDD相关概念
Spark
计算框架为了能够进行高并发和高吞吐的数据处理,封装了三大数据结构,用于处理不同的应用场景。
sho_re
·
2025-04-10 22:08
spark
spark
core
Spark
Core一、
Spark
-Core编程(二)1、RDD转换算子RDD根据数据处理方式的不同将算子整体上分为Value类型、双Value类型和Key-Value类型。
北屿升:
·
2025-04-10 17:07
新浪微博
微信
facebook
微信公众平台
百度
spark
架构和RDD相关概念
运行架构:
Spark
采用master-slave结构,Driver作为master负责作业任务调度,Executor作为slave负责实际执行任务。
小名叫咸菜
·
2025-04-10 16:30
spark
架构
Spark
Core编程
在大数据处理领域,
Spark
Core是极为重要的框架,而其中的算子则是数据处理的核心武器。今天就来给大家讲讲
Spark
Core编程中的各类算子。Value类型算子是基础。
不要天天开心
·
2025-04-10 12:05
scala
算法
机器学习
Flink在饿了么的应用与实践
本文作者:易伟平(饿了么)整理:姬平(阿里巴巴实时计算部)本文将为大家展示饿了么大数据平台在实时计算方面所做的工作,以及计算引擎的演变之路,你可以借此了解Storm、
Spark
、Flink的优缺点。
Apache Flink
·
2025-04-10 10:51
Flink
大数据
实时计算
大数据
Flink
实时计算
流计算
Spark
RDD数据数据读取:readTextFile和HadoopRDD
《
Spark
RDD数据读取:readTextFile和HadoopRDD》1.背景介绍1.1问题的由来在大数据时代,数据的规模和复杂性都在不断增长。传统的数据处理方式已经无法满足现代应用的需求。
AI天才研究院
·
2025-04-10 10:49
AI大模型企业级应用开发实战
DeepSeek
R1
&
大数据AI人工智能大模型
计算
计算科学
神经计算
深度学习
神经网络
大数据
人工智能
大型语言模型
AI
AGI
LLM
Java
Python
架构设计
Agent
RPA
3.4
Spark
RDD运行架构
文章目录基本概念1、什么是RDD2、其他概念
Spark
架构设计
Spark
运行流程RDD运行原理1、RDD概念2、RDD的特性高效的容错性3、RDD运行过程RDD之间的依赖关系Shuffle操作RDD的优势
炫云云
·
2025-04-10 10:49
大数据
算法和数据结构
大数据
spark
hadoop
操作系统
linux
spark
运行架构
Spark
运行架构1.运行架构
Spark
采用标准的masterslave结构:Driver:作为master,负责执行
Spark
任务的main方法,管理作业调度、任务分配、Executor跟踪及UI展示
不要不开心了
·
2025-04-10 09:46
神经网络
计算机视觉
pygame
Spark
RDD相关概念
Spark
运行架构与核心组件1.
Spark
运行梁构
spark
运行架构包括master和slave两个主要部分。master负责管理整个集群的作业任务调度,而slave则负责实际执行任务。
企鹅不耐热.
·
2025-04-10 09:46
spark
大数据
分布式
大数据(5)(基础概念)
Spark
从入门到实战:核心原理与大数据处理实战案例
目录一、背景介绍1.为什么需要
Spark
?
一个天蝎座 白勺 程序猿
·
2025-04-10 08:07
大数据开发从入门到实战合集
大数据
spark
分布式
运行
Spark
会出现恶问题
1.依赖冲突问题:
Spark
依赖众多组件,如Scala、Hadoop等。不同版本的依赖之间可能存在兼容性问题,导致
Spark
无法正常运行。
不要天天开心
·
2025-04-10 05:18
spark
Spark
案例之流量统计(三种方法)
数据集1,2020-02-1814:20:30,2020-02-1814:46:30,201,2020-02-1814:47:20,2020-02-1815:20:30,301,2020-02-1815:37:23,2020-02-1816:05:26,401,2020-02-1816:06:27,2020-02-1817:20:49,501,2020-02-1817:21:50,2020-02-
AokCap
·
2025-04-10 05:18
Spark
spark
scala
大数据
大数据开发-
Spark
-RDD实操案例-http日志分析
1.在生产环境下,如何处理配置文件&&表的数据处理配置文件,或者配置表,一般是放在在线db,比如mysql等关系型数据库,或者后台rd直接丢给你一份文件,数据量比起整个离线数据仓库的大表来说算很小,所以这种情况下,一般的做法是将小表,或者小文件广播出去,那么下面一个例子来看,广播表的使用解决ip地址映射问题数据地址:链接:https://pan.baidu.com/s/1FmFxSrPIynO3u
Hoult-吴邪
·
2025-04-10 05:17
Spark
源码解析(二) 根据
Spark
Rpc 自己动手实践一个跨节点通信
目录一、框架流程:二、Maven搭建Scala导入POM依赖三、根据流程进行编写1、实例Master2、创建RpcEnv3、创建RpcEndpoint4、生成RpcEndpointRef5、RpcEndpointRef发送消息6、防止还没收到消息程序就结束运行7、验证一下,看看结果四、完整代码一、框架流程:1、实例Master2、创建RpcEnv3、Master向RpcEnv注册4、生成RpcEn
小白的大数据历程
·
2025-04-09 19:10
Spark源码解析
spark
大数据
分布式
Invicti v25.3.0 发布,新增功能概览
Invictiv25.3.0forWindows-Web应用程序安全测试Invicti(formerlyNet
spark
er)|WebApplicationandAPISecurityforEnterprise
·
2025-04-09 17:39
web安全
Kafka原理详细介绍
)、多副本的(replica),基于zookeeper协调的分布式消息系统,它的最大的特性就是可以实时的处理大量数据以满足各种需求场景:比如基于hadoop的批处理系统、低延迟的实时系统、storm/
Spark
_Romeo
·
2025-04-09 12:24
kafka
kafka
Spark
修炼之道(基础篇)——Linux大数据开发基础:第十一节:Shell编程入门(三)
具体如下://用()定义一个数组,注意数组元素间不能用,否则达不到预期目的root@
spark
master:~/ShellLearn
zhouzhihubeyond
·
2025-04-09 05:14
Linux
Spark修炼之道
大数据
shell
【
Spark
】架构与核心组件:大数据时代的必备技能(下)
明明跟你说过:个人主页个人专栏:《大数据前沿:技术与应用并进》行路有良友,便是天堂目录一、引言1、什么是Apache
Spark
2、
Spark
的应用场景:二、
Spark
核心组件之一:RDD1、什么是RDD2
明明跟你说过
·
2025-04-09 05:11
大数据前沿:技术与应用并进
spark
架构
大数据
大数据架构师选型必懂:大数据离线数仓开发框架详解与对比(hive、
Spark
SQL、Impala、Doris)
第一章相关理论1.1大数据离线数仓理论1.1.1基本原理大数据离线数仓,作为一个专门构建用于支持决策分析过程的数据集合,具有面向主题、集成、不可更新以及随时间变化的特点。其核心价值在于,通过对历史数据的深度存储、精细加工、全面整合与深入分析,能够为企业或组织提供一个多角度、多维度的数据视图,从而助力高层管理者做出更为明智与精准的决策。1.2SQL-on-Hadoop解决方案SQL-on-Hadoo
大模型大数据攻城狮
·
2025-04-09 05:10
大数据
hive
spark
大数据架构师
doris面试
数仓选型
数据仓库
Spark
基础之Scala知识总结
史上最全的Scala知识点整理第一章变量及基本数据类型1.1注释1.2标识符命名规范1.3变量1.4字符串1.5数据读取1.6数据类型1.6.1概述1.6.2类型转换1.7运算符第二章流程控制2.1块表达式2.2If判断2.3For循环2.3.1Scala中方法调用的两种方式2.3.2基本语法2.3.3循环返回值2.4While循环2.5Switch2.6中断循环第三章面向函数编程3.1概念3.2
Jason_0to
·
2025-04-08 20:14
大数据
scala
spark
java
Py
Spark
二:常见数据格式及如何读写
在日常工作中,常见的数据文件格式有csv,json和parquet.Comma-separatedvalues(CSV)是一种直接以纯文本方式保存的文件,通常第一行定义了列名,后面是数据。没列之间用逗号分割。因为这个格式是纯文本的,几乎可以用文本编辑器都可以打开。Json也是常见的格式,个人理解可以看做是Key-valuepair来保存数据。如果有很多行数据,每一行的数据都有相同的key的话,个人
·
2025-04-08 20:41
pysparkpython
Spark
性能优化高频面试题及答案
目录高频面试题及答案1.如何通过调整内存管理来优化
Spark
性能?2.如何通过数据持久化优化性能?3.如何通过减少数据倾斜(DataSkew)问题来优化性能?
闲人编程
·
2025-04-08 15:09
程序员面试
spark
性能优化
java
高频
面试
Spark
简介
Spark
是使用Scala语言编写、基于内存运算的大数据计算框架。
upupfeng
·
2025-04-08 11:14
Spark
spark
大数据(5)
Spark
部署核弹级避坑指南:从高并发集群调优到源码级安全加固(附万亿级日志分析实战+智能运维巡检系统)
目录背景一、
Spark
核心架构拆解1.分布式计算五层模型二、五步军工级部署阶段1:环境核弹级校验阶段2:集群拓扑构建阶段3:黄金配置模板阶段4:高可用启停阶段5:安全加固方案三、万亿级日志分析实战1.案例背景
一个天蝎座 白勺 程序猿
·
2025-04-08 11:43
大数据开发从入门到实战合集
大数据
spark
运维
Python 中的错误处理与调试技巧
大数据技术:涵盖Hadoop(HDFS)、Hive、
Spark
、Fli
王子良.
·
2025-04-08 09:00
python
经验分享
python
开发语言
数据分析开源可视化工具
superset简单易用,可以对接mysql、presto、doris、postgresql、ClickHouse、
spark
SQL、hive、oracle、sqlserver、Elasticsearch
PONY LEE
·
2025-04-08 07:17
数据可视化
数据分析
数据可视化
(五)
Spark
大数据开发实战:豆瓣电影数据处理与分析(python版)
目录一、Py
Spark
二、数据介绍三、Py
Spark
大数据开发实战1、数据文件上传HDFS2、导入模块及数据3、数据统计与分析①、计算演员参演电影数②、依次罗列电影番位前十的演员③、按照番位计算演员参演电影数
小楼一夜听春雨258
·
2025-04-08 01:09
大数据
python
大数据
spark
分布式
Spark
零基础入门实战(五)使用Eclipse创建Scala项目
本节讲解在Windows中使用ScalaforEclipseIDE编写Scala程序。安装ScalaforEclipseIDEScalaforEclipseIDE为纯Scala和混合Scala与Java应用程序的开发提供了高级编辑功能,并且有非常好用的Scala调试器、语义突出显示、更可靠的JUnit测试查找器等。ScalaforEclipseIDE的安装有两种方式:一种是在Eclipse中单击H
大数据张老师
·
2025-04-07 22:48
Spark3.X
零基础入门实战
scala
开发语言
后端
Spark
内容分享(二十七):阿里云基于
Spark
的云原生数据湖分析实践
目录
Spark
与云原生的结合1.传统
Spark
集群的痛点2.
Spark
与云原生结合的优势
Spark
onK8s原理介绍1.
Spark
的集群部署模式2.
Spark
onK8s的部署架构3.
Spark
onK8s
之乎者也·
·
2025-04-06 23:24
Spark
内容分享
云原生内容分享
spark
阿里云
云原生
Delta Lake 解析:架构、数据处理流程与最佳实践
DeltaLake是一个基于Apache
Spark
的开源存储层,主要解决传统数据湖(DataLake)缺乏ACID事务、数据一致性和性能优化的问题,使大数据处理更加可靠、高效。
codebat_raymond
·
2025-04-06 22:48
数据仓库
数据库架构
Spark
大数据处理讲课笔记4.1
Spark
SQL概述、数据帧与数据集
文章目录零、本讲学习目标一、
Spark
SQL(一)
Spark
SQL概述(二)
Spark
SQL功能(三)
Spark
SQL结构1、
Spark
SQL架构图2、
Spark
SQL三大过程3、
Spark
SQL内部五大组件
酒城译痴无心剑
·
2025-04-05 20:59
Spark大数据处理讲课笔记
spark
笔记
sql
Spark
(13)HDFS概述
一)HDFS的产生背景及定义1.HDFS产生背景随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。2.HDFS定义HDFS(HadoopDistributedFileSystem),它是一个文件系统,用于存储文件,通过目录树来定位文件;其次,它是分布式的,由很多服务器联
北随琛烬入
·
2025-04-05 20:27
spark
hdfs
大数据
K-means聚类自定义距离计算的开源算法选择
如果你想自己定义一个距离的function的话,scikit-learn是不行的,只支持Euclideandistance如果你觉得
spark
可以的话,实际上sprk的k-means也是不行的,好一点的是支持
小小她爹
·
2025-04-05 11:58
大数据与自然语言处理
配置Hadoop集群远程客户端
在Hadoop和
Spark
集群搭建好了以后,如果我们需要向集群中发送、获取文件,或者是执行MapReduce、
Spark
作业,通常是搭建一个外围的、集群的客户端,在这个客户端上进行操作。
赶路人儿
·
2025-04-05 02:58
hadoop
#
spark
hadoop
大数据
big
data
大数据(4.1)Hive架构设计与企业级实战:从内核原理到性能巅峰优化,打造高效数据仓库
目录背景与行业痛点一、Hive内核机制深度拆解1.元数据管理的艺术:Metastore核心原理2.执行引擎的底层博弈:MapReducevs.Tezvs.
Spark
二、企业级数仓建模实战:金融风控场景
一个天蝎座 白勺 程序猿
·
2025-04-05 01:21
大数据开发从入门到实战合集
数据仓库
hive
hadoop
Spark
常用参数解释及建议值
spark
的默认配置文件位于堡垒机上的这个位置:$
SPARK
_CONF_DIR/
spark
-defaults.conf,用户可以自行查看和理解。
螺丝钉X先生
·
2025-04-04 10:43
Spark
Spark
Audio 是什么,和其他的同类 TTS 模型相比有什么优势
而
Spark
Audio的出现,就像是音频
涛涛讲AI
·
2025-04-04 10:43
大模型
人工智能
TTS
python
django
上一页
10
11
12
13
14
15
16
17
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他