E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
spark
spark
简介和核心编程
简介1.
Spark
-SQL概述:
Spark
SQL是
Spark
处理结构化数据的模块,前身是Shark。
小名叫咸菜
·
2025-05-03 06:06
spark
Kafka使用教程
流处理:与流处理框架(如ApacheFlink、Apache
Spark
Streaming)结合,进行实时数据分析。微服务通信:作为微服务架构中的消息中间件,实现服务间异步通信。物联网(IoT):
大三小小小白
·
2025-05-03 05:03
kafka
分布式
在
Spark
集群中搭建Standalone
1.Standalone模式介绍
Spark
Standalone模式是一种独立的集群部署模式,自带完整的服务,可单独部署到一个集群中,无需依赖任何其他资源管理系统。
Betty_蹄蹄boo
·
2025-05-03 01:04
spark
大数据
分布式
在
Spark
中通过jps命令看到的进程名,是哪个命令产生有什么作用
Hadoop分布式系统中的相关进程:Worker:产生命令:yarn命令产生。作用:在YARN(YetAnotherResourceNegotiator)中,Worker(通常指NodeManager)负责管理单个节点上的资源和任务执行。它与ResourceManager通信,接收并执行分配给它的任务。NodeManager:产生命令:yarn命令产生。作用:NodeManager是YARN中的节
Betty_蹄蹄boo
·
2025-05-03 01:34
spark
大数据
分布式
搭建
spark
yarn模式集群
如何搭建
Spark
Yarn模式集群1.前置条件准备在开始搭建
Spark
YARN集群之前,需要确保Hadoop和YARN已经正常部署并运行。
只因只因爆
·
2025-05-03 01:03
spark
大数据
分布式
Hadoop 和
Spark
生态系统中的核心组件
一、Worker1.来源:
Spark
集群的工作节点(WorkerNode),由start-worker.sh启动2.作用:①在从节点上运行,负责执行Master分配的任务。
心仪悦悦
·
2025-05-03 00:59
hadoop
spark
大数据
在 IDEA 中编写
spark
wordcount 程序
将程序打成jar包上传到集群运行1、创建一个maven项目2、安装scala插件3、在项目中添加scala插件4、添加pom依赖1.2.171.7.222.1.12.11.82.7.2org.apache.
spark
spark
-core
火成哥哥
·
2025-05-02 23:53
spark
大数据
hadoop
scala
spark
log4j
Spark
,序列化反序列化
序列化反序列化的定义:序列化就是把内存中的对象,转换成字节序列(或其他数据传输协议)以便于存储到磁盘(持久化)和网络传输。反序列化就是将收到字节序列(或其他数据传输协议)或者是磁盘的持久化数据,转换成内存中的对象。先写一个类publicclassStudent{publicStudent(Stringname,intage){this.name=name;this.age=age;}Stringn
Amu_Yalo
·
2025-05-02 20:57
spark
大数据
分布式
在Azure Databricks中实现缓慢变化维度(SCD)的三种类型
在AzureDatabricks中使用Py
Spark
实现缓慢变化维度(SCD)的三种核心类型,需结合
Spark
SQL和DataFrameAPI的特性,并利用DeltaLake的事务支持。
weixin_30777913
·
2025-05-02 17:05
数据仓库
python
spark
azure
云计算
从Kafka读取数据
用
Spark
-Streaming从Kafka读取数据在大数据处理领域,
Spark
-Streaming和Kafka都是明星技术。
美味的大香蕉
·
2025-05-02 15:27
笔记
Kafka与
Spark
-Streaming
大数据处理的得力助手:Kafka与
Spark
-Streaming在大数据处理的领域中,Kafka和
Spark
-Streaming都是极为重要的工具。
美味的大香蕉
·
2025-05-02 15:27
笔记
跨领域大数据抓取与融合:Python爬虫实战指南
目录引言跨领域大数据抓取与融合的背景与意义技术选型与工具介绍Python爬虫框架:Scrapy、BeautifulSoup、Selenium数据处理与存储:Pandas、NumPy、MongoDB数据融合与分析:Py
Spark
Python爬虫项目
·
2025-05-02 12:36
2025年爬虫实战项目
大数据
python
爬虫
人工智能
开发语言
easyui
Spark
和Hadoop之间的对比和联系
Spark
和Hadoop都是大数据处理领域的重要框架,它们之间的对比和联系如下:对比-计算模型:Hadoop采用MapReduce计算模型,将任务分为Map和Reduce两个阶段,适用于批处理。
祈533
·
2025-05-02 06:57
虚拟机
如何在idea中写
spark
程序
在IntelliJIDEA中编写
Spark
程序是一个高效且便捷的方式,以下是一个详细的步骤指南,帮助你在IntelliJIDEA中创建和运行
Spark
程序。
lqlj2233
·
2025-05-01 14:13
intellij-idea
spark
java
如何在idea 中写
spark
程序
在IntelliJIDEA中编写
Spark
程序可以通过以下步骤进行:1.**安装Scala插件**:首先确保已经安装了Scala插件。
小萌新~~~~
·
2025-05-01 14:41
intellij-idea
spark
java
搭建
spark
-local模式
要搭建
Spark
的local模式,你可以按照以下步骤进行操作(以在Linux系统上安装为例,假设你已经安装了Java环境):1.下载
Spark
安装包:访问
Spark
官方网站(https://
spark
.apache.org
祈533
·
2025-05-01 13:38
虚拟机
Java架构师之路六、高并发与性能优化:高并发编程、性能调优、线程池、NIO、Netty、高性能数据库等。
-CSDN博客下篇:Java架构师之路七、大数据:Hadoop、
Spark
、Hive、HBase、Kafka等-CSDN博客高并发编程:高并发编程是指针对大量用户同时访问的情况下,如何设计和实现能够支持大规模并发访问的系统
述清-架构师之路
·
2025-05-01 07:28
Java架构师之路
java
性能优化
nio
spark
读写 parquet
SQLConf//ThisisusedtosetthedefaultdatasourcevalDEFAULT_DATA_SOURCE_NAME=buildConf("
spark
.sql.sources.default
zhixingheyi_tian
·
2025-05-01 07:54
大数据
spark
spark源码分析
spark
大数据
分布式
maven 中,使用shadedClassifierName配置项,解决jar自带版本号的问题
增加以下两行配置truewith-
spark
-${
spark
.internal.version}就可以使得编译的jar包带上指定的后缀mavenorg.apache.maven.pluginsmaven-shade-plugin3.1.0truewith-
spark
zhixingheyi_tian
·
2025-05-01 07:24
大数据
spark
maven
jar
spark
Spark
之 kvstore
参考链接https://blog.csdn.net/LS_ice/article/details/86610537https://www.cnblogs.com/byzgss/p/15780923.htmlhttps://blog.csdn.net/nazeniwaresakini/article/details/104220186kvstore的几种实现:InMemoryStore是在内存中维护
zhixingheyi_tian
·
2025-05-01 07:54
spark
Spark
之 ArrayType
ArrayTypedefinitioncaseclassArrayType(elementType:DataType,containsNull:Boolean)extendsDataType{/**No-argconstructorforkryo.*/protecteddefthis()=this(null,false)private[sql]defbuildFormattedString(pre
zhixingheyi_tian
·
2025-05-01 07:54
spark
spark
大数据
big
data
Spark
SQL的基本架构与DataFrame概述
一、
Spark
SQL的基本概念1,
Spark
SQL的组成
Spark
SQL是
Spark
的一个结构化数据处理模块,提供一个DataFrame编程抽象,可以看做是一个分布式SQL查询引擎。
晓之以理的喵~~
·
2025-05-01 07:53
大数据
Hadoop
Spark
spark
sql
架构
spark
SQL优化器catalyst学习
一、Catalyst概述Catalyst是
Spark
SQL的优化器,它负责将SQL查询转换为物理执行计划。Catalyst优化器的目标是生成高效的执行计划,以最小化查询的执行时间。
极度丶浚爱
·
2025-05-01 06:22
spark
sql
学习
Spark
SQL 之 DAG
SQLAppStatusListeneraccumsoverridedefonTaskEnd(event:
Spark
ListenerTaskEnd):Unit={if(!isSQLStage
zhixingheyi_tian
·
2025-05-01 06:20
spark
spark
大数据
分布式
全开源彩虹易支付系统源码搭建教程附源码
为了实现高效的数据处理和分析,系统使用了大数据技术,包括分布式数据存储和计算框架,如Hadoop、
Spark
等。源码演示站:fakaysw.top数据库技术:彩虹易支付系统需要存储用
qinheyan
·
2025-04-30 16:22
开源
Spark
On YARN环境配置
一、准备工作点击查看
Spark
StandaloneHA环境配置教程二、修改配置文件一、修改
spark
-env.shcd/export/server/
spark
/confvim/export/server
飞Link
·
2025-04-30 10:14
Water
spark
yarn
hadoop
相关进程名对应的启动命令及其作用
WorkerNodeManagerDataNodeMasterNameNodeJobHistoryServerHistoryServer这些进程名对应的启动命令及其作用:1.Worker-**产生命令**:在
Spark
Standalone
谁偷了我的炒空心菜
·
2025-04-30 10:13
前端
开发语言
spark
hadoop
hdfs
Spark
配置 YARN 模式
在大数据处理领域,
Spark
是一个强大的分布式计算框架,而YARN(YetAnotherResourceNegotiator)则是Hadoop生态系统中出色的资源管理器。
谁偷了我的炒空心菜
·
2025-04-30 10:42
spark
大数据
yarn
大数据教程:
Spark
Shell和IDEA中编写
Spark
程序
spark
-shell是
Spark
自带的交互式Shell程序,方便用户进行交互式编程,用户可以在该命令行下用Scala编写
Spark
程序。
spark
-shell程序一般用作
Spark
程序测试练习来用。
yiyidsj
·
2025-04-29 23:22
大数据
人工智能
互联网
Spark
大数据
大数据开发
大数据分析
大数据学习
在 idea上用编写
spark
程序链接hive
在idea上用编写
spark
程序链接hive在idea上编写
spark
程序,pom文件上要包含hive依赖,网上大把,链接hive其实可以不用将hdfs,core等文件加入程序,直接在代码中声明metastore
小刘秃头日常
·
2025-04-29 23:21
spark
hive
intellij-idea
如何在idea中写
spark
程序
1.安装IntelliJIDEA下载并安装IntelliJIDEA(推荐使用Community版本,对于大多数
Spark
开发需求已经足够)。安装完成后启动IDEA。
rylshe1314
·
2025-04-29 23:50
hadoop
如何搭建
spark
yarn模式的集群
搭建
Spark
YARN模式集群指南在大数据处理领域,
Spark
是一款强大的分布式计算框架,而YARN(YetAnotherResourceNegotiator)则是Hadoop生态系统中的资源管理系统。
谁偷了我的炒空心菜
·
2025-04-29 23:18
spark
大数据
分布式
配置
Spark
历史服务器,轻松查看任务记录
在大数据处理中,
Spark
是一个强大的分布式计算框架。但当
Spark
服务重启后,之前的运行记录就会消失,给我们排查问题和分析任务执行情况带来不便。
谁偷了我的炒空心菜
·
2025-04-29 23:17
spark
服务器
大数据
如何在idea中编写
spark
程序
在IntelliJIDEA中编写
Spark
程序的详细指南在大数据处理领域,Apache
Spark
凭借其强大的分布式计算能力,成为了众多开发者的首选工具。
谁偷了我的炒空心菜
·
2025-04-29 22:16
intellij-idea
spark
java
【课程笔记】华为 HCIA-Big Data 大数据 总结
HDFS分布式文件系统ZooKeeper分布式应用程序协调服务HBase非关系型分布式数据库Hive分布式数据仓库ClickHouse列式数据库管理系统MapReduce分布式计算框架Yarn资源管理调度器
Spark
淵_ken
·
2025-04-29 22:12
华为
HCIA-Big
Data
大数据
大数据
本节课课堂总结:
本节课课堂总结:数据加载与保存:通用方式:
Spark
SQL提供了通用的保存数据和数据加载的方式。
20231030966大数据四班—刘鑫田
·
2025-04-29 18:14
经验分享
IDEA
Spark
-submit提交任务到集群
1IDEA打包示例代码参考AMPCamp2015之
Spark
SQL,开发环境使用idea。
mishidemudong
·
2025-04-29 16:56
SPARK
搭建speak yarn集群:从零开始的详细指南
在大数据处理领域,Apache
Spark
是一个高性能的分布式计算框架,而YARN(YetAnotherResourceNegotiator)是Hadoop的资源管理器。
anqi27
·
2025-04-29 16:24
spark
后端
开发语言
yarn
如何在idea中写
spark
程序。
要在IntelliJIDEA中编写
Spark
程序,你可以按照以下步骤进行:1.安装和配置Java:确保你的计算机上已经安装了JavaDevelopmentKit(JDK),并且已配置好JAVA_HOME
咛辉
·
2025-04-29 13:04
开发语言
在 IDEA 中写
Spark
程序:从入门到实践
在大数据处理领域,Apache
Spark
凭借其出色的性能和丰富的功能受到广泛欢迎。而IntelliJIDEA作为一款功能强大的Java集成开发环境,为编写
Spark
程序提供了极大的便利。
麻芝汤圆
·
2025-04-29 13:33
spark大数据分析
intellij-idea
spark
java
hadoop
安全
大数据
分布式
Spark
On Yarn集群模式搭建
任务背景在分布式环境中,计算资源(Core和Memory)需要进行管理,为了使得资源利用率高效,则需确保每个作业都有相对公平运行的机会,
Spark
提出了集群管理器(ClusterManager)的思想。
南l鹿
·
2025-04-29 13:30
运维
spark
分布式
Py
Spark
数据透视表操作指南
在Py
Spark
中,可以使用pivot()方法实现类似Excel数据透视表的功能。
闯闯桑
·
2025-04-29 12:59
大数据
spark
python
【
spark
的集群模式搭建】
spark
集群之Yarn集群模式搭建(清晰明了的搭建流程)
文章目录1、使用Anaconda部署Python2、上传、解压、重命名3、创建软连接(如果在Standalone模式中创建有就删除)4、配置
spark
环境变量5、修改
spark
-env.sh配置文件6、
lzhlizihang
·
2025-04-29 12:59
spark
spark
大数据
spark
on
yarn
spark集群
如何在idea中写
spark
程序
在IntelliJIDEA中编写
Spark
程序,可按以下步骤进行:1.创建新项目打开IntelliJIDEA,选择File->New->Project。
爱吃香菜---www
·
2025-04-29 12:59
intellij-idea
spark
ajax
在AWS Glue中实现缓慢变化维度(SCD)的三种类型
技术选型:使用AWSGlueETL作业(Py
Spark
)目标存储:S3(Parquet格式)或AmazonRedshift数据比对方式:基于业务键(如custom
weixin_30777913
·
2025-04-29 12:24
aws
etl
sql
开发语言
数据仓库
大数据核心面试题(Hadoop,
Spark
,YARN)
大数据核心面试题(Hadoop,
Spark
,YARN)高频面试题及答案1.什么是Hadoop?它的核心组件有哪些?2.解释HDFS的架构及其工作原理。3.HDFS如何保证数据的高可用性和容错性?
闲人编程
·
2025-04-29 12:53
程序员面试
大数据
hadoop
spark
面试
yarn
Yarn、
Spark
架构及其对比
Yarn、
Spark
架构比对与执行流程YARN的架构Yarn执行流程
spark
架构(Standalone模式)YARN的架构ResourceManager:RM资源管理器整个集群同一时间提供服务的RM只有一个
jialun0116
·
2025-04-29 12:53
大数据
spark
yarn
大数据
怎么样才能在idea中写入
spark
程序
配置Scala版本与
Spark
兼容(如
Spark
3.5.5对应S
Betty_蹄蹄boo
·
2025-04-29 11:20
intellij-idea
java
ide
如何搭建
spark
yarn 模式的集群集群
###搭建
Spark
onYarn模式的集群配置步骤####1.环境准备在搭建
Spark
onYarn的集群之前,需要确保Hadoop和YARN已经正常部署并运行。
yyywoaini~
·
2025-04-29 11:50
大数据
如何搭建
spark
yarn模式的集合集群
一、环境准备在搭建
Spark
onYARN集群之前,需要确保以下环境已经准备就绪:操作系统:推荐使用CentOS、Ubuntu等Linux发行版。Java环境:确保安装了JDK1.8或更高版本。
刘翔在线犯法
·
2025-04-29 11:19
spark
大数据
分布式
上一页
6
7
8
9
10
11
12
13
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他