E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
python使用spark
如何搭建
spark
yarn 模式的集群
1.环境准备集群中的每台节点都要安装好Java环境(建议Java8及以上版本)。确保所有节点间能通过SSH无密码登录。安装并配置好Hadoop集群,因为YARN是Hadoop的资源管理系统。2.配置Hadoopcore-site.xmlfs.defaultFShdfs://namenode:9000hdfs-site.xmldfs.replication3dfs.namenode.name.dir
漂流瓶666666
·
2025-05-04 00:09
spark
eclipse
大数据
Spark
-小练试刀
任务1:HDFS上有三份文件,分别为student.txt(学生信息表)result_bigdata.txt(大数据基础成绩表),result_math.txt(数学成绩表)。加载student.txt为名称为student的RDDx数据,result_bigdata.txt为名称为bigdata的RDD数据,result_math.txt为名称为math的RDD数据。hdfsdfs-mkdir/
o不ok!
·
2025-05-03 20:11
前端
javascript
开发语言
计算机毕业设计之基于随机森林的糖尿病预测研究与实现
该系统是一款基于B/S架构的web应用,其它技术还包括python,hadoop,
spark
,vue,Echarts,pandas等。用户首先可
bishe18是微
·
2025-05-03 20:39
随机森林
算法
机器学习
如何搭建
spark
yarn 模式的集群集群
以下是搭建
Spark
YARN模式集群的一般步骤:准备工作-确保集群中各节点安装了Java环境,并配置好JAVA_HOME环境变量。-各节点间能通过SSH免密登录。
晴空下小雨.
·
2025-05-03 18:29
spark
【Hive入门】Hive性能调优之资源配置:深入解析执行引擎参数调优
目录前言1Hive执行引擎概述2MapReduce引擎调优2.1Map阶段资源配置2.2Reduce阶段资源配置2.3并发控制参数3Tez引擎调优3.1Tez架构概述3.2内存配置3.3并发与并行度4
Spark
IT成长日记
·
2025-05-03 16:45
大数据成长笔记
hive
hadoop
数据仓库
资源配置
Python大数据分析与人工智能中的
Spark
- RDD案例分析与实战
文章目录Python大数据分析与人工智能中的
Spark
-RDD案例分析与实战一、引言二、
Spark
-RDD概念(一)什么是
Spark
(二)RDD(弹性分布式数据集)三、
Spark
-RDD原理(一)RDD
AI_DL_CODE
·
2025-05-03 15:36
Python高级应用
python
数据分析
Spark
RDD
Spark-RDD
【大数据分析工具】使用Hadoop、
Spark
进行大数据分析
大数据分析工具使用Hadoop、
Spark
进行大数据分析引言在当今数据驱动的世界中,处理和分析大规模数据已经成为许多企业和研究机构的核心需求。
爱技术的小伙子
·
2025-05-03 14:36
数据分析
hadoop
spark
Spark
和hadoop的区别与联系
一、
Spark
和Hadoop的联系:1.同属大数据生态体系二者均为Apache旗下的大数据处理框架,服务于大规模数据的存储与计算,共同构成了大数据技术栈的核心。
Amu_Yalo
·
2025-05-03 14:02
spark
hadoop
大数据
Apache
Spark
:
Spark
GraphX图数据处理技术教程
Apache
Spark
:
Spark
GraphX图数据处理技术教程Apache
Spark
:
Spark
GraphX图数据处理介绍Apache
Spark
和
Spark
GraphX
Spark
GraphX概述Apache
Spark
kkchenjj
·
2025-05-03 14:00
数据挖掘
apache
spark
大数据
Spark
GraphX图计算引擎原理与代码实例讲解
Spark
GraphX图计算引擎原理与代码实例讲解作者:禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming关键词
Spark
,GraphX,图计算,图算法,分布式计算
AI天才研究院
·
2025-05-03 14:29
计算
AI大模型企业级应用开发实战
计算科学
神经计算
深度学习
神经网络
大数据
人工智能
大型语言模型
AI
AGI
LLM
Java
Python
架构设计
Agent
RPA
spark
graphx自用学习笔记及py
spark
项目实战(基于GraphX的航班飞行网图分析)
(待补充)2.1构建图的方法2.2构建图的过程3.图的操作4.算法5.实战5.1项目要求5.2环境5.3安装5.4代码5.5最终结果参考链接0.前言本篇博客自用,部分内容只包含概念,并且博主本身有一定
spark
GDUT-orzzzzzz
·
2025-05-03 13:57
学习
笔记
spark
python
大数据
如何搭建
spark
yarn模式的集群
1.系统准备操作系统:推荐使用CentOS、Ubuntu等Linux发行版。Java环境:安装JDK1.8或以上版本。网络配置:确保集群中各节点网络互通,主机名和IP地址已正确配置。2.安装Hadoop下载Hadoop:从ApacheHadoop官网下载合适版本的Hadoop。解压安装:将Hadoop解压到指定目录,例如/opt/hadoop。配置Hadoop:修改core-site.xml和hd
rylshe1314
·
2025-05-03 10:40
spark
大数据
分布式
如何在idea中写
spark
程序
环境准备安装必要的软件:JDK8或更高版本IntelliJIDEA(社区版或终极版)Scala插件(如果使用Scala编写
Spark
程序)安装
Spark
:从Apache
Spark
官网下载预编译版本解压到本地目录创建项目新建项目
富能量爆棚
·
2025-05-03 10:40
intellij-idea
spark
java
Spark
与Hive的数据分区与分桶策略详解
1.背景介绍1.1大数据时代的数据处理挑战随着互联网、物联网、移动互联网等技术的飞速发展,全球数据量呈现爆炸式增长,大数据时代已经来临。海量数据的存储、管理和分析成为企业面临的巨大挑战。如何高效地处理和利用这些数据,从中提取有价值的信息,已成为当务之急。1.2分布式计算框架的兴起为了应对大数据处理的挑战,分布式计算框架应运而生。ApacheHadoop作为首个成熟的开源分布式计算框架,为大规模数据
AI天才研究院
·
2025-05-03 08:25
AI大模型企业级应用开发实战
计算科学
神经计算
深度学习
神经网络
大数据
人工智能
大型语言模型
AI
AGI
LLM
Java
Python
架构设计
Agent
RPA
spark
简介和核心编程
简介1.
Spark
-SQL概述:
Spark
SQL是
Spark
处理结构化数据的模块,前身是Shark。
小名叫咸菜
·
2025-05-03 06:06
spark
Kafka使用教程
流处理:与流处理框架(如ApacheFlink、Apache
Spark
Streaming)结合,进行实时数据分析。微服务通信:作为微服务架构中的消息中间件,实现服务间异步通信。物联网(IoT):
大三小小小白
·
2025-05-03 05:03
kafka
分布式
在
Spark
集群中搭建Standalone
1.Standalone模式介绍
Spark
Standalone模式是一种独立的集群部署模式,自带完整的服务,可单独部署到一个集群中,无需依赖任何其他资源管理系统。
Betty_蹄蹄boo
·
2025-05-03 01:04
spark
大数据
分布式
在
Spark
中通过jps命令看到的进程名,是哪个命令产生有什么作用
Hadoop分布式系统中的相关进程:Worker:产生命令:yarn命令产生。作用:在YARN(YetAnotherResourceNegotiator)中,Worker(通常指NodeManager)负责管理单个节点上的资源和任务执行。它与ResourceManager通信,接收并执行分配给它的任务。NodeManager:产生命令:yarn命令产生。作用:NodeManager是YARN中的节
Betty_蹄蹄boo
·
2025-05-03 01:34
spark
大数据
分布式
搭建
spark
yarn模式集群
如何搭建
Spark
Yarn模式集群1.前置条件准备在开始搭建
Spark
YARN集群之前,需要确保Hadoop和YARN已经正常部署并运行。
只因只因爆
·
2025-05-03 01:03
spark
大数据
分布式
Hadoop 和
Spark
生态系统中的核心组件
一、Worker1.来源:
Spark
集群的工作节点(WorkerNode),由start-worker.sh启动2.作用:①在从节点上运行,负责执行Master分配的任务。
心仪悦悦
·
2025-05-03 00:59
hadoop
spark
大数据
在 IDEA 中编写
spark
wordcount 程序
将程序打成jar包上传到集群运行1、创建一个maven项目2、安装scala插件3、在项目中添加scala插件4、添加pom依赖1.2.171.7.222.1.12.11.82.7.2org.apache.
spark
spark
-core
火成哥哥
·
2025-05-02 23:53
spark
大数据
hadoop
scala
spark
log4j
Spark
,序列化反序列化
序列化反序列化的定义:序列化就是把内存中的对象,转换成字节序列(或其他数据传输协议)以便于存储到磁盘(持久化)和网络传输。反序列化就是将收到字节序列(或其他数据传输协议)或者是磁盘的持久化数据,转换成内存中的对象。先写一个类publicclassStudent{publicStudent(Stringname,intage){this.name=name;this.age=age;}Stringn
Amu_Yalo
·
2025-05-02 20:57
spark
大数据
分布式
在Azure Databricks中实现缓慢变化维度(SCD)的三种类型
在AzureDatabricks中使用Py
Spark
实现缓慢变化维度(SCD)的三种核心类型,需结合
Spark
SQL和DataFrameAPI的特性,并利用DeltaLake的事务支持。
weixin_30777913
·
2025-05-02 17:05
数据仓库
python
spark
azure
云计算
从Kafka读取数据
用
Spark
-Streaming从Kafka读取数据在大数据处理领域,
Spark
-Streaming和Kafka都是明星技术。
美味的大香蕉
·
2025-05-02 15:27
笔记
Kafka与
Spark
-Streaming
大数据处理的得力助手:Kafka与
Spark
-Streaming在大数据处理的领域中,Kafka和
Spark
-Streaming都是极为重要的工具。
美味的大香蕉
·
2025-05-02 15:27
笔记
跨领域大数据抓取与融合:Python爬虫实战指南
目录引言跨领域大数据抓取与融合的背景与意义技术选型与工具介绍Python爬虫框架:Scrapy、BeautifulSoup、Selenium数据处理与存储:Pandas、NumPy、MongoDB数据融合与分析:Py
Spark
Python爬虫项目
·
2025-05-02 12:36
2025年爬虫实战项目
大数据
python
爬虫
人工智能
开发语言
easyui
python使用
jsonpath来查找key并赋值
目录一、引言二、JsonPath简介三、Python中的JsonPath库四、使用JsonPath查找JSONKey五、使用JsonPath赋值JSONKey六、高级用法七、结论一、引言在数据驱动的现代应用中,JSON(JavaScriptObjectNotation)已成为一种广泛使用的数据交换格式。由于其轻量级、易于阅读和编写的特点,JSON被广泛应用于API接口、配置文件以及数据传输等场景。
傻啦嘿哟
·
2025-05-02 08:10
关于python那些事儿
python
开发语言
Spark
和Hadoop之间的对比和联系
Spark
和Hadoop都是大数据处理领域的重要框架,它们之间的对比和联系如下:对比-计算模型:Hadoop采用MapReduce计算模型,将任务分为Map和Reduce两个阶段,适用于批处理。
祈533
·
2025-05-02 06:57
虚拟机
如何在idea中写
spark
程序
在IntelliJIDEA中编写
Spark
程序是一个高效且便捷的方式,以下是一个详细的步骤指南,帮助你在IntelliJIDEA中创建和运行
Spark
程序。
lqlj2233
·
2025-05-01 14:13
intellij-idea
spark
java
如何在idea 中写
spark
程序
在IntelliJIDEA中编写
Spark
程序可以通过以下步骤进行:1.**安装Scala插件**:首先确保已经安装了Scala插件。
小萌新~~~~
·
2025-05-01 14:41
intellij-idea
spark
java
搭建
spark
-local模式
要搭建
Spark
的local模式,你可以按照以下步骤进行操作(以在Linux系统上安装为例,假设你已经安装了Java环境):1.下载
Spark
安装包:访问
Spark
官方网站(https://
spark
.apache.org
祈533
·
2025-05-01 13:38
虚拟机
Java架构师之路六、高并发与性能优化:高并发编程、性能调优、线程池、NIO、Netty、高性能数据库等。
-CSDN博客下篇:Java架构师之路七、大数据:Hadoop、
Spark
、Hive、HBase、Kafka等-CSDN博客高并发编程:高并发编程是指针对大量用户同时访问的情况下,如何设计和实现能够支持大规模并发访问的系统
述清-架构师之路
·
2025-05-01 07:28
Java架构师之路
java
性能优化
nio
spark
读写 parquet
SQLConf//ThisisusedtosetthedefaultdatasourcevalDEFAULT_DATA_SOURCE_NAME=buildConf("
spark
.sql.sources.default
zhixingheyi_tian
·
2025-05-01 07:54
大数据
spark
spark源码分析
spark
大数据
分布式
maven 中,使用shadedClassifierName配置项,解决jar自带版本号的问题
增加以下两行配置truewith-
spark
-${
spark
.internal.version}就可以使得编译的jar包带上指定的后缀mavenorg.apache.maven.pluginsmaven-shade-plugin3.1.0truewith-
spark
zhixingheyi_tian
·
2025-05-01 07:24
大数据
spark
maven
jar
spark
Spark
之 kvstore
参考链接https://blog.csdn.net/LS_ice/article/details/86610537https://www.cnblogs.com/byzgss/p/15780923.htmlhttps://blog.csdn.net/nazeniwaresakini/article/details/104220186kvstore的几种实现:InMemoryStore是在内存中维护
zhixingheyi_tian
·
2025-05-01 07:54
spark
Spark
之 ArrayType
ArrayTypedefinitioncaseclassArrayType(elementType:DataType,containsNull:Boolean)extendsDataType{/**No-argconstructorforkryo.*/protecteddefthis()=this(null,false)private[sql]defbuildFormattedString(pre
zhixingheyi_tian
·
2025-05-01 07:54
spark
spark
大数据
big
data
Spark
SQL的基本架构与DataFrame概述
一、
Spark
SQL的基本概念1,
Spark
SQL的组成
Spark
SQL是
Spark
的一个结构化数据处理模块,提供一个DataFrame编程抽象,可以看做是一个分布式SQL查询引擎。
晓之以理的喵~~
·
2025-05-01 07:53
大数据
Hadoop
Spark
spark
sql
架构
spark
SQL优化器catalyst学习
一、Catalyst概述Catalyst是
Spark
SQL的优化器,它负责将SQL查询转换为物理执行计划。Catalyst优化器的目标是生成高效的执行计划,以最小化查询的执行时间。
极度丶浚爱
·
2025-05-01 06:22
spark
sql
学习
Spark
SQL 之 DAG
SQLAppStatusListeneraccumsoverridedefonTaskEnd(event:
Spark
ListenerTaskEnd):Unit={if(!isSQLStage
zhixingheyi_tian
·
2025-05-01 06:20
spark
spark
大数据
分布式
全开源彩虹易支付系统源码搭建教程附源码
为了实现高效的数据处理和分析,系统使用了大数据技术,包括分布式数据存储和计算框架,如Hadoop、
Spark
等。源码演示站:fakaysw.top数据库技术:彩虹易支付系统需要存储用
qinheyan
·
2025-04-30 16:22
开源
Spark
On YARN环境配置
一、准备工作点击查看
Spark
StandaloneHA环境配置教程二、修改配置文件一、修改
spark
-env.shcd/export/server/
spark
/confvim/export/server
飞Link
·
2025-04-30 10:14
Water
spark
yarn
hadoop
相关进程名对应的启动命令及其作用
WorkerNodeManagerDataNodeMasterNameNodeJobHistoryServerHistoryServer这些进程名对应的启动命令及其作用:1.Worker-**产生命令**:在
Spark
Standalone
谁偷了我的炒空心菜
·
2025-04-30 10:13
前端
开发语言
spark
hadoop
hdfs
Spark
配置 YARN 模式
在大数据处理领域,
Spark
是一个强大的分布式计算框架,而YARN(YetAnotherResourceNegotiator)则是Hadoop生态系统中出色的资源管理器。
谁偷了我的炒空心菜
·
2025-04-30 10:42
spark
大数据
yarn
大数据教程:
Spark
Shell和IDEA中编写
Spark
程序
spark
-shell是
Spark
自带的交互式Shell程序,方便用户进行交互式编程,用户可以在该命令行下用Scala编写
Spark
程序。
spark
-shell程序一般用作
Spark
程序测试练习来用。
yiyidsj
·
2025-04-29 23:22
大数据
人工智能
互联网
Spark
大数据
大数据开发
大数据分析
大数据学习
在 idea上用编写
spark
程序链接hive
在idea上用编写
spark
程序链接hive在idea上编写
spark
程序,pom文件上要包含hive依赖,网上大把,链接hive其实可以不用将hdfs,core等文件加入程序,直接在代码中声明metastore
小刘秃头日常
·
2025-04-29 23:21
spark
hive
intellij-idea
如何在idea中写
spark
程序
1.安装IntelliJIDEA下载并安装IntelliJIDEA(推荐使用Community版本,对于大多数
Spark
开发需求已经足够)。安装完成后启动IDEA。
rylshe1314
·
2025-04-29 23:50
hadoop
如何搭建
spark
yarn模式的集群
搭建
Spark
YARN模式集群指南在大数据处理领域,
Spark
是一款强大的分布式计算框架,而YARN(YetAnotherResourceNegotiator)则是Hadoop生态系统中的资源管理系统。
谁偷了我的炒空心菜
·
2025-04-29 23:18
spark
大数据
分布式
配置
Spark
历史服务器,轻松查看任务记录
在大数据处理中,
Spark
是一个强大的分布式计算框架。但当
Spark
服务重启后,之前的运行记录就会消失,给我们排查问题和分析任务执行情况带来不便。
谁偷了我的炒空心菜
·
2025-04-29 23:17
spark
服务器
大数据
如何在idea中编写
spark
程序
在IntelliJIDEA中编写
Spark
程序的详细指南在大数据处理领域,Apache
Spark
凭借其强大的分布式计算能力,成为了众多开发者的首选工具。
谁偷了我的炒空心菜
·
2025-04-29 22:16
intellij-idea
spark
java
【课程笔记】华为 HCIA-Big Data 大数据 总结
HDFS分布式文件系统ZooKeeper分布式应用程序协调服务HBase非关系型分布式数据库Hive分布式数据仓库ClickHouse列式数据库管理系统MapReduce分布式计算框架Yarn资源管理调度器
Spark
淵_ken
·
2025-04-29 22:12
华为
HCIA-Big
Data
大数据
大数据
上一页
7
8
9
10
11
12
13
14
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他