E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
python使用spark
Spark
RDD相关概念
Spark
运行架构与核心组件1.
Spark
运行梁构
spark
运行架构包括master和slave两个主要部分。master负责管理整个集群的作业任务调度,而slave则负责实际执行任务。
企鹅不耐热.
·
2025-04-10 09:46
spark
大数据
分布式
大数据(5)(基础概念)
Spark
从入门到实战:核心原理与大数据处理实战案例
目录一、背景介绍1.为什么需要
Spark
?
一个天蝎座 白勺 程序猿
·
2025-04-10 08:07
大数据开发从入门到实战合集
大数据
spark
分布式
运行
Spark
会出现恶问题
1.依赖冲突问题:
Spark
依赖众多组件,如Scala、Hadoop等。不同版本的依赖之间可能存在兼容性问题,导致
Spark
无法正常运行。
不要天天开心
·
2025-04-10 05:18
spark
Spark
案例之流量统计(三种方法)
数据集1,2020-02-1814:20:30,2020-02-1814:46:30,201,2020-02-1814:47:20,2020-02-1815:20:30,301,2020-02-1815:37:23,2020-02-1816:05:26,401,2020-02-1816:06:27,2020-02-1817:20:49,501,2020-02-1817:21:50,2020-02-
AokCap
·
2025-04-10 05:18
Spark
spark
scala
大数据
大数据开发-
Spark
-RDD实操案例-http日志分析
1.在生产环境下,如何处理配置文件&&表的数据处理配置文件,或者配置表,一般是放在在线db,比如mysql等关系型数据库,或者后台rd直接丢给你一份文件,数据量比起整个离线数据仓库的大表来说算很小,所以这种情况下,一般的做法是将小表,或者小文件广播出去,那么下面一个例子来看,广播表的使用解决ip地址映射问题数据地址:链接:https://pan.baidu.com/s/1FmFxSrPIynO3u
Hoult-吴邪
·
2025-04-10 05:17
Python模块学习 - Paramiko -
python使用
SSH协议对远程服务器执行操作
简介ssh是一个协议,OpenSSH是其中一个开源实现,paramiko是Python的一个库,实现了SSHv2协议(底层使用cryptography)。有了Paramiko以后,我们就可以在Python代码中直接使用SSH协议对远程服务器执行操作,而不是通过ssh命令对远程服务器进行操作。由于paramiko属于第三方库,所以需要使用如下命令先行安装pip3installparamikoPara
可爱的喵酱丶
·
2025-04-10 02:32
Python
python
Spark
源码解析(二) 根据
Spark
Rpc 自己动手实践一个跨节点通信
目录一、框架流程:二、Maven搭建Scala导入POM依赖三、根据流程进行编写1、实例Master2、创建RpcEnv3、创建RpcEndpoint4、生成RpcEndpointRef5、RpcEndpointRef发送消息6、防止还没收到消息程序就结束运行7、验证一下,看看结果四、完整代码一、框架流程:1、实例Master2、创建RpcEnv3、Master向RpcEnv注册4、生成RpcEn
小白的大数据历程
·
2025-04-09 19:10
Spark源码解析
spark
大数据
分布式
Invicti v25.3.0 发布,新增功能概览
Invictiv25.3.0forWindows-Web应用程序安全测试Invicti(formerlyNet
spark
er)|WebApplicationandAPISecurityforEnterprise
·
2025-04-09 17:39
web安全
python怎么安装tensorflow-
Python使用
pip安装TensorFlow模块
1.首先确保已经安装python,然后用pip来安装matplotlib模块。2.进入到cmd窗口下,建议执行python-mpipinstall-Upipsetuptools进行升级。3.如果之前已经安装了Numpy,则需要先卸载之前的安装,因为每个Tensorflow都有一个版本的numpy对应,故要卸载之前numpy4.接着键入python-mpipinstall--upgradetenso
weixin_39927378
·
2025-04-09 15:12
Kafka原理详细介绍
)、多副本的(replica),基于zookeeper协调的分布式消息系统,它的最大的特性就是可以实时的处理大量数据以满足各种需求场景:比如基于hadoop的批处理系统、低延迟的实时系统、storm/
Spark
_Romeo
·
2025-04-09 12:24
kafka
kafka
Spark
修炼之道(基础篇)——Linux大数据开发基础:第十一节:Shell编程入门(三)
具体如下://用()定义一个数组,注意数组元素间不能用,否则达不到预期目的root@
spark
master:~/ShellLearn
zhouzhihubeyond
·
2025-04-09 05:14
Linux
Spark修炼之道
大数据
shell
【
Spark
】架构与核心组件:大数据时代的必备技能(下)
明明跟你说过:个人主页个人专栏:《大数据前沿:技术与应用并进》行路有良友,便是天堂目录一、引言1、什么是Apache
Spark
2、
Spark
的应用场景:二、
Spark
核心组件之一:RDD1、什么是RDD2
明明跟你说过
·
2025-04-09 05:11
大数据前沿:技术与应用并进
spark
架构
大数据
大数据架构师选型必懂:大数据离线数仓开发框架详解与对比(hive、
Spark
SQL、Impala、Doris)
第一章相关理论1.1大数据离线数仓理论1.1.1基本原理大数据离线数仓,作为一个专门构建用于支持决策分析过程的数据集合,具有面向主题、集成、不可更新以及随时间变化的特点。其核心价值在于,通过对历史数据的深度存储、精细加工、全面整合与深入分析,能够为企业或组织提供一个多角度、多维度的数据视图,从而助力高层管理者做出更为明智与精准的决策。1.2SQL-on-Hadoop解决方案SQL-on-Hadoo
大模型大数据攻城狮
·
2025-04-09 05:10
大数据
hive
spark
大数据架构师
doris面试
数仓选型
数据仓库
基于Python的校园人脸识别考勤管理系统
基于Python的校园人脸识别考勤管理系统技术路线:软件开发环境及开发工具:开发语言:
python使用
框架:Django前端技术:JavaScript、VUE.js(2.X)、css3开发工具:pycharm
IT实战课堂@白老师
·
2025-04-09 01:47
Python项目
开发语言
毕业设计选题推荐
课程设计
毕设指导推荐
python
Spark
基础之Scala知识总结
史上最全的Scala知识点整理第一章变量及基本数据类型1.1注释1.2标识符命名规范1.3变量1.4字符串1.5数据读取1.6数据类型1.6.1概述1.6.2类型转换1.7运算符第二章流程控制2.1块表达式2.2If判断2.3For循环2.3.1Scala中方法调用的两种方式2.3.2基本语法2.3.3循环返回值2.4While循环2.5Switch2.6中断循环第三章面向函数编程3.1概念3.2
Jason_0to
·
2025-04-08 20:14
大数据
scala
spark
java
Py
Spark
二:常见数据格式及如何读写
在日常工作中,常见的数据文件格式有csv,json和parquet.Comma-separatedvalues(CSV)是一种直接以纯文本方式保存的文件,通常第一行定义了列名,后面是数据。没列之间用逗号分割。因为这个格式是纯文本的,几乎可以用文本编辑器都可以打开。Json也是常见的格式,个人理解可以看做是Key-valuepair来保存数据。如果有很多行数据,每一行的数据都有相同的key的话,个人
·
2025-04-08 20:41
pysparkpython
Python爬虫第二战(使用xpath爬取网站数据)
使用xpath爬取猪八戒网站数据前言前言今天学习的主要是关于
Python使用
xpath来爬取猪八戒网的网页知识的理解和应用#1.获取首页数据#2.使用etree.HTML将首页HTML字符串解析为一个节点树对象
小小福仔
·
2025-04-08 17:25
Python
python
爬虫
开发语言
xpath
lxml
Spark
性能优化高频面试题及答案
目录高频面试题及答案1.如何通过调整内存管理来优化
Spark
性能?2.如何通过数据持久化优化性能?3.如何通过减少数据倾斜(DataSkew)问题来优化性能?
闲人编程
·
2025-04-08 15:09
程序员面试
spark
性能优化
java
高频
面试
Spark
简介
Spark
是使用Scala语言编写、基于内存运算的大数据计算框架。
upupfeng
·
2025-04-08 11:14
Spark
spark
大数据(5)
Spark
部署核弹级避坑指南:从高并发集群调优到源码级安全加固(附万亿级日志分析实战+智能运维巡检系统)
目录背景一、
Spark
核心架构拆解1.分布式计算五层模型二、五步军工级部署阶段1:环境核弹级校验阶段2:集群拓扑构建阶段3:黄金配置模板阶段4:高可用启停阶段5:安全加固方案三、万亿级日志分析实战1.案例背景
一个天蝎座 白勺 程序猿
·
2025-04-08 11:43
大数据开发从入门到实战合集
大数据
spark
运维
Python 中的错误处理与调试技巧
大数据技术:涵盖Hadoop(HDFS)、Hive、
Spark
、Fli
王子良.
·
2025-04-08 09:00
python
经验分享
python
开发语言
数据分析开源可视化工具
superset简单易用,可以对接mysql、presto、doris、postgresql、ClickHouse、
spark
SQL、hive、oracle、sqlserver、Elasticsearch
PONY LEE
·
2025-04-08 07:17
数据可视化
数据分析
数据可视化
(五)
Spark
大数据开发实战:豆瓣电影数据处理与分析(python版)
目录一、Py
Spark
二、数据介绍三、Py
Spark
大数据开发实战1、数据文件上传HDFS2、导入模块及数据3、数据统计与分析①、计算演员参演电影数②、依次罗列电影番位前十的演员③、按照番位计算演员参演电影数
小楼一夜听春雨258
·
2025-04-08 01:09
大数据
python
大数据
spark
分布式
Spark
零基础入门实战(五)使用Eclipse创建Scala项目
本节讲解在Windows中使用ScalaforEclipseIDE编写Scala程序。安装ScalaforEclipseIDEScalaforEclipseIDE为纯Scala和混合Scala与Java应用程序的开发提供了高级编辑功能,并且有非常好用的Scala调试器、语义突出显示、更可靠的JUnit测试查找器等。ScalaforEclipseIDE的安装有两种方式:一种是在Eclipse中单击H
大数据张老师
·
2025-04-07 22:48
Spark3.X
零基础入门实战
scala
开发语言
后端
【LLM】基于ollama 实现模型多轮对话
download)Ollama官网下载安装后,ollama在c盘模型安装路径也默认为c盘,如需更改可以更新环境变量在ollama安装路径下启动cmdollamarunqwen2.5:7B即可自动下载并运行
python
丕羽
·
2025-04-07 14:27
LLM
python
开发语言
语言模型
自然语言处理
人工智能
Spark
内容分享(二十七):阿里云基于
Spark
的云原生数据湖分析实践
目录
Spark
与云原生的结合1.传统
Spark
集群的痛点2.
Spark
与云原生结合的优势
Spark
onK8s原理介绍1.
Spark
的集群部署模式2.
Spark
onK8s的部署架构3.
Spark
onK8s
之乎者也·
·
2025-04-06 23:24
Spark
内容分享
云原生内容分享
spark
阿里云
云原生
Delta Lake 解析:架构、数据处理流程与最佳实践
DeltaLake是一个基于Apache
Spark
的开源存储层,主要解决传统数据湖(DataLake)缺乏ACID事务、数据一致性和性能优化的问题,使大数据处理更加可靠、高效。
codebat_raymond
·
2025-04-06 22:48
数据仓库
数据库架构
【
Python使用
】嘿马云课堂web完整实战项目第3篇:增加数据,修改数据【附代码文档】
教程总体简介:项目概述项目背景项目的功能构架项目的技术架构CMS什么是CMSCMS需求分析与工程搭建静态门户工程搭建SSI服务端包含技术页面预览开发4添加“页面预览”链接页面发布需求分析技术方案测试环境搭建数据字典服务端前端数据模型页面原型前端页面上传图片开发前端开发图片查询静态页面测试CMS页面预览测试CMS添加页面接口搜索服务搭建ES环境后端工程搭建导入CMS数据库MongoEngine入门在
·
2025-04-06 09:32
python后端
【
Python使用
】嘿马云课堂web完整实战项目第3篇:增加数据,修改数据【附代码文档】
教程总体简介:项目概述项目背景项目的功能构架项目的技术架构CMS什么是CMSCMS需求分析与工程搭建静态门户工程搭建SSI服务端包含技术页面预览开发4添加“页面预览”链接页面发布需求分析技术方案测试环境搭建数据字典服务端前端数据模型页面原型前端页面上传图片开发前端开发图片查询静态页面测试CMS页面预览测试CMS添加页面接口搜索服务搭建ES环境后端工程搭建导入CMS数据库MongoEngine入门在
·
2025-04-05 22:25
python后端
【
Python使用
】嘿马python高级进阶全体系教程第13篇:property属性,1. property属性的介绍【
本教程的知识点为:操作系统1.常见的操作系统4.小结ls命令选项2.小结mkdir和rm命令选项1.mkdir命令选项压缩和解压缩命令1.压缩格式的介绍2.tar命令及选项的使用3.zip和unzip命令及选项的使用4.小结编辑器vim1.vim的介绍2.vim的工作模式3.vim的末行模式命令4.vim的常用命令获取进程编号1.获取进程编号的目的2.获取当前进程编号3.获取当前父进程编号4.小结
·
2025-04-05 22:24
python后端
Spark
大数据处理讲课笔记4.1
Spark
SQL概述、数据帧与数据集
文章目录零、本讲学习目标一、
Spark
SQL(一)
Spark
SQL概述(二)
Spark
SQL功能(三)
Spark
SQL结构1、
Spark
SQL架构图2、
Spark
SQL三大过程3、
Spark
SQL内部五大组件
酒城译痴无心剑
·
2025-04-05 20:59
Spark大数据处理讲课笔记
spark
笔记
sql
Spark
(13)HDFS概述
一)HDFS的产生背景及定义1.HDFS产生背景随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。2.HDFS定义HDFS(HadoopDistributedFileSystem),它是一个文件系统,用于存储文件,通过目录树来定位文件;其次,它是分布式的,由很多服务器联
北随琛烬入
·
2025-04-05 20:27
spark
hdfs
大数据
K-means聚类自定义距离计算的开源算法选择
如果你想自己定义一个距离的function的话,scikit-learn是不行的,只支持Euclideandistance如果你觉得
spark
可以的话,实际上sprk的k-means也是不行的,好一点的是支持
小小她爹
·
2025-04-05 11:58
大数据与自然语言处理
【
Python使用
】嘿马推荐系统全知识和项目开发教程第2篇:1.4 案例--基于协同过滤的电影推荐,1.5 推荐系统评估
教程总体简介:1.1推荐系统简介学习目标1推荐系统概念及产生背景2推荐系统的工作原理及作用3推荐系统和Web项目的区别1.3推荐算法1推荐模型构建流程2最经典的推荐算法:协同过滤推荐算法(CollaborativeFiltering)3相似度计算(SimilarityCalculation)4协同过滤推荐算法代码实现:二根据用户行为数据创建ALS模型并召回商品2.0用户行为数据拆分2.1预处理be
·
2025-04-05 06:13
python后端
python unpack_
Python使用
struct处理二进制(pack和unpack用法)
#
Python使用
struct处理二进制(pack和unpack用法)有的时候需要用python处理二进制数据,比如,访问文档,socket操作时.这时候,可以使用python的struct模块来完成.
weixin_39634438
·
2025-04-05 05:44
python
unpack
配置Hadoop集群远程客户端
在Hadoop和
Spark
集群搭建好了以后,如果我们需要向集群中发送、获取文件,或者是执行MapReduce、
Spark
作业,通常是搭建一个外围的、集群的客户端,在这个客户端上进行操作。
赶路人儿
·
2025-04-05 02:58
hadoop
#
spark
hadoop
大数据
big
data
大数据(4.1)Hive架构设计与企业级实战:从内核原理到性能巅峰优化,打造高效数据仓库
目录背景与行业痛点一、Hive内核机制深度拆解1.元数据管理的艺术:Metastore核心原理2.执行引擎的底层博弈:MapReducevs.Tezvs.
Spark
二、企业级数仓建模实战:金融风控场景
一个天蝎座 白勺 程序猿
·
2025-04-05 01:21
大数据开发从入门到实战合集
数据仓库
hive
hadoop
Spark
常用参数解释及建议值
spark
的默认配置文件位于堡垒机上的这个位置:$
SPARK
_CONF_DIR/
spark
-defaults.conf,用户可以自行查看和理解。
螺丝钉X先生
·
2025-04-04 10:43
Spark
Spark
Audio 是什么,和其他的同类 TTS 模型相比有什么优势
而
Spark
Audio的出现,就像是音频
涛涛讲AI
·
2025-04-04 10:43
大模型
人工智能
TTS
python
django
Spark
Streaming 监控UI详解
TableofContents
Spark
基本概念
Spark
监控的三个阶段
Spark
Driver阶段
Spark
Executor阶段
Spark
Streaming阶段
Spark
基本概念Jobjob是application
走向自由
·
2025-04-04 10:11
spark
spark
streaming
monitor
ui
YARN Container与
Spark
Executor参数优先级详解
在
Spark
onYARN环境中,资源参数的配置涉及YARN和
Spark
两个层面的参数设置,它们之间存在一定的优先级关系。
SmartManWind
·
2025-04-04 10:09
spark
javascript
大数据
active状态与standby状态区别
spark
集群一般为一个master和两个slaves,通常情况下,master是active状态,slaves是standby状态。
caibaoli
·
2025-04-04 06:17
实习第4天
实习第四天之spark源码学习
spark
master
slaves
active
standby
Python使用
阿里镜像
获取包的版本号piplist使用阿里云镜像临时使用pipinstall包名-ihttps://mirrors.aliyun.com/pypi/simple/以后都使用阿里云的源pipconfigsetglobal.index-urlhttps://mirrors.aliyun.com/pypi/simple/
xiaowen5555555
·
2025-04-04 04:03
python
开发语言
linux
Scala核心技术总结(1)
第1章Scala入门1.1Scala概述为什么学习Scala:
Spark
框架是用Scala编写的,学习Scala有助于更好地理解和学习
Spark
。
淋一遍下雨天
·
2025-04-04 01:15
scala
开发语言
后端
前端实现websocket之文件分片上传
前端:1、通过DOM获取文件对象,并且对文件进行MD5加密(文件内容+文件标题形式),采用
Spark
MD5进行文件加密;2、进行分片设置,利用Blob的slice方法进行文件分片处理3、通过ws.send
编辑done
·
2025-04-03 22:22
前端
StructedStreaming消费Kafka数据突然存储不到HDFS
/***消费数据,写到控制台*/valquery=
spark
.sql(sql).writeStream.format("console").
erainm
·
2025-04-03 21:12
问题解决方案
kafka
hdfs
spark
Python使用
阿里云镜像
Python使用
阿里云镜像tag特工
Python使用
阿里云镜像临时使用pipinstall-ihttps://mirrors.aliyun.com/pypi/simple/包名1以后都使用阿里云的源pipconfigsetglobal.index-urlhttps
HOLD ON!
·
2025-04-03 11:46
AI大型语言模型企业级应用开发架构实战:实时数据流处理与推理
本文主要阐述通过使用Kafka作为数据队列中间件,
Spark
Streaming作为实时数据流处理引擎,以及F
AI天才研究院
·
2025-04-03 06:08
AI实战
DeepSeek
R1
&
大数据AI人工智能大模型
Python实战
大数据
人工智能
语言模型
AI
LLM
Java
Python
架构设计
Unity设计模式(1)泛型单例模式
暑假期间总结了自己大一时学习了解的一些框架和写的小工具,顺便在这里回顾记录一下GitHub工程文件网址:Blue
Spark
Rain/GameFramwork(github.com)泛型单例模式(Common
徐子竣
·
2025-04-03 05:30
单例模式
教你一招:
Python使用
Process子类创建进程
在Python中,我们可以使用multiprocessing模块的Process类来创建进程。除了使用函数作为目标函数创建进程外,还可以通过继承Process类创建子类来定义进程的行为。这种方式可以使我们更灵活地管理和控制进程,本文将详细介绍Python中使用Process子类创建进程的方法和技巧。一、Process子类简介Process类是multiprocessing模块中的一个重要类,它被用
人工智能杂谈
·
2025-04-02 10:27
python
linux
开发语言
人工智能
单片机
物联网
嵌入式
上一页
12
13
14
15
16
17
18
19
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他