E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
spark(scala)
新手入门:
Spark
部署实战入门
Spark
简介整体认识Apache
Spark
是一个围绕速度、易用性和复杂分析构建的大数据处理框架。最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一。
weixin_34256074
·
2023-12-15 07:27
scala
java
开发工具
Spark
Paimon 中为什么我指定的分区没有下推
目前使用的版本信息如下:
Spark
3.5.0Paimon0.6.0paimon的建表语句如下:CREATETABLE`table_demo`(`user_id`stringCOMMENT'fromdeserializer
鸿乃江边鸟
·
2023-12-15 07:51
spark
Paimon
spark
大数据
Paimon
关于新手入门:
Spark
部署实战入门
Spark
简介整体认识Apache
Spark
是一个围绕速度、易用性和复杂分析构建的大数据处理框架。最初在2009年由加州大学伯克利分校的AMPLab开发,并于2010年成为Apache的开源项目之一。
IT资讯科技
·
2023-12-15 07:18
大数据
IT资讯
互联网科技
人工智能
大数据
程序员
编程语言
hadoop
Spark
on Yarn 安装配置实验(3.1.1)
子任务二:
Spark
onYarn安装配置本任务需要使用root用户完成相关配置,已安装Hadoop及需要配置前置环境,具体要求如下:1、从宿主机/opt目录下将文件
spark
-3.1.1-bin-hadoop3.2
芝士小熊饼干
·
2023-12-15 07:44
spark
大数据
分布式
hadoop
【
Spark
精讲】
Spark
Shuffle详解
目录Shuffle概述Shuffle执行流程总体流程中间文件ShuffledRDD生成Stage划分Task划分Map端写入(ShuffleWrite)Reduce端读取(ShuffleRead)
Spark
Shuffle
话数Science
·
2023-12-15 07:14
Spark精讲
Spark
大数据
spark
大数据
Spark
单机搭建实战指南
摘要:本文将详细介绍如何在单台机器上搭建
Spark
分布式计算框架,涵盖环境准备、安装配置、运行测试等多个方面,帮助读者轻松上手
Spark
开发。
wcuuchina
·
2023-12-15 07:13
spark
spark
大数据
分布式
《Py
Spark
大数据分析实战》-03.了解Hive
对大数据技术栈Hadoop、Hive、
Spark
、Kafka等有深入研究,对Data
wux_labs
·
2023-12-15 06:42
PySpark大数据分析实战
数据分析
数据挖掘
大数据
数据科学
每日一读 11.27
spark
2:
Spark
Session思考与总结1http:/
Vicor
·
2023-12-15 06:12
Scala
教程
文章目录第一章
Scala
入门1.1概述1.1.1为什么学习
Scala
1.1.2
Scala
发展历史1.1.3
Scala
和Java的关系1.1.4
Scala
语言特点1.2
Scala
环境搭建1.3IDEA中
Scala
Tanzhiyong97
·
2023-12-15 05:34
scala
spark
intellij-idea
Hive增强的聚合、多维数据集、分组和汇总
大家注意防寒保暖进入正题,本文主要对照Hive介绍Hive、
Spark
、Presto查询
对许
·
2023-12-15 04:17
#
数据湖仓
#
Hive
#
Spark
hive
数据仓库
spark
perl读取html文件内容,在Perl中,如何将整个文件读取为字符串?
useFile::Slurp;$all_of_it=read_file($filename);#entirefilein
scala
r@all_lines=read_file($filename);#onelineperelementPerl
allegrohq
·
2023-12-15 03:42
perl读取html文件内容
【Flink系列七】TableAPI和FlinkSQL初体验
ApacheFlink有两种关系型API来做流批统一处理:TableAPI和SQLTableAPI是用于
Scala
和Java语言的查询API,它可以用一种非常直观的方式来组合使用选取、过滤、join等关系型算子
周润发的弟弟
·
2023-12-15 03:48
从零开始搞大数据
flink
大数据
Spark
读写Hive
Spark
读写Hive文章目录
Spark
读写Hive(一)配置本地域名映射(二)创建Hive表(三)IDEA中编写
Spark
代码读取Hive数据(四)IDEA中编写
Spark
代码写入数据到Hive(一)
叶子上的考拉
·
2023-12-15 02:25
大数据
spark
hive
大数据
intellij-idea
spark
内核源码剖析五:Master主备切换机制原理
Spark
高可用HA,是可以配置两个Master的,一个AcitveMaster,一个StandByMaster,当ActiveMaster节点挂掉的时候,可以将StandByMaster切换为ActiveMaster
雪飘千里
·
2023-12-14 23:08
Spark
spark
-submit提交Job流程 解读
Spark
-
spark
-submit提交Job流程解读
spark
-submit
spark
-classload-
spark
-env.shorg.apache.
spark
.launcher.Main
Spark
SubmitCommandBuilderclass
姜上清风
·
2023-12-14 22:38
Spark
源码
spark
spark-submit
scala
bigdata
Spark
config配置项 一览
Spark
config配置项一览env配置序列化配置Rpc.Nettyyarnlib中的jar和用户自己的高版本jar处理加载先后顺序(
spark
程序jar与
spark
libjar冲突,加载顺序)广播内存划分
姜上清风
·
2023-12-14 22:07
Spark
源码
spark
Spark
-BlockManager、BlockManagerSlaveEndpoint、DiskStore、MemoryStore、BlockInfoManager、BlockInfo 源码解析
Spark
-BlockManager、DiskStore、MemoryStore、BlockInfoManager、BlockInfo源码解析classBlockInfo&ObjectBlockInfoclassBlockInfoManagerclassMemoryStore
姜上清风
·
2023-12-14 22:07
Spark
源码
大数据
spark
Spark
-
Spark
Session.Builder 源码解析
Spark
-
Spark
Session.Builder源码解析classBuilder
Spark
SessionExtensionsclassBuilder这个类主要用来builder
Spark
Session
姜上清风
·
2023-12-14 22:36
Spark
源码
spark
scala
Linux 安装 RocketMq
官网:RocketMQ1.RocketMQ、ActiveMQ、Kafka产品ActiveMQKafkaRocketMQ客户端SDKjava,.NET,C++etc.Java,
Scala
etc.Jav
Ocean@上源码
·
2023-12-14 22:05
消息中间件
linux
java
rocketmq
修改jvm对象的属性值(私有)
修改jvm对象的属性值(私有)这个想法的来源一个
spark
job在启动之后,就会确定executor的数量。
姜上清风
·
2023-12-14 22:59
jvm
hadoop
spark
大数据
java
Scala
的安装部署&Maven的安装部署
scala
的基本知识1.
Scala
是什么?
jiangliu
·
2023-12-14 22:03
spark
参数配置及内存模型
1
spark
提交主要参数1.1num-executors此数量代表
spark
的executors数量,所有的task在executor中运行。
peidezhi
·
2023-12-14 20:38
spark
spark
大数据
hadoop
windows 安装 kafka-manager 客户端管理工具
1.前提条件:1.准备jre1.8环境2.
scala
环境3.sbt环境4.准备kafka-manager源码包:下载地址(https://github.com/yahoo/kafka-manager/tags
做一个懒惰的程序员
·
2023-12-14 20:06
kafka
windows
java
Go社区主流Kakfa客户端简要对比
互联网不拘泥于某种编程语言,但很多人不喜欢Kafka是由
Scala
/Java开发的。尤其是对于那些对某种语言
Tony Bai
·
2023-12-14 20:03
go
java
大数据
linux
区块链
深度学习-必备的数学知识-线性代数-1
线性代数我们先来了解线性代数中几个重要概念:标量、向量、矩阵、张量重要概念标量(
scala
r):标量是一个数。例如:1、2、3。我们
占得世间一味愚
·
2023-12-14 19:10
深度学习
深度学习
人工智能
线性代数
Py
spark
中的滞后移位函数
在Py
Spark
中,没有您预期的shift函数,并且您在使用lag时的方向是正确的。但是这里有一个小技巧,当你必须在lag_1的基础上进行lag_2等等。
小赵要加油
·
2023-12-14 19:24
数学建模
pyspark
spark
汽车火花塞行业分析:全球市场需求量约为26.3亿个
火花塞(
spark
plug),俗称火咀,它的作用是把高压导线(火嘴线)送来的脉冲高压电放电,击穿火花塞两电极间空气,产生电火花以此引燃气缸内的混合气体。
QY调研所
·
2023-12-14 19:20
汽车
大数据
Spark
Structured Streaming使用教程
文章目录1、输入数据源2、输出模式3、sink输出结果4、时间窗口4.1、时间窗口4.2、时间水印(Watermarking)5、使用例子StructuredStreaming是一个基于
Spark
SQL
penngo
·
2023-12-14 19:17
java
大数据
spark
大数据
Spark
SQL(八):UDF和UDAF
用户自定义函数,其实更多的是针对单行输入,返回一个输出;UDAF:UserDefinedAggregateFunction,用户自定义聚合函数,可以针对多行输入,进行聚合计算,返回一个输出,功能更加强大;是从
Spark
1.5
雪飘千里
·
2023-12-14 19:09
Spark
环境搭建和使用方法
目录一、安装
Spark
(一)基础环境(二)安装Python3版本(三)下载安装
Spark
(四)配置相关文件二、在py
spark
中运行代码(一)py
spark
命令(二)启动py
spark
三、开发
Spark
Francek Chen
·
2023-12-14 19:08
Spark编程基础
spark
大数据
分布式
Scala
-初学
前提,已经安装好
Scala
在Linux终端准备资料:a.txt内容HIVE底层是hdfs和mapreduce实现存储和计算的。
Logan_addoil
·
2023-12-14 19:07
大数据学习之旅
scala
开发语言
后端
【python】多任务编程
多任务编程有哪些编程提速的方法单线程串行:不加改造的程序多线程并发:利用CPU和IO可以同时执行的原理,让CPU不会干巴巴等待IO完成多CPU并行/多进程:利用多核CPU的能力,真正的并行执行任务多机器并行:hadoop/hive/
spark
小赵要加油
·
2023-12-14 19:33
python
python
开发语言
openEuler JDK21 部署 Zookeeper 集群
zookeeper-jdk21操作系统:openEulerJDK:21主机名IP地址
spark
01192.168.171.101
spark
02192.168.171.102
spark
03192.168.171.103
李昊哲小课
·
2023-12-14 19:14
大数据
Java
云计算
zookeeper
debian
大数据
centos
java
linux
数据分析
【Python百宝箱】数据巨轮启航:Python大数据处理库全攻略,引领数据科学新浪潮
往期相关链接:【Python百宝箱】构建强大分布式系统:探索PythonDask、Ray、Dask-ML、Py
Spark
和
friklogff
·
2023-12-14 18:22
python
开发语言
系统架构
数据库
【Table/SQL Api】Flink Table/SQL Api表转流读取MySQL
引入依赖jdbc依赖flink-connector-jdbc+mysql-jdbc-driver操作mysql数据库org.apache.flinkflink-connector-jdbc_${
scala
.binary.version
不进大厂不改名二号
·
2023-12-14 16:44
flink
sql
flink
mysql
java
AI创作系统ChatGPT网站源码,AI绘画,支持GPT联网提问/即将支持TSS语音对话功能
一、AI创作系统
Spark
Ai创作系统是基于ChatGPT进行开发的Ai智能问答系统和Midjourney绘画系统,支持OpenAI-GPT全模型+国内AI全模型。
白云如幻
·
2023-12-14 15:11
人工智能
ChatGPT
软件源码
chatgpt
人工智能
midjourney
AI作画
【
Spark
精讲】
Spark
内存管理
目录前言Java内存管理Java运行时数据区Java堆垃圾回收机制Executor内存管理内存类型堆内内存堆外内存内存管理模式静态内存管理统一内存管理编辑执行内存管理多任务间内存分配Shuffle的内存占用MemoryOverHead详解任务内存调节错误类型及调整方案1.ExecutorOOM类错误(错误代码137、143等)方式一:增加单个task的内存使用量方式二:降低单个Task的内存消耗量
话数Science
·
2023-12-14 13:52
Spark精讲
Spark
大数据
spark
大数据
分布式
Spark
读写MySQL数据库
Spark
读写MySQL数据库文章目录
Spark
读写MySQL数据库一、读取数据库(一)通过RDD的方式读取MySQL数据库(二)通过DataFrame的方式读取MySQL数据库二、添加数据到MySQL
叶子上的考拉
·
2023-12-14 13:45
大数据
数据库
spark
mysql
Spark
Dataset的实用操作笔记
最近的项目用
spark
做离线计算,所以有用到一些操作,简单笔记一下1.Dataset纵向复制数据当一个dataset中数据量太少,不能有效的随机联查别的dataset时,需要将数据纵向复制,把数据量撑起来
容若只如初见
·
2023-12-14 13:12
spark
笔记
ajax
spark
rdd和dataframe的区别,结合底层逻辑
在Apache
Spark
中,RDD(ResilientDistributedDataset)和DataFrame是处理数据的两种不同的抽象。
三水青一人尤
·
2023-12-14 12:29
spark
spark
大数据
分布式
数据仓库
sql
理解
Spark
写入 API 的数据处理能力
这张图解释了Apache
Spark
DataFrame写入API的流程。它始于对写入数据的API调用,支持的格式包括CSV、JSON或Parquet。
小技术君
·
2023-12-14 12:23
spark
大数据
分布式
Spark
分布式内存计算框架
目录一、
Spark
简介(一)定义(二)
Spark
和MapReduce区别(三)
Spark
历史(四)
Spark
特点二、
Spark
生态系统三、
Spark
运行架构(一)基本概念(二)架构设计(三)
Spark
运行基本流程四
Francek Chen
·
2023-12-14 12:43
大数据技术基础
Spark编程基础
spark
大数据
分布式
spark
lyr: R interface for Apache
Spark
关于
spark
lyr的一个简单的教程下载
Spark
lyrinstall.packages("
spark
lyr")下载
spark
library(
spark
lyr)
spark
_install(version
Liam_ml
·
2023-12-06 23:16
Spark
SQL运行流程浅析
写了有相当长一段时间的
Spark
SQL了,所以结合网上其他大神的分析,写一篇文章,谈谈我对
Spark
SQL整个运行流程的一个简单的理解。哈哈,毕竟程序员要做到知其然,还要知其所以然不是。
淡定一生2333
·
2023-12-06 21:08
Spark学习
Spark
常见算子汇总
创建RDD在
Spark
中创建RDD的方式分为三种:从外部存储创建RDD从集合中创建RDD从其他RDD创建textfile调用
Spark
Context.textFile()方法,从外部存储中读取数据来创建
话数Science
·
2023-12-06 21:05
大数据
面试
Spark
spark
大数据
Spark
面试题汇总
问题汇总
Spark
SQL调优:场景是怎样的?怎么发现的?怎么定位的?怎么解决的?达到了一个怎样的效果?引申下还有哪些更好的优化方案?UDF怎么管理的,如何避免重复的UDF的提交?
话数Science
·
2023-12-06 21:04
Spark
大数据
面试
spark
大数据
Spark
宽依赖窄依赖的区别
定义:一般观点:窄依赖是子RDD的一个分区只依赖于父RDD的一个分区,即每个父RDD的分区最多被子RDD的一个分区使用;宽依赖是子RDD的一个分区依赖了父RDD的多个分区,即多个子RDD的分区数据依赖父RDD的同一个分区的数据。而实际上:窄依赖是父RDD的一个或多个分区的数据全部流入到子RDD的一个或多个分区;宽依赖是父RDD的每个分区的不同部分,分别流入到子RDD的不同分区。算子:窄依赖算子:m
话数Science
·
2023-12-06 21:04
Spark
大数据
面试
spark
大数据
分布式
如何设置和读取
Spark
配置
设置在SaprkConf中设置,如valconf=new
Spark
Conf().setMaster("local").setAppName("Myapplication").set("
spark
.executor.memory
话数Science
·
2023-12-06 21:04
大数据
Spark
spark
大数据
Spark
自定义分区器
spark
目前支持两个分区器,分别是HashPartitioner和RangePartitioner.均继承自Partitioner,有共同方法-defnumPartitions--分区器的分区数量-defgetPartition
鸭梨山大哎
·
2023-12-06 21:02
spark
spark
分区
快手数仓面试题附答案
2你在工作中都负责哪一部分3
spark
提交一个程序的整体执行流程4
spark
常用算子列几个,6到8个吧5transformation跟action算子的区别6map和flatmap算子的区别7自定义udf
话数Science
·
2023-12-06 21:59
大数据
面试
Spark
spark
大数据
上一页
71
72
73
74
75
76
77
78
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他