E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
spark(scala)
Impala 基于hive的交互式实时分析工具(一) 概念及原理介绍
技术背景impala是参照谷歌的新三篇论文(caffeine-网络搜索引擎,pregel-图形数据库,dremel-瞬时类sql查询)当中的dremel而来,号称是当前大数据领域最快的sql查询工具,比
spark
sql
章云邰
·
2023-12-27 19:59
[转帖]SPARC简介
https://www.cnblogs.com/chaohm/p/5674886.html1.概述SPARC(
Scala
bleProcessorARChitecture,可扩展处理器架构)是SUN公司在
weixin_30265103
·
2023-12-27 19:45
嵌入式
前端
数据库
ViewUI
x86、DSP和SPARC的区别
原文链接:添加链接描述目前所接触到的处理器主要有三种,通用微处理器(MPU)、数字信号处理器(DSP)和SPARC平台(来自
Scala
bleProcessorArchitecture的缩写)。
sun_Amay
·
2023-12-27 19:13
计算机组成
处理器
X86
通用微处理器
数字信号处理器DSP
SPARC平台
Spark
与Py
Spark
(1.概述、框架、模块)
目录1.
Spark
概念2.Hadoop和
Spark
的对比3.
Spark
特点3.1运行速度快3.2简单易用3.3通用性强3.4可以允许运行在很多地方4.
Spark
框架模块4.1
Spark
Core4.2
Spark
SQL4.3
Spark
Streaming4.4MLlib4.5GraphX5
还是那个同伟伟
·
2023-12-27 18:06
Spark
spark
大数据
分布式
python
什么是
Spark
开发?
1、核心开发:离线批处理/延迟性的交互式数据处理2、SQL查询:底层都是RDD和计算操作3、实时计算:底层都是RDD和计算操作
一个人一匹马
·
2023-12-27 17:54
python:改进型鳟海鞘算法(SSALEO)求解23个基本函数
参考文献:M.Qaraad,S.Amjad,N.K.Hussein,S.Mirjalili,N.B.HalimaandM.A.Elhosseini,"ComparingSSALEOasa
Scala
bleLargeScaleGlobalOptimizationAlgorithmtoHi
IT猿手
·
2023-12-27 17:39
python
优化算法
python
算法
开发语言
进化计算
优化算法
Flink实时电商数仓之Doris框架(七)
主要实现的功能有:实时看板面向企业内部分析师和管理者的报表面向用户或者客户的高并发报表分析即席查询统一数仓构建:替换了原来由
Spark
,Hive,Kudu,Hbase等旧框架数据湖联邦查询:通过外表的方式联邦分析位于
十七✧ᐦ̤
·
2023-12-27 16:47
flink
大数据
doris
Spark
使用mariadb驱动读取AWS Aurora所有结果数据行都是列名
目录一、使用mariadb驱动读取AWSAurora二、df.show()的内容三、解决办法一、使用mariadb驱动读取AWSAuroraval
spark
=
Spark
Session.builder()
瞎胡侃
·
2023-12-27 15:28
大数据
spark
mariadb
aws
架构设计内容分享(三十):架构之高可用:负载均衡,容灾备份,故障转移
容灾备份的解决方案故障转移和恢复负载均衡简介面对大量用户访问、高并发请求,海量数据,可以使用高性能的服务器、大型数据库,存储设备,高性能Web服务器,采用高效率的编程语言比如(Go,
Scala
)等,当单机容量达到极限时
之乎者也·
·
2023-12-27 14:20
架构设计
内容分享
架构
负载均衡
运维
Flink 输出至 Redis
org.apache.bahirflink-connector-redis_2.111.0【2】Flink连接Redis并输出Sink处理结果packagecom.zzx.flinkimportorg.apache.flink.streaming.api.
scala
程序猿进阶
·
2023-12-27 14:16
Flink
flink
redis
大数据
java
面试
性能优化
后端
java.lang.IllegalArgumentException: requirement failed: No output operations registered, so nothi...
Spark
Streaming报错java.lang.IllegalArgumentException:requirementfailed:Nooutputoperationsregistered,sonothingtoexecute
扣篮的左手
·
2023-12-27 14:58
Spark
与Hadoop的关系和区别
在大数据领域,
Spark
和Hadoop是两个备受欢迎的分布式数据处理框架,它们在处理大规模数据时都具有重要作用。本文将深入探讨
Spark
与Hadoop之间的关系和区别,以帮助大家的功能和用途。
晓之以理的喵~~
·
2023-12-27 12:13
Spark
spark
hadoop
大数据
Spark
生产集群各种使用
1.环境配置1.1版本说明要求版本是否必须其他事项Hadoop3.3.4是hadoop3.3.0之后原生支持国内主要对象存储Hive3.1.3否实测没有Hive也可以使用
spark
sql,使用hive更好的管理
tuoluzhe8521
·
2023-12-27 10:15
hive相关
spark
大数据
分布式
七牛云存储
Flink on K8S集群搭建及StreamPark平台安装
1.环境准备1.1介绍在使用Flink&
Spark
时发现从编程模型,启动配置到运维管理都有很多可以抽象共用的地方,目前streampark提供了一个flink一站式的流处理作业开发管理平台,从流处理作业开发到上线全生命周期都做了支持
tuoluzhe8521
·
2023-12-27 10:45
flink
flink
kubernetes
大数据
StreamPark
Harbor
CentOS7 安装kafka教程及启动
介绍Kafka是分布式发布-订阅消息系统,最初由LinkedIn公司开发,之后成为之后成为Apache基金会的一部分,由
Scala
和Java编写。
sunboychenll
·
2023-12-27 08:51
MQ
kafka
安装及启动
删除azkaban的执行历史
azkaban通常用在大数据任务调度场景,把任务提交之后,如果任务是
spark
,hive,hadoop,flink等任务的话,
飞有飞言
·
2023-12-27 07:09
Spark
的生态系统概览:
Spark
SQL、
Spark
Streaming
Apache
Spark
是一个强大的分布式计算框架,用于大规模数据处理。
Spark
的生态系统包括多个组件,其中两个重要的组件是
Spark
SQL和
Spark
Streaming。
晓之以理的喵~~
·
2023-12-27 06:35
Spark
spark
sql
大数据
[
spark
] 存储到hdfs时指定分区
在
Spark
SQL中指定多个分区字段进行数据存储:类似hive分区存储文章目录代码示例代码importorg.apache.
spark
.sql.
Spark
Sessionval
spark
=
Spark
Session.builder
言之。
·
2023-12-27 06:33
spark
hdfs
大数据
米哈游大数据云原生实践
以
Spark
为例,在云上运行
Spark
可以充分享有公共云的弹性资源、运维管控和存储服务等,并且业界也涌现了不少
Spark
onKubernetes的优秀实践。
阿里云云原生
·
2023-12-27 06:31
大数据
云原生
[
spark
] DataFrame 的 checkpoint
在Apache
Spark
中,DataFrame的checkpoint方法用于强制执行一个物理计划并将结果缓存到分布式文件系统,以防止在计算过程中临时数据丢失。
言之。
·
2023-12-27 06:29
spark
大数据
分布式
[
spark
] dataframe的cache方法
在Apache
Spark
中,DataFrame的cache方法用于将DataFrame的计算结果缓存到内存中,以便在后续的操作中能够更快地访问这些数据。
言之。
·
2023-12-27 06:59
spark
大数据
分布式
doris基本操作,03-导入数据-Broker Load
因为Doris表里的数据是有序的,所以Brokerload在导入数据的时是要利用doris集群资源对数据进行排序,相对于
Spark
load来完成海量历史数据迁移,对Doris的集群资源占用要比较大,这种方式是在用户没有
车前猛跑
·
2023-12-27 05:46
数据开发
doris
数据开发
黑猴子的家:
Scala
超类的构造
在
Scala
的构造器中,你不能调用super(params)classPerson(valname:String,valage:Int){overridedeftoString=
黑猴子的家
·
2023-12-27 01:20
orc小文件合并趣谈
这里增量数据采用
Spark
SQL以动态分区增量写入的方
艾伦_alan
·
2023-12-27 01:02
分布式系统面试连环炮
他们有共同的一个问题,就是都没怎么搞过分布式系统,现在互联网公司,一般都是做分布式的系统,大家都不是做底层的分布式系统、分布式存储系统hadoophdfs、分布式计算系统hadoopmapreduce/
spark
Java机械师
·
2023-12-26 23:13
为什么
Spark
比MapReduce快?
MapReduce慢是因为模型很呆板,频繁的Io操作
Spark
快的话不仅是因为它是内存迭代计算吧?具体什么是内存迭代计算?
tracy_668
·
2023-12-26 23:00
DolphinScheduler 介绍及系统架构
目录一、DolphinScheduler介绍1.1关于DolphinScheduler1.2特性简单易用丰富的使用场景HighReliabilityHigh
Scala
bility1.3名词解释1.3.1
Stars.Sky
·
2023-12-26 22:02
系统架构
Scala
安装
Scala
安装使用windows安装,配置环境变量以下载
Scala
2.11为例,操作在Windows中安装
Scala
。
新鲜氧气
·
2023-12-26 22:54
#
spark
#
scala
#
hadoop
spark
大数据
scala
Scala
(一)基本类型
Scala
语言快速入门(基本类型)一、Linux和Windows环境安装这部分跳过,直接使用IDEA进行搭建,和其他编程语言配置差不多二、HelloWorld1.object表示一个伴生对象(相当于一个对象
新鲜氧气
·
2023-12-26 22:54
#
scala
#
spark
大数据
scala
开发语言
后端
【
Spark
-HDFS小文件合并】使用
Spark
实现 HDFS 小文件合并
【
Spark
-HDFS小文件合并】使用
Spark
实现HDFS小文件合并1)导入依赖2)代码实现2.1.HDFSUtils2.2.MergeFilesApplication需求描述:1、使用
Spark
做小文件合并压缩处理
bmyyyyyy
·
2023-12-26 17:15
Spark
spark
hdfs
大数据
#HDFS小文件合并
datasophon组件安装时踩坑记录
identifiedby'xxxx';1.安装hdfs后有一个namenode进程未启动解决:在那个未启动的节点上执行hdfsnamenode-bootstrapStandby之后在web页面重启hdfs2.hiveon
spark
州周
·
2023-12-26 17:56
hadoop
hdfs
大数据
主流级显卡的新选择,
Spark
le(撼与科技)Intel Arc A750兽人体验分享
如果要在ArcA系列当中选一个性能不俗,能够满足生产力与游戏需求,价格方面又不会太高的显卡,那么我手上的这张
Spark
le(撼与科技)的IntelArcA750兽人OC显卡就是一个不错的选择。
资讯看点
·
2023-12-26 14:48
业界资讯
kafka安装部署
1、Kafka概述1.1.Kafka简介ApacheKafka是一个开源消息系统、一个开源分布式流平台,由
Scala
写成。是由Apache软件基金会开发的一个开源消息系统项目。
Guff_hys
·
2023-12-26 14:00
kafka
分布式
spark
后端
大数据
开发语言
2018-11-01 Essence
Theessenceofstartupsisrapidlygrowth.Theessenceofstart-upsis
scala
bility/rapid
桂灰灰
·
2023-12-26 12:14
六:
Spark
集群安装和部署
ubuntu16.04系统;(2)Master节点:内存分配2g;Slave1节点:内存分配512MB;Slave2节点:内存分配512MB;2.安装路径:(1)Hadoop2.6.5:/usr/local/;(2)
Spark
2.6.0
玉成226
·
2023-12-26 10:21
spark
大数据
Spark
实战高手之路职业学习路线图
从零起步,分阶段无任何障碍逐步掌握大数据统一计算平台
Spark
,从
Spark
框架编写和开发语言
Scala
开始,到
Spark
企业级开发,再到
Spark
框架源码解析、
Spark
与Hadoop的融合、商业案例和企业面试
smileyboy2009
·
2023-12-26 10:56
hadoop
spark
spark
hadoop
hadoop3.0x 后要比
spark
快10倍!
Apachehadoop项目组最新消息,hadoop3.x以后将会调整方案架构,将Mapreduce基于内存+io+磁盘,共同处理数据其实最大改变的是hdfs,hdfs通过最近black块计算,根据最近计算原则,本地black块,加入到内存,先计算,通过IO,共享内存计算区域,最后快速形成计算结果。hadoop3.0后会大改mapreduce计算模型,就让我们拭目以待吧!目前hadoop版本是2.
smileyboy2009
·
2023-12-26 10:56
hadoop
spark
内存
mapreduce
spark
hdfs
hadoop
Java
Spark
Sql 2.4.0 ArrayIndexOutOfBoundsException error
在
spark
2.4中报ArrayIndexOutOfBoundsException原因是
Spark
2.4.0中引用的paranamer版本是2.7导致问题。
smileyboy2009
·
2023-12-26 10:56
spark
Iceberg1.4.2 java 表管理(DDL和DML)操作
既然是一种开放的表管理格式,那就不应该依赖hadoop,hive,
spark
,flink
smileyboy2009
·
2023-12-26 10:26
java
开发语言
spark
和flink对比
最近网上和各大公司在对比
spark
和flink,也有一部分人,演讲时不分析代码原理,不根据事实,直接吹嘘flink比
spark
好,flink能干掉
spark
的话,今天就跟大家从技术,应用和未来发展角度对两个产品进行对比
smileyboy2009
·
2023-12-26 10:25
spark
flink
数据仓库
大数据
iceberg1.4.2+
spark
3.4.2+minio
pom.xml文件需要引入的包org.
scala
-lang
scala
-library${
scala
.version}junitjunit4.4testorg.specsspecs1.2.5testorg.apache
smileyboy2009
·
2023-12-26 10:25
spark
idea开发delta.io数据湖
通过idea的
spark
操作delta.ideamaven的pom.xmlio.miniominio8.5.7org.apache.
spark
spark
-core_2.123.5.0o
smileyboy2009
·
2023-12-26 10:52
intellij-idea
java
ide
pycharm连接虚拟机
前言:我们默认用户已经在虚拟机上安装好了
spark
等相关集群和生态,是可以在虚拟机中运行相关的操作,比如mapper,reducer操作,rdd,dataframe等等杂七杂八的东西的(主要我也没太明白
俺会hello我的
·
2023-12-26 07:22
pycharm
ide
spark
:RDD编程(Python版)
RDD运行原理RDD设计背景许多选代目前的MapReduce框架都是把中间结果写入到稳定存储(比如磁盘)中带来了大量的数据复制、磁盘IO和序列化开销RDD就是为了满足这种需求而出现的,它提供了一个抽象的数据架构,我们不必担心底层数据的分布式特性,只需将具体的应用逻辑表达为一系列转换处理,不同RDD之间的转换操作形成依赖关系,可以实现管道化,避免中间数据存储。RDD概念一个RDD就是一个分布式对象集
Mineba
·
2023-12-26 07:43
大数据技术
spark
python
SpringBoot 2 集成
Spark
3
*+
Spark
3.*,如果还未安装相关环境,请参考:
Spark
初始CentOS7安装Hadoop3单机版SpringBoot2集成
Spark
3pom.xmlSpringBootCaseorg.example1.0
在奋斗的大道
·
2023-12-26 06:12
Java架构专栏
深蓝计划
hadoop
spark
大数据
分布式
iceberg1.4.2 +minio通过
spark
创建表,插入数据
下层支持hadoop,s3,对象存储,上层支持hive,
spark
,flink等应用。实现在中间把两部分隔离开来,实现一种对接和数据管理的标准。有这个标准,不管是谁建的表,都可以操作和访问。
smileyboy2009
·
2023-12-26 06:39
spark
大数据
分布式
count distinct在
spark
中的运行机制
(*),SUM(items),COUNT(DISTINCTproduct),COUNT(DISTINCTcategory)FROMorders;假设源数据分布在两个1核的结点上,数据就8行Expand
spark
SLUMBER_PARTY_
·
2023-12-26 06:08
spark
大数据
黑猴子的家:
Scala
视图界定
,我们看多一个带上界的示例classPair[TComparable[T]){defsmaller=if(first.comparaTo(second)<0)firstelsesecond}2、实操在
Scala
黑猴子的家
·
2023-12-26 06:42
【Linux系统基础】(6)在Linux上大数据NoSQL数据库HBase集群部署、分布式内存计算
Spark
环境及Flink环境部署详细教程
大数据NoSQL数据库HBase集群部署简介HBase是一种分布式、可扩展、支持海量数据存储的NoSQL数据库。和Redis一样,HBase是一款KeyValue型存储的数据库。不过和Redis设计方向不同Redis设计为少量数据,超快检索HBase设计为海量数据,快速检索HBase在大数据领域应用十分广泛,现在我们来在node1、node2、node3上部署HBase集群。安装HBase依赖Zo
老牛源码
·
2023-12-26 06:13
Linux教程
大数据
分布式
linux
Spark
Core
一、RDD详解1.1什么是RDDRDD(ResilientDistributedDataset)叫做弹性分布式数据集,是
Spark
中最基本的数据抽象,代表一个不可变、可分区、里面的元素可并行计算的集合。
weixin_50458070
·
2023-12-26 06:40
大数据
大数据
上一页
62
63
64
65
66
67
68
69
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他