java调用spark 第19页

Spark MLlib中的机器学习算法及其应用场景

SparkMLlib是ApacheSpark框架中的一个机器学习库，提供了丰富的机器学习算法和工具，用于处理和分析大规模数据。

Java资深爱好者·2025-02-21 20:47

Spark源码分析

Spark源码分析SparkonYarnclientCluster本质区别，driver位置不同1)有哪些不同得进程？2)分别有什么作用？

陈同学�·2025-02-21 15:07

Spark源码分析 – Shuffle

参考详细探究Spark的shuffle实现,写的很清楚,当前设计的来龙去脉HadoopHadoop的思路是,在mapper端每次当memorybuffer中的数据快满的时候,先将memory中的数据,按

weixin_34292924·2025-02-21 15:06

【大数据分析】Spark SQL查询：使用SQL命令

在SparkSQL编写SQL命令时，它们将被转换为DataFrame上的操作。通过连接到Spark的Thrift服务器，它们可以通过标准的JDBC或ODBC协议从应用服务器连接到Spark。

sword_csdn·2025-02-21 02:58

如何使用Spark SQL进行复杂的数据查询和分析

使用SparkSQL进行复杂的数据查询和分析是一个涉及多个步骤和技术的过程。

Java资深爱好者·2025-02-21 01:22

简易java调用DeepSeek Api教程

一、请求格式首先观察官方文档给出的访问api的样例脚本curlhttps://api.deepseek.com/chat/completions\-H"Content-Type:application/json"\-H"Authorization:Bearer"\-d'{"model":"deepseek-chat","messages":[{"role":"system","content":"

m0_62519278·2025-02-20 17:39

如果MLlib 中没有所需要的模型，如何使用 Spark 进行分布式训练？

如果MLlib中没有你所需要的模型，并且不打算结合更强大的框架（如TensorFlowOnSpark或Horovod），仍然可以使用Spark进行分布式训练，但需要手动处理训练任务的分配、数据准备、模型训练

是纯一呀·2025-02-20 08:57

使用 Docker 部署 Apache Spark 集群教程

简介ApacheSpark是一个强大的统一分析引擎，用于大规模数据处理。

努力的小T·2025-02-19 20:48

笔记：DataSphere Studio安装部署流程

一、标准版部署标准版：有一定的安装难度，体现在Hadoop、Hive和Spark版本不同时，可能需要重新编译，可能会出现包冲突问题。适合于试用和生产使用，2~3小时即可部署起来。

右边com·2025-02-19 13:15

HIVE- SPARK

日常记录备忘Hive修改字段类型之后（varchar->string）Hive可以查到数据，Presto查询报错;分区字段数据类型和表结构字段类型不一样；spark-sql分区表和非分区表兼容问题，不能关联可以建临时表把分区数据导入

流川枫_·2025-02-19 13:14

spark为什么比mapreduce快？

作者：京东零售吴化斌spark为什么比mapreduce快？

·2025-02-19 11:55

spark为什么比mapreduce快？

作者：京东零售吴化斌spark为什么比mapreduce快？

·2025-02-19 11:22

Spark中Dataset方法详解

一、数据清洗核心方法1.处理缺失值方法说明示例代码na().drop()删除包含空值的行Datasetcleaned=dataset.na().drop();na().fill(value)用指定值填充所有空值Datasetfilled=dataset.na().fill(0);na().fill(Map)按列填充不同值Mapfills=newHashMapunique=dataset.dropD

小巫程序Demo日记·2025-02-19 10:53

探索大数据处理：利用 Apache Spark 解锁数据价值

探索大数据处理：利用ApacheSpark解锁数据价值大家好，我是你们熟悉的大数据领域自媒体创作者Echo_Wish。今天，我们来聊聊如何利用ApacheSpark进行大规模数据处理。

Echo_Wish·2025-02-19 07:59

Java永久性修改Linux(Debian/Ubuntu)网络

network/interfaces文件（二）重启网络（三）查看网络配置三、shell脚本配置网络（一）脚本执行流程（二）编写脚本（三）完整代码（四）脚本执行方式（五）直接覆盖版（六）使用工具包的实现方案四、通过Java

久违放晴·2025-02-18 19:54

使用Docker安装Spark集群(带有HDFS)

本实验在CentOS7中完成第一部分：安装Docker这一部分是安装Docker，如果机器中已经安装过Docker，可以直接跳过[root@VM-48-22-centos~]#systemctlstopfirewalld[root@VM-48-22-centos~]#systemctldisablefirewalld[root@VM-48-22-centos~]#systemctlstatusfi

Sicilly_琬姗·2025-02-18 10:52

使用Docker部署Spark集群

使用Docker部署Spark集群克隆包含启动脚本的git仓库启动Spark0.8.0集群并切换至SparkShell环境不带参数运行部署脚本*运行一些小的例子终止集群克隆包含启动脚本的git仓库*gitclone-bblogpostgit

小孩真笨·2025-02-18 10:17

从0开始使用Docker搭建Spark集群

utm_campaign=maleskine&utm_content=note&utm_medium=seo_notes&utm_source=recommendation最近在学习大数据技术，朋友叫我直接学习Spark

吃鱼的羊·2025-02-18 10:16

Hbase深入浅出

大家熟知的Spark、以及Hadoop的MapReduce，可以理解为一种计算框架。而HDFS，我们可以认为是为计算框架服务的存

天才之上·2025-02-18 03:13

深入浅出了解HBase及RDD编程

HBase为什么能存储海量数据创建一个HBase表配置Spark编写程序读取HBase数据编写程序向HBase写入数据关于搭建HBase高可用集群的图文教程，可参考我的另一篇博文——安装并配置HBase

山海王子·2025-02-18 03:11

JAVA调用Deepseek的api，完成基本对话

获取API密钥首先，从DeepSeek平台获取API密钥，用于身份验证。添加HTTP客户端依赖使用Java的HTTP客户端库（如ApacheHttpClient或OkHttp）来发送HTTP请求。如果使用Maven，可以在pom.xml中添加依赖：、org.apache.httpcomponentshttpclient4.5.13com.squareup.okhttp3okhttp4.9.3创建H

菜菜-plus·2025-02-17 21:55

java word在线编辑_[原创]Java开发在线打开编辑保存Word文件（支持多浏览器）

Java调用PageOffice实现在线编辑保存Word文件(以jsp调用为例，支持SSM、SSH、SpringMVC等流行框架)1.下载PageOffice开发包：http://www.zhuozhengsoft.com

嘻嘻哈哈哦哦吧·2025-02-17 05:09

Spark 性能优化（四）：Cache

在Spark中，缓存是一种将计算结果存储在内存中的方式，目的是加速后续操作。当你执行迭代算法或查询时，如果多次重复使用相同的数据集，缓存可以避免每次都重新计算相同的转换操作。

LevenBigData·2025-02-17 00:04

使用Docker搭建Flink集群

我们知道，像spark、flink这些计算框架都有多种运行模式：在本地使用多线程模拟集群真正的分布式集群如果直接在IDE（Intellj）里面编译和运行写好的程序，实际上是用的前一种运行模式；如果想尝试真正的生产环境中任务的提交和管

O_1CxH·2025-02-16 20:34

Spark 和 Flink

Spark和Flink都是目前流行的大数据处理引擎，但它们在架构设计、应用场景、性能和生态方面有较大区别。

信徒_·2025-02-16 12:04

spark任务运行

运行环境在这里插入代码片[root@hadoop000conf]#java-versionjavaversion"1.8.0_144"Java(TM)SERuntimeEnvironment(build1.8.0_144-b01)[root@hadoop000conf]#echo$JAVA_HOME/home/hadoop/app/jdk1.8.0_144[root@hadoop000conf]#

冰火同学·2025-02-16 11:56

【Redis】golang操作Redis基础入门

【Redis】golang操作Redis基础入门大家好我是寸铁总结了一篇【Redis】golang操作Redis基础入门sparkles:喜欢的小伙伴可以点点关注Redis的作用Redis（RemoteDictionaryServer

寸铁·2025-02-16 07:24

hive spark读取hive hbase外表报错分析和解决

问题现象使用Sparkshell操作hive关联Hbase的外表导致报错；hive使用tez引擎操作关联Hbase的外表时报错。

spring208208·2025-02-16 07:21

spark-广播变量

当本地数据极大的时候，可以使用广播变量，使得减少内存。本地集合对象和分布式集合对象（RDD）进行关联的时候，需要将本地集合对象广播变量。本地的数据传输到集群上，会发到每一个线程，每一个分区。每一个进程executor，有多个线程分区，进程内的线程数据共享因此，给每一个线程发送数据会导致数据占用，浪费资源。所有，出现了广播变量，使得只发送给进程代码使用：broadcast=sc.broadcast(

哈哈哈哈q·2025-02-16 05:12

探索数据云的无缝桥梁：Apache Spark 与 Snowflake 的完美结合

探索数据云的无缝桥梁：ApacheSpark与Snowflake的完美结合spark-snowflakeSnowflakeDataSourceforApacheSpark.项目地址:https://gitcode.com

窦育培·2025-02-15 12:32

maven插件学习(maven-shade-plugin和maven-antrun-plugin插件)

整合spark3.3.x和hive2.1.1-cdh6.3.2碰到个问题，就是spark官方支持的hive是2.3.x，但是cdh中的hive确是2.1.x的，项目中又计划用spark-thrift-server

catcher92·2025-02-15 08:00

使用SparkLLM实现智能聊天：技术原理与实战演示

在本篇文章中，我们将探讨如何使用iFlyTek的SparkLLM模型来实现智能聊天功能。我们将详细介绍SparkLLM的技术背景、核心原理，并通过实际代码展示如何进行实现。

shuoac·2025-02-15 06:41

Spark 性能优化（三）：RBO 与 CBO

1.RBO的核心概念在ApacheSpark的查询优化过程中，规则优化（Rule-BasedOptimization,RBO）是Catalyst优化器的一个关键组成部分。

LevenBigData·2025-02-15 02:09

python 并行框架_基于python的高性能实时并行机器学习框架之Ray介绍

这种框架名为Ray，看起来有望取代Spark，业界认为Spark对于一些现实的人工智能应用而言速度太慢了;过不了一年，Ray应该会准备好用于生产环境。目前ray已经发布了0.3.0

weixin_39778582·2025-02-14 20:54

java获取hive表所有字段,Hive Sql从表中动态获取空列计数

我正在使用datastaxspark集成和sparkSQLthrift服务器,它为我提供了一个HiveSQL接口来查询Cassandra中的表.我的数据库中的表是动态创建的,我想要做的是仅根据表名在表的每列中获取空值的计数

拾亿年·2025-02-14 16:23

PySpark查询Dataframe中包含乱码的数据记录的方法

首先，用PySpark获取Dataframe中所有非ASCII字符，找到其中的非乱码字符。

weixin_30777913·2025-02-14 16:23

JAVA访问调用python接口

因为工作需要,用到python,做cplex模型计算,研究了一下如何java调用python接口,并传输接受数据.首先你需要安装好python环境,之后导入flask包.这点就不多赘述了,参考网上很多教程都有

不秃头的小刘·2025-02-14 11:19

spark streaming基础操作

sparkstreaming基础操作一、什么是sparkstreamingSparkStreaming用于流式数据的处理。

天选之子123·2025-02-14 09:33

flink实时集成利器 - apache seatunnel - 核心架构详解

它支持多种数据源和数据目标，并可以与ApacheFlink、Spark等计算引擎集成。

24k小善·2025-02-12 23:38

DS缩写乱争：当小海豚撞上AI顶流，技术圈也逃不过“撞名”修罗场

这个2019年诞生的分布式任务调度系统，凭借可视化DAG界面、多租户支持和对Hadoop/Spark生态的深度集成，一度是大数据工程师的“梦中情工”。

·2025-02-12 18:58

如何在Java中实现高效的分布式计算框架：从Hadoop到Spark

如何在Java中实现高效的分布式计算框架：从Hadoop到Spark大家好，我是微赚淘客系统3.0的小编，是个冬天不穿秋裤，天冷也要风度的程序猿！

省赚客app开发者·2025-02-12 07:12

Spark源码分析

过程描述:1.通过Shell脚本启动Master，Master类继承Actor类，通过ActorySystem创建并启动。2.通过Shell脚本启动Worker，Worker类继承Actor类，通过ActorySystem创建并启动。3.Worker通过Akka或者Netty发送消息向Master注册并汇报自己的资源信息(内存以及CPU核数等)，以后就是定时汇报，保持心跳。4.Master接受消息

数据年轮·2025-02-11 22:11

Spark 源码 | 脚本分析总结

前言最初是想学习一下Spark提交流程的源码，比如SparkOnYarn、Standalone。

董可伦·2025-02-11 21:31

Spark性能调优-----常规性能调优（一）最优资源配置

1.1.1常规性能调优一：最优资源配置Spark性能调优的第一步，就是为任务分配更多的资源，在一定范围内，增加资源的分配与性能的提升是成正比的，实现了最优的资源配置后，在此基础上再考虑进行后面论述的性能调优策略

weidajiangjiang·2025-02-11 01:01

Spark性能调优系列：Spark资源模型以及调优

Spark资源模型Spark内存模型Spark在一个Executor中的内存分为三块，execution内存、storage内存、other内存。

Mr Cao·2025-02-11 01:29

spark 性能调优（一）：执行计划

在Spark中，explain函数用于提供数据框（DataFrame）或SQL查询的逻辑计划和物理执行计划的详细解释。

LevenBigData·2025-02-11 01:26

spark技术基础知识

1.Spark的宽窄依赖划分Q:Spark中如何划分宽依赖和窄依赖？A:窄依赖：父RDD的每个分区最多被一个子RDD的分区依赖（如map、filter），不会触发shuffle。

24k小善·2025-02-10 15:16

Spark图书数据分析系统 Springboot协同过滤-余弦函数推荐系统爬虫1万+数据大屏数据展示 + [手把手视频教程和开发文档]

Spark图书数据分析系统Springboot协同过滤-余弦函数推荐系统爬虫1万+数据大屏数据展示+[手把手视频教程和开发文档]【亮点功能】1.Springboot+Vue+Element-UI+Mysql

QQ-1305637939·2025-02-10 05:10

DeepSeek 引发 AI 大模型战火

应用场景：三、Python：大模型开发的宠儿：3.1语言优势：3.2使用Python调用DeepSeek示例：3.3代码解释:3.4局限性:四、Java：企业级应用的中坚力量:4.1语言优势:4.2使用Java

zxfxcbxc·2025-02-10 00:04

推荐频道

java调用spark

Spark MLlib中的机器学习算法及其应用场景

Spark源码分析

Spark源码分析 – Shuffle

【大数据分析】Spark SQL查询：使用SQL命令

如何使用Spark SQL进行复杂的数据查询和分析

简易java调用DeepSeek Api教程

如果MLlib 中没有所需要的模型，如何使用 Spark 进行分布式训练？

使用 Docker 部署 Apache Spark 集群教程

笔记：DataSphere Studio安装部署流程

HIVE- SPARK

spark为什么比mapreduce快？

spark为什么比mapreduce快？

Spark中Dataset方法详解

探索大数据处理：利用 Apache Spark 解锁数据价值

最新Apache Hudi 1.0.1源码编译详细教程以及常见问题处理

Java永久性修改Linux(Debian/Ubuntu)网络

使用Docker安装Spark集群(带有HDFS)

使用Docker部署Spark集群

从0开始使用Docker搭建Spark集群

Hbase深入浅出

深入浅出了解HBase及RDD编程

JAVA调用Deepseek的api，完成基本对话

java word在线编辑_[原创]Java开发在线打开编辑保存Word文件（支持多浏览器）

Spark 性能优化（四）：Cache

使用Docker搭建Flink集群

Spark 和 Flink

spark任务运行

【Redis】golang操作Redis基础入门

hive spark读取hive hbase外表报错分析和解决

spark-广播变量

探索数据云的无缝桥梁：Apache Spark 与 Snowflake 的完美结合

maven插件学习(maven-shade-plugin和maven-antrun-plugin插件)

使用SparkLLM实现智能聊天：技术原理与实战演示

Spark 性能优化 （三）：RBO 与 CBO

python 并行框架_基于python的高性能实时并行机器学习框架之Ray介绍

java获取hive表所有字段,Hive Sql从表中动态获取空列计数

PySpark查询Dataframe中包含乱码的数据记录的方法

JAVA访问调用python接口

spark streaming基础操作

flink实时集成利器 - apache seatunnel - 核心架构详解

DS缩写乱争：当小海豚撞上AI顶流，技术圈也逃不过“撞名”修罗场

如何在Java中实现高效的分布式计算框架：从Hadoop到Spark

Spark源码分析

Spark 源码 | 脚本分析总结

Spark性能调优-----常规性能调优（一）最优资源配置

Spark性能调优系列：Spark资源模型以及调优

spark 性能调优 （一）：执行计划

spark技术基础知识

Spark图书数据分析系统 Springboot协同过滤-余弦函数推荐系统 爬虫1万+数据 大屏数据展示 + [手把手视频教程 和 开发文档]

DeepSeek 引发 AI 大模型战火

Spark 性能优化（三）：RBO 与 CBO

spark 性能调优（一）：执行计划

Spark图书数据分析系统 Springboot协同过滤-余弦函数推荐系统爬虫1万+数据大屏数据展示 + [手把手视频教程和开发文档]