python+大数据第33页

Flink+Iceberg搭建实时数据湖实战

点击上方蓝色字体，选择“设为星标”回复"面试"获取更多惊喜全网最全大数据面试提升手册！

王知无(import_bigdata)·2025-04-12 18:30

【Hadoop入门】Hadoop生态之Pig简介

在大数据分析领域，ApachePig是一个不可忽视的重要工具。

IT成长日记·2025-04-12 18:29

DataWorks智能体Agent发布！基于MCP实现数据

近日，阿里云大数据开发治理平台DataWorks基于MCP协议，正式发布DataWorksAgent，内置DataWorksMCPServerV1.0，让数据开发治理工作从Copilot辅助步入到AIAgent

·2025-04-12 18:23

Lucene.Net 分词器选择指南：盘古分词 vs 结巴分词的深度对比与未来趋势

引言在大数据与自然语言处理的浪潮中，分词技术作为信息检索、文本分析、搜索引擎优化等领域的核心技术，扮演着至关重要的角色。

大富大贵7·2025-04-12 18:28

【Hadoop入门】Hadoop生态之Oozie简介

作为一个基于工作流的调度服务器，它能够在复杂的任务依赖关系中协调HadoopMapReduce、Pig、Hive等任务的执行，是大数据平台中任务编排的核心组件之一。

IT成长日记·2025-04-12 18:27

DataWorks智能体Agent发布！基于MCP实现数据开发与治理自动化运行

近日，阿里云大数据开发治理平台DataWorks基于MCP协议，正式发布DataWorksAgent，内置DataWorksMCPServerV1.0，让数据开发治理工作从Copilot辅助步入到AIAgent

·2025-04-12 17:18

基于Python的QQ音乐数据爬取分析与可视化（附源码）

关键词：Python；QQ音乐；数据爬取；数据分析；可视化一、引言在信息时代的背景下，大数据技术得

AI博士小张·2025-04-12 16:49

最全的“大数据”学习资源（一）

当前，整个互联网正在从IT时代向DT时代演进，大数据技术也正在助力企业和公众敲开DT世界大门。

GISEarth·2025-04-12 16:45

从Oracle和TiDB的HTAP说起

除了数据库行业其他技术群体很多不知道HTAP的时至今日还是有很多人迷信Hadoop，觉得大数据就是Hadoop。这是不正确的。也难怪这样，很多人OLTP和OLAP也分不清，何况HTAP。

薛晓刚·2025-04-12 07:49

大数据学习（100）-kafka详解

大数据学习系列专栏：哲学语录:用力所能及，改变世界。

viperrrrrrr·2025-04-12 04:53

Spark运行

一文读懂Spark：从核心概念到实战编程在大数据处理领域，Spark凭借其高效的计算能力和灵活的架构脱颖而出。今天，就来和大家深入聊聊Spark，帮助初学者快速入门。

美味的大香蕉·2025-04-12 03:16

Spark Core编程

一文读懂SparkCore编程核心要点最近在学习大数据处理框架Spark，今天来给大家分享一下SparkCore编程中非常重要的内容，包括RDD算子、累加器和广播变量，希望能帮助大家更好地理解和掌握Spark

美味的大香蕉·2025-04-12 03:16

大数据技术之Scala

Spark运行架构核心是一个计算引擎核心组件1.Driver（驱动器）角色：Spark作业的“大脑”，负责解析用户代码、生成任务并调度执行。功能：将用户程序转换为作业（Job）。调度任务到Executor，监控任务状态。-提供WebUI展示运行状态。2.Executor（执行器）角色：集群中的工作节点，实际执行任务的JVM进程。功能：运行具体任务（Task），返回结果给Driver。通过内存缓存R

罗婕斯特·2025-04-12 02:42

大数据必学语言Scala（十九）：基础语法学习 iterator迭代器

文章目录iterator迭代器使用迭代器遍历集合iterator迭代器scala针对每一类集合都提供了一个迭代器（iterator）用来迭代访问集合使用迭代器遍历集合使用iterator方法可以从集合获取一个迭代器迭代器的两个基本操作hasNext——查询容器中是否有下一个元素next——返回迭代器的下一个元素，如果没有，抛出NoSuchElementException每一个迭代器都是有状态的(只

Lansonli·2025-04-11 19:28

【老梁聊IT之JAVA篇】Java学习线路详解

Java是一门强大且广泛使用的编程语言，广泛应用于Web开发、企业级应用、大数据处理、移动开发等领域。

科技宅老·2025-04-11 19:23

【计算机毕业设计选题推荐】基于SpringBoot+Vue的志愿者招募管理系统的设计与实现【附源码+部署+讲解】

专业做Java、Python、小程序、安卓、大数据、爬虫、Golang、大屏等实战项目。⛽⛽实战项目：有源码或者技术上的问题欢迎在评论区一起讨论交流！

计算机毕设编程指导师·2025-04-11 18:52

【MySQL修改操作详解】

`CASE`实现条件更新2.使用`IF()`和`ELSE()`3.防止误修改所有数据六、性能优化建议1.合理使用索引2.使用批量修改3.分批修改大数据量一、MySQL修改操

wdwc2·2025-04-11 18:18

【大数据分析】基于Spark大数据商品数据分析可视化系统（完整系统源码+数据库+开发笔记+详细部署教程+虚拟机分布式启动教程）✅

文章目录【大数据分析】基于spark大数据商品数据分析可视化系统（完整系统源码+数据库+开发笔记+详细部署教程+虚拟机分布式启动教程）✅一、项目背景二、项目目标三、项目功能四、项目优势五、应用场景六、开发技术介绍七

奥特曼it·2025-04-11 15:58

深入解析ETL与ELT架构：数据集成技术的演进与发展

摘要：随着大数据时代的到来，数据集成成为企业信息化建设的重要环节。本文将深入探讨ETL与ELT两种架构，分析它们在数据处理、性能、可扩展性等方面的差异，为企业数据集成提供技术指导。

2301_77700816·2025-04-11 15:24

spark介绍与编程

➢分布式：数据存储在大数据集群不同节点上➢数据集

zzh-·2025-04-11 13:46

Yarn资源管理和任务调度原理与代码实例讲解

1.1问题由来随着大数据和云计算技术的不断成熟，数据中心需要管理越来越多的工作负载。然而，现有的集中式资源

杭州大厂Java程序媛·2025-04-11 13:42

基于大数据的城市交通流量分析与预测

1.2大数据在交通领域的应用大数据技术的快速发展为解决交通问题提供了新的思路和方法。海量的交通数据，例如GPS定位数据、视频监控数据、卡口数据、出租车轨迹数据等，

AI大模型应用之禅·2025-04-11 13:12

Hive简介及架构

SQL——>MapReduce原理Hive的优点简单容易上手：提供了类SQL查询语言HQL；可扩展性：为超大数据集设计了计算/扩展能力（MR作为计算引擎，HDFS作

afei00123·2025-04-11 12:09

推荐开源项目：KeyInfoExtraction - 深度学习文本关键信息抽取利器

黎情卉Desired·2025-04-11 09:51

大数据（7.4）Kafka存算分离架构深度实践：解锁对象存储的无限潜能

目录一、传统架构的存储困境与破局1.1数据爆炸时代的存储挑战1.2存算分离的核心价值矩阵二、对象存储集成架构设计2.1分层存储核心组件2.2关键配置参数优化三、深度集成实践方案3.1冷热数据分层策略3.1.1存储策略性能对比3.2跨云数据湖方案四、企业级应用案例4.1金融交易审计系统4.2智能驾驶数据湖五、关键技术挑战与突破5.1一致性保障机制5.2混合云数据治理六、效能验证与监控体系6.1成本优

一个天蝎座白勺程序猿·2025-04-11 08:15

大数据（7.5）Kafka Edge在5G边缘计算中的革新实践：解锁毫秒级实时处理的无限可能

目录一、5G时代边缘计算的算力革命1.1传统架构的延迟困境1.25G网络特性与Kafka适配二、KafkaEdge核心架构设计2.1分层处理架构2.2关键技术创新点2.2.1协议优化2.2.2轻量化存储引擎三、5G场景落地实践3.1智能工厂预测性维护3.2全息远程医疗会诊四、性能优化深度实践4.1网络传输层调优4.2资源受限环境优化4.3边缘集群管理五、关键技术挑战突破5.1断网续传机制5.2动态

一个天蝎座白勺程序猿·2025-04-11 08:15

大数据（7.3）Kafka量子安全加密实践指南：构建抗量子计算攻击的消息系统

目录一、量子计算带来的加密革命1.1量子计算机的威胁时间表1.2Kafka现有加密机制脆弱性分析二、后量子加密算法选型2.1NIST标准化算法矩阵2.2混合加密最佳实践三、Kafka量子安全改造方案3.1BouncyCastle量子安全Provider3.2Kafka服务端配置四、实战案例：金融交易系统改造4.1业务场景需求4.2混合加密实施步骤4.2.1性能对比测试4.3监控与告警配置五、量子安

一个天蝎座白勺程序猿·2025-04-11 08:45

大数据（7.1）Kafka实时数据采集与分发的企业级实践：从架构设计到性能调优

目录一、实时数据洪流下的技术突围1.1行业需求演进曲线1.2传统方案的技术瓶颈二、Kafka实时架构设计精要2.1生产者核心参数矩阵2.1.1分区策略选择指南2.2消费者组智能负载均衡三、实时数据管道实战案例3.1电商大促实时看板3.2工业物联网预测性维护四、生产环境性能调优4.1集群部署黄金法则4.2JVM参数优化模板4.3监控指标体系五、容灾与安全加固5.1跨地域数据同步六、演进趋势与展望大数

一个天蝎座白勺程序猿·2025-04-11 08:44

【AI大数据计算原理与代码实例讲解】Hadoop

【AI大数据计算原理与代码实例讲解】Hadoop作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming关键词：Hadoop,分布式计算,大数据,数据处理框架,YARN

AI天才研究院·2025-04-11 08:43

大数据（7.2）Kafka万亿级数据洪流下的架构优化实战：从参数调优到集群治理

目录一、海量数据场景下的性能之殇1.1互联网企业的数据增长曲线1.2典型性能瓶颈分析二、生产者端极致优化2.1批量发送黄金法则2.1.1分区选择算法对比2.2序列化性能突破三、消费者端并发艺术3.1多线程消费模式演进3.1.1消费组Rebalance优化3.2位移管理高阶技巧四、Broker集群深度调优4.1操作系统级优化4.2JVM垃圾回收革命4.3磁盘IO性能突围五、企业级调优案例5.1在线教

一个天蝎座白勺程序猿·2025-04-11 08:39

构建高可用大数据平台：Hadoop与Spark分布式集群搭建指南

Hadoop和Spark作为大数据处理的“黄金搭档”，如何在分布式高可用（HA）环境下稳如磐石地运行？答案就在于一个精心构建的HA运行环境。它不仅能扛住故障，还能让你的测试效率起飞。

朱公子的Note·2025-04-11 07:38

安科瑞微电网系统：行业领先的能源管理解决方案

一、安科瑞微电网系统的概述安科瑞微电网系统是一套集成了物联网、大数据、云计算和人工智能等先

安科瑞王可·2025-04-11 07:33

大数据技术与Scala

集合高级函数过滤通过条件筛选集合元素，返回新集合。映射对每个元素应用函数，生成新集集合扁平化将嵌套集合展平为单层集合。扁平化+映射先映射后展平，常用于拆分字符串。分组按规则将元素分组为Map结构。归约聚合集合元素折叠带初始值的归约，适合复杂聚合操作WordCount案例实现目标:统计单词频率并取前三名。步骤:1.拆分单词2.按单词分组3.计算频次4.排序取前三队列（Queue）操作特点:先进先出（

罗婕斯特·2025-04-11 07:02

大数据技术之Scala

第6章面向对象Scala的面向对象思想和Java的面向对象思想和概念是一致的。Scala中语法和Java不同，补充了更多的功能。Scala包基本语法package包名Scala包的三大作用（和Java一样）区分相同名字的类当类很多时，可以很好的管理类控制访问范围包的命名命名规则只能包含数字、字母、下划线、小圆点.，但不能用数字开头，也不要使用关键字。包说明（包语句）说明packagecom{pac

罗婕斯特·2025-04-11 07:32

大数据分析（Spark/Flink实时计算）

大数据分析中的实时计算通常涉及处理大量数据流，以便在接近数据生成的时间进行实时决策或分析。

小柚净静·2025-04-10 22:12

spark

sho_re·2025-04-10 22:08

【MySQL基础-23】MySQL数据导入与导出：高效管理数据的必备技能

1.为什么需要数据导入导出数据导入导出在以下场景中至关重要：数据库迁移或备份恢复在不同环境间同步数据与外部系统进行数据交换大数据量批量处理定期数据归档2.基础导出方法2.1使用SEL

AllenBright·2025-04-10 20:56

Ollama与vLLM部署对比：哪个更合适？

耗子口袋大数据2024年11月25日20:56重庆近年来，大语言模型（LLM）的应用日益广泛，而高效的部署方案至关重要。Ollama和vLLM作为两种流行的LLM部署工具，各有优劣。

强化学习曾小健2·2025-04-10 19:51

大数据关键技术实战指南：落地应用与案例分享

在数字化时代，大数据关键技术不再是束之高阁的理论，而已广泛融入各行业实际业务中，为企业创造显著价值。掌握这些技术的落地应用方法，是企业在激烈竞争中脱颖而出的关键。

mingzhuo5432·2025-04-10 15:56

Zeppelin 集成TDengine 的探索与实践

主要实现大多都是基于jupyter、Zeppelin进行定制化开发，重点会打通大数据计算、存储及底层资源管理，支持常见的机器学习和深度学习计算框架。

house.zhang·2025-04-10 14:20

Spark Core编程

在大数据处理领域，SparkCore是极为重要的框架，而其中的算子则是数据处理的核心武器。今天就来给大家讲讲SparkCore编程中的各类算子。Value类型算子是基础。

不要天天开心·2025-04-10 12:05

conda常用命令整理

它包含了许多常用的开源软件包和工具，适用于数据科学、机器学习、大数据处理和科学计算等领域。Anaconda的核心是conda。conda是一个包管理器和环境管理器，可以轻松安装、升级和管理软件包。

fsoule·2025-04-10 10:23

Flink在饿了么的应用与实践

本文作者：易伟平（饿了么）整理：姬平（阿里巴巴实时计算部）本文将为大家展示饿了么大数据平台在实时计算方面所做的工作，以及计算引擎的演变之路，你可以借此了解Storm、Spark、Flink的优缺点。

Apache Flink·2025-04-10 10:51

【机器学习+爬虫】房屋数据分析预测与可视化系统计算机毕业设计爬虫大数据毕业设计人工智能预测模型数据分析数据可视化

演示视频：【机器学习】房屋数据分析预测与可视化系统计算机毕业设计爬虫大数据毕业设计人工智能预测模型数据分析数据可视化技术栈：python、flask、mysql、scikit-learn创新点：Python

weixin_45469617·2025-04-10 10:21

【Hadoop+Hive】哔哩哔哩视频网站数据分析与可视化系统计算机毕业设计大数据毕业设计 Python bllibili b站舆情分析情感分析

演示视频：【Hadoop+Hive】哔哩哔哩视频网站数据分析与可视化系统计算机毕业设计大数据毕业设计Pythonbllibilib站舆情分析情感分析任务书：基于Hadoop框架，构建的Hive数据仓库工具

weixin_45469617·2025-04-10 10:20

大数据面试_sql语句优化

-------------------------------------sql语句优化-----------------------------------------------------------1、使用表别名2、sql语句尽量用大写4、oracle采用自下而上的顺序解析where子句，根据这个原理，那些可以滤掉最大数量记录的条件必须写在where子句的末尾select*fromempw

数据小塔·2025-04-10 10:20

大数据开发必备技能_第二阶段08_动态 SQL 技术分享文档

如果你对大数据开发充满好奇，但苦于零基础不知从何入手，这系列文章就是为你量身定制的！零门槛入门：无需编程经验，从最基础的SQL查询讲起，手把手带你理解数据操作的核心逻辑。

数据小塔·2025-04-10 10:20

SparkRDD数据数据读取：readTextFile和HadoopRDD

《SparkRDD数据读取：readTextFile和HadoopRDD》1.背景介绍1.1问题的由来在大数据时代，数据的规模和复杂性都在不断增长。传统的数据处理方式已经无法满足现代应用的需求。

AI天才研究院·2025-04-10 10:49

大数据（4）Hive数仓三大核心特性解剖：面向主题性、集成性、非易失性如何重塑企业数据价值？

打破数据孤岛的统一视图‌3.‌非易失性（Non-Volatile）：数据资产的时光胶囊‌二、企业级实践：Hive在智能零售的完整落地1.‌业务需求‌2.‌Hive解决方案架构3.‌性能关键点‌三、总结与演进方向大数据相

一个天蝎座白勺程序猿·2025-04-10 09:16

推荐频道

python+大数据

Flink+Iceberg搭建实时数据湖实战

【Hadoop入门】Hadoop生态之Pig简介

DataWorks智能体Agent发布！基于MCP实现数据

Lucene.Net 分词器选择指南：盘古分词 vs 结巴分词的深度对比与未来趋势

【Hadoop入门】Hadoop生态之Oozie简介

DataWorks智能体Agent发布！基于MCP实现数据开发与治理自动化运行

基于Python的QQ音乐数据爬取分析与可视化（附源码）

最全的“大数据”学习资源（一）

从Oracle和TiDB的HTAP说起

大数据学习（100）-kafka详解

Spark运行

Spark Core编程

大数据技术之Scala

大数据必学语言Scala（十九）：基础语法学习 iterator迭代器

【老梁聊IT之JAVA篇】Java学习线路详解

【计算机毕业设计选题推荐】基于SpringBoot+Vue的志愿者招募管理系统的设计与实现 【附源码+部署+讲解】

【MySQL修改操作详解】

【大数据分析】基于Spark大数据商品数据分析可视化系统（完整系统源码+数据库+开发笔记+详细部署教程+虚拟机分布式启动教程）✅

深入解析ETL与ELT架构：数据集成技术的演进与发展

spark介绍与编程

Yarn资源管理和任务调度原理与代码实例讲解

基于大数据的城市交通流量分析与预测

Hive简介及架构

推荐开源项目：KeyInfoExtraction - 深度学习文本关键信息抽取利器

大数据（7.4）Kafka存算分离架构深度实践：解锁对象存储的无限潜能

大数据（7.5）Kafka Edge在5G边缘计算中的革新实践：解锁毫秒级实时处理的无限可能

大数据（7.3）Kafka量子安全加密实践指南：构建抗量子计算攻击的消息系统

大数据（7.1）Kafka实时数据采集与分发的企业级实践：从架构设计到性能调优

【AI大数据计算原理与代码实例讲解】Hadoop

大数据（7.2）Kafka万亿级数据洪流下的架构优化实战：从参数调优到集群治理

构建高可用大数据平台：Hadoop与Spark分布式集群搭建指南

安科瑞微电网系统：行业领先的能源管理解决方案

大数据技术与Scala

大数据技术之Scala

最新版最全面的 Java+AI 学习路线来了！（2025 版）

大数据分析（Spark/Flink实时计算）

spark

【MySQL基础-23】MySQL数据导入与导出：高效管理数据的必备技能

Ollama与vLLM部署对比：哪个更合适？

大数据关键技术实战指南：落地应用与案例分享

Zeppelin 集成TDengine 的探索与实践

Spark Core编程

conda常用命令整理

Flink在饿了么的应用与实践

【机器学习+爬虫】房屋数据分析预测与可视化系统 计算机毕业设计 爬虫 大数据毕业设计 人工智能 预测模型 数据分析 数据可视化

【Hadoop+Hive】哔哩哔哩视频网站数据分析与可视化系统 计算机毕业设计 大数据毕业设计 Python bllibili b站 舆情分析 情感分析

大数据面试_sql语句优化

大数据开发必备技能_第二阶段08_动态 SQL 技术分享文档

SparkRDD数据数据读取：readTextFile和HadoopRDD

大数据（4）Hive数仓三大核心特性解剖：面向主题性、集成性、非易失性如何重塑企业数据价值？

【计算机毕业设计选题推荐】基于SpringBoot+Vue的志愿者招募管理系统的设计与实现【附源码+部署+讲解】

【机器学习+爬虫】房屋数据分析预测与可视化系统计算机毕业设计爬虫大数据毕业设计人工智能预测模型数据分析数据可视化

【Hadoop+Hive】哔哩哔哩视频网站数据分析与可视化系统计算机毕业设计大数据毕业设计 Python bllibili b站舆情分析情感分析