python+大数据第29页

python+大数据

白鲸开源与亚马逊云科技携手推动AI-Ready数据架构创新

在昨日举办的2025亚马逊云科技合作伙伴峰会圆桌论坛上，白鲸开源创始人兼CEO郭炜作为嘉宾，与亚马逊云科技及其他行业领袖共同探讨了“AI-Ready的数据架构：ISV如何构建面向生成式AI的强大数据基座

DolphinScheduler社区·2025-04-26 01:54

HDFS Shell命令基础入门实战

它所具有的高容错、高可靠性、高可扩展性、高获得性、高吞吐率等特征为海量数据提供了不怕故障的存储，为超大数据集（LargeDataSet）的应用处理带来

一个爱好编程的业余人士·2025-04-26 00:46

金融租赁系统全流程自动化服务升级

通过智能审批引擎与大数据分析技术的双核驱动，系统将传统流程中"人工跑断腿"的环节（比如进件审核、合同生成）压缩成数字化流水线。

红点聊租赁·2025-04-25 22:32

金融租赁系统科技赋能与场景实践

内容概要当传统金融租赁遇上物联网和大数据，就像给老式蒸汽机车装上了智能导航系统——兴业金融租赁的数字化转型正是这场"科技换挡"的典型示范。

hd75232·2025-04-25 22:31

新书速览|Hadoop与Spark大数据全景解析（视频教学版）

《Hadoop与Spark大数据全景解析:视频教学版》01本书内容《Hadoop与Spark大数据全景解析:视频教学版》结合作者多年在大数据领域的开发实践经验，采用“理论+实战”的形式，以大量实例全面介绍

全栈开发圈·2025-04-25 21:59

Java大数据去重，返回第一个重复的数据，统计每个数据出现的次数

/***给定10w个数据，统计每个数据出现的次数*@paramarray*@return*///key是关键字，value是出现的次数publicstaticMapfunc1(int[]array){Mapmap=newHashMapfunc2(int[]array){Setset=newTreeSetset=newTreeSet<>();for(inti=0;i

sugar high·2025-04-25 20:45

大数据去重处理思路及实践

在处理数据过程中经常会遇到数据去重处理，数据量小的可以通过查询去重来处理，对于数据量比较大的，通过数据库来处理，相对比较麻烦，主要在于硬件支持。下面笔者分享一个数据处理思路：1.工具（1）通过penetestbox提供的linux环境（2）notepad++（3）大文本编辑器EmEditor2.处理思路及要求（1）数据格式统一，需要处理的数据格式是一致的。字段类型一致，字段一致。（2）通过linu

我是simeon·2025-04-25 20:15

python数据去重_python 大数据去重

count":1}],"search_count":[{"count_phone":4,"count":4}]},"card":[{"des":"阿里技术人对外发布原创技术内容的最大平台；社区覆盖了云计算、大数据

weixin_39890431·2025-04-25 20:15

大数据去重——位图

100亿整型数据去重？整型数据为32位最多有2^32(42亿多），所以100亿整型数据一定有重复的，2^32个整形用位表示，需要(2^32)bit==512MB,需要512MB内存表示。下面是去重算法：#include#include#defineMAX(0xffffffff)/*根据num将对应的MAP的bit位置1*/voidsetBuf(char*buf,unsignedintnum){*(

天涯-晴天·2025-04-25 19:44

第五十二篇浅谈ETL系统设计

1.1现代ETL系统三级模型2.核心子系统实现方案2.1增量抽取的工业级实现2.2缓慢变化维(SCD)的工程实现2.3分布式数据清洗架构3.生产级优化策略3.1高性能加载技术3.2企业级错误处理机制4.大数据集成模式

随缘而动，随遇而安·2025-04-25 17:27

CUDA中的并行计算与C++

在当今大数据和云计算时代，如何有效地利用这些硬件资源以提高计算性能已成为一个重要挑战。

AI天才研究院·2025-04-25 15:43

在 Spring Boot 项目中如何使用索引来优化 SQL 查询？

下面是详细的步骤和实践指南：核心目标：让数据库能够通过扫描索引（小范围、有序的数据结构）快速定位到所需数据行，而不是扫描整个表（大数据量下非常慢）。

冰糖心书房·2025-04-25 14:06

大数据挖掘与机器学习：区别与联系全解析

大数据挖掘与机器学习：区别与联系全解析关键词：大数据挖掘、机器学习、区别、联系、数据处理、算法应用摘要：本文旨在全面解析大数据挖掘与机器学习的区别与联系。

大数据洞察·2025-04-25 08:25

利用Python生成漂亮的词云，云的形状由你定

前言在大数据时代，你竟然会在网上看到的词云，例如这样的。看到之后你是什么感觉?想不想自己做一个？很多人学习python，不知道从何学起。

Python_sn·2025-04-25 07:51

【Hive入门】Hive分区与分桶深度解析：优化查询性能的关键技术

引言在大数据领域，ApacheHive作为构建在Hadoop之上的数据仓库工具，因其类SQL的查询语言(HiveQL)和良好的扩展性而广受欢迎。然而，随着数据量的增长，查询性能往往成为瓶颈。

IT成长日记·2025-04-25 06:46

Spark SQL核心解析：大数据时代的结构化处理利器

在大数据处理领域，Spark以其强大的分布式计算能力脱颖而出，而SparkSQL作为Spark生态系统的重要组成部分，为结构化和半结构化数据处理提供了高效便捷的解决方案。

北屿升：·2025-04-25 04:28

QT C++ 串口发送大数据

项目场景：有时需要串口发送数据大量数据比如七八百个字节，收端需要接收数据后如何把数据给拼凑起来。使用工具QT、C++解决方案：发端代码：如果每次发送1000字节而不是4096字节，收端会触发两次槽函数，第一次接收1000，第二次一次性接收4096，所以干脆直接每次发送4096字节的数据。但是因为触发次数只有两次，只能实现8K之内发送多少就接收多少，具体如何突破限制，欢迎大家予以指教。voidMai

Kai`·2025-04-25 03:25

大数据联邦架构如何实现跨源数据的高效整合与统一访问

大数据联邦架构应运而生，它通过构建统一的数据访问层，屏蔽了异构数据源的差异，为用户提供了一致的数据访问体验。

数字魔方操控师·2025-04-25 02:49

大数据平台组件部署说明（pulsar、Openlookeng、Hadoop集群、hive、python、Flink、JDK、Zookeeper、MySQL、Redis等）

大数据平台组件部署说明1.安装前准备JDKopenlookeng和pulsar要求JDK1.8+，参考附录9.1安装教程。

长空~·2025-04-25 02:44

智慧园区数字化平台总体规划与建设方案

《智慧园区数字化平台总体规划与建设方案》以“构建智慧、高效、安全的园区数字化平台”为核心，通过云计算、大数据、物联网等技术，规划工业云平台、智慧办公、智能工厂、智慧能源、智慧政务五大核心平台。

数智资源·2025-04-24 22:19

spark和Hadoop之间的对比和联系

**生态系统层面**-**协同工作**：Spark和Hadoop都是大数据处理生态系统中的重要组成部分。在很多企业的大数据平台中，它们可以共同工作。

痕517·2025-04-24 22:13

KafkaSpark Streaming整合原理与代码实例讲解

Kafka-SparkStreaming整合原理与代码实例讲解作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming关键词：Kafka,SparkStreaming,大数据处理

AI天才研究院·2025-04-24 18:48

找工作再也不愁之面试题全覆盖-Java基础篇

short：16位，最[大数据]存储量是65536，数据范围是-32768~32767之间。int：32位，最大数据存储容量是2的32次方减1，数据范围是负的2的31次方到正的2的31次方减1。

墨家巨子@俏如来·2025-04-24 16:07

数据库监控 | MongoDB监控全解析

它广泛应用于实时分析、内容管理、物联网和大数据等领域，支持高性能读写、复杂查询及地理空间数据处理。PART02MongoDB监控的关键挑战01复杂的分布式架构MongoDB的分

乐维社区·2025-04-24 15:59

职坐标IT培训提升计算机专业就业竞争力

数据显示，2023年人工智能、大数据等领域人才缺口同比扩大37%，而传统课程体系与行业需求存在显著代际差。

职坐标在线·2025-04-24 14:21

大数据驱动公共交通系统的智慧化革命

大数据驱动公共交通系统的智慧化革命公共交通是城市发展的命脉，也是解决拥堵问题、降低碳排放的重要工具。然而，传统交通系统往往面临效率低下、资源分配不合理、突发事件响应滞后的困境。

Echo_Wish·2025-04-24 13:43

Redis 五大数据类型

Redis五大数据类型底层结构对比表类型底层数据结构（Redis≥5/6/7）优点缺点&注意点适用场景String简单动态字符串（SDS）快速、灵活（自动扩容、二进制安全）最大限制512MB缓存简单对象

Ivan陈哈哈·2025-04-24 11:33

大数据面试高阶问题：同一业务的多个部门有不同指标口径，如何统一

在现代企业管理中，数据驱动决策已经成为提升竞争力的核心手段。然而，当同一业务内的多个部门对关键指标的定义和计算方式存在分歧时，这种数据驱动往往会演变为混乱与低效。想象一个场景：市场部门报告的“用户增长率”基于新增注册用户数，而运营部门却以活跃用户数为基准；财务部门计算的“成本占比”包含了间接费用，产品部门却仅考虑直接成本。这样的差异看似微小，却足以在跨部门协作中引发沟通障碍，甚至导致战略决策的偏差

大模型大数据攻城狮·2025-04-24 11:30

Rust编程基础教程：Web开发入门

作者：禅与计算机程序设计艺术1.背景介绍近年来，云计算、大数据、物联网、人工智能等新兴技术带动了web应用的蓬勃发展。Web开发也从传统单页应用程序向多页面应用和全栈开发模式转变。

AI天才研究院·2025-04-24 10:27

Spark与Hadoop：差异、优势及如何选择

Spark与Hadoop：差异、优势及如何选择一、引言在大数据处理领域，ApacheHadoop和ApacheSpark是两个非常流行的开源框架。

玖月贰拾·2025-04-24 09:51

ElasticSearch 分页技术详解：实现方式与最佳实践

原理示例适用场景优点4.PointInTime(PIT)+SearchAfter原理示例创建PIT首次查询后续查询适用场景优点对比与选择建议最佳实践在ElasticSearch中，分页是常见的需求，尤其是在处理大数据集时

TracyCoder123·2025-04-24 09:50

Spark-Streaming

探索Spark-Streaming：实时数据处理的得力助手在大数据处理领域，实时处理越来越重要。今天就来聊一聊Spark生态中处理流式数据的利器——Spark-Streaming。

美味的大香蕉·2025-04-24 09:48

spark和Hadoop之间的对比和联系

###Spark与Hadoop的技术对比及联系####技术背景概述在当前的数据驱动时代，大数据处理技术已成为企业竞争的核心能力之一。

yyywoaini～·2025-04-24 09:18

软件行业发展现状及应对

从技术创新层面，人工智能、大数据、云计算等新兴技术与软件深度融合，催生出如智能医疗诊断软件、大数据分

阳光普照世界和平·2025-04-24 06:01

从零开始学习 Lucene.Net：.NET Core 中的全文搜索与索引管理

随着大数据的爆发，开发者越来越依赖高效的搜索引擎来实现复杂的搜索需求，而Lucene.Net则是一个不错的选择。

江沉晚呤时·2025-04-24 03:13

如何使用词嵌入来实现高效的文本分类和自然语言生成？

引言1.1.背景介绍随着互联网和大数据时代的到来，文本数据量日益增长，传统的文本处理方法已不能满足高性能和低延迟的要求。

AI天才研究院·2025-04-24 03:41

python爬虫MongoDB数据存储

MongoDB数据存储MongoDB是一个非关系型数据库(NoSQL).非常适合超大数据集的存储,由C++语言编写,旨在为WEB应用提供可扩展的高性能数据存储解决方案。

Æther_9·2025-04-24 01:29

【ATU Book-MemryX 系列】MemryX 推出浮点运算 AI 芯片，引领精准运算新时代

过去，图像处理大多依赖像素级别的逐一运算，而现在，通过大数据(BigData)的支撑以及深度学习(DeepLearning)随着AI模型的成熟，它能够通过固定的学习模式从海量数据中快速创造出各种各样的应用

WPG大大通·2025-04-24 01:58

数据挖掘与机器学习技术

机器学习框架：机器学习是大数据分析的核心技术之一，它让计算机通过数据学习模式和规律，并进行预测和决策。常

·2025-04-23 21:58

数据处理与分析技术

它将大数据处理任务分解为多个Map任务和Reduce任务，分别在不同的节点上并行执行。MapReduce适用于大规模数据集的批处理，如数据清洗、统计分析等。

·2025-04-23 21:57

大数据开发核心技术难点：数据倾斜问题深度解析

一、数据倾斜现象的本质1.问题定义与特征典型表现：单个Task处理数据量是其他Task的10倍以上，出现"长尾效应"核心指标：StageDuration中Max/Median>3倍视为倾斜影响范围：Shuffle阶段（ReduceByKey/Join/GroupBy等操作）2.根本原因分析数据分布不均：业务数据天然倾斜（热门商品、头部用户）分区策略缺陷：Hash分区对特定Key聚集计算逻辑漏洞：空

学习的锅·2025-04-23 21:30

Dapper.SimpleCRUD：Dapper的CRUD助手

我们在项目开发中，面对一些高并发、大数据量等业务场景，往往对SQL语句的性能要求比较高，这个时候为了方便灵活控制，我们一般就会编写原生的SQL。

编程乐趣·2025-04-23 20:28

Trino分布式 SQL 查询引擎

以下从多个方面详细介绍Trino：主要特点多数据源支持：Trino能够连接多种不同类型的数据源，包括关系型数据库（如MySQL、PostgreSQL）、数据仓库（如Snowflake、Redshift）、大数据存储系统

会探索的小学生·2025-04-23 19:17

《大数据最全面试题-Offer直通车》目录

大数据时代已经到来，数据科学家、大数据工程师、数据分析师等岗位成为了热门职业。如果你正准备面试，想要脱颖而出，那么《大数据最全面试题-Offer直通车》是你的不二选择。

大模型大数据攻城狮·2025-04-23 14:47

spark和hadoop之间的对比和联系

ApacheHadoop和ApacheSpark都是大数据领域的核心框架，但设计理念和应用场景有所不同。以下从多个维度对比两者的差异，并分析它们的联系。

谁偷了我的炒空心菜·2025-04-23 14:41

大数据系列修炼-Scala课程59

大数据系列修炼-Scala课程59核心内容:1、Scala中隐式转换初体验实战详解以及隐式转换在Spark中的应用源码解析1、Scala中隐式转换初体验操作代码实战1>Scala中的隐式转换本质上相当于

一只懒得睁眼的猫·2025-04-23 13:37

spark与hadoop版本依赖

Spark与Hadoop版本依赖在大数据生态系统中，ApacheSpark和ApacheHadoop是两个广泛使用的框架。它们虽然可以独立运行，但在许多应用场景中，它们是协同工作的。

SynTempestissimo·2025-04-23 06:24

hadoop和spark的区别和联系

HDFS有高容错性的特点，并且设计用来部署在低廉的硬件上；而且它提供高吞吐量来访问应用程序的数据，适合那些有着超大数据集的应用程序。Hadoop的框架最核心的设计就是：HDFS和MapReduce。

光尘92·2025-04-23 06:22

基于python爬虫美食商家数据可视化和美食商家推荐系统设计与实现（django框架）_基于大数据的美食推荐系统国内外

2401_84185182·2025-04-23 06:22

大数据领域数据工程的项目管理经验

大数据领域数据工程的项目管理经验关键词：大数据、数据工程、项目管理、团队协作、数据质量摘要：本文围绕大数据领域数据工程的项目管理经验展开深入探讨。

大数据洞察·2025-04-23 05:17

上一页 25 26 27 28 29 30 31 32 下一页

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他

推荐频道

python+大数据

白鲸开源与亚马逊云科技携手推动AI-Ready数据架构创新

HDFS Shell命令基础入门实战

金融租赁系统全流程自动化服务升级

金融租赁系统科技赋能与场景实践

新书速览|Hadoop与Spark大数据全景解析（视频教学版）

Java大数据去重，返回第一个重复的数据，统计每个数据出现的次数

大数据去重处理思路及实践

python数据去重_python 大数据去重

大数据去重——位图

第五十二篇 浅谈ETL系统设计

CUDA中的并行计算与C++

在 Spring Boot 项目中如何使用索引来优化 SQL 查询？

大数据挖掘与机器学习：区别与联系全解析

利用Python生成漂亮的词云，云的形状由你定

【Hive入门】Hive分区与分桶深度解析：优化查询性能的关键技术

Spark SQL核心解析：大数据时代的结构化处理利器

QT C++ 串口发送大数据

大数据联邦架构如何实现跨源数据的高效整合与统一访问

大数据平台组件部署说明（pulsar、Openlookeng、Hadoop集群、hive、python、Flink、JDK、Zookeeper、MySQL、Redis等）

智慧园区数字化平台总体规划与建设方案

spark和Hadoop之间的对比和联系

KafkaSpark Streaming整合原理与代码实例讲解

找工作再也不愁之面试题全覆盖-Java基础篇

数据库监控 | MongoDB监控全解析

职坐标IT培训提升计算机专业就业竞争力

大数据驱动公共交通系统的智慧化革命

Redis 五大数据类型

大数据面试高阶问题：同一业务的多个部门有不同指标口径，如何统一

Rust编程基础教程：Web开发入门

Spark与Hadoop：差异、优势及如何选择

ElasticSearch 分页技术详解：实现方式与最佳实践

Spark-Streaming

spark和Hadoop之间的对比和联系

软件行业发展现状及应对

从零开始学习 Lucene.Net：.NET Core 中的全文搜索与索引管理

如何使用词嵌入来实现高效的文本分类和自然语言生成？

python爬虫MongoDB数据存储

【ATU Book-MemryX 系列】MemryX 推出浮点运算 AI 芯片，引领精准运算新时代

数据挖掘与机器学习技术

数据处理与分析技术

大数据开发核心技术难点：数据倾斜问题深度解析

Dapper.SimpleCRUD：Dapper的CRUD助手

Trino分布式 SQL 查询引擎

《大数据最全面试题-Offer直通车》目录

spark和hadoop之间的对比和联系

大数据系列修炼-Scala课程59

spark与hadoop版本依赖

hadoop和spark的区别和联系

基于python爬虫美食商家数据可视化和美食商家推荐系统设计与实现（django框架）_基于大数据的美食推荐系统国内外

大数据领域数据工程的项目管理经验

第五十二篇浅谈ETL系统设计