黄雪超

大数据SQL调优专题——引入

从巴别塔开始

我们先从一个神话故事开始本专栏的内容：

在人类的早期，世界上的所有人说着同一种语言，彼此之间沟通毫无障碍。这种统一的语言让人们心生野心，他们决定联合起来建造一座高耸入云的塔，这座塔就是巴别塔。人们希望通过这座塔能够直达天堂，以此展示他们的力量和智慧。

然而，他们的行为引起了上帝的关注。上帝看到人类如此团结，担心他们一旦成功建造巴别塔，将会变得无比强大，甚至可能威胁到神的权威。于是，上帝决定采取行动，他让人们说不同的语言，使他们之间无法沟通。这样一来，原本统一的团队陷入了混乱，巴别塔的建造计划也因此搁置。

巴别塔的故事很有意思，就我个人理解来说，沟通协作其实正是人类的进步的关键。而在沟通中，最重要的是降低他人的理解成本。

我很喜欢Flink官网的这个图，我们技术的发展也是类似，通过一层层封装和抽象，一步步降低使用者的使用门槛，也就是理解成本。

就像我在深入HDFS中提到的一样，我们的技术发展，最底层的思想就是抽象和封装。从古至今，能够风靡世界的技术，都采用了抽象和封装的思想，通过隐藏底层细节，提供简单实现方式，让很多没有相关底层知识的人，也能够快速上手使用。比如大家耳熟能详的JVM，其本质就是通过抽象和封装的思想，提供一套标准化的使用规则，让任何通过实现它这套规则的语言，就能借助它轻松获取跨平台，内存管理，垃圾回收等能力。

关于SQL

而我们本专栏的主角SQL也是类似的。它的设计思路很像领导思维，强调的是要什么结果，即只需要执行查询或数据操作，去获取想要的结果就行，而不需要详细说明要如何执行这些操作。尽管不同的数据库产品之间存在一些差异，但是SQL的基本结构和语法在大多数关系型数据库中都是通用的。这意味着一旦用户掌握了SQL的基本语法和特性，便可以在不同的数据库系统中进行数据查询等操作，而无须重新学习新的语言或工具。除此之外，SQL这种声明式语言支持多种底层实现策略，这意味着在不改变目标的前提下，可以不断地对实现方式进行优化。

正是这种能降低用户理解成本的哲学，结合SQL标准化的定义，使得SQL在大数据体系中得到广泛应用。

但还是那句话——No Silver Bullet。

使用SQL作为统一查询语言的优势我们已经大概梳理了，但它也是有一些局限性的。

表达能力有限：SQL在处理某些复杂业务逻辑时可能不够灵活。例如，对于需要复杂过程计算或顺序运算的场景，SQL可能无法直接表达，需要借助用户自定义函数（UDF）或其他编程语言来实现。
跨平台兼容性问题：尽管SQL是一种标准化语言，但不同数据库系统之间仍存在一些差异。这可能导致在不同系统之间迁移或共享SQL代码时遇到兼容性问题，需要进行额外的调整和优化。
学习成本：虽然SQL本身易于学习，但要编写高效的SQL查询，仍需要深入理解SQL的执行原理和优化技巧。这包括理解基于成本（CBO）和基于规则（RBO）的优化器原理，以及常见的性能瓶颈和调优策略。
依赖底层引擎：SQL的执行效率高度依赖于底层的大数据引擎。如果引擎的优化能力不足，可能会导致SQL查询性能不佳。此外，不同引擎对SQL的支持程度也不同，可能需要针对特定引擎进行优化。

SQL的本质

接下来，我们看看SQL的本质。

SQL总结起来，主要包含数据管理、存储和查询三大功能。由于不同大数据引擎的实现差异，执行SQL时需经过复杂转换和优化，以适应分布式计算环境、处理不同数据模型，并确保查询的高性能、可扩展性、兼容性、安全性和交互性。

除大数据引擎在分布式、故障转移、故障恢复、冗余备份等方面的独特物理实现外，当用户通过客户端提交SQL语句时，引擎需考虑以下问题：

如何将输入数据转换为统一、可识别的数据结构？关系型和非关系型数据库均需考虑数据的存储形式及是否为结构化或半结构化数据。转换过程需确保与SQL标准关键字对应，并兼顾跨平台和跨环境的可移植性及兼容性。
如何校验查询语句中的拼写或格式错误？如何验证执行语句的读写权限？能否对查询字段隐式补齐？
引擎如何进行隐式优化？例如，处理 WHERE id= 1 + 1条件时，相较于直接使用常量 2，若每次执行都在内存中进行加法运算，会产生不必要的计算开销。

执行过程

而SQL的执行过程，总结起来就是解析（Parsing）、校验（Validation）、优化（Optimization）和执行（Execution）四个主要步骤：

1. 解析（Parsing）

词法分析：将SQL语句分解为由单词和符号组成的词汇单元，例如将SELECT * FROM table分解为SELECT、*、FROM、table等。
语法分析：检查SQL语句是否符合语法规则。例如，SELECT必须有FROM子句，否则语句是不合法的。

2. 校验（Validation）

授权验证：检查用户是否有权限执行该SQL语句，如是否有权限读取、写入或修改指定的表和数据。
语义校验：确保SQL语句中的表、列等对象存在，并且操作是可行的。例如，检查SELECT语句中的列名是否存在于表中。

3. 优化（Optimization）

查询优化：为了提高查询效率，优化器会分析查询语句，选择最佳的执行计划。例如，决定是否使用索引、选择合适的连接算法等。
代价评估：基于数据的统计信息（如表的行数、列的分布等）评估不同执行计划的成本，选择成本最低的执行计划。

4. 执行（Execution）

生成执行计划：优化器生成的执行计划被转换为物理的执行步骤，由执行引擎执行。
数据读取/写入：根据执行计划，从数据存储中读取或写入数据。例如，从磁盘或内存中读取数据，或者将数据写入数据库。
结果输出：执行完成后，将查询结果返回给用户，或者将更新操作的结果反馈给用户。

无论是关系型数据库还是非关系型数据库，只要是基于SQL进行数据的写入和查询，尽管具体的实现机制和执行顺序可能有所不同，但抽象出的核心步骤都是一样的。

抽象语法树

对于执行过程中的校验和规则优化，在SQL中，都是基于抽象语法树实现的。

定义

抽象语法树（Abstract Syntax Tree，AST）是一种用于表示程序代码结构的树形数据结构。它是由编译器或解析器在解析源代码时生成的，用于表示源代码的结构。抽象语法树的每个节点代表源代码中的一个构造，如表达式、语句、函数等。通过抽象语法树，可以对程序代码进行分析和修改，例如进行语义分析、语义校验、优化和生成目标代码等。

结构

抽象语法树由节点组成，每个节点代表源代码中的一个构造。节点可以分为以下几种类型：

内部节点：代表程序的构造，如语句、表达式等。例如，在SQL中，SELECT语句可以作为一个内部节点，其子节点可以是FROM子句、WHERE子句等。
叶子节点：代表基本的元素，如标识符、常量、运算符等。例如，在SQL中，表名、列名、数值等都可以作为叶子节点。

抽象语法树的结构反映了源代码的语法结构，可以通过遍历树的节点来分析和处理源代码。

生成

抽象语法树的生成过程通常包括以下几个阶段：

词法分析：将源代码分解为由单词和符号组成的词汇单元，例如将SELECT * FROM table分解为SELECT、*、FROM、table等。
语法分析：根据目标语言的语法规则，将词汇单元组合成语法单元，例如将SELECT * FROM table组合成一个SELECT语句。
生成抽象语法树：根据语法分析的结果，生成抽象语法树。每个语法单元对应树中的一个节点，节点之间的关系反映了源代码的结构。

抽象语法树忽略了解析树包含的一些语法信息，剥离掉一些不重要的细节，它是源代码语法结构的一种抽象表示。AST以树状的形式表现编程语言的结构，可以说高级语言的解析过程都依赖于AST。这棵树会包含很多节点对象，每个节点都拥有特定的数据类型，同时会有0或多个子节点（节点对象在代码中定义为TreeNode对象）。

抽象语法树是对源代码语法结构的高度概括，舍弃了部分非关键信息和细节（压缩单继承节点，操作运算符变为内部节点，去除如冒号等不必要的语法细节）。它以树状结构呈现编程语言体系，由具有特定数据类型和子节点的节点对象组成，在编程语言解析中广泛应用，通用性和可扩展性强，适用于多种语言的解析，包括 SQL 。

语法规则树的解析过程具有优秀的通用性和可扩展性，能够适应多种编程语言和查询语言，其技术方法在不同语言的解析中适用。由于具备高可扩展性，语法规则树解析在引入新的规则和特性时，无需大幅修改基础框架。
SQL语法规则树拥有和抽象语法树等价变换的特性，这基于对SQL语义和语法的深度理解和运用优化规则技术，如谓词下推、常量合并、查询重写等经典应用，通过调整SQL语法规则树的结构和属性，优化查询性能和效率。

可以说，解析成语法树和基于规则的等价变换，是所有SQL优化器的共性和基石。

为什么要调优

在了解使用SQL作为统一查询语言的优势和局限性后，我们知道SQL虽然看起来简单易用，但是想要把它用好不是一件容易的事情。同样的统计需求，面对不同的开发思路、不同的数据集、不同的执行引擎等等，所消耗的资源和运行时长都是截然不同的。因此，想要提高任务的稳定性和时效性，就需要对SQL进行调整和优化。

在我个人看来，调优的本质总结起来就是以下两点：

从企业角度看，需要尽可能的降本增效
从个人角度看，调优是技术成长的必修课

第一点很好理解，以下则梳理了一些常见需要进行SQL调优的原因：

原因	详细说明
资源浪费与效率低下	数据处理系统中的硬件资源，如CPU、内存、存储I/O等，都是稀缺且昂贵的。不高效的SQL查询会过度占用这些资源，导致资源浪费。例如，一个未经优化的查询可能需要扫描大量的数据，即使只需要其中的一小部分数据。这种情况下，CPU会花费大量时间处理不必要的数据，存储I/O也会因为频繁的读取操作而变得繁忙。此外，低效的SQL查询可能无法充分利用系统资源，导致整体工作效率低下。
数据量增长带来的压力	随着数据量的不断增长，未优化的SQL查询的执行时间可能会显著增加。例如，在一个包含大量数据的表中进行全表扫描的查询，当数据量增长到数千万甚至数亿条记录时，执行时间可能会从几秒增加到几分钟甚至更长。定期调优SQL查询，能够确保查询能够适应数据量的增长，并且在合理的时间范围内返回结果。
用户体验	较长的查询响应时间会严重影响用户体验。在企业级应用中，用户可能需要等待数分钟甚至更长时间才能获得查询结果，这可能会导致用户对系统的满意度下降，甚至影响企业的业务决策效率。此外，在一些实时性要求较高的应用场景，如在线广告投放、金融交易系统等，SQL查询的响应时间可能会直接影响业务的成败。例如，在在线广告投放系统中，如果广告投放决策的查询响应时间过长，可能会导致广告错过最佳的投放时机，从而影响广告的投放效果。
其他系统组件的依赖	在现代企业级应用中，SQL查询通常与其他系统组件紧密集成。例如，缓存系统、任务调度系统、队列系统等都可能依赖于SQL查询的结果。如果SQL查询性能不佳，可能会导致这些依赖的组件出现性能瓶颈，进而影响整个系统的效率和可靠性。例如，缓存系统可能无法及时获取最新的数据，导致缓存未命中率增加，增加后端数据库的压力。任务调度系统可能会因为无法及时获取任务的状态信息而出现调度延迟，影响业务流程的执行效率。队列系统可能会因为无法及时处理队列中的消息而导致消息堆积，影响业务的实时性。

而对于第二点，在实际工作中，作为数据开发的大部分工作内容都是写SQL，正因为如此，很多时候会被戏称为“SQL Boy”之类的。有些人甚至会对自己的工作产生疑问，怀疑自己的工作是否有意义，怀疑自己的发展前景是什么，以及思考怎么才能不做工具人。

正如前面提到的，SQL通过极低的使用门槛带来了很好的便捷性和广泛的受众群体。但也正因此，大多数人对SQL和底层处理引擎是了解不够的。这带来的问题，从不知道怎么调优，到一股脑怼内存加并行，甚至写一些极端SQL搞崩整个系统，对企业的资源消耗，稳定性保障都带来了极大的挑战。

作为数据开发，最核心的工作，就是成为数据和应用中间的桥梁。只有能够对需求或出现的问题有准确判断，了解底层实现的原理，知道哪些地方会是瓶颈，清楚应该如何实现和调优，才能高效而准确的支撑下游的应用场景。

本专栏从SQL调优入手，但不止于SQL，调优是一个涉及很多方面的事项，掌握好调优，才算真的入门数据开发。

Deepseek技术深化：驱动大数据时代颠覆性变革的未来引擎荣华富贵8 spring boot 搜索引擎后端缓存 redis
在大数据时代，信息爆炸和数据驱动的决策逐渐重塑各行各业。作为一项前沿技术，Deepseek正在引领新一轮技术革新，颠覆传统数据处理与分析方式。本文将从理论原理、应用场景和前沿代码实践三个层面，深入剖析Deepseek技术如何为大数据时代提供颠覆性变革的解决方案。一、技术背景与核心思想1.1大数据挑战与机遇在数据量呈指数级增长的背景下，传统数据处理方法面临数据存储、计算效率和信息提取精度的诸多挑战。
大数据之路：阿里巴巴大数据实践——大数据领域建模综述
为什么需要数据建模核心痛点数据冗余：不同业务重复存储相同数据（如用户基础信息），导致存储成本激增。计算资源浪费：未经聚合的明细数据直接参与计算（如全表扫描），消耗大量CPU/内存资源。数据一致性缺失：同一指标在不同业务线的口径差异（如“活跃用户”定义不同），引发决策冲突。开发效率低下：每次分析需重新编写复杂逻辑，无法复用已有模型。数据建模核心价值性能提升：分层设计（ODS→DWD→DWS→ADS）
AI 生成虚拟宠物：24 小时陪你聊天解闷大力出奇迹985 人工智能宠物
本文围绕AI生成虚拟宠物展开，介绍这类依托人工智能技术诞生的虚拟伙伴，能实现24小时不间断陪伴聊天，为人们解闷。文中详细阐述其技术基础，包括自然语言处理、机器学习等；分析多样功能，如个性化互动、情绪回应等；探讨在独居人群、压力大者等不同群体中的应用场景，最后总结其为人们生活带来的积极影响及未来发展潜力，展现AI虚拟宠物在陪伴领域的独特价值。一、AI生成虚拟宠物的诞生背景与技术基石在快节奏的现代社会
大数据技术笔记—spring入门卿卿老祖
篇一spring介绍spring.io官网快速开始Aop面向切面编程，可以任何位置，并且可以细致到方法上连接框架与框架Spring就是IOCAOP思想有效的组织中间层对象一般都是切入service层spring组成前后端分离已学方式，前后台未分离：Spring的远程通信：明日更新创建第一个spring项目来源：科多大数据
大数据精准获客并实现高转化的核心思路和实现方法 2401_88470328 大数据精准获客数据分析数据挖掘大数据需求分析 big data
大数据精准获客并实现高转化的核心思路和实现方法大数据精准获客并实现高转化的核心思路和实现方法在当今信息爆炸的时代，企业如何通过海量的数据精准获取潜在客户，并提高转化率，已经成为营销策略中的关键环节。大数据精准获客的核心思路在于数据驱动、多渠道触达以及优化转化路径，从而实现高效的市场推广和客户转化。数据驱动原理和机制数据驱动的核心在于通过分析用户行为数据，挖掘潜在客户的需求和喜好，从而制定更加精准的
一地鸡毛—一个中年男人的日常2021241 随止心语所自欲律
2021年8月31日，星期二，阴有小雨。早起5:30，跑步10公里。空气清新，烟雨朦胧，远山如黛，烟雾缭绕，宛若仙境。空气中湿气很大，朦胧细雨拍打在脸上，甚是舒服，跑步的人明显减少。早上开会，领导说起逐年大幅度下滑的工作业绩，越说越激动，说得脸红脖子粗。开完会又讨论了一下会议精神，心情也有波动，学习热情不高。心里还有一个大事，是今日大数据分析第1次考试，因自己前期没学，而且计算机编程方面没有任何基
Hive详解
一：Hive的历史价值1，Hive是Hadoop上的KillerApplication，Hive是Hadoop上的数据仓库，Hive同时兼具有数据仓库中的存储引擎和查询引擎的作用；而SparkSQL是一个更加出色和高级的查询引擎，所以在现在企业级应用中SparkSQL+Hive成为了业界使用大数据最为高效和流行的趋势。2，Hive是Facebook的推出，主要是为了让不动Java代码编程的人员也能
智慧施工：AI技术赋能建筑安全监测新纪元
开发AI智能应用，就下载InsCodeAIIDE，一键接入DeepSeek-R1满血版大模型！智慧施工：AI技术赋能建筑安全监测新纪元在现代建筑行业中，施工安全始终是核心关注点之一。随着科技的飞速发展，人工智能（AI）和大数据分析逐渐成为提升施工安全的重要工具。本文将探讨如何利用智能化软件和大模型API来构建高效的施工安全监测系统，并介绍一款强大的开发工具——InsCodeAIIDE的应用场景及其
智慧工地系统：建筑行业数字化变革的引领者青云智慧园区 java
在建筑行业积极迈向数字化转型的浪潮中，智慧工地系统凭借“数据驱动、智能管控、协同增效”的核心优势，深度融合物联网、大数据、人工智能等前沿技术，构建起覆盖工程项目全生命周期的精细化管理体系。以下将从系统架构、核心功能模块、应用价值以及未来展望等方面，全方位剖析智慧工地系统如何实现施工全过程的智能化、高效化管理。一、系统架构：打造一体化协同管理平台智慧工地系统采用先进的分层架构设计，以底层的数据采集层
Hive与Hudi集成：增量大数据处理方案 AI大数据智能洞察大数据与AI人工智能大数据AI应用 hive hadoop 数据仓库 ai
Hive与Hudi集成：增量大数据处理方案关键词：Hive、Hudi、增量大数据处理、数据集成、数据湖摘要：本文主要探讨了Hive与Hudi集成的增量大数据处理方案。我们将深入了解Hive和Hudi的核心概念，剖析它们之间的关系，详细阐述集成的算法原理与操作步骤，通过实际项目案例展示如何进行开发环境搭建、代码实现与解读。同时，会介绍该集成方案的实际应用场景、相关工具和资源，探讨未来发展趋势与挑战。
获取三网实时访客---无忧获客大数据无牛_abc3
很多传统行业的公司与企业对于运营商大数据的理解还是很基础的，大多数都是在买资源程度的认识。一些敢于尝试运营商大数据获客的传统企业自然会受益颇多。运营商大数据所提供的获客服务也非常简单，就是将自身的用户数据资源、针对不同的企业去制定有个性化需求的获客标准，运营商大数据根据不同的企业，和行业去进行精准客户的部署和分配，让相关合作的企业通过运营商提供的CRM平台进行一个有效的触达。运营商大数据已经在全国
2025 年必学！用 AI 分析健康数据，预测疾病风险大力出奇迹985 人工智能
在健康意识日益提升的2025年，利用AI分析健康数据以预测疾病风险成为必备技能。本文将从技术基础、应用场景、显著优势、面临挑战及未来趋势五个方面展开阐述，介绍AI如何依托数据采集与算法模型发挥作用，在慢性病、传染病等领域的应用，相比传统方式的优势，以及数据安全、算法偏见等问题和发展前景，最后总结其重要性与发展方向。一、技术基础：AI发挥作用的基石健康数据的采集是AI分析的前提。随着可穿戴设备的普及
DeepSeek在大数据领域正掀起一场深刻的变革智海观潮 AI 大数据 deepseek AI
随着人工智能技术的飞速发展，DeepSeek作为一款行业领先的开源大模型，正在大数据领域掀起一场深刻的变革。其强大的数据处理和分析能力，为各行业带来了新的机遇和变革，推动数据与业务的深度融合。以下是DeepSeek在大数据领域的一些典型的潜在应用：1.加速数据处理与分析流程在传统的大数据应用中，数据收集、预处理和分析往往是一个繁琐且耗时的工程。DeepSeek凭借其高效的算法和强大的计算能力，极大
IoTDB智能分析节点AINode：时序数据分析的新引擎时序数据说 iotdb 数据分析数据挖掘时序数据库数据库大数据 ai
在大数据与物联网的驱动下，时序数据处理需求激增，如何高效存储、管理并实时分析海量时序数据成为技术挑战。作为专为时序数据设计的数据库，IoTDB通过引入智能分析节点（AINode），将机器学习能力原生集成到数据库中，实现了“数据存储-分析-决策”的一体化闭环。本文将深入解析AINode的核心功能、技术优势及实际应用场景。AINode：IoTDB的智能分析引擎AINode是IoTDB推出的第三种内生节
Python爬虫【五十八章】Python数据清洗与分析全攻略：从Pandas到深度学习的异常检测进阶程序员_CLUB Python入门到进阶 python 爬虫 pandas
目录背景与需求分析第一章：结构化数据清洗实战（Pandas核心技法）1.1数据去重策略矩阵1.2智能缺失值处理体系第二章：深度学习异常检测进阶2.1自动编码器异常检测（时序数据）2.2图神经网络异常检测（关系型数据）第三章：综合案例实战案例1：金融交易反欺诈系统案例2：工业传感器异常检测第四章：性能优化与工程实践4.1大数据处理加速技巧4.2模型部署方案第五章：方法论总结与展望5.1方法论框架5.
《剑指offer》-算法篇-排序小新学习屋数据结构与算法算法 leetcode 职场和发展数据结构与算法
题目最小的K个数数组中的逆序对代码实现最小的K个数题目描述：输入n个整数，找出其中最小的K个数。例如输入4,5,1,6,2,7,3,8这8个数字，则最小的4个数字是1,2,3,4,。思路：按照各种排序算法，找到排序结果的前K个数。思路1：最简单的方案，对数组进行排序，取最小的k个思路2：借鉴快速排序的思想，找partition的基准点povit，比较povit和k值的大小思路3:大数据处理的思想，
ZooKeeper在Hadoop中的协同应用：从NameNode选主到分布式锁实现码字的字节 hadoop布道师分布式 zookeeper hadoop 分布式锁
Hadoop与ZooKeeper概述Hadoop与ZooKeeper在大数据生态系统中的核心位置和交互关系Hadoop的架构与核心组件作为大数据处理的基石，Hadoop生态系统由多个关键组件构成。其核心架构主要包含HDFS（HadoopDistributedFileSystem）和YARN（YetAnotherResourceNegotiator）两大模块。HDFS采用主从架构设计，由NameNo
优查查PROB版本使用介绍，优查查官网查询入口无忧达人
优查查最新版本PROB版本上线，优查查PROB版本的查询报告更全面，同时价格还是以前的价格，优查查大数据信用查询一次的价格是30，当然这个价格只限本文介绍的渠道，渠道我会放在文末，大家自行获取即可。优查查使用起来非常的流程，可以快速查询出来我们自身有没有信用稳定，优查查官网查询入口，每个人都可以使用优查查一键查询自己的信用，只能查询自己的信用，别人的信用是查询不了的。优查查使用入口放在文末了，划到
贝融助手要交68块钱查询是合理吗？其实是很多人搞错查询渠道了无忧达人
我们都知道查询信用的平台都是需要收费，具体的收费每个平台都是不一样的，目前行业中收费基本上都是在30-100，其中大平台的收费会低一些，因为体量大可以降低自身的营业成本，这个原理和其它行业一样。贝融助手查询大数据信用收费是30（本文介绍的渠道），这个价格得益于贝融助手平台的体量，已经把价格做的非常低了，像信用行业大平台的价格基本上都是趋于行业的平均值，太高了太低了都不是正常值。贝融助手查询入口放在
深度评测：拼多多官方返利APP vs 其他返利平台，谁更胜一筹？日常购物技巧呀
购物新宠儿！拼多多官方返利APP，引领智能返利新时代。随着科技的不断发展智能化已经成为了各个领域的发展趋势。在返利领域也不例外拼多多官方返利app凭借其强大的智能技术和创新能力正引领着智能返利新时代。这款app通过大数据分析用户行为习惯精准推送符合用户需求的商品和优惠信息。让你在享受智能化服务的同时也能获得更加精准的返利回报。在繁多的返利app中，高省app凭借其独特的优势脱颖而出，成为众多用户的
链表也能整容？聊聊‘重排链表’的那些小技巧与深层逻辑 Echo_Wish LeetCode极客营链表数据结构
“链表也能整容？聊聊‘重排链表’的那些小技巧与深层逻辑”今天我们不聊大数据，不聊AI，咱回归算法的“原点”——链表。别看它简单，里面的很多技巧在面试、在工程开发里都能救你一命。今天我就带你聊聊重排链表（ReorderList），以及它背后的思路和一些值得深挖的细节。1.先说说“重排链表”到底是啥？简单来说：给你一个单链表，比如：1->2->3->4->5要求你把它重新排列成：1->5->2->4-
朋友圈点赞也能造假？社交媒体数据欺诈识别的那些事
“朋友圈点赞也能造假？社交媒体数据欺诈识别的那些事”咱们先聊个现实点的：你刷朋友圈、微博、抖音的时候，有没有发现一些账号的点赞数、评论数特别整齐划一？要么都是那种无意义的“支持”“666”，要么一夜之间视频播放量暴涨，看着就不太对劲。其实，这背后很可能就是数据欺诈，而且这种现象在社交媒体上特别常见。作为一个做大数据分析的人，我最直观的感受就是：社交媒体上的数据从来不是完全干净的，里面水分多得很。如
好用的酒店预订软件有哪些？酒店预订哪个软件便宜好项目高省
哪个酒店预订App更省钱？想要预订酒店却担心价格过高？试试这些超值的酒店预订App吧！【美团】：专注于三四线城市，性价比超高！经济型酒店最受欢迎，但用户忠诚度稍低。【飞猪】：阿里旗下平台，依托强大系统和大数据。受年轻人喜爱，但产品同质化较突出，需注意商家管控和用户纠纷解决。要领取优惠券，我们需要使用APP或者登录官方网站。在进入APP后，我们可以通过以下几种途径来获取内部优惠券。一、直返直返的口号
大数据量查询计算引发数据库CPU告警问题复盘懒虫虫~ 业务解决方案大表治理
大数据量查询计算引发数据库CPU告警问题复盘一、背景二、根因分析三、解决方案方案1：多线程+缓存方案2：利用中间表+缓存四、总结一、背景2025年7月份某天，CDP系统每天不定时推送我们的Portal服务，生产环境运营看板会展示统计数据，发现接口响应缓慢，随之而来数据库监控告警，发现数据库CPU达到了80%。由于表数据量大，计算统计复杂，多线程使用不当，导致数据库服务器爆表。其中A表数据量达到1亿
Elasticsearch－索引原理 ouyang+
最近在参与一个基于Elasticsearch作为底层数据框架提供大数据量(亿级)的实时统计查询的方案设计工作，花了些时间学习Elasticsearch的基础理论知识，整理了一下，希望能对Elasticsearch感兴趣/想了解的同学有所帮助。同时也希望有发现内容不正确或者有疑问的地方，望指明，一起探讨，学习，进步。介绍Elasticsearch是一个分布式可扩展的实时搜索和分析引擎,一个建立在全文
结婚纪念日是婚礼当天还是领证那天？？壹刻所闻
领证日子和结婚日子大部分都是分开的，所以很多新人弄清楚结婚纪念日是需要过领证那天还是举办婚礼那天。两个日子都会有人过，不过根据大数据显示，大部分的人选择的是举办婚礼的日子。一、结婚纪念日按领证还是婚礼1、领证结婚证纪念日是按领结婚证的那一天算的。只有领了结婚证，两人才是合法夫妻关系，才能受法律保护。而举办婚礼只不过是告诉双方的亲友两人结婚了，邀请双方的亲友一起吃了顿饭罢了，不具备法律效应。如果只是
数据赋能（335）——技术平台——技术赋能 lh1793 数据
概述技术赋能原则在数据赋能中占据核心地位。它确保了数据分析、处理和应用过程中的高效、准确和可靠，为业务决策提供了坚实的技术基础。原则定义数据技术赋能原则：在组织运营和业务决策中，以数据技术为核心，通过数据收集、分析、处理和应用，推动业务创新、优化运营和提升决策质量以下是数据技术赋能原则的具体分点表示：战略对齐：数据技术的应用应与组织的战略目标紧密对齐，确保技术投资能够直接支持业务增长和竞争优势的建
这个“看不见的问题”，才是工业数据管理的终极难题 CSDN资讯 TDengine 大数据
在谈论#工业数据管理时，我们常常会听到“4V”这样的术语，而在#大数据领域，也有类似的版本，甚至扩展成了5V、6V、乃至8V。但一个问题随之而来：这些被广泛引用的数据特征，真的代表了用户的痛点吗？真的切中了工业企业在实际应用中最棘手的挑战吗？TDengine解决方案架构师陈展隆结合自己多年服务工业客户的经验，分享了他对这个问题的深入观察与思考。或许，我们该重新思考：数据管理的“用户”到底是谁？又是
99% 的 Python 开发者都不知道的 gzip 高级用法 coder_风逝 Python数据挖掘分析 python servlet 开发语言
前言：为什么数据压缩如此重要？在当今大数据时代，数据存储和传输成本已成为每个开发者必须考虑的问题。想象一下，当你需要处理日志文件、API响应或数据库备份时，原始数据往往占用大量空间。Python内置的gzip模块提供了一种简单高效的解决方案，可以轻松将数据压缩到原大小的1/3甚至更小！本文将带你深入掌握gzip的核心用法，让你的Python程序在处理大数据时如虎添翼。1.gzip模块基础介绍gzi
Python中的 filter() | 函数详解 2401_87650616 python 开发语言
目录前言一、基本概念基本语法二、使用方式1.使用lambda函数2.使用普通函数3.使用None过滤假值三、filter()与列表推导式对比1.filter()方式2.列表推导式方式3.选择建议四、常见应用场景1.过滤偶数2.过滤空字符串3.过滤None值4.过滤质数五、注意事项与最佳实践1.惰性求值：filter()返回的是迭代器，只在需要时计算，节省内存2.性能考虑：对于大数据集，filter
Java开发中，spring mvc 的线程怎么调用？小麦麦子 spring mvc
今天逛知乎，看到最近很多人都在问spring mvc 的线程http://www.maiziedu.com/course/java/ 的启动问题，觉得挺有意思的，那哥们儿问的也听仔细，下面的回答也很详尽，分享出来，希望遇对遇到类似问题的Java开发程序猿有所帮助。问题：在用spring mvc架构的网站上，设一线程在虚拟机启动时运行，线程里有一全局
maven依赖范围 bitcarter maven
1.test 测试的时候才会依赖，编译和打包不依赖，如junit不被打包 2.compile 只有编译和打包时才会依赖 3.provided 编译和测试的时候依赖，打包不依赖，如：tomcat的一些公用jar包 4.runtime 运行时依赖，编译不依赖 5.默认compile 依赖范围compile是支持传递的，test不支持传递 1.传递的意思是项目A，引用
Jaxb org.xml.sax.saxparseexception : premature end of file darrenzhu xml premature JAXB
如果在使用JAXB把xml文件unmarshal成vo(XSD自动生成的vo)时碰到如下错误： org.xml.sax.saxparseexception : premature end of file 很有可能时你直接读取文件为inputstream，然后将inputstream作为构建unmarshal需要的source参数。InputSource inputSource = new In
CSS Specificity 周凡杨 html 权重 Specificity css
有时候对于页面元素设置了样式，可为什么页面的显示没有匹配上呢？ because specificity CSS 的选择符是有权重的，当不同的选择符的样式设置有冲突时，浏览器会采用权重高的选择符设置的样式。规则： HTML标签的权重是1 Class 的权重是10 Id 的权重是100
java与servlet g21121 servlet
servlet 搞java web开发的人一定不会陌生，而且大家还会时常用到它。下面是java官方网站上对servlet的介绍： java官网对于servlet的解释写道 Java Servlet Technology Overview Servlets are the Java platform technology of choice for extending and enha
eclipse中安装maven插件 510888780 eclipse maven
1.首先去官网下载 Maven： http://www.apache.org/dyn/closer.cgi/maven/binaries/apache-maven-3.2.3-bin.tar.gz 下载完成之后将其解压，我将解压后的文件夹：apache-maven-3.2.3，并将它放在 D:\tools目录下，即 maven 最终的路径是：D:\tools\apache-mave
jpa@OneToOne关联关系布衣凌宇 jpa
Nruser里的pruserid关联到Pruser的主键id，实现对一个表的增删改，另一个表的数据随之增删改。 Nruser实体类 //***************************************************************** @Entity @Table(name="nruser") @DynamicInsert @Dynam
我的spring学习笔记11-Spring中关于声明式事务的配置 aijuans spring 事务配置
这两天学到事务管理这一块，结合到之前的terasoluna框架，觉得书本上讲的还是简单阿。我就把我从书本上学到的再结合实际的项目以及网上看到的一些内容，对声明式事务管理做个整理吧。我看得Spring in Action第二版中只提到了用TransactionProxyFactoryBean和<tx:advice/>,定义注释驱动这三种，我承认后两种的内容很好，很强大。但是实际的项目当中
java 动态代理简单实现 antlove java handler proxy dynamic service
dynamicproxy.service.HelloService package dynamicproxy.service; public interface HelloService { public void sayHello(); } dynamicproxy.service.impl.HelloServiceImpl package dynamicp
JDBC连接数据库百合不是茶 JDBC编程 JAVA操作oracle数据库
如果我们要想连接oracle公司的数据库，就要首先下载oralce公司的驱动程序，将这个驱动程序的jar包导入到我们工程中; JDBC链接数据库的代码和固定写法; 1,加载oracle数据库的驱动; &nb
单例模式中的多线程分析 bijian1013 java thread 多线程 java多线程
谈到单例模式，我们立马会想到饿汉式和懒汉式加载，所谓饿汉式就是在创建类时就创建好了实例，懒汉式在获取实例时才去创建实例，即延迟加载。饿汉式： package com.bijian.study; public class Singleton { private Singleton() { } // 注意这是private 只供内部调用 private static
javascript读取和修改原型特别需要注意原型的读写不具有对等性 bijian1013 JavaScript prototype
对于从原型对象继承而来的成员，其读和写具有内在的不对等性。比如有一个对象A，假设它的原型对象是B，B的原型对象是null。如果我们需要读取A对象的name属性值，那么JS会优先在A中查找，如果找到了name属性那么就返回；如果A中没有name属性，那么就到原型B中查找name，如果找到了就返回；如果原型B中也没有
【持久化框架MyBatis3六】MyBatis3集成第三方DataSource bit1129 dataSource
MyBatis内置了数据源的支持，如： <environments default="development"> <environment id="development"> <transactionManager type="JDBC" /> <data
我程序中用到的urldecode和base64decode,MD5 bitcarter c MD5 base64decode urldecode
这里是base64decode和urldecode，Md5在附件中。因为我是在后台所以需要解码： string Base64Decode(const char* Data,int DataByte,int& OutByte) { //解码表 const char DecodeTable[] = { 0, 0, 0, 0, 0, 0
腾讯资深运维专家周小军：QQ与微信架构的惊天秘密 ronin47
社交领域一直是互联网创业的大热门，从PC到移动端，从OICQ、MSN到QQ。到了移动互联网时代，社交领域应用开始彻底爆发，直奔黄金期。腾讯在过去几年里，社交平台更是火到爆，QQ和微信坐拥几亿的粉丝，QQ空间和朋友圈各种刷屏，写心得，晒照片，秀视频，那么谁来为企鹅保驾护航呢？支撑QQ和微信海量数据背后的架构又有哪些惊天内幕呢？本期大讲堂的内容来自今年2月份ChinaUnix对腾讯社交网络运营服务中心
java-69-旋转数组的最小元素。把一个数组最开始的若干个元素搬到数组的末尾，我们称之为数组的旋转。输入一个排好序的数组的一个旋转，输出旋转数组的最小元素 bylijinnan java
public class MinOfShiftedArray { /** * Q69 旋转数组的最小元素 * 把一个数组最开始的若干个元素搬到数组的末尾，我们称之为数组的旋转。输入一个排好序的数组的一个旋转，输出旋转数组的最小元素。 * 例如数组{3, 4, 5, 1, 2}为{1, 2, 3, 4, 5}的一个旋转，该数组的最小值为1。 */ publ
看博客，应该是有方向的 Cb123456 反省看博客
看博客，应该是有方向的: 我现在就复习以前的，在补补以前不会的，现在还不会的，同时完善完善项目，也看看别人的博客. 我刚突然想到的: 1.应该看计算机组成原理，数据结构，一些算法，还有关于android,java的。 2.对于我，也快大四了，看一些职业规划的，以及一些学习的经验，看看别人的工作总结的. 为什么要写
[开源与商业]做开源项目的人生活上一定要朴素,尽量减少对官方和商业体系的依赖 comsci 开源项目
为什么这样说呢？因为科学和技术的发展有时候需要一个平缓和长期的积累过程，但是行政和商业体系本身充满各种不稳定性和不确定性，如果你希望长期从事某个科研项目，但是却又必须依赖于某种行政和商业体系，那其中的过程必定充满各种风险。。。所以，为避免这种不确定性风险，我
一个 sql优化（[精华] 一个查询优化的分析调整全过程！很值得一看） cwqcwqmax9 sql
见 http://www.itpub.net/forum.php?mod=viewthread&tid=239011 Web翻页优化实例提交时间: 2004-6-18 15:37:49 回复发消息环境： Linux ve
Hibernat and Ibatis dashuaifu Hibernate ibatis
Hibernate VS iBATIS 简介 Hibernate 是当前最流行的O/R mapping框架，当前版本是3.05。它出身于sf.net，现在已经成为Jboss的一部分了 iBATIS 是另外一种优秀的O/R mapping框架，当前版本是2.0。目前属于apache的一个子项目了。相对Hibernate“O/R”而言，iBATIS 是一种“Sql Mappi
备份MYSQL脚本 dcj3sjt126com mysql
#!/bin/sh # this shell to backup mysql #[email protected] (QQ:1413161683 DuChengJiu) _dbDir=/var/lib/mysql/ _today=`date +%w` _bakDir=/usr/backup/$_today [ ! -d $_bakDir ] && mkdir -p
iOS第三方开源库的吐槽和备忘 dcj3sjt126com ios
转自 ibireme的博客做iOS开发总会接触到一些第三方库，这里整理一下，做一些吐槽。目前比较活跃的社区仍旧是Github，除此以外也有一些不错的库散落在Google Code、SourceForge等地方。由于Github社区太过主流，这里主要介绍一下Github里面流行的iOS库。首先整理了一份 Github上排名靠
html wlwmanifest.xml eoems html xml
所谓优化wp_head()就是把从wp_head中移除不需要元素，同时也可以加快速度。步骤：加入到function.php remove_action('wp_head', 'wp_generator'); //wp-generator移除wordpress的版本号，本身blog的版本号没什么意义，但是如果让恶意玩家看到，可能会用官网公布的漏洞攻击blog remov
浅谈Java定时器发展 hacksin java 并发 timer 定时器
java在jdk1.3中推出了定时器类Timer,而后在jdk1.5后由Dou Lea从新开发出了支持多线程的ScheduleThreadPoolExecutor，从后者的表现来看，可以考虑完全替代Timer了。 Timer与ScheduleThreadPoolExecutor对比： 1. Timer始于jdk1.3,其原理是利用一个TimerTask数组当作队列
移动端页面侧边导航滑入效果 ini jquery Web html5 css javascirpt
效果体验：http://hovertree.com/texiao/mobile/2.htm可以使用移动设备浏览器查看效果。效果使用到jquery-2.1.4.min.js，该版本的jQuery库是用于支持HTML5的浏览器上，不再兼容IE8以前的浏览器，现在移动端浏览器一般都支持HTML5，所以使用该jQuery没问题。HTML文件代码： <!DOCTYPE html> <h
AspectJ+Javasist记录日志 kane_xie aspectj javasist
在项目中碰到这样一个需求，对一个服务类的每一个方法，在方法开始和结束的时候分别记录一条日志，内容包括方法名，参数名+参数值以及方法执行的时间。 @Override public String get(String key) { // long start = System.currentTimeMillis(); // System.out.println("Be
redis学习笔记 MJC410621 redis NoSQL
1)nosql数据库主要由以下特点：非关系型的、分布式的、开源的、水平可扩展的。 1，处理超大量的数据 2，运行在便宜的PC服务器集群上， 3，击碎了性能瓶颈。 1)对数据高并发读写。 2)对海量数据的高效率存储和访问。 3)对数据的高扩展性和高可用性。 redis支持的类型： Sring 类型 set name lijie get name lijie set na
使用redis实现分布式锁 qifeifei
在多节点的系统中，如何实现分布式锁机制，其中用redis来实现是很好的方法之一，我们先来看一下jedis包中，有个类名BinaryJedis,它有个方法如下： public Long setnx(final byte[] key, final byte[] value) { checkIsInMulti(); client.setnx(key, value); ret
BI并非万能，中层业务管理报表要另辟蹊径张老师的菜大数据 BI 商业智能信息化
BI是商业智能的缩写，是可以帮助企业做出明智的业务经营决策的工具，其数据来源于各个业务系统，如ERP、CRM、SCM、进销存、HER、OA等。 BI系统不同于传统的管理信息系统，他号称是一个整体应用的解决方案，是融入管理思想的强大系统：有着系统整体的设计思想，支持对所有
安装rvm后出现rvm not a function 或者ruby -v后提示没安装ruby的问题 wudixiaotie function
1.在~/.bashrc最后加入 [[ -s "$HOME/.rvm/scripts/rvm" ]] && source "$HOME/.rvm/scripts/rvm" 2.重新启动terminal输入： rvm use ruby-2.2.1 --default 把当前安装的ruby版本设为默