Dreammmming Time

HTAP（Hybrid Transactional/Analytical Processing）系统之统一存储的实时之道

文章目录

HTAP与时俱进
LASER中的存储
- 关键知识
- - LSM（Log-Structured Merge Tree）
  - SkipList（跳表）
  - CDC（Changed Data Capture）
  - SST（Sorted Sequence Table）
- 特性
- - 列组（Column Group）
  - 部分列更新
LASER存储的实现
- 数据插入流程
- 部分列更新流程
- - 初始化LEVELs
  - 插入一条新记录并更新一条旧记录（合并L0和L1）
  - 插入一条新记录并更新一条旧记录（不合并）
- 范围查询
- 部分列的Compaction
LASER存储的性能
- 整体性能
- 插入性能
- 检索性能
LASER存储的问题
- 写放大
- 点查放大
- 范围查询放大
- 更新放大
总结
思考

HTAP与时俱进

在线联机事务处理（OLTP）和在线联机分析处理（OLAP）这两类数据处理分析场景，是公司日常工作中不可不说的内容，尤其是在大数据时代的当下，说它们决定了公司的成败也不为过，因此诞生了各类成熟且高效地分布式计算、存储系统，如计算侧的MapReduce、Spark、Flink、Trino等，存储侧的Oracle、RocksDB、Clickhouse等。

但正是各类计算和存储系统的遍地开花，也导致了在实际中很难将不同的系统归一、数据统一，导致各类负担，尤其是流系统、批系统的天然隔阂，因此近年来大家都是力求找到或开发出一个系统，能够同时很好应付日常工作中的绝大部分OLTP/OLAP的业务就行了，就像Snowflake那样，实现一个相对完善的HTAP系统。

但要想做好一个HTAP系统，不可避免地需要要结合计算、存储这两个层面的特性来进行设计，虽然我们在实际的工作中经常强调要存算分离，保证集群系统能够至少满足BASE（Basically Available、Soft States、Eventually Consistent原则，也可以说是AP原则吧）原则，但这仅仅是强调使用上的注意事项，而要实现这样的系统，却不能分开计算而谈存储，反之亦然。

人都是“贪婪”的，一旦有了开发了一个工具，不管是使用者还是开发者，都希望随着技术的进步，这个工具能够变得更好，比如说时间，为别人/自己节省了多少时间，实时性达到秒级等，说到这里，这篇博客也就随着这篇论文Real-Time LSM-Trees for HTAP Workloads来看看学习和思考前人的成果，以帮助解决当下或未来的问题。

LASER中的存储

关键知识

LSM（Log-Structured Merge Tree）

很多文章都介绍这个概念了，大家可以自行查找一下，当然也有不少系统基于此原理实现了自己的存储，如Google LevelDB、Clickhouse、Flink Table Store等。

SkipList（跳表）

这个概念也有不少的大佬分析了其理论与实践，例如Redis中的应用，还有Real-Time LSM-Trees for HTAP Workloads论文中的提到的LASER系统。

CDC（Changed Data Capture）

实际上对应了数据库中的INSERT、DELETE、UPDATE操作，更细节知识自行查阅吧。

SST（Sorted Sequence Table）

可以认为就是持久化到磁盘上的数据文件，文件中的数据行都是按排序KEY有序的。

特性

列组（Column Group）

为了兼并行存和列存的优势，LASER在不同的存储等级（LEVEL）上定义不了同列组规则，一个列组就是一个数据行中的部分或全部字段，对应一个单独的存储文件，例如在下面的图中显示的，在Level 0层，文件是按行存储的，文件中的一行就对应了一条完整的Record；而在Leve 1层，会存储两个文件，分别保存(A, B)列以及(C, D)列；在Level 3层，一个列，就是一个单独的文件。（这里说一个文件并不准确，实际上应该是一类文件，毕竟文件一般会按大小被切分成多个）

图-1 列组的定义与组织

部分列更新

LASER存储的实现

数据插入流程

下图展示了LASER中的基本存储流程，图中也展示了一些配套的索引技术，如BLOOM FILTERS用于加速文件的查找、SkipList查找新记录的待插入位置。

一条新数据记录（Record）完整地经历CDC过程的简单描述如下：

决定Record的操作类型：Server接收到Record后，根据指定的排序Key、唯一Key，在内存中的SKIPLIST以及磁盘中的LEVEL文件（这里指SST文件）查找，看是否存在相同的数据记录。如果存在则更新这条RECORD的操作类型为UPDATE，否则为INSERT。
插入到内存中的MUTABLE SKIPLIT：通过跳表可以很快地确认这条新的数据记录的插入位置，因此就将其插入到内存。
Flush到磁盘：如果新的数据记录插入后，到达了一定的阈值，则系统会尝试将MUTABLE的数据刷新到磁盘，但在Flush之前，需要将新记录插入的内存数据表标记为IMMUTABLE，以保证数据写出时，不会发生变更。
写出数据到Level0：Level 0只定义了一个文件，因此会首先尝试将新的RECORD，按行格式，插入到此文件中。
Compaction数据文件：如果新的RECORD插入Level 0后，导致文件的大小超过了阈值，则会触发Compaction行为，将Level 0的文件，下沉到更下层，达到优化存储的目的，因此这里会首先将Level 0的文件，转存到Level 1。文件由Level 0插入到Level 1的过程，实际上是一个归并排序的过程，需要保证文件的有序性，因此这里可以采用二分查找来确认需要合并Level 1中的哪些文件，例如Level 0文件的SORT KEY值范围为[22, 66]，那么需要与Level 1中的21-50和51-88的两个SST文件进行合并。
列组映射：上面的图只显示了文件的插入过程，但没有展示出列出的合并逻辑，这里简单说一下：

从图-1可以知道每一个Level的列组划分是不同的，而Level 0中的文件中的一行可能包含了所有列值（如A、B、C、D四个列），而在Level 1中数据文件只有两类(A, B）和（C, D），因此需要将0层的文件中的数据行按列拆分成两个文件，分别以前两个列为一行和后两个列为一行，再分别进行合并，最终生成两类文件。

部分列更新流程

一般地，SQL中的UPDATE语句会更新部分列的历史值，因此LASER也需要有能力支持。

初始化LEVELs

Level 0：数据文件行式存储，因此文件中的一行，包含了全部列，A、B、C、D。
Level 1: 两个文件，即两人上Column Group，左边文件包含A、B列；右边文件包含C、D列
注意到每一行记录之前有一个特殊的整数，例如106: a6, b6, c6, d6中的106，表示的是数据记录排序键对应的值，可以看到在每一个文件中，所有的数据记录都是按此值有序。

插入一条新记录并更新一条旧记录（合并L0和L1）

插入一条新记录：99: a9, b9, c9, d9
更新一条旧记录：107: -, -, c9, d9，其中-表示不更新，即保留A, B列的原有值
注意到，这里插入新记录后，导致LEVEL 0超过存储阈值，因此会触发L0的文件下沉到L1，因此下面的图展示的是合并后的结果。
在合并L0和L1的过程中，可以看到，原本在L0的行文件中的记录106: a6, b6, c6, d6，下沉到L1后，被纵向拆分到了两个Column Group文件中；而新的更新记录107: -, -, c9, d9最终只会在CG：有值，而不会添加记录107: -, -到CG：中，节约了存储空间。

插入一条新记录并更新一条旧记录（不合并）

插入一条新记录：50: a0, b0, c0, d0
更新一条旧记录：108: a1, b1, -, -，其中-表示不更新，即保留C, D列的原有值
可以看到由于新插入的数据后，被首先Flush到Level 0，但Level 0的数据大小没有达到阈值，因此不会发生Compaction，新的数据就以行格式保留在L0中。

范围查询

ColumnMergingIterators：用于合并ColumnGroup，一个Iterator实例只会作用于同一个Level，因此不会真正的合并新旧数据，而是将要所有要检索的列（这里是A、B、C、D列）拼接在一起。
LevelMergingIterators：用于合并来自不同Level的数据，这些数据经过ColumnMergingIterators后返回了一个"临时表"，包含了所有要检索的列，同时会进行新、旧列值的覆盖。

查询流程简述如下：

SQL解析：接收SELECT * FROM tbl WHERE sort_key >= 50 and sort_key <= 108，产生要返回的结果列的投影信息，即返回A、B、C、D。
确认数据所有层级：发现sort_key的取值范围是[50, 108]，在3个Level中都存在数据，因此需要遍历每一层的数据文件。
遍历每一层的数据文件：为每一个LEVEL创建ColumnMergingIterators实例，遍历满足条件的数据文件，返回的结果是一个临时表且它们的Layout相同，均为A、B、C、D，例如对于sort_key = 107的数据记录，通过列拼接，最终得到在临时表中的对应行107: -, -, c9, d9。
合并每一层的临时表：通过LevelMergingIterators实例，合并每一层的返回结果，同时进行数据记录的更新/删除动作，例如对于sort_key = 107的数据记录，发现它的旧值为107: a7, b7, c7, d7，新值为107: -, -, c9, d9，因此通过覆盖后的最终结果为107: a7, b7, c9, d9。
返回最终结果：最终结果集包含了所有要检索的列，以及包含了旧记录中的列的最新值。

部分列的Compaction

通过后台的Compaction线程，可以并行地在不同的ColumnGroup上进行Compaction，因为在数据下沉的过程中，越往向，列组越小，并且互相不影响。

如下图所示，当前一共有两个Compaction任务在执行，第一个任务是合并L1和L2中的CG：；第二个任务是合并L2和L3中的CG: 。

但这里有一个潜在的问题：为什么选择L1中的下沉，以及L2中的下沉？

简单来说，LASER为每一个Level配置了不同的Quota，例如为L1配置了上限记录数为2，而当前L1中一共存在3条记录，因此需要合并L1和L2；同时注意到CG: 的占比最多，因此优先选择此CG下沉，故就对应了任务1，同理生成任务2。

最终，经过部分列上的下沉，可以避免对它列的影响，在一定程度上能够减缓由于数据下沉，导致在这些列上的检索时间变长的问题，当然也可以结合一些冷热策略可以更精细地控制正常过程。

LASER存储的性能

rocksdb：行存
rocksdb-col：列存
HTAP-simple：行、列混合存储，25%数据行存，其它列存。
Postgress：行存
MySQL：行存
MyRocks：行存
MonetDB：列存
Hyper：全内存列存

整体性能

如下图所示，在同时进行INSERT、UPDATE、SELECT操作时，LASER的整体性能是最好的，尤其是在设置了ColumnGroup的大小为6（6列）、15（15列）的场景下，而次强的则是HTAP-simple和rocksdb-col（它们完全是基于内存的）。

插入性能

如下图所示，当仅执行INSERT操作时，LASER表现最好，尤其是设置CG的大小为2和3时，而HTAP-simple和rocksdb将之。

检索性能

1: INSERT INTO R VALUES (0, 1, …, )
2: SELECT 1, 2, …, FROM R WHERE 0 =
3: UPDATE R SET 1 = 1, …, = WHERE 0 =
4: SELECT 1 + 2 + … + FROM R WHERE 0 ∈ [ , )
5: SELECT (1), …, () FROM RWHERE0 ∈ [ , )

如下图所示，分别执行不同Query时的延迟统计图，从中可以看到当前执行Q1、Q2、Q3时，LASER能够达到其它优势引擎的最好性能；而执行Q4的算术运算时，Hyper表现最好，比LASER快5倍（而MonetDB比LASER慢20倍）；而执行Q5的聚合运算时，MonetDB和Hyper比LASER快5倍，这是由于Hyper和Monet存储的数据记录都是按列连续的，因此不需要像LASER那样需要先合并数据。

因此整体上看，在高负载，和能用场景下，LASER的表是所有列式引擎、行式引擎中综合表现最好的，也更加活动地通过CG的大小来适配不再的场景。

LASER存储的问题

下面提到的这些问题，都是论文中有提到的，同时也给出了估算公式，但是着实需要细致分析每一个算法才能更好地理解架构设计的精妙，这里就不展开分析了，也怕功力不够，引发解读错误，那就栽了！！！

写放大

不难想象，当我们更新更新或插入数据时，至少需要读取索引数据、旧的的数据记录，以确定当前数据行的操作类型；当发生数据合并（Compaction过程）时，需要将新旧数据写出到一个新的数据文件，同时保证旧的数据文件依然在此期间可以为查询作业提供服务，因此这么大的倍数与写入或更新的数据模型有关。

为了缓解此问题，可以基于ColumnGroup机制，同时为每一个Level制定不同的数据下沉策略。

点查放大

仅仅是等值查询，最坏情况下，需要在内存遍历，同时需要检查所有Level中的数据范围，以确定数据是否存在。

范围查询放大

比点查更坏，最坏情况下，要查询的数据在每一个Level中都存在，因此遍历记录每一层的数据文件的信息，来确定要读取的数据。

更新放大

在点查放大问题的基础之上，需要将新数据写出到Level 0，同时很可能会引发Compcation过程。

总结

Real-Time LSM-Trees for HTAP Workloads介绍了一个支持实现写入的、基于LSM的、支持HTAP场景的存储系统，LASER。论文提出了ColumnGroup存储规范，能在兼并行存、列存的优点，以相对最好的性能同时支持OLTP和OLAP事务，为打造流批一体计算&存储系统提供了借鉴，非学值得我们细细口味。

思考

使用什么的索引或算法，能够快速定位范围所包含的数据文件？
时间旅行？
并发写事务的支持？
如何支持插入入新的列？
。。。

9、汇编语言编程入门：从环境搭建到简单程序实现神经网络酱汇编语言 MEPIS GNU工具链
汇编语言编程入门：从环境搭建到简单程序实现1.数据存储介质问题解决在处理数据存储时，若要使用MEPIS系统，需确保有其可访问的存储介质。目前，MEPIS无法向采用NTFS格式（常用于Windows2000和XP工作站）的硬盘写入数据。不过，若硬盘采用FAT32格式，MEPIS就能进行写入操作。此外，MEPIS还能将文件写入软盘和大多数USB闪存驱动器。若工作站连接到局域网，还可通过FTP协议或挂载
基于redis的Zset实现作者的轻量级排名周童學 Java redis 数据库缓存
基于redis的Zset实现轻量级作者排名系统在今天的技术架构中，Redis是一种广泛使用的内存数据存储系统，尤其在需要高效检索和排序的场景中表现优异。在本篇博客中，我们将深入探讨如何使用Redis的有序集合（ZSet）构建一个高效的笔记排行榜系统，并提供相关代码示例和详细的解析。1.功能背景与需求假设我们有一个笔记分享平台，用户可以发布各种笔记，系统需要根据用户发布的笔记数量来生成一个实时更新的
Deepseek技术深化：驱动大数据时代颠覆性变革的未来引擎荣华富贵8 spring boot 搜索引擎后端缓存 redis
在大数据时代，信息爆炸和数据驱动的决策逐渐重塑各行各业。作为一项前沿技术，Deepseek正在引领新一轮技术革新，颠覆传统数据处理与分析方式。本文将从理论原理、应用场景和前沿代码实践三个层面，深入剖析Deepseek技术如何为大数据时代提供颠覆性变革的解决方案。一、技术背景与核心思想1.1大数据挑战与机遇在数据量呈指数级增长的背景下，传统数据处理方法面临数据存储、计算效率和信息提取精度的诸多挑战。
大数据之路：阿里巴巴大数据实践——大数据领域建模综述
为什么需要数据建模核心痛点数据冗余：不同业务重复存储相同数据（如用户基础信息），导致存储成本激增。计算资源浪费：未经聚合的明细数据直接参与计算（如全表扫描），消耗大量CPU/内存资源。数据一致性缺失：同一指标在不同业务线的口径差异（如“活跃用户”定义不同），引发决策冲突。开发效率低下：每次分析需重新编写复杂逻辑，无法复用已有模型。数据建模核心价值性能提升：分层设计（ODS→DWD→DWS→ADS）
大数据技术笔记—spring入门卿卿老祖
篇一spring介绍spring.io官网快速开始Aop面向切面编程，可以任何位置，并且可以细致到方法上连接框架与框架Spring就是IOCAOP思想有效的组织中间层对象一般都是切入service层spring组成前后端分离已学方式，前后台未分离：Spring的远程通信：明日更新创建第一个spring项目来源：科多大数据
数据库基础概念梳理 22:30Plane-Moon 数据库
1.数据存储类型表(Table):存储结构化数据的标准方式，数据以行和列的形式组织，具有固定的格式。非结构化数据(UnstructuredData):如音频、视频、图片、文本文档等，其格式不固定，不易直接用表存储。2.SQL的核心优势SQL尤其擅长处理和操作存储在表中的结构化数据。2.1数据类型约束(DataTypeConstraints):定义列可存储的数据种类。整数类型:TINYINT(1字节
大数据精准获客并实现高转化的核心思路和实现方法 2401_88470328 大数据精准获客数据分析数据挖掘大数据需求分析 big data
大数据精准获客并实现高转化的核心思路和实现方法大数据精准获客并实现高转化的核心思路和实现方法在当今信息爆炸的时代，企业如何通过海量的数据精准获取潜在客户，并提高转化率，已经成为营销策略中的关键环节。大数据精准获客的核心思路在于数据驱动、多渠道触达以及优化转化路径，从而实现高效的市场推广和客户转化。数据驱动原理和机制数据驱动的核心在于通过分析用户行为数据，挖掘潜在客户的需求和喜好，从而制定更加精准的
一地鸡毛—一个中年男人的日常2021241 随止心语所自欲律
2021年8月31日，星期二，阴有小雨。早起5:30，跑步10公里。空气清新，烟雨朦胧，远山如黛，烟雾缭绕，宛若仙境。空气中湿气很大，朦胧细雨拍打在脸上，甚是舒服，跑步的人明显减少。早上开会，领导说起逐年大幅度下滑的工作业绩，越说越激动，说得脸红脖子粗。开完会又讨论了一下会议精神，心情也有波动，学习热情不高。心里还有一个大事，是今日大数据分析第1次考试，因自己前期没学，而且计算机编程方面没有任何基
企业级RAG的数据方案选择 - 向量数据库、图数据库和知识图谱南七小僧 AI技术产品经理网站开发人工智能数据库知识图谱人工智能
如何为企业RAG选择合适的数据存储方式摘要:本文讨论了矢量数据库、图数据库和知识图谱在解决信息检索挑战方面的重要性，特别是针对企业规模的检索增强生成（RAG）。看看海外人工智能企业Writer是如何利用知识图谱增强企业级RAG。要点概要：矢量数据库高效存储数据，但缺乏上下文和关联信息。图数据库优先考虑数据点之间的关系，受益于关系结构。知识图谱在语义存储方面表现出色，由于其能够编码丰富的上下文信息，
MySQL 数据类型详解 yimeixiaolangzai MySQL mysql 数据库
在数据库设计和开发中，选择合适的数据类型对于存储和操作数据至关重要。MySQL提供了丰富的数据类型来满足不同的数据存储需求，这些数据类型可以分为数值类型、字符串类型、日期和时间类型，以及二进制类型。本文将详细介绍MySQL中的各类数据类型及其应用场景，帮助你更好地进行数据库设计。1.数值类型数值类型用于存储整数和浮点数，在处理数值运算时，这些数据类型扮演着关键角色。MySQL提供了多种数值类型，以
Hive详解
一：Hive的历史价值1，Hive是Hadoop上的KillerApplication，Hive是Hadoop上的数据仓库，Hive同时兼具有数据仓库中的存储引擎和查询引擎的作用；而SparkSQL是一个更加出色和高级的查询引擎，所以在现在企业级应用中SparkSQL+Hive成为了业界使用大数据最为高效和流行的趋势。2，Hive是Facebook的推出，主要是为了让不动Java代码编程的人员也能
智慧施工：AI技术赋能建筑安全监测新纪元
开发AI智能应用，就下载InsCodeAIIDE，一键接入DeepSeek-R1满血版大模型！智慧施工：AI技术赋能建筑安全监测新纪元在现代建筑行业中，施工安全始终是核心关注点之一。随着科技的飞速发展，人工智能（AI）和大数据分析逐渐成为提升施工安全的重要工具。本文将探讨如何利用智能化软件和大模型API来构建高效的施工安全监测系统，并介绍一款强大的开发工具——InsCodeAIIDE的应用场景及其
智慧工地系统：建筑行业数字化变革的引领者青云智慧园区 java
在建筑行业积极迈向数字化转型的浪潮中，智慧工地系统凭借“数据驱动、智能管控、协同增效”的核心优势，深度融合物联网、大数据、人工智能等前沿技术，构建起覆盖工程项目全生命周期的精细化管理体系。以下将从系统架构、核心功能模块、应用价值以及未来展望等方面，全方位剖析智慧工地系统如何实现施工全过程的智能化、高效化管理。一、系统架构：打造一体化协同管理平台智慧工地系统采用先进的分层架构设计，以底层的数据采集层
Hive与Hudi集成：增量大数据处理方案 AI大数据智能洞察大数据与AI人工智能大数据AI应用 hive hadoop 数据仓库 ai
Hive与Hudi集成：增量大数据处理方案关键词：Hive、Hudi、增量大数据处理、数据集成、数据湖摘要：本文主要探讨了Hive与Hudi集成的增量大数据处理方案。我们将深入了解Hive和Hudi的核心概念，剖析它们之间的关系，详细阐述集成的算法原理与操作步骤，通过实际项目案例展示如何进行开发环境搭建、代码实现与解读。同时，会介绍该集成方案的实际应用场景、相关工具和资源，探讨未来发展趋势与挑战。
如何用Python才能进行数据分析？_运用pycharm做数据分析的步骤 2401_84254530 python 数据分析 pycharm
数据分析流程Python是数据分析利器，掌握了Python的编程基础后，就可以逐渐进入数据分析。一个完整的数据分析项目大致可分为以下五个流程：数据获取→数据存储→数据预处理→建模与分析→可视化分析1)数据获取一般有数据分析师岗位需求的公司都会有自己的数据库，数据分析师可以通过SQL查询语句来获取数据库中想要数据。Python已经具有连接sqlserver、mysql、orcale等主流数据库的接口
获取三网实时访客---无忧获客大数据无牛_abc3
很多传统行业的公司与企业对于运营商大数据的理解还是很基础的，大多数都是在买资源程度的认识。一些敢于尝试运营商大数据获客的传统企业自然会受益颇多。运营商大数据所提供的获客服务也非常简单，就是将自身的用户数据资源、针对不同的企业去制定有个性化需求的获客标准，运营商大数据根据不同的企业，和行业去进行精准客户的部署和分配，让相关合作的企业通过运营商提供的CRM平台进行一个有效的触达。运营商大数据已经在全国
DeepSeek在大数据领域正掀起一场深刻的变革智海观潮 AI 大数据 deepseek AI
随着人工智能技术的飞速发展，DeepSeek作为一款行业领先的开源大模型，正在大数据领域掀起一场深刻的变革。其强大的数据处理和分析能力，为各行业带来了新的机遇和变革，推动数据与业务的深度融合。以下是DeepSeek在大数据领域的一些典型的潜在应用：1.加速数据处理与分析流程在传统的大数据应用中，数据收集、预处理和分析往往是一个繁琐且耗时的工程。DeepSeek凭借其高效的算法和强大的计算能力，极大
面向现代数据湖仓的开放表格式对比分析：Iceberg、Hudi、Delta Lake与Paimon piekill 大数据平台大数据 spark flink big data 数据仓库
文章目录第一章数据湖的演进：从存储到事务型平台1.1前湖仓时代：ApacheHive的局限性1.2湖仓一体的范式转移第二章架构深度剖析2.1ApacheIceberg：以元数据为中心的设计2.2ApacheHudi：流式优先、时间轴驱动的架构2.3DeltaLake：以事务日志为唯一真相源2.4ApachePaimon：面向实时湖仓的LSM树架构第三章核心能力对比分析3.1事务性与并发控制3.2数
IoTDB智能分析节点AINode：时序数据分析的新引擎时序数据说 iotdb 数据分析数据挖掘时序数据库数据库大数据 ai
在大数据与物联网的驱动下，时序数据处理需求激增，如何高效存储、管理并实时分析海量时序数据成为技术挑战。作为专为时序数据设计的数据库，IoTDB通过引入智能分析节点（AINode），将机器学习能力原生集成到数据库中，实现了“数据存储-分析-决策”的一体化闭环。本文将深入解析AINode的核心功能、技术优势及实际应用场景。AINode：IoTDB的智能分析引擎AINode是IoTDB推出的第三种内生节
Python爬虫【五十八章】Python数据清洗与分析全攻略：从Pandas到深度学习的异常检测进阶程序员_CLUB Python入门到进阶 python 爬虫 pandas
目录背景与需求分析第一章：结构化数据清洗实战（Pandas核心技法）1.1数据去重策略矩阵1.2智能缺失值处理体系第二章：深度学习异常检测进阶2.1自动编码器异常检测（时序数据）2.2图神经网络异常检测（关系型数据）第三章：综合案例实战案例1：金融交易反欺诈系统案例2：工业传感器异常检测第四章：性能优化与工程实践4.1大数据处理加速技巧4.2模型部署方案第五章：方法论总结与展望5.1方法论框架5.
《剑指offer》-算法篇-排序小新学习屋数据结构与算法算法 leetcode 职场和发展数据结构与算法
题目最小的K个数数组中的逆序对代码实现最小的K个数题目描述：输入n个整数，找出其中最小的K个数。例如输入4,5,1,6,2,7,3,8这8个数字，则最小的4个数字是1,2,3,4,。思路：按照各种排序算法，找到排序结果的前K个数。思路1：最简单的方案，对数组进行排序，取最小的k个思路2：借鉴快速排序的思想，找partition的基准点povit，比较povit和k值的大小思路3:大数据处理的思想，
ZooKeeper在Hadoop中的协同应用：从NameNode选主到分布式锁实现码字的字节 hadoop布道师分布式 zookeeper hadoop 分布式锁
Hadoop与ZooKeeper概述Hadoop与ZooKeeper在大数据生态系统中的核心位置和交互关系Hadoop的架构与核心组件作为大数据处理的基石，Hadoop生态系统由多个关键组件构成。其核心架构主要包含HDFS（HadoopDistributedFileSystem）和YARN（YetAnotherResourceNegotiator）两大模块。HDFS采用主从架构设计，由NameNo
优查查PROB版本使用介绍，优查查官网查询入口无忧达人
优查查最新版本PROB版本上线，优查查PROB版本的查询报告更全面，同时价格还是以前的价格，优查查大数据信用查询一次的价格是30，当然这个价格只限本文介绍的渠道，渠道我会放在文末，大家自行获取即可。优查查使用起来非常的流程，可以快速查询出来我们自身有没有信用稳定，优查查官网查询入口，每个人都可以使用优查查一键查询自己的信用，只能查询自己的信用，别人的信用是查询不了的。优查查使用入口放在文末了，划到
了解Mysql以及其增删改查为什么名字不能重复呢？网络安全 mysql 数据库
1.了解MysqlMySQL（MyStructuredQueryLanguage）是一种关系型数据库管理系统（RDBMS），它使用SQL（StructuredQueryLanguage）作为查询语言。以下是关于MySQL的一些基本概念：关系型数据库管理系统（RDBMS）：MySQL是一种关系型数据库管理系统，这意味着它使用表格来组织和存储数据。数据存储在表格中，表格之间可以建立关系。SQL：SQL
[python][flask]flask中session管理 awonw python python flask 开发语言
在Flask中，session是一个用于在客户端和服务器之间存储数据的机制。它允许你在多个请求之间保持数据的状态。session数据存储在客户端的Cookie中，但数据会经过加密，因此用户无法篡改数据内容。以下是关于Flask中session管理的详细说明和使用方法。1.启用session在Flask中，session默认是启用的，但需要设置一个密钥（SECRET_KEY），用于加密存储在客户端的
Python爬虫实战入门：手把手教你抓取豆瓣电影TOP250 xiaobindeshijie7 python 爬虫开发语言其他
文章目录一、环境准备（5分钟搞定）二、第一个爬虫实战（超简单版）2.1基础版代码2.2代码解剖（新人必看）三、突破反爬机制（实战精华）3.1伪装大法3.2请求频率控制3.3代理IP使用四、数据存储（多种姿势）4.1CSV存储4.2MySQL存储五、进阶技巧（高手必备）5.1异步爬虫5.2Selenium动态渲染六、法律与伦理（超级重要！！！）七、下一步学习路线一、环境准备（5分钟搞定）工欲善其事必
数字化转型-4A架构之数据架构 AI_Auto 工业4.0 (智能制造)架构大数据
4A架构系列文章数字化转型-4A架构（业务架构、应用架构、数据架构、技术架构）数字化转型-4A架构之业务架构数字化转型-4A架构之应用架构数字化转型-4A架构之数据架构数字化转型-4A架构之技术架构数据架构DataArchitecture（DA）1.定义数据架构，是组织管理数据资产的科学之道，描述如何管理从收集到转换、分发和使用数据。它为数据及其在数据存储系统中流动的方式设定了蓝图。涵盖数据的收集
贝融助手要交68块钱查询是合理吗？其实是很多人搞错查询渠道了无忧达人
我们都知道查询信用的平台都是需要收费，具体的收费每个平台都是不一样的，目前行业中收费基本上都是在30-100，其中大平台的收费会低一些，因为体量大可以降低自身的营业成本，这个原理和其它行业一样。贝融助手查询大数据信用收费是30（本文介绍的渠道），这个价格得益于贝融助手平台的体量，已经把价格做的非常低了，像信用行业大平台的价格基本上都是趋于行业的平均值，太高了太低了都不是正常值。贝融助手查询入口放在
深度评测：拼多多官方返利APP vs 其他返利平台，谁更胜一筹？日常购物技巧呀
购物新宠儿！拼多多官方返利APP，引领智能返利新时代。随着科技的不断发展智能化已经成为了各个领域的发展趋势。在返利领域也不例外拼多多官方返利app凭借其强大的智能技术和创新能力正引领着智能返利新时代。这款app通过大数据分析用户行为习惯精准推送符合用户需求的商品和优惠信息。让你在享受智能化服务的同时也能获得更加精准的返利回报。在繁多的返利app中，高省app凭借其独特的优势脱颖而出，成为众多用户的
Flink Checkpoint 状态后端详解：类型、特性对比及场景化选型指南
ApacheFlink提供了多种状态后端以支持Checkpoint机制下的状态持久化，确保在故障发生时能够快速恢复状态并实现Exactly-Once处理语义。以下是几种常见状态后端的详细介绍及其对比情况，以及不同场景下的选型建议：1.MemoryStateBackend（内存状态后端）描述：MemoryStateBackend将状态数据存储在TaskManager的JVM堆内存中，并在Checkp
Enum 枚举 120153216 enum 枚举
原文地址：http://www.cnblogs.com/Kavlez/p/4268601.html Enumeration 于Java 1.5增加的enum type...enum type是由一组固定的常量组成的类型，比如四个季节、扑克花色。在出现enum type之前，通常用一组int常量表示枚举类型。比如这样： public static final int APPLE_FUJI = 0
Java8简明教程 bijian1013 java jdk1.8
Java 8已于2014年3月18日正式发布了，新版本带来了诸多改进，包括Lambda表达式、Streams、日期时间API等等。本文就带你领略Java 8的全新特性。一.允许在接口中有默认方法实现 Java 8 允许我们使用default关键字，为接口声明添
Oracle表维护快速备份删除数据 cuisuqiang oracle 索引快速备份删除
我知道oracle表分区，不过那是数据库设计阶段的事情，目前是远水解不了近渴。当前的数据库表，要求保留一个月数据，且表存在大量录入更新，不存在程序删除。为了解决频繁查询和更新的瓶颈，我在oracle内根据需要创建了索引。但是随着数据量的增加，一个半月数据就要超千万，此时就算有索引，对高并发的查询和更新来说，让然有所拖累。为了解决这个问题，我一般一个月会进行一次数据库维护，主要工作就是备
java多态内存分析麦田的设计者 java 内存分析多态原理接口和抽象类
“ 时针如果可以回头，熟悉那张脸，重温嬉戏这乐园，墙壁的松脱涂鸦已经褪色才明白存在的价值归于记忆。街角小店尚存在吗？这大时代会不会牵挂，过去现在花开怎么会等待。但有种意外不管痛不痛都有伤害，光阴远远离开，那笑声徘徊与脑海。但这一秒可笑不再可爱，当天心
Xshell实现Windows上传文件到Linux主机被触发 windows
经常有这样的需求，我们在Windows下载的软件包，如何上传到远程Linux主机上？还有如何从Linux主机下载软件包到Windows下；之前我的做法现在看来好笨好繁琐，不过也达到了目的，笨人有本方法嘛；我是怎么操作的： 1、打开一台本地Linux虚拟机，使用mount 挂载Windows的共享文件夹到Linux上，然后拷贝数据到Linux虚拟机里面；（经常第一步都不顺利，无法挂载Windo
类的加载ClassLoader 肆无忌惮_ ClassLoader
类加载器ClassLoader是用来将java的类加载到虚拟机中，类加载器负责读取class字节文件到内存中，并将它转为Class的对象（类对象），通过此实例的 newInstance()方法就可以创建出该类的一个对象。其中重要的方法为findClass(String name)。如何写一个自己的类加载器呢？首先写一个便于测试的类Student
html5写的玫瑰花知了ing html5
<html> <head> <title>I Love You!</title> <meta charset="utf-8" /> </head> <body> <canvas id="c"></canvas>
google的ConcurrentLinkedHashmap源代码解析矮蛋蛋 LRU
原文地址： http://janeky.iteye.com/blog/1534352 简述 ConcurrentLinkedHashMap 是google团队提供的一个容器。它有什么用呢？其实它本身是对 ConcurrentHashMap的封装，可以用来实现一个基于LRU策略的缓存。详细介绍可以参见 http://code.google.com/p/concurrentlinke
webservice获取访问服务的ip地址 alleni123 webservice
1. 首先注入javax.xml.ws.WebServiceContext, @Resource private WebServiceContext context; 2. 在方法中获取交换请求的对象。 javax.xml.ws.handler.MessageContext mc=context.getMessageContext(); com.sun.net.http
菜鸟的java基础提升之道——————>是否值得拥有百合不是茶
1，c++，java是面向对象编程的语言，将万事万物都看成是对象；java做一件事情关注的是人物，java是c++继承过来的，java没有直接更改地址的权限但是可以通过引用来传值操作地址，java也没有c++中繁琐的操作，java以其优越的可移植型，平台的安全型，高效性赢得了广泛的认同，全世界越来越多的人去学习java，我也是其中的一员 java组成：
通过修改Linux服务自动启动指定应用程序 bijian1013 linux
Linux中修改系统服务的命令是chkconfig (check config)，命令的详细解释如下: chkconfig 功能说明：检查，设置系统的各种服务。语　　法：chkconfig [ -- add][ -- del][ -- list][系统服务] 或 chkconfig [ -- level <</SPAN>
spring拦截器的一个简单实例 bijian1013 java spring 拦截器 Interceptor
Purview接口 package aop; public interface Purview { void checkLogin(); } Purview接口的实现类PurviesImpl.java package aop; public class PurviewImpl implements Purview { public void check
[Velocity二]自定义Velocity指令 bit1129 velocity
什么是Velocity指令在Velocity中，#set,#if, #foreach, #elseif, #parse等，以#开头的称之为指令，Velocity内置的这些指令可以用来做赋值，条件判断，循环控制等脚本语言必备的逻辑控制等语句，Velocity的指令是可扩展的，即用户可以根据实际的需要自定义Velocity指令自定义指令(Directive)的一般步骤 &nbs
【Hive十】Programming Hive学习笔记 bit1129 programming
第二章 Getting Started 1.Hive最大的局限性是什么？一是不支持行级别的增删改(insert, delete, update)二是查询性能非常差(基于Hadoop MapReduce）,不适合延迟小的交互式任务三是不支持事务2. Hive MetaStore是干什么的？Hive persists table schemas and other system metadata.
nginx有选择性进行限制 ronin47 nginx 动静　限制
http { limit_conn_zone $binary_remote_addr zone=addr:10m; limit_req_zone $binary_remote_addr zone=one:10m rate=5r/s;... server {... location ~.*\.(gif|png|css|js|icon)$ {
java-4.-在二元树中找出和为某一值的所有路径 . bylijinnan java
/* * 0.use a TwoWayLinkedList to store the path.when the node can't be path,you should/can delete it. * 1.curSum==exceptedSum:if the lastNode is TreeNode,printPath();delete the node otherwise
Netty学习笔记 bylijinnan java netty
本文是阅读以下两篇文章时： http://seeallhearall.blogspot.com/2012/05/netty-tutorial-part-1-introduction-to.html http://seeallhearall.blogspot.com/2012/06/netty-tutorial-part-15-on-channel.html 我的一些笔记 ===
js获取项目路径 cngolon js
//js获取项目根路径，如： http://localhost:8083/uimcardprj function getRootPath(){ //获取当前网址，如： http://localhost:8083/uimcardprj/share/meun.jsp var curWwwPath=window.document.locati
oracle 的性能优化 cuishikuan oracle SQL Server
在网上搜索了一些Oracle性能优化的文章，为了更加深层次的巩固[边写边记]，也为了可以随时查看，所以发表这篇文章。 1.ORACLE采用自下而上的顺序解析WHERE子句，根据这个原理，表之间的连接必须写在其他WHERE条件之前，那些可以过滤掉最大数量记录的条件必须写在WHERE子句的末尾。（这点本人曾经做过实例验证过，的确如此哦！
Shell变量和数组使用详解 daizj linux shell 变量数组
Shell 变量定义变量时，变量名不加美元符号（$，PHP语言中变量需要），如： your_name="w3cschool.cc" 注意，变量名和等号之间不能有空格，这可能和你熟悉的所有编程语言都不一样。同时，变量名的命名须遵循如下规则：首个字符必须为字母（a-z，A-Z）。中间不能有空格，可以使用下划线（_）。不能使用标点符号。不能使用ba
编程中的一些概念，KISS、DRY、MVC、OOP、REST dcj3sjt126com REST
KISS、DRY、MVC、OOP、REST （1）KISS是指Keep It Simple,Stupid（摘自wikipedia），指设计时要坚持简约原则，避免不必要的复杂化。（2）DRY是指Don't Repeat Yourself（摘自wikipedia），特指在程序设计以及计算中避免重复代码，因为这样会降低灵活性、简洁性，并且可能导致代码之间的矛盾。（3）OOP 即Object-Orie
[Android]设置Activity为全屏显示的两种方法 dcj3sjt126com Activity
1. 方法1：AndroidManifest.xml 里，Activity的 android:theme 指定为" @android:style/Theme.NoTitleBar.Fullscreen" 示例: <application
solrcloud 部署方式比较 eksliang solrCloud
solrcloud 的部署其实有两种方式可选，那么我们在实践开发中应该怎样选择呢？第一种：当启动solr服务器时，内嵌的启动一个Zookeeper服务器，然后将这些内嵌的Zookeeper服务器组成一个集群。第二种：将Zookeeper服务器独立的配置一个集群，然后将solr交给Zookeeper进行管理谈谈第一种：每启动一个solr服务器就内嵌的启动一个Zoo
Java synchronized关键字详解 gqdy365 synchronized
转载自：http://www.cnblogs.com/mengdd/archive/2013/02/16/2913806.html 多线程的同步机制对资源进行加锁，使得在同一个时间，只有一个线程可以进行操作，同步用以解决多个线程同时访问时可能出现的问题。同步机制可以使用synchronized关键字实现。当synchronized关键字修饰一个方法的时候，该方法叫做同步方法。当s
js实现登录时记住用户名 hw1287789687 记住我记住密码 cookie 记住用户名记住账号
在页面中如何获取cookie值呢? 如果是JSP的话,可以通过servlet的对象request 获取cookie,可以参考:http://hw1287789687.iteye.com/blog/2050040 如果要求登录页面是html呢?html页面中如何获取cookie呢? 直接上代码了页面:loginInput.html 代码: <!DOCTYPE html PUB
开发者必备的 Chrome 扩展 justjavac chrome
Firebug：不用多介绍了吧https://chrome.google.com/webstore/detail/bmagokdooijbeehmkpknfglimnifench ChromeSnifferPlus：Chrome 探测器，可以探测正在使用的开源软件或者 js 类库https://chrome.google.com/webstore/detail/chrome-sniffer-pl
算法机试题李亚飞 java 算法机试题
在面试机试时，遇到一个算法题，当时没能写出来，最后是同学帮忙解决的。这道题大致意思是：输入一个数，比如4,。这时会输出： &n
正确配置Linux系统ulimit值字符串 ulimit
在Linux下面部署应用的时候，有时候会遇上Socket/File: Can’t open so many files的问题；这个值也会影响服务器的最大并发数，其实Linux是有文件句柄限制的，而且Linux默认不是很高，一般都是1024，生产服务器用其实很容易就达到这个数量。下面说的是，如何通过正解配置来改正这个系统默认值。因为这个问题是我配置Nginx+php5时遇到了，所以我将这篇归纳进
hibernate调用返回游标的存储过程 Supanccy2013 java DAO oracle Hibernate jdbc
注：原创作品，转载请注明出处。上篇博文介绍的是hibernate调用返回单值的存储过程，本片博文说的是hibernate调用返回游标的存储过程。此此扁博文的存储过程的功能相当于是jdbc调用select 的作用。 1，创建oracle中的包，并在该包中创建的游标类型。 ---创建oracle的程
Spring 4.2新特性-更简单的Application Event wiselyman application
1.1 Application Event Spring 4.1的写法请参考10点睛Spring4.1-Application Event 请对比10点睛Spring4.1-Application Event 使用一个@EventListener取代了实现ApplicationListener接口,使耦合度降低; 1.2 示例包依赖 <p