爱吃辣条byte

第3.2章：Doris-2.0数据导入——Compaction机制

一、Compaction概述

1.1 LSM-Tree概述

1.2 Compaction概述

1.3 Rowset数据版本

1.4 Compaction优点

1.5 Compaction问题

1.5.1 Compaction速度低

1.5.2 写放大问题

1.6 Compaction调优

1.6.1 业务侧

1.6.2 运维侧

二、Compaction执行方式

2.1 Vertical Compaction

2.1.1 概述

2.1.2 原理

2.2 Segment Compaction

2.2.1 概述

2.2.2 原理

注：本篇文章阐述的是Doris2.0版本的compaction机制

一、Compaction概述

1.1 LSM-Tree概述

LSM-Tree( Log Structured-Merge Tree)是数据库中最为常见的存储结构之一，核心思想是充分发挥磁盘连续读写的性能优势，以短时间的内存和IO磁盘开销换取最大的写入性能，数据以Append-only的方式写入Memtable ，达到阈值后冻结Memtable并Flush为磁盘文件，再结合compaction机制将多个小文件进行多路归并排序形成新的文件，最终实现数据的高效写入。为了降低读取时需要合并的数据量，基于LSM-Tree的系统会引入后台数据合并的逻辑，以一定策略定期的对数据进行合并，Doris中这种机制被称为Compaction。 Doris中每批次的数据写入会生成一个数据版本，因此Compaction机制就是异步将底层小的rowset数据版本合并成一个更大的版本。

1.2 Compaction概述

Doris 通过类似 LSM-Tree 的结构写入数据，后台通过 Compaction机制不断将小文件合并成有序的大文件。对于单一的数据分片（tablet），数据会按照顺序写入内存（写缓存memstore），达到阈值后刷写到磁盘，这些文件保存在一个rowset中。在Doris中，Compaction机制根据一定的策略对这些rowset合并成有序的大文件，极大地提升查询性能。

ps： Doris中数据组织如下图：

将数据表按照分区分桶规则，切分成若干个数据分片（tablet）存储在不同的be节点上。每个tablet都有多个副本（默认是3副本）。compaction是在每个be上独立进行的，compaction逻辑处理的就是一个be节点上所有的数据分片tablet。

1.3 Rowset数据版本

一个tablet中包含若干连续的rowset(rowset是逻辑概念)，rowset代表tablet中一次数据变更的数据集合（数据变更包括了数据新增，更新或删除等）。rowset按版本信息进行记录，版本信息中包含了两个字段first和second，first表示当前rowset的起始版本（start version），end表示当前rowset的结束版本（endversion）。

Doris的数据写入是以微批的方式进行的，每一个批次的数据针对每个tablet都会形成一个rowset（一个tablet是由多个rowset组成的）。每个rowset都有一个相应的起始版本（start version）和终止版本（end version）。对于新增的rowset，起始版本和终止版本是一样的，表示为[ 6-6]、[ 7-7]等。多个 rowset经过compaction会形成一个大的rowset。合并后的起始版本和终止版本是多个版本的并集，如[ 6-6]、[ 7-7]、[8-8]合并后变成 [6-8]，如下图：

有个疑问：单个tablet中的rowset版本个数过多会什么影响？

主要影响两个方面，一个是be存储节点的内存占用，当rowset的版本过多时，be节点的table_meta部分（主要是其中的rowset元数据部分）占用的内存可能非常多。同时compaction任务就会消耗大量内存与磁盘IO，资源开销较大容易引起oom，影响集群稳定性；二是查询会变慢，查询过程需要对tablet中的数据进行解压处理，当rowset版本很多时，数据解压会变慢，导致查询scan的耗时增加。

1.4 Compaction优点

使得数据更加有序

每个rowset内部的数据是按主键有序的，但是rowset与rowset之间的数据是无序的，compaction会将多个rowset的数据从无序变成有序，提升数据再读取时的效率。

消除数据变更

数据以Append-only的方式写入，因此Delete，Update等操作都是标记写入，compaction会将标记的数据进行真正的删除或更新，避免数据再读取时进行额外的扫描及过滤。

增加数据聚合度

在aggregate模型上，compaction还可以将不同的rowset中相同key的数据进行预聚合，减少数据读取时的局和计算，进一步提升读取效率

1.5 Compaction问题

虽然compaction在写入和查询性能方面发挥着关键作用，但是compaction任务执行期间的写放大问题以及随之而来的磁盘I/O和CPU资源开销，也会影响系统稳定性和性能。

不用应用场景，数据写入需求，写入任务并行度，单次提交数据量的大小，提交频次的高低等因素影响compaction策略，不合理的compaction策略则会导致：

1.5.1 Compaction速度低

在高频写入场景下，短时间内生成的rowset版本太快，如果compaction不及时，就会造成大量版本堆积，最终导致写入失败（-238：OLAP_ERR_TOO_MANY_SEGMENTS）；

理论上每次导入操作，不论是只导入一条还是十万、百万条，对于Doris来说，都是只生成一个新的roswet版本。那么在compaction效率有限的情况下，完全可以通过“攒微批+降频率”来规避roswet版本过多的问题。

1.5.2 写放大问题

Compaction本质上是将已经写入的数据读取后，重新写回的过程（读取多个小文件，合并成有序的大文件后再写回），这种重复的数据写入被称为写放大。一个好的compaction策略应该在保证效率的前提下，尽量降低写放大系数，因为过多的compaction会占用大量的内存及磁盘io资源，影响Doris集群的稳定性及查询性能，可能会导致BE OOM。

1.6 Compaction调优

针对上述的compaction问题，可以从业务侧及运维侧进行调优。

1.6.1 业务侧

通过引导业务侧进行合理优化，对表设置合理的分区分桶，避免生成过多的数据分片
引导用户尽量降低数据的导入频率，增加每批次的导入数据量，从而降低compaction压力
引导用户避免过多的Delete 操作，Delete操作在底层会对数据标记成Delete版本

Doris中的Compaction分为 Base Compaction 与 Cumulative Compaction。Cumulative Compaction（简称CC）会将新导入的小版本进行快速合并，但是CC无法处理 Delete版本，所以CC在合并过程中若遇到 Delete 操作就会终止，并将当前Delete操作版本之前的所有版本进行一次合并，之后Base Compaction（简称BC）将基线版本与CC处理的版本合并。当 Delete 版本特别多时， CC的步长也会相应变短，只能合并少量的文件，导致CC不能很好的发挥小文件合并效果。

1.6.2 运维侧

针对不同的业务集群配置不同的 Compaction 参数

有些业务是实时写入数据，查询该数据的需求较多，此时可以将Compaction开的大一点以达到快速合并目的，避免影响查询性能。
而有些业务数据写入当天的分区，查询需求针对之前的分区，在这种情况下，可以适当的将Compaction 放的小一点，避免 Compaction 占用过大内存或 CPU 资源。在晚上的低峰阶段对新导入的小版本进行合并，这样对第二天查询效率也不会有很大影响。

适当降低 Base Compaction任务优先级并增加Cumulative Compaction优先级

上文已经介绍了Cumulative Compaction能够快速合并大量生成的小文件，而 Base Compaction 由于合并的文件较大，执行的时间也会相应变长，读写放大也会比较严重。所以调高Cumulative Compaction的优先级。

增加版本积压报警

当收到版本积压报警时，可以动态调大Compaction参数，尽快消耗积压版本。

二、Compaction执行方式

在Doris-2.0版本中，存在两种Compaction执行方式：

Vertical Compaction：用以彻底解决Compaction的内存问题以及大宽表场景下的数据合并；
Segment Compaction：用以彻底解决数据导入过程中的Segment文件过多问题；

Doris 1.2.2版本之前的compaction执行方式见：

第3.2章：Doris数据导入——Compaction机制-CSDN博客

2.1 Vertical Compaction

2.1.1 概述

在之前的版本中，Compaction 合并的基本单元为整行数据。由于Doris存储引擎采用列式存储，行Compaction 的方式对数据读取极其不友好，每次 Compaction 都需要加载所有列的数据，内存消耗极大，而这样的方式在宽表场景下也将带来内存的极大消耗。

Vertical Compaction天然与列式存储更加贴合，使用列组的方式进行数据合并，单次合并只需要加载部分列的数据，因此能够极大减少合并过程中的内存占用。Vertical Compaction算法解决了大宽表场景下的 Compaction 执行效率和资源开销问题。可以有效降低Compaction的内存开销，并提升 Compaction 的执行速度。在实际测试中，Vertical Compaction 使用内存仅为原有 Compaction 算法的 1/10，同时 Compaction 速率提升 15%。

Vertical Compaction 在Doris-2.0版本中默认关闭状态，开启和配置方法(BE 配置)

#可以开启Vertical Compaction合并功能
set enable_vertical_compaction = true 

# 每个列组包含的列个数，经测试，默认5列一组compaction的效率及内存使用较友好
set vertical_compaction_num_columns_per_group = 5

# 用于配置vertical compaction之后落盘文件的大小，默认值256M,即：
set vertical_compaction_max_segment_size = 256*1024*1024

2.1.2 原理

Vertical Compaction的执行流程如下图：

整体分为如下几个步骤：

切分列组：将输入 Rowset 按照列进行切分，所有的Key列一组、Value列按 N 个一组，切分成多个 Column Group；

N的个数可以通过参数调整：vertical_compaction_num_columns_per_group

上述参数代表：每个列组包含的列个数，经测试，默认5列一组compaction的效率及内存使用较友好。set vertical_compaction_num_columns_per_group = 5

Key 列合并：Key列的顺序就是最终数据的顺序，多个 Rowset的 Key列采用堆排序进行合并，产生最终有序的 Key 列数据。在产生 Key 列数据的同时，会同时产生用于标记全局序 RowSources。
Value 列的合并：逐一合并 Column Group 中的 Value 列，以 Key列合并时产生的 RowSources为依据对数据进行排序。
数据写入：数据按列写入，形成最终的 Rowset 文件。

2.2 Segment Compaction

2.2.1 概述

Segment Compaction主要应对单批次大数据量的导入场景。和Vertical Compaction的触发机制不同，Segment Compaction允许我们在导入数据的同时，针对一批次数据内的多个Segment进行的合并操作，以有效控制 Segment 文件的数量。

Segment Compaction 在Doris-2.0版本中默认关闭状态，开启和配置方法(BE 配置)

#可以开启Segment Compaction合并功能
set enable_segcompaction = true;
#用于配置合并的间隔。默认每生成10个segment文件将会进行一次
set segcompaction_batch_size =10;
该参数一般设置为10-30，过大的值会增加segment compaction 的内存占用量。

2.2.2 原理

在数据导入阶段，Doris 会先在内存中积攒数据，到达一定批次大小，Flush到磁盘形成一个个的Segment 文件。

大批量数据导入时会形成大量的 Segment 文件进而影响后续查询性能，基于此原因，Doris 对一批次导入的 Segment 文件数量做了限制，如果触发阈值，会报错 -238 (olap_err_too_many_segments) ，同时终止对应的导入任务。

此外，Doris引入Segment Compaction合并算法，允许我们在导入数据的同时，针对一批次数据内的多个Segment进行的合并操作，以有效控制 Segment 文件的数量。具体流程如下所示：

例如：如果单批次新增的Segment 数量超过一定阈值（例如 10个），会触发合并线程去异步执行合并任务。通过将每10 个Segment合并成一个新的Segment 并删除旧 Segment，导入完成后的实际 Segment 文件数量将下降 10 倍。

Segment Compaction会在数据导入的同时并行执行，在单批次大数据量导入的场景下，能够在不显著增加导入时间的前提下大幅降低文件个数，提升查询效率。

ps：如果导入操作本身已经耗尽了内存资源时，不建议使用 segment compaction 以免进一步增加内存压力使导入失败。

参考文章：

最佳实践｜Apache Doris 在小米数据场景的应用实践与优化

资源消耗降低 90%，速度提升 50%，解读 Apache Doris Compaction 最新优化与实现

什么是缓存雪崩？缓存击穿？缓存穿透？分别如何解决？什么是缓存预热？ daixin8848 缓存 redis java 开发语言
缓存雪崩：在一个时间段内，有大量的key过期，或者Redis服务宕机，导致大量的请求到达数据库,带来巨大压力-给key设置不同的TTL、利用Redis集群提高服务的高可用性、添加多级缓存、添加降级流策略缓存击穿：给某一个key设置了过期时间，当key过期的时间，恰好这个时间点有大量的并发请求访问这个key，可能会瞬间把数据库压垮-互斥锁：缓存失败时，只允许一个请求去加载数据并更新缓存，其他请求阻塞
在线人数统计业务设计（场景八股文）
业务问题在当经的网站中，在线人数的实时统计已经是一个必不可少的模块了，并且该统计功能最好能够按不同的时间间隔做的统计，现在需要你设计一个在线人数统计的模块，你应该怎么进行设计的呢？背景一个网校下会有多个学员。目前平台大概有十个，平台对应的网校大概五十几个，平均一个网校会有5w个用户，预计总人数为200w，最该学员的在线人数在10w左右。设计思路最开始的时候，想到的就是使用mysql直接实现，但是明
Aop +反射实现方法版本动态切换
需求分析在做技术选型的时候一直存在着两个声音，mongo作为数据库比较mysql好，mysql做为该数据比mongo好。当然不同数据库都有有着自己的优势，我们在做技术选型的时候无非就是做到对数据库的扬长避短。mysql最大的优势就是支持事务，事务的五大特性保证的业务可靠性，随之而来的就是事务会产生的问题：脏读、幻读、不可重复度，当然我们也会使用不同的隔离级别来解决。（最典型的业务问题：银行存取钱）
mysql复习立夏的李子 mysql 数据库 database
mysqlselect语法selectfromjoinwheregroupbyhavingorderbylimit联合查询innerjoin（）leftjoin（以左表为基准，匹配右表，不匹配的返回左表，右表以null值填充）rightjoind··(去除列重复的数据)索引类型主键索引(PrimaryKey)唯一索引(Unique)常规索引(Index)全文索引(FullText)索引准则索引不是
MySQL复习题
一.填空题1.关系数据库的标准语言是SQL。2.数据库发展的3个阶段中，数据独立性最高的是阶段数据库系统。3.概念模型中的3种基本联系分别是一对一、一对多和多对多。4.MySQL配置文件的文件名是my.ini或my.cnf。5.在MySQL配置文件中，datadir用于指定数据库文件的保存目录。6.添加IFNOTEXISTS可在创建的数据库已存在时防止程序报错。7.MySQL提供的SHOWCREA
Android GreenDao介绍和Generator生成表对象代码
目录(?)[-]介绍创建工程转载请注明：http://blog.csdn.net/sinat_30276961/article/details/50052109最近无意中发现了GreenDao，然后查看了一些资料后，发现这个数据库框架很适合用，于是乎，查看了官网的api，并自己写了一个小应用总结一下它的使用方法。介绍按照国际惯例，在开篇，总要先介绍一下什么是GreenDao吧。首先需要说明的是Gr
Spark SQL架构及高级用法 Aurora_NeAr spark sql 架构
SparkSQL架构概述架构核心组件API层（用户接口）输入方式：SQL查询；DataFrame/DatasetAPI。统一性：所有接口最终转换为逻辑计划树（LogicalPlan），进入优化流程。编译器层（Catalyst优化器）核心引擎：基于规则的优化器（Rule-BasedOptimizer,RBO）与成本优化器（Cost-BasedOptimizer,CBO）。处理流程：阶段输入输出关键动
Mac OSX 下的mysql数据库文件存放位置 Bruuuces mysql mac osx 位置存放
之前我的mysql的系统数据库里的表被我玩坏了，万般无奈之下只得删除所有mysql的东西重新构建数据库。按照网上搜到的内容删除后重装发现数据库没有什么变化。于是自己在每个可能存放数据库文件的目录查找，最终确认目录位置如下:使用HomeBrew安装为/usr/local/var/mysql使用官方下载的dmg镜像安装为/usr/local/mysql删除这个目录再重新安装mysql就会重新生成系统数
mac os 10.9 mysql_MAC OSX 10.9 apache php mysql 环境配置 AY05 mac os 10.9 mysql
＃终端内运行sudoapachectlstart#启动Apachesudoapachectlrestart#重启Apachesudoapachectlstop#停止Apache＃配置Apachesudovi/private/etc/apache2/httpd.conf#将里面的这一行去掉前面的##LoadModulephp5_modulelibexec/apache2/libphp5.so＃配置P
mac升级mysql_Mac OSX下的MySQL数据库升级 weixin_39801714 mac升级mysql
MacOSX下的数据库升级最麻烦的不过权限的问题.本文的MySQL的安装方式为OSX下DMG磁盘镜像的安装方式,MacPorts/Homebrew的方式大同小异.从5.6.17升级到5.7.18安装目录信息ls-al/usr/local|grepmysqllrwxr-xr-x1rootwheel30B52100:39mysql@->mysql-5.6.17-osx10.7-x86_64drwxr-
【MySQL】MySQL数据库如何改名武昌库里写JAVA 面试题汇总与解析 spring boot vue.js sql java 学习
MySQL建库授权语句https://www.jianshu.com/p/2237a9649ceeMySQL数据库改名的三种方法https://www.cnblogs.com/gomysql/p/3584881.htmlMySQL安全修改数据库名几种方法https://blog.csdn.net/haiross/article/details/51282417MySQL重命名数据库https://
HikariCP调试日志深度解析：生产环境故障排查完全指南
HikariCP调试日志深度解析：生产环境故障排查完全指南更新时间：2025年7月4日|作者：资深架构师|适用版本：HikariCP5.x+|难度等级：中高级前言在生产环境中，数据库连接池往往是系统性能的关键瓶颈。HikariCP作为当前最流行的Java连接池，其调试日志包含了丰富的运行时信息，能够帮助我们快速定位和解决各种连接池相关问题。本文将深入解析HikariCP的日志体系，提供一套完整的故
大学社团管理系统（11831） codercode2022 java spring boot spring echarts spring cloud sentinel java-rocketmq
有需要的同学，源代码和配套文档领取，加文章最下方的名片哦一、项目演示项目演示视频二、资料介绍完整源代码（前后端源代码+SQL脚本）配套文档（LW+PPT+开题报告）远程调试控屏包运行三、技术介绍Java语言SSM框架SpringBoot框架Vue框架JSP页面Mysql数据库IDEA/Eclipse开发四、项目截图有需要的同学，源代码和配套文档领取，加文章最下方的名片哦!
前端数据库：IndexedDB从基础到高级使用指南
文章目录前端数据库：IndexedDB从基础到高级使用指南引言一、IndexedDB概述1.1什么是IndexedDB1.2与其他存储方案的比较二、基础使用2.1打开/创建数据库2.2基本CRUD操作添加数据读取数据更新数据删除数据三、高级特性3.1复杂查询与游标3.2事务高级用法3.3性能优化技巧四、实战案例：构建离线优先的待办事项应用4.1数据库设计4.2同步策略实现五、常见问题与解决方案5.
修改gitlab默认的语言 Victor刘 gitlab
文章目录网上的方法1.采用数据库触发器的方法2.登录pg库2.1查看表2.2创建function2.3创建触发器2.4修改历史数据网上的方法网上修改/opt/gitlab/embedded/service/gitlab-rails/config/application.rb的方法，我试了，没生效，没进一步研究1.采用数据库触发器的方法2.登录pg库su-gitlab-psqlpsql-h/var/
如何在 Ubuntu 24.04 或 22.04 Linux 上安装和运行 Redis 服务器山岚的运维笔记 Linux 运维及使用 linux 服务器 ubuntu redis 数据库
Redis（RemoteDictionaryServer，远程字典服务器）是一种内存数据结构存储，通常用作NoSQL数据库、缓存和消息代理。它是开源的，因此用户可以免费安装，无需支付任何费用。Redis旨在为需要快速数据访问和低延迟的应用程序提供速度和效率。Redis支持多种数据类型，包括字符串（Strings）、列表（Lists）、集合（Sets）、哈希（Hashes）、有序集合（SortedS
数据库基础概念梳理 22:30Plane-Moon 数据库
1.数据存储类型表(Table):存储结构化数据的标准方式，数据以行和列的形式组织，具有固定的格式。非结构化数据(UnstructuredData):如音频、视频、图片、文本文档等，其格式不固定，不易直接用表存储。2.SQL的核心优势SQL尤其擅长处理和操作存储在表中的结构化数据。2.1数据类型约束(DataTypeConstraints):定义列可存储的数据种类。整数类型:TINYINT(1字节
SQL笔记纯干货 AI入门修炼 oracle 数据库 sql
软件：DataGrip2023.2.3，phpstudy_pro,MySQL8.0.12目录1.DDL语句（数据定义语句）1.1数据库操作语言1.2数据表操作语言2.DML语句（数据操作语言）2.1增删改2.2题2.3备份表3.DQL语句（数据查询语言）3.1查询操作3.2题一3.3题二4.多表详解4.1一对多4.2多对多5.多表查询6.窗口函数7.拓展:upsert8.sql注入攻击演示9.拆表
Ubuntu24安装MariaDB/MySQL后不知道root密码如何解决
Ubuntu24.04安装MariaDB后root密码未知？解决方案在此在Ubuntu24.04上新安装MariaDB后，许多用户会发现自己不知道root用户的密码，甚至在安装过程中也没有提示设置密码。这是因为在较新的MariaDB版本中，默认情况下root用户采用了unix_socket身份验证插件。这意味着您可以使用操作系统的root用户权限直接登录MariaDB，而无需输入密码。本文将为您详
mysql创建线程处理链接请求斜不靠谱
mysqld通过RUN_HOOK(server_state,before_handle_connection,(NULL));调用/**Threadhandlerforaconnection@paramargConnectionobject(Channel_info)Thisfunction(normally)doesthefollowing:-Initializethread//初始化线程-In
分布式全局唯一ID生成：雪花算法 vs Redis Increment，怎么选？
雪花算法vsRedisIncrement：分布式全局唯一ID生成方案深度对比在分布式系统开发中，“全局唯一ID”是绕不开的核心问题。无论是分库分表的数据库设计、订单编号的唯一性保证，还是日志追踪的链路标识，都需要一套可靠的ID生成方案。今天我们就来聊聊两种主流方案——雪花算法（Snowflake）和RedisIncrement，并从原理、特性到适用场景，帮你理清如何选择。同时，我们还将对比其他常见
【Druid】学习笔记 fixAllenSun 学习笔记 oracle
【Druid】学习笔记【一】简介【1】简介【2】数据库连接池（1）能解决的问题（2）使用数据库连接池的好处【3】监控（1）监控信息采集的StatFilter（2）监控不影响性能（3）SQL参数化合并监控（4）执行次数、返回行数、更新行数和并发监控（5）慢查监控（6）Exception监控（7）区间分布（8）内置监控DEMO【4】Druid基本配置参数介绍【5】Druid相比于其他数据库连接池的优点
构建高效的物流车辆定位管理系统体制教科书
本文还有配套的精品资源，点击获取简介：物流车辆定位管理系统利用信息技术提高物流效率和安全性。通过集成GPS技术进行实时车辆追踪和监控，它提供及时的货物运送和异常处理。系统的关键技术包括GPS车辆定位、C#编程语言、数据库管理、车辆管理、在途情况监控、预警与通知、数据分析与报告、用户界面设计、安全性与隐私保护以及系统集成。这些要素共同保障物流流程的高效、安全和智能化。1.物流车辆定位管理系统的应用与
Spring AI Alibaba 快速入门指南（适合初学者）会飞的架狗师 AI spring 人工智能 java
如果你是刚接触AI开发或Spring框架的初学者，不用担心，本指南会用简单易懂的语言带你一步步了解并使用SpringAIAlibaba。一、什么是SpringAIAlibaba（小白也能懂）简单来说，SpringAIAlibaba就是一个“工具包”，它把阿里巴巴的AI技术（比如通义千问大模型、向量数据库等）和大家常用的Spring框架“打包”到了一起。**打个比方：**就像你想做蛋糕（开发AI应用
Java朴实无华按天计划从入门到实战（强化速战版-66天）岫珩 Java 后端 java 开发语言学习 Java 时间安排学习计划
致敬读者感谢阅读笑口常开生日快乐⬛早点睡觉博主相关博主信息博客首页专栏推荐活动信息文章目录Java朴实无华按天计划从入门到实战（强化速战版-66天）1.基础（18）1.1JavaSE核心（5天）1.2数据库与SQL（5天）1.3前端基础（8天）2.进阶（17天）2.1JavaWeb核心（5天）2.2Mybatis与Spring全家桶（6天）2.3中间件入门（4天）2.4实践项目（2天）3.高阶（1
Navicat练习与实操（第九节课内容总结见下篇）咩? android 前端 sql
MySQL练习练习题目现在有以下四张表Student学生ID学生名字学生生日学生性别s_ids_names_births_sexCourse课程ID课程名字教师IDc_idc_namet_idTeacher教师ID教师名字t_idt_nameScore学生ID课程ID学生分数s_idc_ids_score1.对以上表格分别建表(要求：id为各个表的主键、其他字段非空设置默认值为、给表以及表中字段设
企业级RAG的数据方案选择 - 向量数据库、图数据库和知识图谱南七小僧 AI技术产品经理网站开发人工智能数据库知识图谱人工智能
如何为企业RAG选择合适的数据存储方式摘要:本文讨论了矢量数据库、图数据库和知识图谱在解决信息检索挑战方面的重要性，特别是针对企业规模的检索增强生成（RAG）。看看海外人工智能企业Writer是如何利用知识图谱增强企业级RAG。要点概要：矢量数据库高效存储数据，但缺乏上下文和关联信息。图数据库优先考虑数据点之间的关系，受益于关系结构。知识图谱在语义存储方面表现出色，由于其能够编码丰富的上下文信息，
小白学习mysql 阿什么名字不会重复呢 mysql 数据库大数据人工智能
推荐自学网站不用下载本地环境带自测头歌https://www.educoder.net✅适合基础小白的MySQL简单实用学习计划总学习时间建议：10~14天，每天1小时左右即可最终目标：掌握基础SQL操作，能完成简单项目需求第1阶段：认识数据库与环境搭建（1~2天）你需要学会：•数据库是什么？SQL是什么？•安装MySQLServer+Navicat（推荐用Navicat可视化工具）✅推荐学习内容
Navicat 全面支持金仓数据库 KingbaseES，为金仓生态圈注入新动能 Navicat中国 Navicat 17 焕新上市 Navicat 免费版数据库
近日，我们宣布Navicat系列产品全面支持中电科金仓（北京）科技股份有限公司旗下金仓数据库管理系统KingbaseES。KingbaseES是面向全行业、全客户关键应用的企业级大型通用融合数据库产品，适用于事务处理类应用、数据分析类应用、海量时序数据采集检索类应用、要求苛刻的互联网等应用场景。这次合作，不仅是Navicat在数据库管理领域的又一重要里程碑，更凭借卓越的技术为金仓数据库的生态注入新
MySql基础：事务无敌摆烂仔 mysql 数据库
1.事务的简介1.1什么是事务事务就是一组DML语句组成，这些语句在逻辑上存在相关性，这一组DML语句要么全部成功，要么全部失败，是一个整体。MySQL提供一种机制，保证我们达到这样的效果。事务还规定不同的客户端看到的数据是不相同的。事务就是要做的或所做的事情，主要用于处理操作量大，复杂度高的数据。假设一种场景：你毕业了，学校的教务系统后台MySQL中，不在需要你的数据，要删除你的所有信息(一般不
多线程编程之join()方法周凡杨 java JOIN 多线程编程线程
现实生活中，有些工作是需要团队中成员依次完成的，这就涉及到了一个顺序问题。现在有T1、T2、T3三个工人，如何保证T2在T1执行完后执行，T3在T2执行完后执行？问题分析：首先问题中有三个实体，T1、T2、T3，因为是多线程编程，所以都要设计成线程类。关键是怎么保证线程能依次执行完呢？ Java实现过程如下： public class T1 implements Runnabl
java中switch的使用 bingyingao java enum break continue
java中的switch仅支持case条件仅支持int、enum两种类型。用enum的时候，不能直接写下列形式。 switch (timeType) { case ProdtransTimeTypeEnum.DAILY: break; default: br
hive having count 不能去重 daizj hive 去重 having count 计数
hive在使用having count()是，不支持去重计数 hive (default)> select imei from t_test_phonenum where ds=20150701 group by imei having count(distinct phone_num)>1 limit 10; FAILED: SemanticExcep
WebSphere对JSP的缓存周凡杨 WAS JSP 缓存
对于线网上的工程，更新JSP到WebSphere后，有时会出现修改的jsp没有起作用，特别是改变了某jsp的样式后，在页面中没看到效果，这主要就是由于websphere中缓存的缘故，这就要清除WebSphere中jsp缓存。要清除WebSphere中JSP的缓存，就要找到WAS安装后的根目录。现服务
设计模式总结朱辉辉33 java 设计模式
1.工厂模式 1.1 工厂方法模式 (由一个工厂类管理构造方法) 1.1.1普通工厂模式(一个工厂类中只有一个方法) 1.1.2多工厂模式(一个工厂类中有多个方法) 1.1.3静态工厂模式(将工厂类中的方法变成静态方法) &n
实例：供应商管理报表需求调研报告老A不折腾 finereport 报表系统报表软件信息化选型
引言随着企业集团的生产规模扩张，为支撑全球供应链管理，对于供应商的管理和采购过程的监控已经不局限于简单的交付以及价格的管理，目前采购及供应商管理各个环节的操作分别在不同的系统下进行，而各个数据源都独立存在，无法提供统一的数据支持；因此，为了实现对于数据分析以提供采购决策，建立报表体系成为必须。业务目标 1、通过报表为采购决策提供数据分析与支撑 2、对供应商进行综合评估以及管理，合理管理和
mysql 林鹤霄
转载源：http://blog.sina.com.cn/s/blog_4f925fc30100rx5l.html mysql -uroot -p ERROR 1045 (28000): Access denied for user 'root'@'localhost' (using password: YES) [root@centos var]# service mysql
Linux下多线程堆栈查看工具(pstree、ps、pstack) aigo linux
原文：http://blog.csdn.net/yfkiss/article/details/6729364 1. pstree pstree以树结构显示进程$ pstree -p work | grep adsshd(22669)---bash(22670)---ad_preprocess(4551)-+-{ad_preprocess}(4552) &n
html input与textarea 值改变事件 alxw4616 JavaScript
// 文本输入框(input) 文本域(textarea)值改变事件 // onpropertychange(IE) oninput(w3c) $('input,textarea').on('propertychange input', function(event) { console.log($(this).val()) });
String类的基本用法百合不是茶 String
字符串的用法; // 根据字节数组创建字符串 byte[] by = { 'a', 'b', 'c', 'd' }; String newByteString = new String(by); 1,length() 获取字符串的长度 &nbs
JDK1.5 Semaphore实例 bijian1013 java thread java多线程 Semaphore
Semaphore类一个计数信号量。从概念上讲，信号量维护了一个许可集合。如有必要，在许可可用前会阻塞每一个 acquire()，然后再获取该许可。每个 release() 添加一个许可，从而可能释放一个正在阻塞的获取者。但是，不使用实际的许可对象，Semaphore 只对可用许可的号码进行计数，并采取相应的行动。 S
使用GZip来压缩传输量 bijian1013 java GZip
启动GZip压缩要用到一个开源的Filter：PJL Compressing Filter。这个Filter自1.5.0开始该工程开始构建于JDK5.0，因此在JDK1.4环境下只能使用1.4.6。 PJL Compressi
【Java范型三】Java范型详解之范型类型通配符 bit1129 java
定义如下一个简单的范型类， package com.tom.lang.generics; public class Generics<T> { private T value; public Generics(T value) { this.value = value; } }
【Hadoop十二】HDFS常用命令 bit1129 hadoop
1. 修改日志文件查看器 hdfs oev -i edits_0000000000000000081-0000000000000000089 -o edits.xml cat edits.xml 修改日志文件转储为xml格式的edits.xml文件，其中每条RECORD就是一个操作事务日志 2. fsimage查看HDFS中的块信息等 &nb
怎样区别nginx中rewrite时break和last ronin47
在使用nginx配置rewrite中经常会遇到有的地方用last并不能工作，换成break就可以，其中的原理是对于根目录的理解有所区别，按我的测试结果大致是这样的。 location / { proxy_pass http://test;
java-21.中兴面试题输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 , 使其和等于 m bylijinnan java
import java.util.ArrayList; import java.util.List; import java.util.Stack; public class CombinationToSum { /* 第21 题 2010 年中兴面试题编程求解：输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 , 使其和等
eclipse svn 帐号密码修改问题开窍的石头 eclipse SVN svn帐号密码修改
问题描述： Eclipse的SVN插件Subclipse做得很好，在svn操作方面提供了很强大丰富的功能。但到目前为止，该插件对svn用户的概念极为淡薄，不但不能方便地切换用户，而且一旦用户的帐号、密码保存之后，就无法再变更了。解决思路：删除subclipse记录的帐号、密码信息，重新输入
[电子商务]传统商务活动与互联网的结合 comsci 电子商务
某一个传统名牌产品，过去销售的地点就在某些特定的地区和阶层，现在进入互联网之后，用户的数量群突然扩大了无数倍，但是，这种产品潜在的劣势也被放大了无数倍，这种销售利润与经营风险同步放大的效应，在最近几年将会频繁出现。。。。如何避免销售量和利润率增加的
java 解析 properties-使用 Properties-可以指定配置文件路径 cuityang java properties
#mq xdr.mq.url=tcp://192.168.100.15:61618; import java.io.IOException; import java.util.Properties; public class Test { String conf = "log4j.properties"; private static final
Java核心问题集锦 darrenzhu java 基础核心难点
注意，这里的参考文章基本来自Effective Java和jdk源码 1)ConcurrentModificationException 当你用for each遍历一个list时，如果你在循环主体代码中修改list中的元素，将会得到这个Exception，解决的办法是： 1)用listIterator, 它支持在遍历的过程中修改元素， 2)不用listIterator, new一个
1分钟学会Markdown语法 dcj3sjt126com markdown
markdown 简明语法基本符号 *,-,+ 3个符号效果都一样，这3个符号被称为 Markdown符号空白行表示另起一个段落 `是表示inline代码，tab是用来标记代码段，分别对应html的code，pre标签换行单一段落( <p>) 用一个空白行连续两个空格会变成一个 <br> 连续3个符号，然后是空行
Gson使用二（GsonBuilder） eksliang json gson GsonBuilder
转载请出自出处：http://eksliang.iteye.com/blog/2175473 一.概述 GsonBuilder用来定制java跟json之间的转换格式二.基本使用实体测试类：温馨提示：默认情况下@Expose注解是不起作用的,除非你用GsonBuilder创建Gson的时候调用了GsonBuilder.excludeField
报ClassNotFoundException: Didn't find class "...Activity" on path: DexPathList gundumw100 android
有一个工程，本来运行是正常的，我想把它移植到另一台PC上，结果报： java.lang.RuntimeException: Unable to instantiate activity ComponentInfo{com.mobovip.bgr/com.mobovip.bgr.MainActivity}: java.lang.ClassNotFoundException: Didn't f
JavaWeb之JSP指令 ihuning javaweb
要点 JSP指令简介 page指令 include指令 JSP指令简介 JSP指令（directive）是为JSP引擎而设计的，它们并不直接产生任何可见输出，而只是告诉引擎如何处理JSP页面中的其余部分。 JSP指令的基本语法格式： <%@ 指令属性名="
mac上编译FFmpeg跑ios 啸笑天 ffmpeg
1、下载文件：https://github.com/libav/gas-preprocessor，复制gas-preprocessor.pl到/usr/local/bin/下，修改文件权限：chmod 777 /usr/local/bin/gas-preprocessor.pl 2、安装yasm-1.2.0 curl http://www.tortall.net/projects/yasm
sql mysql oracle中字符串连接 macroli oracle sql mysql SQL Server
有的时候，我们有需要将由不同栏位获得的资料串连在一起。每一种资料库都有提供方法来达到这个目的： MySQL: CONCAT() Oracle: CONCAT(), || SQL Server: + CONCAT() 的语法如下： Mysql 中 CONCAT(字串1, 字串2, 字串3, ...): 将字串1、字串2、字串3，等字串连在一起。请注意，Oracle的CON
Git fatal: unab SSL certificate problem: unable to get local issuer ce rtificate qiaolevip 学习永无止境每天进步一点点 git 纵观千象
// 报错如下： $ git pull origin master fatal: unable to access 'https://git.xxx.com/': SSL certificate problem: unable to get local issuer ce rtificate // 原因：由于git最新版默认使用ssl安全验证，但是我们是使用的git未设
windows命令行设置wifi surfingll windows wifi 笔记本wifi
还没有讨厌无线wifi的无尽广告么，还在耐心等待它慢慢启动么教你命令行设置笔记本电脑wifi： 1、开启wifi命令 netsh wlan set hostednetwork mode=allow ssid=surf8 key=bb123456 netsh wlan start hostednetwork pause 其中pause是等待输入，可以去掉 2、
Linux（Ubuntu）下安装sysv-rc-conf wmlJava linux ubuntu sysv-rc-conf
安装：sudo apt-get install sysv-rc-conf 使用：sudo sysv-rc-conf 操作界面十分简洁，你可以用鼠标点击，也可以用键盘方向键定位，用空格键选择，用Ctrl+N翻下一页，用Ctrl+P翻上一页，用Q退出。背景知识 sysv-rc-conf是一个强大的服务管理程序，群众的意见是sysv-rc-conf比chkconf
svn切换环境，重发布应用多了javaee标签前缀 zengshaotao javaee
更换了开发环境，从杭州，改变到了上海。svn的地址肯定要切换的，切换之前需要将原svn自带的.svn文件信息删除，可手动删除，也可通过废弃原来的svn位置提示删除.svn时删除。然后就是按照最新的svn地址和规范建立相关的目录信息，再将原来的纯代码信息上传到新的环境。然后再重新检出，这样每次修改后就可以看到哪些文件被修改过，这对于增量发布的规范特别有用。检出

第3.2章：Doris-2.0数据导入——Compaction机制

一、Compaction概述

1.1 LSM-Tree概述

1.2 Compaction概述

1.3 Rowset数据版本

1.4 Compaction优点

1.5 Compaction问题

1.5.1 Compaction速度低

1.5.2 写放大问题

1.6 Compaction调优

1.6.1 业务侧

1.6.2 运维侧

二、Compaction执行方式

2.1 Vertical Compaction

2.1.1 概述

2.1.2 原理

2.2 Segment Compaction

2.2.1 概述

2.2.2 原理

你可能感兴趣的:(#,Doris,sql,数据库)