nu11cat

6.分布式数据库与分库分表

• 分片键选择：高基数字段（用户ID）、业务关联性、数据均衡性 • 分片算法：哈希取模（均匀分布）、一致性哈希（扩容友好）、范围分片（冷热分离） • 避坑要点：禁止无分片键查询、避免后期改分片键、分片数预留扩容空间

三、ShardingSphere 企业级实战

• 技术选型：Sharding-JDBC（轻量级） vs Sharding-Proxy（多语言支持） • Spring Boot整合：分片规则配置、读写分离、分布式主键（Snowflake） • 高阶功能：数据脱敏、柔性事务（BASE）、多租户隔离

四、分布式事务解决方案

• 刚性事务：Seata AT模式（全局锁+反向SQL回滚） • 柔性事务：TCC（Try-Confirm-Cancel）、本地消息表（最终一致） • 大厂实践：支付宝异步通知补偿、美团分布式事务中间件

五、数据迁移与动态扩容

• 全量迁移：DataX工具、停机窗口控制 • 增量同步：Canal监听binlog、双写过渡校验 • 在线扩容：虚拟节点动态迁移、用户无感知切换

六、生产监控与调优

• 核心指标：连接池水位、慢SQL率、分片路由耗时 • 调优手段：避免跨分片查询、异步化聚合统计、热点数据二级分片 • 工具链：Prometheus监控、SkyWalking链路追踪

七、大厂真实案例

• 电商订单库：用户ID取模分片 + 冷热数据归档HBase • 社交Feed流：用户ID+时间联合分片 + 读写分离 • 物流轨迹库：地理位置GeoHash分片 + Elasticsearch检索

八、高频面试题精选

• 分库分表后如何高效分页？ • ShardingSphere如何解析SQL路由？ • 分片键数据倾斜的应急方案？ • 如何设计全局唯一ID（雪花算法 vs 号段模式）？

一、分库分表核心概念

核心目标

• 突破单库性能瓶颈： • 连接数限制：单库连接池上限（如MySQL默认151连接），高并发下易阻塞。 • 磁盘IO瓶颈：单机硬盘读写速率如SATA SSD 约500MB/s）。 • 锁竞争严重：高频更新场景（如秒杀库存）导致行锁/表锁冲突。

• 应对海量数据与高并发： • 数据量爆炸：单表数据超千万级后，B+树层级增加，查询性能指数级下降。 • 业务解耦需求：微服务架构下，不同业务模块需独立扩缩容（如用户服务与订单服务）。

垂直拆分

• 定义：按业务功能模块拆分数据库，每个库独立部署。 • 典型拆分方案： ◦ 用户库：存储用户信息、登录凭证。 ◦ 订单库：订单记录、支付流水。 ◦ 商品库：商品详情、库存信息。

• 优势： • 资源隔离：CPU、内存、磁盘资源按业务独立分配，避免互相影响。 • 专业优化：针对业务特性定制索引和存储引擎（如订单库用InnoDB，日志库用TokuDB）。

• 痛点与解决方案： • 跨库事务：避免跨库事务，改用最终一致性（如本地消息表）。 • JOIN操作难：通过业务层多次查询或数据冗余（如订单表冗余用户昵称）。

水平拆分

• 定义：将单表数据按分片规则（如用户ID、时间）拆分到多个库/表。 • 典型分片方案： ◦ 用户ID取模：分片号 = user_id % 分片总数（均匀分布，用户查询精准路由）。 ◦ 时间范围分片：按月/年拆分（如order_202301, order_202302），天然支持冷热数据分离。

• 分片键选择原则： • 高基数：分片键值足够分散（如用户ID而非性别）。 • 业务相关性：高频查询条件字段（如订单查询常用user_id和create_time）。

• 挑战与应对： • 跨分片查询复杂：避免无分片键查询，改用ES聚合或业务层分批查询。 • 扩容成本高：分片数预分配为2的N次方（如16→32），用一致性哈希减少数据迁移量。

常见问题（QA）

Q1：什么时候该用垂直拆分，什么时候用水平拆分？ • 垂直拆分优先：业务模块清晰、数据增长可控（如初期快速验证阶段）。 • 水平拆分必选：单表数据超千万且持续增长（如电商订单、社交动态）。

Q2：分片键选错如何补救？ • 数据迁移：新建分片键正确的表，通过DataX/Spark迁移数据，逐步切换读写流量。 • 双写过渡：新旧分片键同时写入，直到旧数据淘汰。

Q3：如何保证跨库事务一致性？ • 强一致场景：用Seata AT模式（性能要求不高时）。 • 最终一致场景：消息队列异步补偿（如订单创建后发MQ通知库存服务）。

大厂案例

支付宝用户库垂直拆分： • 拆分用户基础信息库、账户余额库、交易记录库。 • 结果：数据库负载下降60%，故障隔离能力提升。
淘宝订单表水平分片： • 按user_id % 1024分成1024张表，单表数据控制在500万以内。 • 结果：订单查询响应时间从2s降至200ms。

二、分片策略与避坑指南

分片键选择

1. 高基数字段优先

• 定义：分片键的取值可能性足够多（如用户ID、订单号）。 • 案例： • 错误示范：性别字段（基数2）作为分片键 → 数据集中在2个分片，无法扩展。 • 正确方案：用户ID（百万级基数）哈希分片 → 数据均匀分布。

2. 业务强关联性

• 原则：分片键必须是业务高频查询条件（避免全库扫描）。 • 场景： • 订单查询条件：user_id（用户查订单）和 create_time（运营统计）。 • 联合分片键：user_id + create_time（兼顾查询与分布）。

3. 数据均衡性保障

• 算法优化：

// 用户ID哈希后取模（简单均匀分片）  
int shardNo = Math.abs(userId.hashCode()) % shardCount;  
// 增加随机因子防止热点  
int shardNo = (userId.hashCode() + ThreadLocalRandom.current().nextInt(100)) % shardCount;

• 监控手段：通过ShardingSphere的 SHOW SHARDING TABLE RULES 检查各分片数据量。

分片算法

1. 哈希取模

• 原理：分片号 = hash(key) % 分片总数 • 优势：数据均匀分布，查询直接定位分片。 • 缺陷： • 扩容困难：分片数变化需全量数据迁移。 • 范围查询弱：如时间范围查询需遍历所有分片。 • 适用场景：用户表、订单表等无范围查询需求的数据。

2. 一致性哈希

• 原理：构建哈希环，节点虚拟化分散在环上，数据哈希值顺时针找到最近节点。 • 优势：扩容时仅迁移相邻节点数据，影响小。 • 生产配置（Java示例）：

// 使用TreeMap实现一致性哈希环  
TreeMap hashRing = new TreeMap<>();  
for (int i = 0; i < virtualNodes; i++) {  
    for (String node : nodes) {  
        hashRing.put(MurmurHash.hash(node + "#" + i), node);  
    }  
}

• 适用场景：需要频繁扩容的社交动态、评论系统。

3. 范围分片

• 原理：按区间划分（如时间、ID范围）。 • 优势： • 冷热分离：历史数据归档低成本存储（如OSS）。 • 分页友好：按时间排序查询天然有序。 • 缺陷：易产生数据倾斜（如某时间段订单暴涨）。 • 案例：物流轨迹表按 YYYYMM 分片，每月自动创建新表。

避坑要点

1. 禁止无分片键查询

• 风险：全库全表扫描 → 性能雪崩。 • 解决方案： • 代码强制校验：DAO层拦截无分片键查询请求。 • 中间件拦截：ShardingSphere配置 allowRangeQueryWithoutShardingKey=false。 • 大厂实践：抖音订单系统要求所有查询必须携带 user_id 或 order_id。

2. 避免后期修改分片键

• 风险：数据迁移成本高，需停服或灰度切换。 • 应对策略： • 预分片设计：初期采用联合分片键（如 user_id + 预留字段 - 双写过渡：新旧分片键同步写入，逐步迁移。 • 案例：美团外卖订单表从 order_id 分片改为 rider_id + order_id 分片，耗时3个月。

3. 分片数预留扩容空间

• 经验公式：预估3年数据量，分片数按2的N次方设计（如16 → 32）。 • 弹性方案： • 虚拟分片：物理分片数少于逻辑分片数，动态调整映射关系。 • 自动迁移：阿里云DRDS支持在线分片数倍增，数据自动均衡。 • 监控指标：单分片数据量超过500万时触发报警。

高频面试题

分片键选择不合理导致数据倾斜怎么办？ • 答案：临时方案：写入时加随机后缀；长期方案：改用一致性哈希重新分片。
如何实现跨分片分页查询？ • 答案：业务层排序（如ES聚合结果）或折衷方案（禁止深度分页）。
ShardingSphere分片算法如何自定义？ • 答案：实现 StandardShardingAlgorithm 接口，注入分片逻辑。

生产级代码片段：

// ShardingSphere 分片规则配置（按user_id哈希分片）  
shardingRuleConfig.getTableRuleConfigs().add(  
    new TableRuleConfiguration("user", "ds${0..1_${0..15}")  
        .setDatabaseShardingStrategyConfig(  
            new StandardShardingStrategyConfiguration("user_id", "dbHashMod")  
        )  
        .setTableShardingStrategyConfig(  
            new StandardShardingStrategyConfiguration("user_id", "tableHashMod")  
        )  
);  
// 自定义分片算法（哈希取模）  
public final class HashModShardingAlgorithm implements StandardShardingAlgorithm {  
    @Override  
    public String doSharding(Collection availableTargetNames, RangeShardingValue shardingValue) {  
        // 实现分片逻辑  
    }  
}

三、ShardingSphere 企业级实战

技术选型

• Sharding-JDBC（轻量级）： • 定位：Java应用的JDBC驱动层扩展，透明化分库分表 • 优势：无代理层性能损耗，与Spring Boot深度整合 • 适用场景：中小团队快速落地分库分表（如电商订单分片） • Sharding-Proxy（支持）： • 定位：独立部署的数据库代理，兼容MySQL/PostgreSQL协议 • 优势：支持多语言（PHP/Python可视化（如阿里云DMS） • 适用场景：跨技术栈团队（如Java+Go混合开发） • 选型建议： • 单语言技术栈优先Sharding-JDBC（性能最优） • 需运维管控或混合语言选Sharding-Proxy（牺牲10%~15%性能）

Spring Boot整合

1. 分片规则配置（YAML示例）

spring:  
  shardingsphere:  
    datasource:  
      names: ds0, ds1  
      ds0:  
        url: jdbc:mysql://db0:3306/order  
        username: root  
        password: 123456  
      ds1:  
        url: jdbc:mysql://db1:3306/order  
    rules:  
      sharding:  
        tables:  
          order:  
            actualDataNodes: ds$->{0..1}.order_$->{0..15}  # 2库x16表  
            databaseStrategy:  
              standard:  
                shardingColumn: user_id  
                shardingAlgorithmName: db-hash-mod  
            tableStrategy:  
              standard:  
                shardingColumn: order_id  
                shardingAlgorithmName: table-hash-mod  
        shardingAlgorithms:  
          db-hash-mod:  
            type: HASH_MOD  
            props:  
              sharding-count: 2  
          table-hash-mod:  
            type: HASH_MOD  
            props:  
              sharding-count: 16

2. 读写分离配置

spring:  
  shardingsphere:  
    rules:  
      replica-query:  
        dataSources:  
          pr_ds:  
            primaryDataSourceName: ds-primary  
            replicaDataSourceNames: ds-replica1, ds-replica2  
            loadBalancerName: round-robin  
        loadBalancers:  
          round-robin:  
            type: ROUND_ROBIN

3. 分布式主键生成

// flake算法（防止时钟回拨）  
@Bean  
public KeyGenerateAlgorithm keyGenerator() {  
    return new SnowflakeKeyGenerateAlgorithm()  
        .setProps(Collections.singletonMap("max-tolerate-time-difference-milliseconds", "60000"));  
}

高阶功能

1. 数据

• 场景：手机号、身份证号等敏感信息加密存储 • 实现：

spring:  
  shardingsphere:  
    rules:  
      encrypt:  
        encryptors:  
          mobile_encryptor:  
            type: AES  
            props:  
              aes-key-value: 123456  
        tables:  
          user:  
            columns:  
              phone:  
                cipherColumn: phone_cipher  
                encryptorName: mobile_encryptor

• 查询处理：自动加解密，业务代码无感知

2. 柔性事务（BASE）

• 本地消息表实现：

业务事务提交时，写入本地消息表
定时任务扫描并发送消息到MQ
消费者处理成功后更新消息状态 • ShardingSphere集成：

spring:  
  shardingsphere:  
    rules:  
      transaction:  
        defaultType: BASE  
        providerType: Local

3. 多租户隔离

• 场景：SaaS系统按租户分库（如企业ID分片） • 配置：

tables:  
  report:  
    actualDataNodes: ds_${0..9}.report_${0..9}  
    databaseStrategy:  
      standard:  
        shardingColumn: tenant_id  
        shardingAlgorithmName: tenant-mod  
shardingAlgorithms:  
  tenant-mod:  
    type: MOD  
    props:  
      sharding-count: 10

• 数据隔离：通过HintManager强制路由租户上下文

HintManager.getInstance().setDatabaseShardingValue(tenantId);

生产经验

分片算法预热： • 启动时预加载分片路由规则，避免首次查询延迟
监控告警： • 通过ShardingSphere-UI监控慢查询与分片负载
灰度发布： • 新旧分片规则并存，通过AB测试逐步切流

四、分布式事务解决方案

刚性事务：Seata AT模式

核心原理

• 全局锁机制： • 事务协调器（TC）在事务开始时注册全局锁，锁定涉及的行记录。 • 其他事务修改同一数据时，需等待锁释放（默认锁超时时间30秒）。 • 反向SQL回滚： • 提交阶段：各分支事务提交本地事务，释放全局锁。 • 回滚阶段：生成反向SQL（如INSERT→DELETE）撤销已提交的操作。

Spring Boot整合配置

# application.yml  
seata:  
  enabled: true  
  application-id: order-service  
  tx-service-group: my-tx-group  
  registry:  
    type: nacos  
    nacos:  
      server-addr: 127.0.0.1:8848  
  config:  
    type: nacos  
    nacos:  
      server-addr: 127.0.0.1:8848

@GlobalTransactional  // 开启全局事务  
public void placeOrder() {  
    orderService.create();  
    stockService.deduct();  
}

适用场景与限制

• 适用场景：短事务（执行时间<1秒）、简单业务逻辑（如扣减库存+生成订单）。 • 限制： • 不支持嵌套事务。 • 高并发场景下全局锁可能成为性能瓶颈。

柔性事务：TCC与本地消息表

1. TCC（Try-Confirm-Cancel）

• 三阶段流程：

阶段	动作	案例（转账业务）
Try	资源预留（冻结账户金额）	`account.freeze(100元)`
Confirm	确认操作（实际扣款）	`account.debit(100元)`
Cancel	取消预留（解冻金额）	`account.unfreeze(100元)`

• Java实现示例：

@Transactional  
public boolean tryTransfer(String from, String to, BigDecimal amount) {  
    // 冻结转出账户资金  
    accountService.freeze(from, amount);  
    // 预增转入账户可用额度  
    accountService.prepareCredit(to, amount);  
    return true;  
}  

@Transactional  
public boolean confirmTransfer(String txId) {  
    // 实际扣减转出账户  
    accountService.debit(txId);  
    // 实际增加转入账户  
    accountService.credit(txId);  
    return true;  
}  

@Transactional  
public boolean cancelTransfer(String txId) {  
    // 解冻转出账户资金  
    accountService.unfreeze(txId);  
    // 撤销转入账户预增  
    accountService.cancelCredit(txId);  
    return true;  
}

2. 本地消息表（最终一致性）

• 实现流程：

业务事务提交时，向本地消息表插入事件记录（与业务操作同一事务）。
定时任务扫描未处理事件，发送到消息队列（如RocketMQ）。
消费者处理成功后更新事件状态。

• Spring Boot集成：

@Transactional  
public void createOrder(Order order) {  
    orderRepository.save(order);  
    // 写入本地消息表（同一事务）  
    eventRepository.save(new Event("order_created", order.getId()));  
}  

@Scheduled(fixedDelay = 5000)  
public void processEvents() {  
    List events = eventRepository.findByStatus(EventStatus.PENDING);  
    events.forEach(event -> {  
        try {  
            rocketMQTemplate.send("order_topic", event.getPayload());  
            event.setStatus(EventStatus.SUCCESS);  
        } catch (Exception e) {  
            event.setStatus(EventStatus.FAILED          }  
        eventRepository.save(event);  
    });  
}

大厂实践

1. 支付宝异步通知补偿

• 场景：支付成功后通知商户系统，确保最终到达。 • 实现： • 支付成功时写入本地消息表。 • 异步重试通知（1s、10s、1m、10m、1h间隔），最多重试24小时。 • 商户系统幂等处理（通过支付流水号去重）。

2. 美团分布式事务中间件

• 架构设计： • 事务协调器：基于Raft协议实现高可用。 • TCC适配层：自动生成Try/Confirm/Cancel接口模板。 • 监控看板：实时追踪事务状态，支持手动冲正。 • 核心指标： • 事务成功率：99.995%（依赖自动补偿机制）。 • 平均处理耗时：Confirm阶段<50ms，Cancel阶段<100ms。

选型决策树

场景特征	推荐方案	理由
短事务、强一致性需求	Seata AT模式	简单易用，无需业务改造
长事务、高并发（如金融转账）	TCC	细粒度控制，避免资源长期锁定
允许延迟（如通知类业务）	本地消息表	吞吐量高，对业务侵入性低
跨多语言服务（如Java+Go）	消息队列+本地事务	无中心化依赖，兼容异构系统

五、数据迁移与动态扩容

全量迁移

1. DataX工具实战

• 核心能力： • 支持MySQL、Oracle、HDFS等20+数据源异构迁移 • 分布式架构（Job+Task）提升吞吐量（单机可达500MB/s） • 断点续传、脏数据跳过机制保障稳定性 • 迁移流程：

数据探查：统计表大小、主键分布（避免大事务超时）
作业配置：

{  
  "job": {  
    "content": [{  
      "reader": {  
        "name": "mysqlreader",  
        "parameter": {  
          "username": "root",  
          "password": "123456",  
          "column": ["id", "user_id", "amount"],  
          "splitPk": "id",  // 按主键分片读取  
          "connection": [{  
            "table": ["orders"],  
            "jdbcUrl": ["jdbc:mysql://old-db:3306/order"]  
          }]  
        }  
      },  
      "writer": {  
        "name": "mysqlwriter",  
        "parameter": {  
          "username": "root",  
          "password": "123456",  
          "column": ["id", "user_id", "amount"],  
          "connection": [{  
            "jdbcUrl": "jdbc:mysql://new-db:3306/order",  
            "table": ["orders"]  
          }]  
        }  
      }  
    }]  
  }  
}

执行与监控： ◦ 日志实时查看： -f datax.log◦ 进度监控：curl http://datax-server:port/job/metrics`

2. 停机窗口控制

• 步骤：

停写：关闭业务写入入口（如Nginx流量拦截）
增量追赶：通过Binlog同步最后N分钟数据
切换验证：对比新旧库数据checksum（mysqldbcompare工具）
恢复写入：开启新库旧库下线 • 时间估算：

• 数据量100GB，网络带宽1Gbps → 全量迁移约15分钟  
• 增量追赶（Binlog延迟） → 5~10分钟  
• 总停机时间 ≈ 30分钟

增量同步

1. Canal监听Binlog

• 架构原理： • Canal Server伪装为MySQL从库，接收主库Binlog • MQ（Kafka/RocketMQ）解耦生产与消费速率 • Java客户端消费消息，写入目标库（如ES、分片后的MySQL） • Spring Boot整合：

canal:  
  server: 192.168.1.100:11111  
  destination: example  
  filter: .*\\..*

@CanalEventListener  
public class OrderEventListener {  
    @ListenPoint(table = "orders")  
    public void onEvent(EventType eventType, RowData rowData) {  
        if (eventType == EventType.INSERT) {  
            Order order = convertRowToOrder(rowData);  
            orderRepository.save(order);  // 写入新库  
        }  
    }  
}

2. 双写过渡校验

• 双写策略： • 同步双写：事务内同时写入新旧库（强一致，性能低） • 异步双写：写入旧库后发MQ异步写入新库（最终一致，高吞吐） • 数据校验：

-- 新旧库数据比对（定时任务）  
SELECT COUNT(*) FROM old_db.orders  
UNION ALL  
SELECT COUNT(*) FROM new_db.orders;  

-- 差异数据修复  
INSERT INTO new_db.orders  
SELECT * FROM old_db.orders WHERE id NOT IN (SELECT id FROM new_db.orders);

在线扩容

1. 虚拟节点动态迁移

• 一致性哈希优化： • 物理节点映射多个虚拟节点（如每个物理节点1000虚拟节点） • 扩容时新增虚拟节点，数据迁移仅影响相邻节点 • 迁移流程：

新节点加入：向集群注册，分配虚拟节点范围
数据迁移： ◦ 扫描旧节点数据，按新路由规则迁移至新节点 ◦ 迁移期间旧节点仍可读写（双写模式）
流量切换：更新路由配置，逐步切流至新节点

2. 用户无感知切换

• 灰度发布： • 按用户ID分流：10%流量切至新节点，观察错误率 • 按地域切流：先切非核心地区（如海外用户） • 回滚方案： • 监控新节点QPS/延迟，超阈值自动回退旧配置 • 数据双写期间保留旧节点数据，支持快速回滚

生产级Checklist

数据一致性验证： • 全量校验：mysqldump + md5sum • 增量校验：对比新旧库Binlog位点
性能压测： • 模拟双写压力（如JMeter模拟200%流量） • 监控连接池等待、锁竞争指标
容灾演练： • 随机Kill节点，验证数据自愈能力 • 网络分区模拟（如iptables阻断节点通信）

六、生产监控与调优

核心指标

1. 连接池水位监控

• 关键指标： • 活跃连接数（active）：实时处理请求的连接数 • 空闲连接数（idle）：等待复用的空闲连接 • 最大等待时间（maxWait）：获取连接的超时阈值（超过则抛异常） • 报警规则（Prometheus示例）：

# prometheus-rules.yml  
- alert: HighConnectionPoolUsage  
  expr: sum(shardingsphere_datasource_active_connections) / sum(shardingsphere_datasource_max_connections) > 0.8  
  for: 5m  
  labels:  
    severity: critical  
  annotations:  
    summary: "数据库连接池使用率超过80%"

• 优化手段： • 动态扩容：HikariCP的maximumPoolSize根据QPS自动调整（需配合微服务动态配置中心） • 连接泄漏检测：Druid的removeAbandoned=true + 告警通知

2. 慢SQL率分析

• 采集方式： • MySQL慢查询日志： sql SET GLOBAL slow_query_log = 'ON'; SET GLOBAL long_query_time = 2; -- 超过2秒的SQL记录 • ShardingSphere全链路追踪： yaml spring: shardingsphere: props: sql-show: true # 打印逻辑SQL与真实SQL • 治理流程：

TOP N慢SQL定位：通过mysqldumpslow工具分析日志
执行计划分析：EXPLAIN查看索引使用情况
优化方案： ◦ 缺失索引 → 添加联合索引 ◦ 复杂JOIN → 冗余字段或拆分为多次查询

3. 分片路由耗时

• 监控项： • 路由计算耗时：ShardingSphere的sql_route_time指标 • 跨分片查询比例：shardingsphere_routed_sql_total{type="select", is_broadcast="false"} • 调优方案： • 强制分片键：拦截无分片键查询（ShardingSphere配置allowRangeQueryWithoutShardingKey=false） • 本地缓存路由表：预热高频查询分片位置（如用户ID与分片映射关系）

调优手段

1. 避免跨分片查询

• 分片键强制校验：

// AOP拦截无分片键查询  
@Around("execution(* com.example.repository.*.*(..))")  
public Object checkShardingKey(ProceedingJoinPoint joinPoint) {  
    MethodSignature signature = (MethodSignature) joinPoint.getSignature();  
    ShardingKeyRequired annotation = signature.getMethod().getAnnotation(ShardingKeyRequired.class);  
    if (annotation != null) {  
        Object[] args = joinPoint.getArgs();  
        if (!hasShardingKey(args)) {  
            throw new IllegalStateException("查询必须包含分片键");  
        }  
    }  
    return joinPoint.proceed();  
}

• 冗余字段设计：订单表冗余user_id，避免关联查询用户表

2. 异步化聚合统计

• 方案对比：

方案	优点	缺点
MQ+Elasticsearch	实时性高（秒级延迟）	数据需同步到ES
Flink实时计算	支持复杂计算（如UV统计）	架构复杂度高
本地缓存+定时批处理	资源消耗低	实时性差（分钟级延迟）
• 代码示例：

// 订单金额统计异步化  
@Async("statsThreadPool")  
public void asyncOrderStats(LocalDate date) {  
    List orders = orderRepository.findByDate(date);  // 直接查分片  
    BigDecimal total = orders.stream().map(Order::getAmount).reduce(BigDecimal.ZERO, BigDecimal::add);  
    statsCache.put(date, total);  
}

3. 热点数据二级分片

• 动态分片键： • 场景：某直播间用户评论突增导致单分片过热 • 方案：在原分片键（直播间ID）基础上追加随机后缀（如room_id:123#slot=5） • 本地缓存：

// Caffeine缓存热点评论  
Cache> cache = Caffeine.newBuilder()  
    .maximumSize(10_000)  
    .expireAfterWrite(10, TimeUnit.SECONDS)  // 短时间缓存降低DB压力  
    .build();  

public List getHotComments(String roomId) {  
    return cache.get(roomId, key -> commentRepository.findHotComments(key));  
}

工具链

1. Prometheus + Grafana监控

• 数据采集： • ShardingSphere Exporter：暴露shardingsphere_datasource_active_connections等指标 • 自定义指标：通过Micrometer注册业务指标（如跨分片查询次数） • 看板配置：

// Grafana面板示例（分片负载均衡）  
{  
  "panels": [{  
    "type": "graph",  
    "title": "分片查询分布",  
    "targets": [{  
      "expr": "sum(shardingsphere_routed_sql_total) by (datasource)"  
    }]  
  }]  
}

2. SkyWalking链路追踪

• 集成配置：

# skywalking-agent.config  
agent.service_name=order-service  
collector.backend_service=127.0.0.1:11800  
plugin.mysql.trace_sql_parameters=true

• 链路分析： • 跨分片查询追踪：自动标记跨库查询的Span • 慢事务根因定位：分析事务链路中的慢SQL或远程调用 • 生产案例： • 美团外卖订单链路：通过SkyWalking定位到跨分片JOIN导致慢查询，优化后RT降低60%

高频面试题

如何快速定位慢SQL的瓶颈？ • 答：SkyWalking链路追踪 + EXPLAIN执行计划分析，优先检查索引缺失与数据倾斜。
分片路由耗时过高可能是什么原因？ • 答：路由规则复杂（如多分片键联合计算）、未预热路由缓存、跨分片查询过多。
如何设计一个高可用的监控系统？ • 答：Prometheus联邦架构 + Thanos长期存储，配合Grafana多数据源聚合展示。

七、大厂真实案例

电商订单库：用户ID取模分片 + 冷热数据归档HBase

背景与挑战

• 业务场景：日订单量超千万，单表数据一年破百亿，查询性能从秒级跌至分钟级。 • 核心痛点： • 用户高频查询“我的订单”接口（强依赖user_id）。 • 历史订单占用90%存储但访问频率低（冷热数据混杂）。

分库分表方案

水平分片： • 分片键：user_id % 1024（1024个分片，单分片控制在500万行内）。 • 路由规则：

// 根据用户ID计算分片  
int shardNo = Math.abs(userId.hashCode()) % 1024;  
String tableName = "orders_" + shardNo;

冷热分离： • 热数据：近3个月订单存MySQL，索引优化（user_id + create_time联合索引）。 • 冷数据：3个月前数据归档HBase，ROW_KEY设计为user_id|order_id（范围扫描优化）。

技术细节

• 数据同步：Canal监听MySQL Binlog，触发冷数据迁移至HBase。 • 查询优化： • 热数据查询直接走MySQL分片。 • 冷数据查询走HBase的PrefixFilter（user_id前缀匹配）。

优化效果

• 查询性能：用户订单列表响应时间从12s降至200ms。 • 存储成本：HBase压缩比提升60%，存储费用降低75%。

社交Feed流：用户ID+时间联合分片 + 读写分离

业务场景

• 用户发布动态实时推送粉丝，读QPS峰值百万级。 • 单表存储用户动态，数据量日均十亿级。

分片方案

联合分片键： • 主分片键：user_id % 256（256个分片）。 • 二级分片键：create_time按月分表（如feed_202301）。
读写分离： • 写节点：主库处理发布请求，分片规则为user_id。 • 读节点：从库按user_id + create_time分片，支撑粉丝Feed流拉取。

技术实现

• 动态发布：

INSERT INTO feed_{user_id%256} (content, user_id, create_time)  
VALUES ('Hello World', 123456, NOW());

• Feed流读取：

-- 查询用户关注列表的动态（按时间倒序）  
SELECT * FROM feed_*  
WHERE user_id IN (SELECT followed_user_id FROM follow WHERE fan_user_id = 123)  
ORDER BY create_time DESC LIMIT 100;

• 优化手段： ◦ 粉丝关系缓存Redis（Sorted Set存储关注列表）。 ◦ Feed流结果缓存CDN，降低DB压力。

性能提升

• 发布吞吐量：从5K TPS提升至50K TPS。 • 读延迟：Feed流加载从3s降至800ms。

物流轨迹库：地理位置GeoHash分片 + Elasticsearch检索

业务需求

• 存储全国物流轨迹点，每日新增轨迹数据十亿级。 • 需支持两类查询： • 精确查询：根据运单号查全链路轨迹。 • 区域查询：查询某地所有待派送订单。

分片方案

GeoHash分片： • 原理：将经纬度编码为字符串（如wx4g0），按前缀分片。 • 分片键：geohash.substring(0, 3)（前3位作为分片键，256个分片）。
Elasticsearch辅助索引： • 空间索引（geo_point）：支持半径1km内的订单搜索。 • 联合查询：运单号走MySQL分片，地理位置走Elasticsearch。

技术实现

• 写入流程：

// 计算GeoHash（纬度31.23, 经度121.47）  
String geoHash = GeoHash.encode(31.23, 121.47, 5);  
// 插入MySQL分片  
String table = "track_" + geoHash.substring(0, 3);  
jdbcTemplate.update("INSERT INTO " + table + " VALUES (?, ?, ?)", orderId, geoHash, time);  
// 同步到Elasticsearch  
esClient.index(new IndexRequest("track").id(orderId)  
    .source(JsonUtils.toMap(new TrackPoint(orderId, geoHash, time))));

• 区域查询：

GET /track/_search  
{  
  "query": {  
    "geo_distance": {  
      "distance": "1km",  
      "location": "31.23,121.47"  
    }  
  }  
}

优化效果

• 精确查询：运单号查询走MySQL分片，RT<50ms。 • 区域查询：Elasticsearch百公里范围检索，RT<200ms。

八、高频面试题精选

1. 分库分表后如何高效分页？

问题分析

• 传统分页失效：LIMIT 10000, 10需扫描并丢弃前10000行，跨分片时性能灾难。 • 解决方案： • 业务折衷： ◦ 禁止跳页（仅允许“下一页”按钮），用连续游标（如Search After）。 sql -- 第一页 SELECT * FROM orders WHERE user_id=123 ORDER BY id LIMIT 10; -- 第二页（使用上一页最后一条ID） SELECT * FROM orders WHERE user_id=123 AND id > last_id ORDER BY id LIMIT 10; • Elasticsearch辅助：复杂条件分页走ES，结果反查MySQL获取明细。 • 内存分页：若数据可缓存（如Redis），全量加载后内存中分页。

2. ShardingSphere如何解析SQL路由？

核心流程

SQL解析： • 解析引擎生成抽象语法树（AST），提取分片条件（如user_id=123）。
路由计算： • 精确路由：分片键等值查询（user_id=123）直接定位分片。 • 广播路由：无分片键的更新（如UPDATE config SET value=1）全分片执行。
结果归并： • 跨分片查询结果在内存中排序、聚合（如ORDER BY time DESC）。

配置示例

rules:  
  - !SHARDING  
    tables:  
      orders:  
        actualDataNodes: ds_${0..1}.orders_${0..15}  
        databaseStrategy:  
          standard:  
            shardingColumn: user_id  
            shardingAlgorithmName: hash_mod  
    shardingAlgorithms:  
      hash_mod:  
        type: HASH_MOD  
        props:  
          sharding-count: 2

3. 分片键数据倾斜的应急方案？

临时措施

• 虚拟节点再平衡：

// 原分片：user_id % 8  
// 扩容后：(user_id.hashCode() + virtual_node) % 16  
int newShard = (userId.hashCode() + slot) % 16;

• 热点数据二级分片： • 例如对热点用户（如网红）的订单按user_id + order_id联合分片。

长期方案

• 分片键改造：联合业务高基字段（如user_id + city_code）。 • 动态分片：根据数据分布自动调整分片映射（如一致性哈希）。

4. 如何设计全局唯一ID（雪花算法 vs 号段模式）？

方案对比

维度	雪花算法（Snowflake）	号段模式（Segment）
唯一性	全局唯一（数据中心ID+机器ID+时间戳+序列号）	依赖数据库唯一性保障（如自增主键）
性能	本地生成，无网络开销（单机每秒百万级）	需预取号段，DB宕机影响ID生成
缺点	时钟回拨导致ID重复（需处理NTP同步）	号段耗尽时需访问DB，存在尖峰压力
适用场景	高并发分布式系统（如电商订单、支付流水）	中小规模系统（如内部管理平台）

Snowflake避坑实践

public class SnowflakeIdWorker {  
    private long twepoch = 1288834974657L;  // 起始时间戳  
    private long sequence = 0L;  
    // 解决时钟回拨  
    public synchronized long nextId() {  
        long timestamp = timeGen();  
        if (timestamp < lastTimestamp) {  
            long offset = lastTimestamp - timestamp;  
            if (offset <= 5) {   // 允许回拨5ms内等待  
                Thread.sleep(offset << 1);  
                timestamp = timeGen();  
            } else {  
                throw new RuntimeException("时钟回拨超过5ms");  
            }  
        }  
        // ...生成ID逻辑  
    }  
}

总结：本章涵盖的案例与面试题均来自阿里、美团、字节等一线大厂真题，掌握这些内容可从容应对95%的分库分表相关技术挑战。

你可能感兴趣的:(数据库架构,分布式)

Git 与 GitHub 的对比与使用指南一念& 其它 git github
Git与GitHub的对比与使用指南在软件开发中，Git和GitHub是两个密切相关但本质不同的工具。下面我将逐步解释它们的定义、区别、核心概念以及如何协同使用，确保内容真实可靠，基于广泛的技术实践。1.什么是Git？Git是一个分布式版本控制系统，由LinusTorvalds于2005年创建。它的核心功能是跟踪代码文件的变化，帮助开发者管理项目历史记录、协作和回滚错误。Git是开源的，可以在本地
最新阿里四面面试真题46道：面试技巧+核心问题+面试心得风平浪静如码
前言做技术的有一种资历，叫做通过了阿里的面试。这些阿里Java相关问题，都是之前通过不断优秀人才的铺垫总结的，先自己弄懂了再去阿里面试，不然就是去丢脸，被虐。希望对大家帮助，祝面试成功，有个更好的职业规划。一，阿里常见技术面1、微信红包怎么实现。2、海量数据分析。3、测试职位问的线程安全和非线程安全。4、HTTP2.0、thrift。5、面试电话沟通可能先让自我介绍。6、分布式事务一致性。7、ni
【项目实战】容错机制与故障恢复：保障系统连续性的核心体系本本本添哥 004 -研效与DevOps运维工具链 002 -进阶开发能力分布式
在分布式系统中，硬件故障、网络波动、软件异常等问题难以避免。容错机制与故障恢复的核心目标是：通过主动检测故障、自动隔离风险、快速转移负载、重建数据一致性，最大限度减少故障对业务的影响，保障系统“持续可用”与“数据不丢失”。以下从核心机制、实现方式、典型案例等维度展开说明。一、故障检测：及时发现异常节点故障检测是容错的第一步，需通过多维度手段实时感知系统组件状态，确保故障被快速识别。1.健康检查与心
Redis + Caffeine 实现高效的两级缓存架构周童學 Java 缓存 redis 架构
Redis+Caffeine实现高效的两级缓存架构引言在现代高并发系统中，缓存是提升系统性能的关键组件之一。传统的单一缓存方案往往难以同时满足高性能和高可用性的需求。本文将介绍如何结合Redis和Caffeine构建一个高效的两级缓存系统，并通过三个版本的演进展示如何逐步优化代码结构。项目源代码：github地址、gitee地址两级缓存架构概述两级缓存通常由本地缓存（如Caffeine）和分布式缓
分布式链路追踪系统架构设计：从理论到企业级实践 ma451152002 java 分布式系统架构
分布式链路追踪系统架构设计：从理论到企业级实践本文深入探讨分布式链路追踪系统的架构设计原理、关键技术实现和企业级应用实践，为P7架构师提供完整的技术方案参考。目录引言：分布式链路追踪的重要性核心概念与技术原理系统架构设计数据模型与协议标准核心组件架构设计性能优化与扩展性设计企业级实施策略技术选型与对比分析监控与运维体系未来发展趋势P7架构师面试要点引言：分布式链路追踪的重要性微服务架构下的挑战在现
Redis 分布式锁深度解析：过期时间与自动续期机制爱恨交织围巾分布式事务 redis 分布式数据库微服务学习 go
Redis分布式锁深度解析：过期时间与自动续期机制在分布式系统中，Redis分布式锁的可靠性很大程度上依赖于对锁生命周期的管理。上一篇文章我们探讨了分布式锁的基本原理，今天我们将聚焦于一个关键话题：如何通过合理设置过期时间和实现自动续期机制，来解决分布式锁中的死锁与锁提前释放问题。一、为什么过期时间是分布式锁的生命线？你的笔记中提到"服务挂掉时未删除锁可能导致死锁"，这正是过期时间要解决的核心问题
Gerapy爬虫管理框架深度解析：企业级分布式爬虫管控平台 Python×CATIA工业智造爬虫分布式 python pycharm
引言：爬虫工程化的必然选择随着企业数据采集需求指数级增长，传统单点爬虫管理模式面临三重困境：管理效率瓶颈：手动部署耗时占开发总时长的40%以上系统可靠性低：研究显示超过65%的爬虫故障源于部署或调度错误资源利用率差：平均爬虫服务器CPU利用率不足30%爬虫管理方案对比：┌───────────────┬─────────────┬───────────┬───────────┬──────────
2025最新系统 Git 教程（七）（完结）嘿rasa 2025最新教程系列 git
第4章分布式Git4.1分布式Git-分布式工作流程你现在拥有了一个远程Git版本库，能为所有开发者共享代码提供服务，在一个本地工作流程下，你也已经熟悉了基本Git命令。你现在可以学习如何利用Git提供的一些分布式工作流程了。这一章中，你将会学习如何作为贡献者或整合者，在一个分布式协作的环境中使用Git。你会学习为一个项目成功地贡献代码，并接触一些最佳实践方式，让你和项目的维护者能轻松地完成这个过
分布式全局唯一ID生成：雪花算法 vs Redis Increment，怎么选？
雪花算法vsRedisIncrement：分布式全局唯一ID生成方案深度对比在分布式系统开发中，“全局唯一ID”是绕不开的核心问题。无论是分库分表的数据库设计、订单编号的唯一性保证，还是日志追踪的链路标识，都需要一套可靠的ID生成方案。今天我们就来聊聊两种主流方案——雪花算法（Snowflake）和RedisIncrement，并从原理、特性到适用场景，帮你理清如何选择。同时，我们还将对比其他常见
Spring Security OAuth2.0在分布式系统中的安全实践
引言分布式系统架构下，安全认证与授权面临跨服务、高并发、多租户等挑战。SpringSecurity与OAuth2.0的结合为微服务安全提供了标准化解决方案。分布式系统中的安全挑战跨服务身份认证的复杂性令牌管理的可扩展性问题多租户场景下的权限隔离需求防止CSRF、XSS等常见攻击SpringSecurityOAuth2.0核心架构授权服务器设计@EnableAuthorizationServer配置
【Spring WebFlux】为什么 Spring 要拥抱响应式会飞的架狗师 Spring WebFlux spring java 后端
在现代分布式系统中，响应式系统已成为应对高并发、低延迟需求的核心方案。但构建响应式系统并非易事——它需要框架级别的支持来解决异步处理、资源调度、背压控制等底层问题。作为Java生态中最具影响力的框架，Spring对响应式的支持并非偶然，而是技术演进的必然选择。本文将从响应式系统的构建挑战出发，剖析Spring拥抱响应式的底层逻辑。一、响应式系统的构建困境：现有方案的局限性响应式系统的核心诉求是在有
涵盖轻量级锁（SpinLock）与操作系统同步原语（如 CRITICAL_SECTION）的性能优化、Monitor 的原子性和数据竞争防护、Monitor.Wait 和 Pulse 在生产者-消费者 zhxup606 C#实战教程李工篇 wpf 开发语言 C#
涵盖轻量级锁（SpinLock）与操作系统同步原语（如CRITICAL_SECTION）的性能优化、Monitor的原子性和数据竞争防护、Monitor.Wait和Pulse在生产者-消费者中的作用、控制线程执行顺序、Thread.Join的含义、避免嵌套锁的锁顺序策略，以及防止伪唤醒的条件检查。每个问题包括核心概念、实现细节、与之前讨论的关联（如线程池、进程间同步、分布式同步）、代码示例、测试用
Seata与DTF框架在微服务中的选型对比策划加强小乔微服务架构云原生
在微服务架构中，分布式事务管理是确保数据一致性的关键环节。Seata和DTF作为两款主流的分布式事务解决方案，各自具有独特的优势和适用场景。以下从核心原理、功能特性、适用场景和实战案例等维度进行详细对比分析，并提供选型建议。核心架构与工作原理Seata：采用经典的分布式事务模型，支持AT（自动补偿）、TCC（Try-Confirm-Cancel）、SAGA和XA四种模式。AT模式通过全局锁实现数据
python中的 JWT weixin_34355881 python json php
Jsonwebtoken(JWT),是为了在网络应用环境间传递声明而执行的一种基于JSON的开放标准（(RFC7519).该token被设计为紧凑且安全的，特别适用于分布式站点的单点登录（SSO）场景。JWT的声明一般被用来在身份提供者和服务提供者间传递被认证的用户身份信息，以便于从资源服务器获取资源，也可以增加一些额外的其它业务逻辑所必须的声明信息，该token也可直接被用于认证，也可被加密。基
一篇教你学会Git 编程界的彭于晏qaq java GIT git
从安装到高级使用（2025最新版）引言：为什么Git是开发者必备技能Git（GlobalInformationTracker）作为最流行的分布式版本控制系统，由Linux之父LinusTorvalds于2005年创建，现已成为软件开发的基础设施。与传统集中式版本控制系统（如SVN）相比，Git具有三大核心优势：分布式架构：每个开发者本地都有完整仓库副本，支持离线工作高效分支管理：创建和切换分支几乎
Mybatisplus的雪花算法及代码生成器的使用你我约定有三算法 dreamweaver
1.雪花算法1.1背景:雪花算法（Snowflake）的使用背景主要源于高并发分布式系统环境下对唯一ID生成的需求。这种需求在像Twitter这样的社交媒体平台上尤为突出，因为Twitter需要处理每秒上万条消息的请求，并且每条消息都必须分配一个唯一的ID。这些ID不仅需要全局唯一，以跨机器、跨时间区分，还需要保持一定的顺序性（尽管不要求连续），以方便客户端排序和后续的数据处理。1.2与自动递增的
分布式IO选型指南：2025年分布式无线远程IO品牌及采集控制方案详解 2501_91398178 分布式分布式IO模块远程IO模块
近年来，随着工业物联网（IIoT）、智能制造和工业4.0的深入发展，分布式无线远程IO模块在工业控制领域的应用愈发广泛。这种模块通过无线方式实现远程数据采集与控制，极大地提高了工业设施的灵活性和效率。2025年，分布式IO市场呈现出技术革新与品牌竞争加剧的态势。本文基于权威数据平台（如Statista、MarketsandMarkets、GrandViewResearch）的市场分析，全面解读分布
基本服务 FTP & SMB 会飞的灰大狼 Centos7 linux
基本服务FTP&SMB前言：FTP简称为文件传输协议前面说的他可以做到备份的功能那么它可以做到文件传输的过程smb我们简单来说共享文件夹‍NFSNFS（NetworkFileSystem，网络文件系统）是一种分布式文件系统协议，允许不同计算机之间通过网络共享文件和目录，使远程文件系统像本地文件系统一样被访问。它最初由SunMicrosystems开发，现在已成为UNIX/Linux系统中常用的网络
分布式事务Seata的4种模式详解「已注销」分布式 wpf
Seata是一个开源的分布式事务解决方案，它在微服务架构下提供了高性能和简单易用的分布式事务服务。Seata的设计基于AT、TCC、Saga和XA事务模式，以满足不同场景下的分布式事务处理需求，今天的内容针对Seata来详细介绍一下。1、四种事务模式介绍1.AT模式：这是一种无侵入的分布式事务解决方案。用户只需关注自己的业务SQL，Seata框架会自动生成事务的二阶段提交和回滚操作。在一阶段，Se
分布式IO详解：2025年分布式无线远程IO采集控制方案选型指南 2501_91398178 分布式分布式IO
随着工业物联网（IIoT）和智能制造的快速发展，分布式远程IO（输入/输出）采集控制技术作为工业自动化系统的重要组成部分，正逐步取代传统集中式控制架构。这种技术广泛应用于工厂自动化、能源管理、智慧城市、过程控制等领域。2025年，分布式无线远程IO系统凭借其灵活性、低功耗和高可靠性，成为工业控制领域的核心解决方案。本文基于权威数据平台分析，详细解读分布式无线远程IO技术，盘点全球领先厂商及其产品优
零基础学习性能测试第六章：性能难点-Jmeter实现海量用户压测
目录一、海量压测核心挑战与解决思路二、分布式压测集群搭建（百倍性能提升）1.架构设计2.实战步骤三、百万级用户参数化方案1.Redis预生成测试数据2.JMeter分段读取（避免内存溢出）3.CSV分片策略四、高并发优化配置模板1.`jmeter.properties`关键修改2.线程组配置技巧五、结果收集与监控方案1.轻量级结果存储2.实时监控看板六、海量压测实战案例：双11级流量模拟测试目标：
探索RabbitMQ，让消息传递变得简单易懂！黎杉娜Torrent
探索RabbitMQ，让消息传递变得简单易懂！当你寻找一个强大而可靠的分布式消息队列系统时，RabbitMQ无疑是最佳选择之一。这个开源项目已经赢得了全球无数开发者的喜爱，现在，更有一份详尽的【RabbitMQ中文】文档在等待你的探索！项目介绍RabbitMQ中文是一份专门为非英语国家的开发者准备的高质量翻译资源，它将原汁原味的RabbitMQ官方文档转化为中文，旨在帮助中国地区的开发者更好地理解
TiDB - 分布式数据库的架构与特性爽新全效瓷兔膏
本文还有配套的精品资源，点击获取简介：TiDB是一个开源的分布式NewSQL数据库，受到了Google的Spanner/F1系统的启发。它提供水平扩展和强一致性事务，适用于需要高可用性和大规模数据处理的场景。TiDB的核心特点包括其分布式架构，由TiDBServer（SQL层）、PDServer（调度器）和TiKVServer（存储引擎）组成；支持无缝的水平扩展和ACID事务；与MySQL高度兼容
多通道 ISP（双 ISP）并行处理机制解析：架构演进、资源调度与实战配置路径观熵影像技术全景图谱：架构调优与实战接口隔离原则架构影像 Camera
多通道ISP（双ISP）并行处理机制解析：架构演进、资源调度与实战配置路径关键词：双ISP、并行图像处理、多Sensor管线、分布式调度、ISP平衡调度、帧同步、多路输入、SoC图像架构摘要：随着智能手机多摄系统的普及，传统单通道ISP架构已无法满足同时驱动多颗高分辨率摄像头、并发处理视频与拍照任务的性能需求。为此，各大SoC厂商纷纷引入“双ISP”或“多通道ISP”设计，用于提升吞吐能力、降低延
【链路追踪】 WIN赢面试专栏性能优化自动化
一、什么是链路追踪链路追踪（Tracing）是一种用于分布式系统中跟踪请求处理过程的技术。它通过记录一次请求在多个服务之间的流转路径、耗时、状态等信息，帮助开发人员快速定位问题、分析性能瓶颈，并理解系统中各组件的交互关系。链路追踪不仅是一种强大的监控手段，也是测试人员在分布式系统中不可或缺的测试工具。它能够帮助测试人员快速定位问题、分析性能瓶颈，并优化系统性能，从而提高测试效率和质量二、核心概念T
Kafka事务机制详解一碗黄焖鸡三碗米饭 Kafka全景解析 kafka 分布式 Java 副本事务分区大数据
目录Kafka事务机制详解1.Kafka中的事务概述2.Kafka事务的基本概念2.1精确一次处理（ExactlyOnceSemantics，EOS）2.2Kafka事务的工作流程3.Kafka事务的配置与使用3.1生产者端的事务配置3.2消费者端的事务配置4.Kafka事务的优势与限制4.1Kafka事务的优势4.2Kafka事务的限制5.总结在分布式系统中，事务性操作（如数据库事务）是非常重要
一句话读懂Kafka：5W1H带你解锁分布式消息队列的奥密落霞归雁 AI编程教育电商微信开放平台 rabbitmq 中间件
一句话读懂Kafka：5W1H带你解锁分布式消息队列的奥秘在当今数字化时代，消息队列（MessageQueue，简称MQ）已经成为分布式系统中不可或缺的组件，而ApacheKafka作为其中的佼佼者，以其卓越的性能和广泛的应用场景脱颖而出。今天，就让我们用一句话读懂Kafka，并通过5W1H（What、Why、Who、When、Where、How）的方式，深入剖析它的核心价值与技术魅力。一句话读懂
【绪论】两万字长文——深度解析24种软件系统架构风格
深度解析软件系统架构风格软件架构风格（ArchitecturalStyle）是描述软件系统组织方式的高层范式，它定义了系统的结构元素及其交互模式、约束条件和语义。选择合适的架构风格是系统成功的关键，它决定了系统的可扩展性、可维护性、性能、可靠性、部署复杂度和团队协作方式。从经典的分层架构到前沿的量子计算架构，架构风格的演进反映了软件工程应对复杂性、分布式、实时性和智能化需求的持续探索。掌握这些风格
Python爬虫【三十二章】爬虫高阶：动态页面处理与Scrapy+Selenium+BeautifulSoup分布式架构深度解析实战
目录引言一、动态页面爬取的技术背景1.1动态页面的核心特征1.2传统爬虫的局限性二、技术选型与架构设计2.1核心组件分析2.2架构设计思路1.分层处理2.数据流三、代码实现与关键技术3.1Selenium与Scrapy的中间件集成3.2BeautifulSoup与ScrapyItem的整合3.3分布式爬取实现3.3.1Scrapy-Redis部署3.3.2多节点启动四、优化与扩展4.1性能优化策略
Python爬虫【三十一章】爬虫高阶：动态页面处理与Scrapy+Selenium+Celery弹性伸缩架构实战
目录引言一、动态页面爬取的技术挑战1.1动态页面的核心特性1.2传统爬虫的局限性二、Scrapy+Selenium：动态爬虫的核心架构2.1技术选型依据2.2架构设计2.3代码实现示例三、Celery：分布式任务队列的引入3.1为什么需要Celery？3.2Celery架构设计3.3代码实现示例3.4Scrapy与Celery的集成四、优化与扩展4.1性能优化4.2分布式部署4.3反爬对抗五、总结
微信开发者验证接口开发 362217990 微信开发者 token 验证
微信开发者接口验证。 Token，自己随便定义，与微信填写一致就可以了。根据微信接入指南描述 http://mp.weixin.qq.com/wiki/17/2d4265491f12608cd170a95559800f2d.html 第一步：填写服务器配置第二步：验证服务器地址的有效性第三步：依据接口文档实现业务逻辑这里主要讲第二步验证服务器有效性。建一个
一个小编程题-类似约瑟夫环问题 BrokenDreams 编程
今天群友出了一题：一个数列,把第一个元素删除,然后把第二个元素放到数列的最后,依次操作下去,直到把数列中所有的数都删除,要求依次打印出这个过程中删除的数。 &
linux复习笔记之bash shell (5) 关于减号-的作用 eksliang linux关于减号“-”的含义 linux关于减号“-”的用途 linux关于“-”的含义 linux关于减号的含义
转载请出自出处： http://eksliang.iteye.com/blog/2105677 管道命令在bash的连续处理程序中是相当重要的，尤其在使用到前一个命令的studout（标准输出）作为这次的stdin（标准输入）时，就显得太重要了，某些命令需要用到文件名，例如上篇文档的的切割命令（split）、还有
Unix(3) 18289753290 unix ksh
1)若该变量需要在其他子进程执行，则可用"$变量名称"或${变量}累加内容什么是子进程？在我目前这个shell情况下，去打开一个新的shell，新的那个shell就是子进程。一般状态下，父进程的自定义变量是无法在子进程内使用的，但通过export将变量变成环境变量后就能够在子进程里面应用了。 2)条件判断： &&代表and ||代表or&nbs
关于ListView中性能优化中图片加载问题酷的飞上天空 ListView
ListView的性能优化网上很多信息，但是涉及到异步加载图片问题就会出现问题。具体参看上篇文章http://314858770.iteye.com/admin/blogs/1217594 如果每次都重新inflate一个新的View出来肯定会造成性能损失严重，可能会出现listview滚动是很卡的情况，还会出现内存溢出。现在想出一个方法就是每次都添加一个标识，然后设置图
德国总理默多克：给国人的一堂“震撼教育”课永夜-极光教育
http://bbs.voc.com.cn/topic-2443617-1-1.html德国总理默多克：给国人的一堂“震撼教育”课　安吉拉—默克尔，一位经历过社会主义的东德人，她利用自己的博客，发表一番来华前的谈话，该说的话，都在上面说了，全世界想看想传播——去看看默克尔总理的博客吧！　　德国总理默克尔以她的低调、朴素、谦和、平易近人等品格给国人留下了深刻印象。她以实际行动为中国人上了一堂
关于Java继承的一个小问题。。。随便小屋 java
今天看Java 编程思想的时候遇见一个问题，运行的结果和自己想想的完全不一样。先把代码贴出来！ //CanFight接口 interface Canfight { void fight(); } //ActionCharacter类 class ActionCharacter { public void fight() { System.out.pr
23种基本的设计模式 aijuans 设计模式
Abstract Factory：提供一个创建一系列相关或相互依赖对象的接口，而无需指定它们具体的类。　　Adapter：将一个类的接口转换成客户希望的另外一个接口。A d a p t e r模式使得原本由于接口不兼容而不能一起工作的那些类可以一起工作。　　Bridge：将抽象部分与它的实现部分分离，使它们都可以独立地变化。　　Builder：将一个复杂对象的构建与它的表示分离，使得同
《周鸿祎自述：我的互联网方法论》读书笔记 aoyouzi 读书笔记
从用户的角度来看,能解决问题的产品才是好产品,能方便/快速地解决问题的产品,就是一流产品. 商业模式不是赚钱模式一款产品免费获得海量用户后,它的边际成本趋于0,然后再通过广告或者增值服务的方式赚钱,实际上就是创造了新的价值链. 商业模式的基础是用户,木有用户,任何商业模式都是浮云.商业模式的核心是产品,本质是通过产品为用户创造价值. 商业模式还包括寻找需求
JavaScript动态改变样式访问技术百合不是茶 JavaScript style属性 ClassName属性
一:style属性格式: HTML元素.style.样式属性="值"; 创建菜单:在html标签中创建或者在head标签中用数组创建 <html> <head> <title>style改变样式</title> </head> &l
jQuery的deferred对象详解 bijian1013 jquery deferred对象
jQuery的开发速度很快，几乎每半年一个大版本，每两个月一个小版本。每个版本都会引入一些新功能，从jQuery 1.5.0版本开始引入的一个新功能----deferred对象。 &nb
淘宝开放平台TOP Bill_chen C++c 物流 C#
淘宝网开放平台首页：http://open.taobao.com/ 淘宝开放平台是淘宝TOP团队的产品，TOP即TaoBao Open Platform，是淘宝合作伙伴开发、发布、交易其服务的平台。支撑TOP的三条主线为： 1.开放数据和业务流程 * 以API数据形式开放商品、交易、物流等业务； &
【大型网站架构一】大型网站架构概述 bit1129 网站架构
大型互联网特点面对海量用户、海量数据大型互联网架构的关键指标高并发高性能高可用高可扩展性线性伸缩性安全性大型互联网技术要点前端优化 CDN缓存反向代理 KV缓存消息系统分布式存储 NoSQL数据库搜索监控安全想到的问题： 1.对于订单系统这种事务型系统，如
eclipse插件hibernate tools安装白糖_ Hibernate
eclipse helios(3.6)版 1.启动eclipse 2.选择 Help > Install New Software...> 3.添加如下地址： http://download.jboss.org/jbosstools/updates/stable/helios/ 4.选择性安装：hibernate tools在All Jboss tool
Jquery easyui Form表单提交注意事项 bozch jquery easyui
jquery easyui对表单的提交进行了封装，提交的方式采用的是ajax的方式，在开发的时候应该注意的事项如下： 1、在定义form标签的时候，要将method属性设置成post或者get，特别是进行大字段的文本信息提交的时候，要将method设置成post方式提交，否则页面会抛出跨域访问等异常。所以这个要
Trie tree(字典树)的Java实现及其应用-统计以某字符串为前缀的单词的数量 bylijinnan java实现
import java.util.LinkedList; public class CaseInsensitiveTrie { /** 字典树的Java实现。实现了插入、查询以及深度优先遍历。 Trie tree's java implementation.(Insert,Search,DFS) Problem Description Igna
html css 鼠标形状样式汇总 chenbowen00 html css
css鼠标手型cursor中hand与pointer Example：CSS鼠标手型效果 <a href="#" style="cursor:hand">CSS鼠标手型效果</a><br/> Example：CSS鼠标手型效果 <a href="#" style=&qu
[IT与投资]IT投资的几个原则 comsci it
无论是想在电商,软件,硬件还是互联网领域投资,都需要大量资金,虽然各个国家政府在媒体上都给予大家承诺,既要让市场的流动性宽松,又要保持经济的高速增长....但是,事实上,整个市场和社会对于真正的资金投入是非常渴望的,也就是说,表面上看起来,市场很活跃,但是投入的资金并不是很充足的......
oracle with语句详解 daizj oracle with with as
oracle with语句详解转在oracle中，select 查询语句，可以使用with,就是一个子查询，oracle 会把子查询的结果放到临时表中，可以反复使用例子:注意，这是sql语句，不是pl/sql语句，可以直接放到jdbc执行的 ----------------------------------------------------------------
hbase的简单操作 deng520159 数据库 hbase
近期公司用hbase来存储日志,然后再来分析 ,把hbase开发经常要用的命令找了出来. 用ssh登陆安装hbase那台linux后用hbase shell进行hbase命令控制台! 表的管理 1）查看有哪些表 hbase(main)> list 2）创建表 # 语法：create <table>, {NAME => <family&g
C语言scanf继续学习、算术运算符学习和逻辑运算符 dcj3sjt126com c
/* 2013年3月11日20:37:32 地点：北京潘家园功能：完成用户格式化输入多个值目的：学习scanf函数的使用 */ # include <stdio.h> int main(void) { int i, j, k; printf("please input three number:\n"); //提示用
2015越来越好 dcj3sjt126com 歌曲
越来越好房子大了电话小了感觉越来越好假期多了收入高了工作越来越好商品精了价格活了心情越来越好天更蓝了水更清了环境越来越好活得有奔头人会步步高想做到你要努力去做到幸福的笑容天天挂眉梢越来越好婆媳和了家庭暖了生活越来越好孩子高了懂事多了学习越来越好朋友多了心相通了大家越来越好道路宽了心气顺了日子越来越好活的有精神人就不显
java.sql.SQLException: Value '0000-00-00' can not be represented as java.sql.Tim feiteyizu mysql
数据表中有记录的time字段（属性为timestamp）其值为：“0000-00-00 00:00:00” 程序使用select 语句从中取数据时出现以下异常： java.sql.SQLException:Value '0000-00-00' can not be represented as java.sql.Date java.sql.SQLException: Valu
Ehcache（07）——Ehcache对并发的支持 234390216 并发 ehcache 锁 ReadLock WriteLock
Ehcache对并发的支持在高并发的情况下，使用Ehcache缓存时，由于并发的读与写，我们读的数据有可能是错误的，我们写的数据也有可能意外的被覆盖。所幸的是Ehcache为我们提供了针对于缓存元素Key的Read（读）、Write（写）锁。当一个线程获取了某一Key的Read锁之后，其它线程获取针对于同
mysql中blob,text字段的合成索引 jackyrong mysql
在mysql中，原来有一个叫合成索引的，可以提高blob,text字段的效率性能，但只能用在精确查询，核心是增加一个列，然后可以用md5进行散列，用散列值查找则速度快比如： create table abc(id varchar(10),context blog,hash_value varchar(40)); insert into abc(1,rep
逻辑运算与移位运算 latty 位运算逻辑运算
源码：正数的补码与原码相同例+7 源码：00000111 补码：00000111 （用8位二进制表示一个数）负数的补码：符号位为1，其余位为该数绝对值的原码按位取反；然后整个数加1。 -7 源码： 10000111 ，其绝对值为00000111 取反加一：11111001 为-7补码已知一个数的补码，求原码的操作分两种情况：
利用XSD 验证XML文件 newerdragon java xml xsd
XSD文件（XML Schema 语言也称作 XML Schema 定义（XML Schema Definition，XSD）。具体使用方法和定义请参看： http://www.w3school.com.cn/schema/index.asp java自jdk1.5以上新增了SchemaFactory类可以实现对XSD验证的支持，使用起来也很方便。以下代码可用在J
搭建 CentOS 6 服务器(12) - Samba rensanning centos
（1）安装 # yum -y install samba Installed: samba.i686 0:3.6.9-169.el6_5 # pdbedit -a rensn new password:123456 retype new password:123456 …… （2）Home文件夹 # mkdir /etc
Learn Nodejs 01 toknowme nodejs
（1）下载nodejs https://nodejs.org/download/ 选择相应的版本进行下载（2）安装nodejs 安装的方式比较多，请baidu下我这边下载的是“node-v0.12.7-linux-x64.tar.gz”这个版本（1）上传服务器（2）解压 tar -zxvf node-v0.12.
jquery控制自动刷新的代码举例 xp9802 jquery
1、html内容部分复制代码代码示例: <div id='log_reload'> <select name="id_s" size="1"> <option value='2'>-2s-</option> <option value='3'>-3s-</option

6.分布式数据库与分库分表

目录

一、分库分表核心概念

二、分片策略与避坑指南

三、ShardingSphere 企业级实战

四、分布式事务解决方案

五、数据迁移与动态扩容

六、生产监控与调优

七、大厂真实案例

八、高频面试题精选

一、分库分表核心概念

核心目标

垂直拆分

水平拆分

常见问题（QA）

大厂案例

二、分片策略与避坑指南

分片键选择

1. 高基数字段优先

2. 业务强关联性

3. 数据均衡性保障

分片算法

1. 哈希取模

2. 一致性哈希

3. 范围分片

避坑要点

1. 禁止无分片键查询

2. 避免后期修改分片键

3. 分片数预留扩容空间

高频面试题

三、ShardingSphere 企业级实战

技术选型

Spring Boot整合

1. 分片规则配置（YAML示例）

2. 读写分离配置

3. 分布式主键生成

高阶功能

1. 数据

2. 柔性事务（BASE）

3. 多租户隔离

生产经验

四、分布式事务解决方案

刚性事务：Seata AT模式

核心原理

Spring Boot整合配置

适用场景与限制

柔性事务：TCC与本地消息表

1. TCC（Try-Confirm-Cancel）

2. 本地消息表（最终一致性）

大厂实践

1. 支付宝异步通知补偿

2. 美团分布式事务中间件

选型决策树

五、数据迁移与动态扩容

全量迁移

1. DataX工具实战

2. 停机窗口控制

增量同步

1. Canal监听Binlog

2. 双写过渡校验

在线扩容

1. 虚拟节点动态迁移

2. 用户无感知切换

生产级Checklist

六、生产监控与调优

核心指标

1. 连接池水位监控

2. 慢SQL率分析

3. 分片路由耗时

调优手段

1. 避免跨分片查询

2. 异步化聚合统计

3. 热点数据二级分片

工具链

1. Prometheus + Grafana监控

2. SkyWalking链路追踪

高频面试题

七、大厂真实案例

电商订单库：用户ID取模分片 + 冷热数据归档HBase

背景与挑战