Hive SQL：一小时快速入门指南

在大数据处理领域，Hive SQL作为连接传统数据库与分布式计算的桥梁，已成为数据工程师的核心技能之一。本文将突破常规入门教程的局限，不仅深入解析Hive SQL的核心语法，更会详细阐述每个参数的底层逻辑与性能影响，助你在一小时内快速掌握Hive SQL的精髓。

一、Hive SQL初相识

Hive是基于Hadoop的数据仓库工具，通过类SQL语法实现对HDFS数据的查询分析。与传统数据库不同，Hive将SQL转换为MapReduce、Tez或Spark任务执行，适用于离线批量处理。其核心优势在于：

兼容性：支持标准SQL语法，降低学习成本
扩展性：基于Hadoop集群，可处理PB级数据
灵活性：支持多种存储格式（TextFile、ORC、Parquet）
生态集成：无缝对接Hadoop生态系统（Spark、Pig、Flume等）

底层架构剖析

Hive的架构由以下组件构成：

CLI/Thrift Server：客户端接口
元数据存储：Metastore（默认Derby，生产环境建议MySQL）
执行引擎：MapReduce/Tez/Spark
解析器：将SQL转换为抽象语法树（AST）
优化器：逻辑与物理查询计划优化

二、基础语法深度解析

2.1 数据库操作

Hive数据库本质是命名空间，用于组织表。创建数据库时，可指定存储路径与元数据属性：

-- 标准创建语法
CREATE DATABASE IF NOT EXISTS my_db
COMMENT '业务数据库'
LOCATION '/user/hive/warehouse/my_db.db'
WITH DBPROPERTIES ('owner' = 'data_team', 'created_at' = '2025-01-01');

-- 查看数据库详细信息
DESCRIBE DATABASE EXTENDED my_db;

-- 修改数据库属性
ALTER DATABASE my_db SET DBPROPERTIES ('updated_at' = '2025-06-15');

-- 删除数据库（CASCADE强制删除非空数据库）
DROP DATABASE IF EXISTS my_db CASCADE;

参数解析：

IF NOT EXISTS：避免重复创建报错
LOCATION：自定义HDFS存储路径，需确保权限
DBPROPERTIES：存储自定义元数据，可用于标签管理

2.2 表操作

2.2.1 内部表与外部表

内部表（Managed Table）与外部表（External Table）的核心区别在于数据管理权：

-- 创建内部表（默认）
CREATE TABLE user_info (
    user_id INT COMMENT '用户ID',
    username STRING COMMENT '用户名',
    age INT COMMENT '年龄',
    gender STRING COMMENT '性别'
)
ROW FORMAT DELIMITED 
FIELDS TERMINATED BY ','
STORED AS TEXTFILE
TBLPROPERTIES ('classification' = 'PII');

-- 创建外部表
CREATE EXTERNAL TABLE IF NOT EXISTS user_logs (
    log_id STRING,
    user_id INT,
    action STRING,
    log_time TIMESTAMP
)
ROW FORMAT DELIMITED 
FIELDS TERMINATED BY '\t'
STORED AS PARQUET
LOCATION '/data/user_logs'
TBLPROPERTIES ('skip.header.line.count' = '1');

关键差异：

特性	内部表	外部表
数据管理权	Hive管理，删除表时数据同步删除	用户管理，删除表时数据保留
存储路径	默认位于warehouse目录	自定义存储路径
使用场景	临时数据处理	生产环境数据（如日志）

2.2.2 分区表与分桶表

分区（Partition）与分桶（Bucket）是Hive提升查询性能的核心机制：

-- 创建分区表（按日期和地区分区）
CREATE TABLE order_info (
    order_id STRING,
    user_id INT,
    amount DOUBLE
)
PARTITIONED BY (dt STRING, region STRING)
STORED AS ORC
TBLPROPERTIES ('orc.compress' = 'SNAPPY');

-- 创建分桶表（按用户ID分桶）
CREATE TABLE user_bucketed (
    user_id INT,
    username STRING
)
CLUSTERED BY (user_id) INTO 32 BUCKETS
STORED AS PARQUET;

性能优化原理：

分区：将数据按分区字段存储在不同目录，查询时只需扫描指定分区
分桶：通过哈希函数将数据分散到多个文件，提升JOIN性能
最佳实践：复合分区（年/月/日）+ 分桶（桶数=集群节点数×2）

2.3 数据插入与加载

Hive支持多种数据导入方式，性能差异显著：

-- 方式1：从本地文件系统加载（最快）
LOAD DATA LOCAL INPATH '/data/users.csv' 
OVERWRITE INTO TABLE user_info;

-- 方式2：从HDFS加载
LOAD DATA INPATH '/hdfs/data/orders.csv' 
INTO TABLE order_info PARTITION (dt='2025-06-15', region='guangdong');

-- 方式3：INSERT INTO（支持动态分区）
INSERT OVERWRITE TABLE order_info PARTITION (dt, region)
SELECT order_id, user_id, amount, dt, region
FROM staging_orders
WHERE dt >= '2025-06-01';

-- 方式4：从查询结果插入（支持复杂转换）
INSERT INTO TABLE user_stats
SELECT 
    user_id,
    COUNT(order_id) AS order_count,
    SUM(amount) AS total_amount
FROM order_info
GROUP BY user_id;

性能对比：

方式	适用场景	性能特点
LOAD DATA	批量导入原始数据	最快，直接移动文件
INSERT INTO	动态分区数据	支持复杂计算，需MapReduce
CTAS	创建表并导入数据	自动优化存储格式

2.4 查询语句深度解析

2.4.1 基础查询优化

-- 谓词下推（Predicate Pushdown）
SELECT /*+ MAPJOIN(dim) */
    u.user_id,
    u.username,
    o.amount,
    dim.region_name
FROM user_info u
JOIN order_info o ON u.user_id = o.user_id
JOIN dim_region dim ON o.region = dim.region_code
WHERE o.dt = '2025-06-15'
  AND o.amount > 1000
ORDER BY o.amount DESC
LIMIT 100;

性能优化技巧：

/*+ MAPJOIN(table) */：小表广播优化，避免Shuffle
过滤条件前置：尽早减少数据量
使用列裁剪：避免SELECT *
LIMIT与ORDER BY结合时，Hive会在每个Reducer端排序后取TopN，最后合并结果

2.4.2 窗口函数高级应用

窗口函数是Hive SQL的核心利器，适用于排名、累计计算等场景：

-- 计算用户订单金额排名
SELECT 
    user_id,
    order_id,
    amount,
    ROW_NUMBER() OVER (PARTITION BY user_id ORDER BY amount DESC) AS rank,
    SUM(amount) OVER (PARTITION BY user_id ORDER BY order_time) AS cumulative_amount
FROM order_info;

-- 计算移动平均
SELECT 
    dt,
    region,
    amount,
    AVG(amount) OVER (
        PARTITION BY region 
        ORDER BY dt 
        RANGE BETWEEN 7 PRECEDING AND CURRENT ROW
    ) AS rolling_7d_avg
FROM daily_sales;

常用窗口函数分类：

排序函数：ROW_NUMBER()、RANK()、DENSE_RANK()
聚合函数：SUM()、AVG()、MIN()、MAX()
分析函数：LEAD()、LAG()、FIRST_VALUE()、LAST_VALUE()

2.5 聚合函数与GROUP BY优化

Hive支持多种聚合方式，性能差异显著：

-- 常规GROUP BY（单阶段聚合）
SELECT 
    user_id,
    COUNT(order_id) AS order_count,
    SUM(amount) AS total_amount
FROM order_info
GROUP BY user_id;

-- 优化聚合（两阶段聚合，减少数据传输）
SET hive.map.aggr=true;  -- 启用Map端聚合
SET hive.groupby.skewindata=true;  -- 处理数据倾斜

-- 聚合函数扩展
SELECT 
    COLLECT_SET(product_id) AS product_set,  -- 去重集合
    COLLECT_LIST(product_id) AS product_list,  -- 保留重复的列表
    APPROX_COUNT_DISTINCT(user_id) AS uv_estimate  -- 近似去重计数（高性能）
FROM order_info;

性能优化关键点：

hive.map.aggr=true：Map端预聚合，减少Shuffle数据量
APPROX_COUNT_DISTINCT：使用HyperLogLog算法，性能提升10倍+，误差<2%
数据倾斜处理：hive.groupby.skewindata=true会启动两个MR作业，第一个作业随机分发数据，第二个作业按实际Key聚合

2.6 连接查询优化

连接查询是性能瓶颈的高发区，Hive提供多种优化策略：

-- 标准JOIN（默认Sort Merge Join）
SELECT *
FROM user_info u
JOIN order_info o ON u.user_id = o.user_id;

-- 广播小表优化（MapJoin）
SELECT /*+ MAPJOIN(u) */
    u.username,
    o.order_id,
    o.amount
FROM user_info u  -- 小表
JOIN order_info o ON u.user_id = o.user_id;  -- 大表

-- 分桶表优化（Bucket Map Join）
SET hive.optimize.bucketmapjoin=true;
SELECT 
    b1.user_id,
    b1.username,
    b2.order_count
FROM user_bucketed b1
JOIN order_bucketed b2 
ON b1.user_id = b2.user_id;  -- 两表需按相同字段分桶且桶数相同

-- 处理NULL值导致的倾斜
SELECT 
    COALESCE(u.user_id, -1) AS user_id,  -- 将NULL转换为特定值
    o.order_id
FROM user_info u
FULL OUTER JOIN order_info o ON u.user_id = o.user_id;

连接优化策略：

优化技术	适用场景	启用参数
MapJoin	小表（<1GB）连接大表	hive.auto.convert.join=true
SMB Join	两个分桶表连接	两表分桶字段和桶数相同
倾斜处理	JOIN存在数据倾斜	hive.optimize.skewjoin=true
NULL值处理	JOIN字段包含大量NULL值	COALESCE函数转换

2.7 分区与分桶实战

合理使用分区与分桶可将查询性能提升10倍以上：

-- 创建复合分区表（日期+地区）
CREATE TABLE sales_data (
    product_id STRING,
    category STRING,
    price DOUBLE
)
PARTITIONED BY (dt STRING, region STRING)
CLUSTERED BY (product_id) INTO 64 BUCKETS
STORED AS ORC;

-- 动态分区插入
SET hive.exec.dynamic.partition=true;
SET hive.exec.dynamic.partition.mode=nonstrict;

INSERT OVERWRITE TABLE sales_data PARTITION (dt, region)
SELECT 
    product_id,
    category,
    price,
    sale_date,
    region_code
FROM staging_sales;

-- 分区修剪（只扫描指定分区）
SELECT * FROM sales_data
WHERE dt = '2025-06-15' AND region IN ('guangdong', 'jiangsu');

-- 分桶表JOIN优化
SELECT 
    s.product_id,
    c.category_name,
    SUM(s.price)
FROM sales_data s
JOIN category_dim c 
ON s.product_id = c.product_id  -- 两表均按product_id分桶
GROUP BY s.product_id, c.category_name;

最佳实践：

分区字段选择：高频过滤条件（如日期、地区）
分桶字段选择：JOIN和GROUP BY的高频字段
桶数设置：集群节点数×2，确保数据均匀分布
分区生命周期管理：定期清理过期分区（ALTER TABLE DROP PARTITION）

2.8 函数深度解析

Hive提供超过200个内置函数，掌握高频函数可大幅提升开发效率：

2.8.1 字符串函数

-- 字符串分割与提取
SELECT 
    SPLIT('hello,world', ',')[0] AS first_part,  -- 分割字符串
    SUBSTRING('2025-06-15', 1, 4) AS year,  -- 子串提取
    REGEXP_EXTRACT('user_123', 'user_(\\d+)', 1) AS user_id  -- 正则提取
FROM dual;

-- JSON解析
SELECT 
    GET_JSON_OBJECT('{"name":"john","age":30}', '$.name') AS name,  -- 提取JSON字段
    JSON_TUPLE('{"city":"beijing","country":"china"}', 'city', 'country') AS (city, country)  -- 批量提取
FROM dual;

2.8.2 日期函数

SELECT 
    CURRENT_TIMESTAMP() AS now,  -- 当前时间戳
    TO_DATE('2025-06-15 12:00:00') AS date_only,  -- 转换为日期
    DATE_ADD('2025-06-15', 7) AS one_week_later,  -- 日期加减
    DATEDIFF('2025-06-30', '2025-06-15') AS days_diff,  -- 日期差
    FROM_UNIXTIME(1686825600) AS human_readable_time  -- Unix时间戳转换
FROM dual;

2.8.3 集合函数

-- 数组操作
SELECT 
    ARRAY(1, 2, 3) AS num_array,  -- 创建数组
    SIZE(ARRAY(1, 2, 3)) AS array_size,  -- 数组大小
    CONCAT_WS(',', ARRAY('a', 'b', 'c')) AS concat_str  -- 数组转字符串
FROM dual;

-- 复杂类型操作
SELECT 
    named_struct('name', 'Alice', 'age', 30) AS person,  -- 创建结构体
    MAP('key1', 'value1', 'key2', 'value2') AS my_map,  -- 创建Map
    EXPLODE(ARRAY(1, 2, 3)) AS exploded_value  -- 展开数组
FROM dual;

三、案例实操：电商数据分析全流程

3.1 数据模型设计

假设我们需要分析电商平台用户行为数据，设计以下表结构：

-- 用户信息表（内部表）
CREATE TABLE user_dim (
    user_id INT,
    username STRING,
    age INT,
    gender STRING,
    register_time TIMESTAMP,
    user_level STRING
)
STORED AS ORC
TBLPROPERTIES ('orc.compress' = 'SNAPPY');

-- 商品维度表（外部表）
CREATE EXTERNAL TABLE product_dim (
    product_id STRING,
    product_name STRING,
    category_id STRING,
    price DOUBLE,
    brand STRING
)
STORED AS PARQUET
LOCATION '/data/dim/product';

-- 订单事实表（分区表）
CREATE TABLE order_fact (
    order_id STRING,
    user_id INT,
    product_id STRING,
    quantity INT,
    amount DOUBLE,
    payment_method STRING
)
PARTITIONED BY (order_date STRING)
CLUSTERED BY (user_id) INTO 64 BUCKETS
STORED AS ORC;

3.2 数据导入与ETL

-- 从CSV文件加载用户数据
LOAD DATA INPATH '/data/raw/users.csv' 
INTO TABLE user_dim;

-- 从JSON文件加载订单数据（动态分区）
INSERT OVERWRITE TABLE order_fact PARTITION (order_date)
SELECT 
    order_id,
    user_id,
    product_id,
    quantity,
    amount,
    payment_method,
    SUBSTRING(order_time, 1, 10) AS order_date  -- 提取日期作为分区键
FROM staging_orders_json;

3.3 业务分析实战

3.3.1 用户画像分析

-- 计算用户年龄分布
SELECT 
    CASE 
        WHEN age < 20 THEN '0-19'
        WHEN age < 30 THEN '20-29'
        WHEN age < 40 THEN '30-39'
        ELSE '40+' 
    END AS age_group,
    COUNT(*) AS user_count,
    ROUND(AVG(age), 2) AS avg_age
FROM user_dim
GROUP BY 
    CASE 
        WHEN age < 20 THEN '0-19'
        WHEN age < 30 THEN '20-29'
        WHEN age < 40 THEN '30-39'
        ELSE '40+' 
    END
ORDER BY age_group;

3.3.2 销售趋势分析

-- 计算月度销售趋势（含同比增长）
WITH monthly_sales AS (
    SELECT 
        SUBSTRING(order_date, 1, 7) AS month,
        SUM(amount) AS total_sales
    FROM order_fact
    WHERE order_date >= '2024-01-01'
    GROUP BY SUBSTRING(order_date, 1, 7)
)
SELECT 
    m1.month,
    m1.total_sales AS current_sales,
    m2.total_sales AS prev_year_sales,
    ROUND((m1.total_sales - m2.total_sales) / m2.total_sales * 100, 2) AS yoy_growth
FROM monthly_sales m1
LEFT JOIN monthly_sales m2 
ON m1.month = CONCAT(CAST(CAST(SUBSTRING(m1.month, 1, 4) AS INT) - 1 AS STRING), 
                     SUBSTRING(m1.month, 5, 2))
ORDER BY m1.month;

3.3.3 高价值用户识别

-- RFM模型分析（最近购买、购买频率、购买金额）
WITH user_rfm AS (
    SELECT 
        user_id,
        DATEDIFF('2025-06-15', MAX(order_date)) AS recency,  -- 最近购买间隔
        COUNT(DISTINCT order_id) AS frequency,  -- 购买频率
        SUM(amount) AS monetary  -- 购买金额
    FROM order_fact
    WHERE order_date >= '2024-06-15'  -- 近一年数据
    GROUP BY user_id
),
rfm_scores AS (
    SELECT 
        user_id,
        NTILE(4) OVER (ORDER BY recency) AS r_score,  -- 最近购买评分（越小越好）
        NTILE(4) OVER (ORDER BY frequency DESC) AS f_score,  -- 购买频率评分（越大越好）
        NTILE(4) OVER (ORDER BY monetary DESC) AS m_score  -- 购买金额评分（越大越好）
    FROM user_rfm
)
SELECT 
    user_id,
    r_score,
    f_score,
    m_score,
    CONCAT(r_score, f_score, m_score) AS rfm_segment,
    CASE 
        WHEN r_score >= 3 AND f_score >= 3 AND m_score >= 3 THEN '高价值用户'
        WHEN r_score < 3 AND f_score >= 3 AND m_score >= 3 THEN '沉睡高价值用户'
        WHEN r_score >= 3 AND f_score < 3 AND m_score >= 3 THEN '潜力用户'
        ELSE '普通用户'
    END AS user_type
FROM rfm_scores
ORDER BY m_score DESC, f_score DESC, r_score DESC;

四、性能优化最佳实践

4.1 查询性能优化

开启向量化执行：

SET hive.vectorized.execution.enabled=true;
SET hive.vectorized.execution.reduce.enabled=true;

向量化执行将批量处理1024行数据，提升CPU利用率300%以上

调整Join策略：

SET hive.auto.convert.join=true;  -- 自动转换MapJoin
SET hive.auto.convert.join.noconditionaltask.size=1000;  -- 小表阈值(MB)

控制并行度：

SET mapreduce.job.reduces=100;  -- 手动设置Reduce数
SET hive.exec.reducers.bytes.per.reducer=67108864;  -- 每个Reducer处理的数据量(64MB)

4.2 存储优化

选择合适的存储格式：

格式	压缩比	查询性能	适用场景
ORC	3.5:1	最快	通用场景
Parquet	3:1	快	复杂查询
TextFile	1:1	最慢	临时数据

合理设置压缩：

-- ORC存储使用ZLIB压缩（更高压缩比）
CREATE TABLE my_table (
    ...
)
STORED AS ORC
TBLPROPERTIES ('orc.compress' = 'ZLIB');

-- Parquet存储使用SNAPPY压缩（平衡压缩比和速度）
CREATE TABLE my_table (
    ...
)
STORED AS PARQUET
TBLPROPERTIES ('parquet.compression' = 'SNAPPY');

4.3 数据倾斜处理

数据倾斜是Hive性能的头号杀手，可通过以下方式解决：

-- 启用倾斜优化
SET hive.groupby.skewindata=true;  -- 自动处理GROUP BY倾斜
SET hive.optimize.skewjoin=true;  -- 自动处理JOIN倾斜
SET hive.skewjoin.key=100000;  -- 倾斜阈值（超过此值的Key会被单独处理）

-- 手动处理倾斜（示例：对倾斜Key添加随机前缀）
SELECT 
    CASE 
        WHEN user_id IN ('1001', '1002', '1003')  -- 已知倾斜Key
        THEN CONCAT(FLOOR(RAND()*10), '_', user_id)  -- 添加随机前缀
        ELSE user_id 
    END AS user_id,
    COUNT(*) AS cnt
FROM order_fact
GROUP BY 
    CASE 
        WHEN user_id IN ('1001', '1002', '1003') 
        THEN CONCAT(FLOOR(RAND()*10), '_', user_id) 
        ELSE user_id 
    END;

五、总结与拓展

通过本文的学习，你已掌握Hive SQL的核心语法与高级应用技巧。建议通过以下方式进一步提升：

深入理解执行计划：

EXPLAIN EXTENDED SELECT ...;  -- 查看详细执行计划

掌握自定义函数（UDF）：
通过Java开发自定义函数，解决复杂业务需求
集成其他大数据工具：
- 使用Spark作为Hive执行引擎提升性能
- 通过Airflow调度Hive任务
- 用Superset可视化Hive分析结果
持续关注性能优化：
定期分析慢查询，优化表结构与查询语句

Hive SQL的学习是一个从语法掌握到性能调优的进阶过程，建议结合实际业务场景不断实践，逐步熟悉并将其运用到处理时间的工作中去，

C++ 计数排序、归并排序、快速排序每天搬一点点砖 c++数据结构算法
计数排序：是一种基于哈希的排序算法。他的基本思想是通过统计每个元素的出现次数，然后根据统计结果将元素依次放入排序后的序列中。这种排序算法适用于范围较小的情况，例如整数范围在0到k之间计数排序步骤：1初始化一个长度为最大元素值加1的计数数组，所有元素初始化为02遍历原始数组，将每个元素值作为索引，在计数数组中对应位置加13将数组清空4遍历计数器数组，按照数组中的元素个数放回到元数组中计数排序的优点和
实时数据流计算引擎Flink和Spark剖析程小舰 flink spark 数据库 kafka hadoop
在过去几年，业界的主流流计算引擎大多采用SparkStreaming，随着近两年Flink的快速发展，Flink的使用也越来越广泛。与此同时，Spark针对SparkStreaming的不足，也继而推出了新的流计算组件。本文旨在深入分析不同的流计算引擎的内在机制和功能特点，为流处理场景的选型提供参考。（DLab数据实验室w.x.公众号出品）一.SparkStreamingSparkStreamin
在线人数统计业务设计（场景八股文）
业务问题在当经的网站中，在线人数的实时统计已经是一个必不可少的模块了，并且该统计功能最好能够按不同的时间间隔做的统计，现在需要你设计一个在线人数统计的模块，你应该怎么进行设计的呢？背景一个网校下会有多个学员。目前平台大概有十个，平台对应的网校大概五十几个，平均一个网校会有5w个用户，预计总人数为200w，最该学员的在线人数在10w左右。设计思路最开始的时候，想到的就是使用mysql直接实现，但是明
Aop +反射实现方法版本动态切换
需求分析在做技术选型的时候一直存在着两个声音，mongo作为数据库比较mysql好，mysql做为该数据比mongo好。当然不同数据库都有有着自己的优势，我们在做技术选型的时候无非就是做到对数据库的扬长避短。mysql最大的优势就是支持事务，事务的五大特性保证的业务可靠性，随之而来的就是事务会产生的问题：脏读、幻读、不可重复度，当然我们也会使用不同的隔离级别来解决。（最典型的业务问题：银行存取钱）
【项目实战】容错机制与故障恢复：保障系统连续性的核心体系本本本添哥 004 -研效与DevOps运维工具链 002 -进阶开发能力分布式
在分布式系统中，硬件故障、网络波动、软件异常等问题难以避免。容错机制与故障恢复的核心目标是：通过主动检测故障、自动隔离风险、快速转移负载、重建数据一致性，最大限度减少故障对业务的影响，保障系统“持续可用”与“数据不丢失”。以下从核心机制、实现方式、典型案例等维度展开说明。一、故障检测：及时发现异常节点故障检测是容错的第一步，需通过多维度手段实时感知系统组件状态，确保故障被快速识别。1.健康检查与心
2021-10-23 赵甄文的幸福
秀荣感恩日记Day42[烟花]感恩语录感恩自己有能力有好身体，可以到处走动，做自己想做的事情10.23感恩日记今天做的事情瑜伽一小时户外散步一小时泡脚20分钟学习打卡和孩子沟通[爱心]感动的瞬间今天瑜伽回来，发现老公在厨房里做鱼。每次老公有时间休息的时候都会给我做硬菜。刘姐约我一起去公园散步晒太阳。虽然完美错过，但心里还是暖暖的。每天睁开眼打开手机，先去自己的群里逛一逛，每每发现有人点赞或者互动都
mysql复习立夏的李子 mysql 数据库 database
mysqlselect语法selectfromjoinwheregroupbyhavingorderbylimit联合查询innerjoin（）leftjoin（以左表为基准，匹配右表，不匹配的返回左表，右表以null值填充）rightjoind··(去除列重复的数据)索引类型主键索引(PrimaryKey)唯一索引(Unique)常规索引(Index)全文索引(FullText)索引准则索引不是
Anaconda 和 Miniconda：功能详解与选择建议古月฿ python入门 python conda
Anaconda和Miniconda详细介绍一、Anaconda的详细介绍1.什么是Anaconda？Anaconda是一个开源的包管理和环境管理工具，在数据科学、机器学习以及科学计算领域发挥着关键作用。它以Python和R语言为基础，为用户精心准备了大量预装库和工具，极大地缩短了搭建数据科学环境的时间。对于那些想要快速开展数据分析、模型训练等工作的人员来说，Anaconda就像是一个一站式的“数
办公党必备！Excel文件批量加密神器！一键保护你的重要数据阿幸软件杂货间 Excel excel
软件介绍今天推荐的这一款专为Excel文件设计的批量加密工具，能够帮助用户快速、高效地为多个Excel文件设置密码保护，有效防止数据泄露。软件特点本地化离线处理支持批量操作完全免费软件操作选择你需要加密的文件和路径，设置密码进行加密即可软件下载夸克网盘迅雷网盘UC网盘
MySQL复习题
一.填空题1.关系数据库的标准语言是SQL。2.数据库发展的3个阶段中，数据独立性最高的是阶段数据库系统。3.概念模型中的3种基本联系分别是一对一、一对多和多对多。4.MySQL配置文件的文件名是my.ini或my.cnf。5.在MySQL配置文件中，datadir用于指定数据库文件的保存目录。6.添加IFNOTEXISTS可在创建的数据库已存在时防止程序报错。7.MySQL提供的SHOWCREA
Qwen3 大模型实战：使用 vLLM 部署与函数调用（Function Call）全攻略曦紫沐大模型大模型部署 Qwen3 vLLM 函数调用
文章摘要本文将带你从零开始，深入掌握如何使用Qwen3-8B大语言模型，结合vLLM进行高性能部署，并通过函数调用（FunctionCall）实现模型与外部工具的智能联动。我们将详细讲解部署命令、调用方式、代码示例及实际应用场景，帮助你快速构建基于Qwen3的智能应用。一、Qwen3简介与部署环境准备Qwen3是通义千问系列的最新一代大语言模型，具备强大的自然语言理解和生成能力，尤其在函数调用、工
centos7安装配置 Anaconda3
Anaconda是一个用于科学计算的Python发行版,Anaconda于Python，相当于centos于linux。下载[root@testsrc]#mwgethttps://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anaconda3-5.2.0-Linux-x86_64.shBegintodownload:Anaconda3-5.2.0-L
学C++的五大惊人好处
为什么要学c++学c++有什么用学习c++的好处有1.中考可以加分2.高考可能直接录取3.就业广且工资高4.在未来30--50年c++一定是一个很受欢迎的职业5.c++成功的例子deepsick等AI智能C++语言兼备编程效率和编译运行效率的语言C++语言是C语言功能增强版,在c语言的基础上添加了面向对象编程和泛型编程的支持既继承了C语言高效，简洁，快速和可移植的传统,又具备类似Java、Go等其
Spark SQL架构及高级用法 Aurora_NeAr spark sql 架构
SparkSQL架构概述架构核心组件API层（用户接口）输入方式：SQL查询；DataFrame/DatasetAPI。统一性：所有接口最终转换为逻辑计划树（LogicalPlan），进入优化流程。编译器层（Catalyst优化器）核心引擎：基于规则的优化器（Rule-BasedOptimizer,RBO）与成本优化器（Cost-BasedOptimizer,CBO）。处理流程：阶段输入输出关键动
大数据技术笔记—spring入门卿卿老祖
篇一spring介绍spring.io官网快速开始Aop面向切面编程，可以任何位置，并且可以细致到方法上连接框架与框架Spring就是IOCAOP思想有效的组织中间层对象一般都是切入service层spring组成前后端分离已学方式，前后台未分离：Spring的远程通信：明日更新创建第一个spring项目来源：科多大数据
Mac OSX 下的mysql数据库文件存放位置 Bruuuces mysql mac osx 位置存放
之前我的mysql的系统数据库里的表被我玩坏了，万般无奈之下只得删除所有mysql的东西重新构建数据库。按照网上搜到的内容删除后重装发现数据库没有什么变化。于是自己在每个可能存放数据库文件的目录查找，最终确认目录位置如下:使用HomeBrew安装为/usr/local/var/mysql使用官方下载的dmg镜像安装为/usr/local/mysql删除这个目录再重新安装mysql就会重新生成系统数
点淘邀请码是什么怎么输入,点淘邀请码推广（注意细节问题邀请方法） e95cfad15310
性能优异：安装包体积小，高速下载，浏览更省流量，运行流畅快速点淘邀请码点淘邀请码LRM8XZH9或LRYTO3FS或LRYTO3FS，诚邀你的加入。借助番茄小说强大的精准客户群体，该应用采取了进一步细分市场的策略。现在，用户无论是阅读还是听小说，都可以赚取零花钱。点淘邀请码点淘邀请码：LRM8XZH9、LRYTO3FS或LRYTO3FS，它的主要特点是提供海量的小说和广播节目，同时也具备一些社交互
【三桥君】MCP中台，究竟如何实现多模型、多渠道、多环境的统一管控？如何以MCP为核心设计AI应用架构？三桥君《三桥君 MCP落地方法论》《三桥君 AI大模型落地方法论》#《三桥君 AI产品方法论》人工智能 AI产品经理 MCP API 三桥君系统架构 llama
你好，我是✨三桥君✨本文介绍>>一、引言随着人工智能技术的快速发展，越来越多的企业开始引入大语言模型（LLM）以提升用户体验和运营效率。然而，如何高效、稳定地将这些AI能力落地到生产环境呢？传统的系统架构往往难以应对AI应用的高并发、低延迟和灵活扩展需求，因此，从整体架构角度设计AI应用架构显得尤为重要。本文三桥君将深入探讨以MCP为核心的AI应用架构，并分析多种部署方式的优劣势，为企业在AI落地
数据可视化：艺术与科学的交汇点，如何让数据“开口说话”？ Echo_Wish 大数据信息可视化数据分析数据挖掘
数据可视化：艺术与科学的交汇点，如何让数据“开口说话”？数据可视化，是科技与艺术的结合，是让冰冷的数字变得生动有趣的桥梁。它既是科学——讲究准确性、逻辑性、数据处理的严谨性；又是艺术——强调美感、信息传递的直觉性，以及与观众的共鸣。可以说，好的数据可视化不仅能让人快速理解复杂信息，还能激发思考、引发行动。科学——数据可视化的理性基石首先，数据可视化必须遵循严谨的数据处理和清晰的信息传递原则。这就要
mac os 10.9 mysql_MAC OSX 10.9 apache php mysql 环境配置 AY05 mac os 10.9 mysql
＃终端内运行sudoapachectlstart#启动Apachesudoapachectlrestart#重启Apachesudoapachectlstop#停止Apache＃配置Apachesudovi/private/etc/apache2/httpd.conf#将里面的这一行去掉前面的##LoadModulephp5_modulelibexec/apache2/libphp5.so＃配置P
mac升级mysql_Mac OSX下的MySQL数据库升级 weixin_39801714 mac升级mysql
MacOSX下的数据库升级最麻烦的不过权限的问题.本文的MySQL的安装方式为OSX下DMG磁盘镜像的安装方式,MacPorts/Homebrew的方式大同小异.从5.6.17升级到5.7.18安装目录信息ls-al/usr/local|grepmysqllrwxr-xr-x1rootwheel30B52100:39mysql@->mysql-5.6.17-osx10.7-x86_64drwxr-
【MySQL】MySQL数据库如何改名武昌库里写JAVA 面试题汇总与解析 spring boot vue.js sql java 学习
MySQL建库授权语句https://www.jianshu.com/p/2237a9649ceeMySQL数据库改名的三种方法https://www.cnblogs.com/gomysql/p/3584881.htmlMySQL安全修改数据库名几种方法https://blog.csdn.net/haiross/article/details/51282417MySQL重命名数据库https://
HikariCP调试日志深度解析：生产环境故障排查完全指南
HikariCP调试日志深度解析：生产环境故障排查完全指南更新时间：2025年7月4日|作者：资深架构师|适用版本：HikariCP5.x+|难度等级：中高级前言在生产环境中，数据库连接池往往是系统性能的关键瓶颈。HikariCP作为当前最流行的Java连接池，其调试日志包含了丰富的运行时信息，能够帮助我们快速定位和解决各种连接池相关问题。本文将深入解析HikariCP的日志体系，提供一套完整的故
大学社团管理系统（11831） codercode2022 java spring boot spring echarts spring cloud sentinel java-rocketmq
有需要的同学，源代码和配套文档领取，加文章最下方的名片哦一、项目演示项目演示视频二、资料介绍完整源代码（前后端源代码+SQL脚本）配套文档（LW+PPT+开题报告）远程调试控屏包运行三、技术介绍Java语言SSM框架SpringBoot框架Vue框架JSP页面Mysql数据库IDEA/Eclipse开发四、项目截图有需要的同学，源代码和配套文档领取，加文章最下方的名片哦!
08.学习闭环三部曲：预习、实时学习、复习 0058b195f4dc
人生就是一本效率手册，你怎样对待时间，时间就会给你同比例的回馈。单点突破法。预习，实时学习，复习。1、预习：凡事提前【计划】（1）前一晚设置三个当日目标。每周起始于每周日。（2）提前学习。预习法进行思考。预不预习效果相差20％，预习法学会提问。（3）《学会提问》。听电子书。2.实时学习（1）（10％）相应场景，思维导图，快速笔记。灵感笔记。（2）大纲，基本记录，总结篇。3.复习法则，（70％），最
数据可视化：数据世界的直观呈现卢政权1 信息可视化数据分析数据挖掘
在当今数字化浪潮中，数据呈爆炸式增长。数据可视化作为一种强大的技术手段，能够将复杂的数据转化为直观的图形、图表等形式，让数据背后的信息一目了然。无论是在商业决策、科学研究还是日常数据分析中，数据可视化都发挥着极为重要的作用。它帮助我们快速理解数据的分布、趋势、关联等特征，从而为进一步的分析和行动提供有力支持。接下来，我们将深入探讨数据可视化的奥秘，并通过代码示例展示其实际应用。一、Python数据
修改gitlab默认的语言 Victor刘 gitlab
文章目录网上的方法1.采用数据库触发器的方法2.登录pg库2.1查看表2.2创建function2.3创建触发器2.4修改历史数据网上的方法网上修改/opt/gitlab/embedded/service/gitlab-rails/config/application.rb的方法，我试了，没生效，没进一步研究1.采用数据库触发器的方法2.登录pg库su-gitlab-psqlpsql-h/var/
从零到一：基于差分隐私决策树的客户购买预测系统实战开发笙囧同学决策树算法机器学习
作者简介：笙囧同学，中科院计算机大模型方向硕士，全栈开发爱好者联系方式：[email protected]各大平台账号：笙囧同学座右铭：偷懒是人生进步的阶梯文章导航快速导航前言-项目背景与价值项目概览-系统架构与功能技术深度解析-核心算法原理️系统实现详解-工程实践细节性能评估与分析-实验结果分析Web系统开发-前后端开发部署与运维-DevOps实践完整复现指南-手把手教程️实践案例与故障排除-问
Claude Code 超详细完整指南（2025最新版）笙囧同学 python
终端AI编程助手|高频使用点+生态工具+完整命令参考+最新MCP配置目录快速开始（5分钟上手）详细安装指南系统要求Windows安装（WSL方案）macOS安装Linux安装安装验证配置与认证首次认证环境变量配置代理配置⚡基础命令详解启动命令会话管理文件操作Think模式完全指南MCP服务器配置详解MCP基础概念添加MCP服务器10个必备MCP服务器MCP故障排除记忆系统详解高级使用技巧成本控制策
程序员职业发展：元学习比技术更重要？ AI天才研究院 AI人工智能与大数据学习 ai
程序员职业发展：元学习比技术更重要？关键词：程序员职业发展、元学习、技术、学习能力、知识更新摘要：在快速发展的科技领域，程序员面临着技术不断更新换代的挑战。本文深入探讨了在程序员职业发展中，元学习与技术的重要性对比。通过分析元学习的核心概念、其在职业发展中的作用，结合技术的特点和局限，阐述了元学习为何可能在长远的职业发展中更为关键。同时，提供了实际的案例和操作步骤，介绍了相关的工具和资源，最后对未
C/C++Win32编程基础详解视频下载择善Zach 编程 C++Win32
课题视频：C/C++Win32编程基础详解视频知识：win32窗口的创建 windows事件机制主讲：择善Uncle老师学习交流群：386620625 验证码：625 --
Guava Cache使用笔记 bylijinnan java guava cache
1.Guava Cache的get/getIfPresent方法当参数为null时会抛空指针异常我刚开始使用时还以为Guava Cache跟HashMap一样，get(null)返回null。实际上Guava整体设计思想就是拒绝null的，很多地方都会执行com.google.common.base.Preconditions.checkNotNull的检查。 2.Guava
解决ora-01652无法通过128（在temp表空间中） 0624chenhong oracle
解决ora-01652无法通过128（在temp表空间中）扩展temp段的过程一个sql语句后，大约花了10分钟，好不容易有一个结果，但是报了一个ora-01652错误，查阅了oracle的错误代码说明：意思是指temp表空间无法自动扩展temp段。这种问题一般有两种原因：一是临时表空间空间太小，二是不能自动扩展。分析过程：既然是temp表空间有问题，那当
Struct在jsp标签不懂事的小屁孩 struct
非UI标签介绍：控制类标签： 1：程序流程控制标签 if elseif else <s:if test="isUsed"> <span class="label label-success">True</span> </
按对象属性排序换个号韩国红果果 JavaScript 对象排序
利用JavaScript进行对象排序，根据用户的年龄排序展示 <script> var bob={ name;bob, age:30 } var peter={ name;peter, age:30 } var amy={ name;amy, age:24 } var mike={ name;mike, age:29 } var john={
大数据分析让个性化的客户体验不再遥远蓝儿唯美数据分析
顾客通过多种渠道制造大量数据，企业则热衷于利用这些信息来实现更为个性化的体验。分析公司Gartner表示，高级分析会成为客户服务的关键，但是大数据分析的采用目前仅局限于不到一成的企业。挑战在于企业还在努力适应结构化数据，疲于根据自身的客户关系管理（CRM）系统部署有效的分析框架，以及集成不同的内外部信息源。然而，面对顾客通过数字技术参与而产生的快速变化的信息，企业需要及时作出反应。要想实
java笔记4 a-john java
操作符 1，使用java操作符操作符接受一个或多个参数，并生成一个新值。参数的形式与普通的方法调用不用，但是效果是相同的。加号和一元的正号（+）、减号和一元的负号（-）、乘号（*）、除号（/）以及赋值号（=）的用法与其他编程语言类似。操作符作用于操作数，生成一个新值。另外，有些操作符可能会改变操作数自身的
从裸机编程到嵌入式Linux编程思想的转变------分而治之：驱动和应用程序 aijuans 嵌入式学习
笔者学习嵌入式Linux也有一段时间了，很奇怪的是很多书讲驱动编程方面的知识，也有很多书将ARM9方面的知识，但是从以前51形式的（对寄存器直接操作，初始化芯片的功能模块）编程方法，和思维模式，变换为基于Linux操作系统编程，讲这个思想转变的书几乎没有，让初学者走了很多弯路，撞了很多难墙。笔者因此写上自己的学习心得，希望能给和我一样转变
在springmvc中解决FastJson循环引用的问题 asialee 循环引用 fastjson
我们先来看一个例子： package com.elong.bms; import java.io.OutputStream; import java.util.HashMap; import java.util.Map; import co
ArrayAdapter和SimpleAdapter技术总结百合不是茶 android SimpleAdapter ArrayAdapter 高级组件基础
ArrayAdapter比较简单，但它只能用于显示文字。而SimpleAdapter则有很强的扩展性，可以自定义出各种效果 ArrayAdapter;的数据可以是数组或者是队列 // 获得下拉框对象 AutoCompleteTextView textview = (AutoCompleteTextView) this
九封信 bijian1013 人生励志
有时候，莫名的心情不好，不想和任何人说话，只想一个人静静的发呆。有时候，想一个人躲起来脆弱，不愿别人看到自己的伤口。有时候，走过熟悉的街角，看到熟悉的背影，突然想起一个人的脸。有时候，发现自己一夜之间就长大了。 2014，写给人
Linux下安装MySQL Web 管理工具phpMyAdmin sunjing PHP Install phpMyAdmin
PHP http://php.net/ phpMyAdmin http://www.phpmyadmin.net Error compiling PHP on CentOS x64 一、安装Apache 请参阅http://billben.iteye.com/admin/blogs/1985244 二、安装依赖包 sudo yum install gd
分布式系统理论 bit1129 分布式
FLP One famous theory in distributed computing, known as FLP after the authors Fischer, Lynch, and Patterson, proved that in a distributed system with asynchronous communication and process crashes,
ssh2整合(spring+struts2+hibernate)-附源码白糖_ eclipse spring Hibernate mysql 项目管理
最近抽空又整理了一套ssh2框架，主要使用的技术如下： spring做容器，管理了三层(dao,service,actioin)的对象 struts2实现与页面交互(MVC)，自己做了一个异常拦截器，能拦截Action层抛出的异常 hibernate与数据库交互 BoneCp数据库连接池，据说比其它数据库连接池快20倍，仅仅是据说 MySql数据库项目用eclipse
treetable bug记录 braveCS table
// 插入子节点删除再插入时不能正常显示。修改： //不知改后有没有错，先做个备忘 Tree.prototype.removeNode = function(node) { // Recursively remove all descendants of +node+ this.unloadBranch(node); // Remove
编程之美-电话号码对应英语单词 bylijinnan java 算法编程之美
import java.util.Arrays; public class NumberToWord { /** * 编程之美电话号码对应英语单词 * 题目： * 手机上的拨号盘，每个数字都对应一些字母，比如2对应ABC，3对应DEF.........，8对应TUV，9对应WXYZ， * 要求对一段数字，输出其代表的所有可能的字母组合
jquery ajax读书笔记 chengxuyuancsdn jQuery ajax
1、jsp页面 <%@ page language="java" import="java.util.*" pageEncoding="GBK"%> <% String path = request.getContextPath(); String basePath = request.getScheme()
JWFD工作流拓扑结构解析伪码描述算法 comsci 数据结构算法工作活动 J#
对工作流拓扑结构解析感兴趣的朋友可以下载附件，或者下载JWFD的全部代码进行分析 /* 流程图拓扑结构解析伪码描述算法 public java.util.ArrayList DFS(String graphid, String stepid, int j)
oracle I/O 从属进程 daizj oracle
I/O 从属进程　　I/O从属进程用于为不支持异步I/O的系统或设备模拟异步I/O.例如，磁带设备(相当慢)就不支持异步I/O.通过使用I/O 从属进程，可以让磁带机模仿通常只为磁盘驱动器提供的功能。就好像支持真正的异步I/O 一样，写设备的进程(调用者)会收集大量数据，并交由写入器写出。数据成功地写出时，写入器(此时写入器是I/O 从属进程，而不是操作系统)会通知原来的调用者，调用者则会
高级排序:希尔排序 dieslrae 希尔排序
public void shellSort(int[] array){ int limit = 1; int temp; int index; while(limit <= array.length/3){ limit = limit * 3 + 1;
初二下学期难记忆单词 dcj3sjt126com english word
kitchen 厨房 cupboard 厨柜 salt 盐 sugar 糖 oil 油 fork 叉；餐叉 spoon 匙；调羹 chopsticks 筷子 cabbage 卷心菜；洋白菜 soup 汤 Italian 意大利的 Indian 印度的 workplace 工作场所 even 甚至；更 Italy 意大利 laugh 笑 m
Go语言使用MySQL数据库进行增删改查 dcj3sjt126com mysql
目前Internet上流行的网站构架方式是LAMP，其中的M即MySQL, 作为数据库，MySQL以免费、开源、使用方便为优势成为了很多Web开发的后端数据库存储引擎。MySQL驱动Go中支持MySQL的驱动目前比较多，有如下几种，有些是支持database/sql标准，而有些是采用了自己的实现接口,常用的有如下几种: http://code.google.c...o-mysql-dri
git命令 shuizhaosi888 git
---------------设置全局用户名： git config --global user.name "HanShuliang" //设置用户名 git config --global user.email "[email protected]" //设置邮箱 ---------------查看环境配置 git config --li
qemu-kvm 网络 nat模式 (四) haoningabc kvm qemu
qemu-ifup-NAT #!/bin/bash BRIDGE=virbr0 NETWORK=192.168.122.0 GATEWAY=192.168.122.1 NETMASK=255.255.255.0 DHCPRANGE=192.168.122.2,192.168.122.254 TFTPROOT= BOOTP= function check_bridge()
不要让未来的你，讨厌现在的自己 jingjing0907 生活奋斗工作梦想
故事one 　23岁，他大学毕业，放弃了父母安排的稳定工作，独闯京城，在家小公司混个小职位，工作还算顺手，月薪三千，混了混，混走了一年的光阴。　　　　24岁，有了女朋友，从二环12人的集体宿舍搬到香山民居，一间平房，二人世界，爱爱爱。偶然约三朋四友，打扑克搓麻将，日子快乐似神仙；　　　　25岁，出了几次差，调了两次岗，薪水涨了不过百，生猛狂飙的物价让现实血淋淋，无力为心爱银儿购件大牌
枚举类型详解一路欢笑一路走 enum 枚举详解 enumset enumMap
枚举类型详解一.Enum详解 1.1枚举类型的介绍 JDK1.5加入了一个全新的类型的”类”—枚举类型，为此JDK1.5引入了一个新的关键字enum,我们可以这样定义一个枚举类型。 Demo:一个最简单的枚举类 public enum ColorType { RED
第11章动画效果（上） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Eclipse中jsp、js文件编辑时，卡死现象解决汇总 ljf_home eclipse jsp卡死 js卡死
使用Eclipse编辑jsp、js文件时，经常出现卡死现象，在网上百度了N次，经过N次优化调整后，卡死现象逐步好转，具体那个方法起到作用，不太好讲。将所有用过的方法罗列如下： 1、取消验证 windows–>perferences–>validation 把除了manual 下面的全部点掉，build下只留 classpath dependency Valida
MySQL编程中的6个重要的实用技巧 tomcat_oracle mysql
每一行命令都是用分号(;)作为结束对于MySQL，第一件你必须牢记的是它的每一行命令都是用分号(;)作为结束的，但当一行MySQL被插入在PHP代码中时，最好把后面的分号省略掉，例如： mysql_query("INSERT INTO tablename(first_name,last_name)VALUES('$first_name',$last_name')");
zoj 3820 Building Fire Stations(二分+bfs) 阿尔萨斯 Build
题目链接：zoj 3820 Building Fire Stations 题目大意：给定一棵树，选取两个建立加油站，问说所有点距离加油站距离的最大值的最小值是多少，并且任意输出一种建立加油站的方式。解题思路：二分距离判断，判断函数的复杂度是o(n)，这样的复杂度应该是o(nlogn)，即使常数系数偏大，但是居然跑了4.5s，也是醉了。判断函数里面做了3次bfs，但是每次bfs节点最多