jieph01

A24c_昇腾GEMM类算子优化

昇腾GEMM类算子开发优化

作者：陆璐课题组，瑾丞

目录

昇腾算子开发基础
矩阵乘算子（SGEMM）开发
复数矩阵乘算子（CGEMM）开发
性能优化核心策略
算子性能评估与调试
实战案例与练习

(这是昇腾知识体系的配套预览材料，转载随意，如反馈bug请移步原文：链接)

前言

如何在昇腾平台上运行自己定制的AI模型？很多在其他平台上训练的模型迁移到昇腾时，由于平台架构差异，可能会遇到某些自定义算子无法直接调用。这时候就需要了解如何为昇腾定制开发算子。

本教程将介绍昇腾算子开发的核心技能，重点讲解矩阵乘法类算子的编写和优化技巧。通过学习分块策略、内存对齐、双缓冲等关键方法，您不仅能解决算子缺失的问题，还能让模型在昇腾芯片上跑得更快。教程会用多个实际案例说明每一步操作对性能的影响，即使是刚接触昇腾开发的新成员，也能通过循序渐进的教程介绍，逐步掌握算子调优的关键能力。

1. 昇腾算子开发基础

在昇腾AI芯片上开发算子需要遵循一套相对固定的流程。简单来说，您需要先搭建开发环境，安装芯片驱动和编译器等基础工具，然后编写算子代码。与传统编程不同，昇腾的算子代码要分为两部分：一部分负责矩阵计算（对应AI Cube Core），另一部分处理向量运算（对应AI Vector Core）。开发过程中需要特别注意这两部分的协同工作，比如数据搬运时要确保地址对齐，否则会严重影响计算效率。这一章将介绍怎么用开发工具（如msopgen工程生成工具）创建基础代码框架，理解算子代码在芯片上的执行逻辑，并通过调试接口验证代码正确性。掌握了这些基础，您就能为后续的矩阵乘法算子开发打下坚实基础。

1.1 算子开发流程概览

在昇腾AI处理器上开发GEMM类算子（如SGEMM、CGEMM），需遵循以下标准流程：

阶段	关键步骤	工具/接口
环境准备	安装CANN工具链（驱动、固件、编译器）	`msopgen`工程生成工具
代码实现	编写AIC/AIV混合算子代码	Ascend C编程模型、`__aicore__`宏
编译部署	生成并链接二进制文件	`ccec`编译器、`ld.lld`链接器
性能分析	采集算子执行指标	`msprof`性能分析工具
调试验证	调试验证算子功能是否满足要求	`AscendC::printf()`调试接口

⚠️ 注意：昇腾算子开发需注意AIC/AIV的分离特性。AIC（AI Cube Core）负责矩阵计算，AIV（AI Vector Core）负责向量计算。开发时需分别编写两者的代码，并统一管理同步和数据流。

1.2 算子编程模型

SPMD并行模型

昇腾算子基于**SPMD（Single Program, Multiple Data）**模型开发，即同一算子代码在多个AI Core上并行执行。每个Core通过 get_block_idx() 获取自己的逻辑ID（blockDim）。

逻辑	物理实现	适用场景
`blockDim`	表示并行计算的Core数量	通常设置为物理核数（如Atlas 800T A2的20核）
`get_block_idx()`	返回当前Core的逻辑ID（0~blockDim-1）	用于切分Global Memory中的数据

AIC/AIV混合算子框架

混合算子（Mix Op）需分别编写AIC和AIV的核函数，并通过统一的Tiling逻辑协调执行：

AIC核函数：负责矩阵乘（Cube计算），使用 __global__ __aicore__ 限定符。
AIV核函数：负责向量计算（Vector计算），使用 __global__ __aicore__ 限定符。
同步机制：通过 pipe_barrier()、setFlag()、waitFlag() 控制执行顺序。

// demo_mix_op.cce
#define __aicore__ [aicore]

#ifdef __DAV_C220_CUBE__
extern "C" __global__ __aicore__ void demo_op_mix_aic() {
    pipe_barrier(PIPE_ALL);
}
#elif __DAV_C220_VEC__
extern "C" __global__ __aicore__ void demo_op_mix_aiv() {
    pipe_barrier(PIPE_ALL);
}
#endif

⚠️ 注意：AIC和AIV核函数名需保持相同前缀，且分别以 _mix_aic 和 _mix_aiv 为后缀。编译时需区分 --cce-aicore-arch 参数（dav-c220-cube/dav-c220-vec）。

1.3 算子代码框架

以SGEMM算子为例，其代码框架包含两个核心部分：Tiling逻辑 和 Kernel计算。

Tiling逻辑（Host侧）

Tiling逻辑在Host侧运行，负责计算数据分块策略，并将Tiling信息传递给Kernel：

输入输出参数：定义矩阵A、B、C的Global Memory地址。
Tiling函数：通过 TilingData 结构体记录分块策略（如分块数量、各块大小）。
性能目标：最大化L2 Cache命中率，减少GM与Local Memory之间的数据搬运次数。

BEGIN_TILING_DATA_DEF(TilingDataUnalign)
    TILING_DATA_FIELD_DEF(uint8_t, formerNum);
    TILING_DATA_FIELD_DEF(uint8_t, tailNum);
    TILING_DATA_FIELD_DEF(uint32_t, formerLength);
    TILING_DATA_FIELD_DEF(uint32_t, tailLength);
    TILING_DATA_FIELD_DEF(uint32_t, alignNum);
END_TILING_DATA_DEF;

Kernel计算（Device侧）

Kernel计算在Device侧运行，分为AIC和AIV两部分：

AIC部分：实现矩阵乘（Cube计算），调用 Mmad 接口。
AIV部分：处理向量计算（如Padding、Bias加法），调用 Add 接口。
数据通路：数据需按 GM → L1 → L0A/L0B → Cube → L0C → FixPipe → GM 的路径流动。

示例代码：

// AIC核函数
extern "C" __global__ __aicore__ void demo_op_mix_aic() {
    // 从L0A/L0B中取数据，执行Cube计算
    pipe_barrier(PIPE_ALL);  // 确保AIV先完成数据准备
    Mmad(cLocal, aLocal, bLocal, mmadParams);  // 矩阵乘
    Fixpipe(gmC, cLocal, fixpipeParams);     // 搬出结果
}

// AIV核函数
extern "C" __global__ __aicore__ void demo_op_mix_aiv() {
    // 从GM搬运数据到L1/L0A/L0B
    pipe_barrier(PIPE_ALL);  // 确保数据搬运完成
    DataCopy(l1A, gmA, copyAParams);
    DataCopy(l1B, gmB, copyBParams);
}

1.4 算子编译与部署

编译流程

分步编译：分别编译AIV和AIC的核函数，生成 .o 文件。
链接生成：将AIC和AIV的 .o 文件链接成最终的混合算子二进制文件。

# AIV编译
ccec -std=c++17 -c -02 demo_mix.cce -o demo_aiv.o \
    --cce-aicore-arch=dav-c220-vec \
    -mllvm -cce-aicore-function-stack-size=16000

# AIC编译
ccec -std=c++17 -c -02 demo_mix.cce -o demo_aic.o \
    --cce-aicore-arch=dav-c220-cube \
    -mllvm -cce-aicore-function-stack-size=16000

# 链接
ld.lld -Ttext=0 demo_aiv.o demo_aic.o -static -o demo_mix.o

⚠️ 注意：链接时需保证AIC的 .o 文件在AIV的 .o 文件之前。

部署调用

注册算子：
- 通过 rtDevBinaryRegister 注册二进制文件。
- 使用 rtFunctionRegister 注册算子函数名（去后缀 _mix_aic/_mix_aiv）。
启动核函数：
- 通过 rtKernelLaunch 调用，设置 blockDim 为物理核数（如20核）。

// 注册算子
rtDevBinaryRegister(binary.magic=RT_DEV_BINARY_MAGIC_ELF, demo_mix.o);
rtFunctionRegister("demo_op_mix");

// 启动核函数
rtKernelLaunch(
    groupDim=20,
    kernel_args=tilingData,
    stream=stream
);

1.5 算子调试

核心调试方法

调试方式	适用场景	注意事项
`AscendC::printf()`	NPU侧调试输出	需保证地址对齐（512B）
`gdb`	CPU侧调试	适用于Host侧逻辑（如Tiling函数）
`msprof op`	算子性能数据采集	支持 `--aic-metrics` 指定指标
`msprof op simulator`	指令级性能仿真	生成 `trace.json` 可视化执行流水线

调试示例

#include "kernel_operator.h"

extern "C" __global__ __aicore__ void hello_world() {
    AscendC::printf("Hello World!\n");
    AscendC::printf("BlockIdx: %d\n", get_block_idx());
}

输出说明：get_block_idx() 返回当前Core的ID，用于验证并行执行逻辑是否正确。

1.6 性能评估指标

核心性能指标

指标名称	含义	优化目标
`aic_mte2_ratio`	MTE2流水线利用率	≥ 95%（流水优化）
`aic_cube_ratio`	Cube计算单元利用率	≥ 80%（双缓冲）
`aic_vector_ratio`	Vector计算单元利用率	≥ 70%（增大指令粒度）
`L2CacheHitRate`	L2 Cache命中率	≥ 90%（减少GM访问）
`ResourceConflictRatio`	资源冲突率（bank冲突）	≤ 5%（bank分配需谨慎设计）

工具使用建议

msprof op：采集实际性能数据。
msprof op simulator：生成 trace.json 文件，通过Chrome或MindStudio Insight分析指令流水图。
优化策略：根据指标调整数据双缓冲、地址对齐、blockDim配置等。

小结

本章介绍了昇腾GEMM类算子的开发基础，包括编程模型、代码框架、编译部署和调试方法。后续章节将深入SGEMM/CGEMM的分块策略、地址对齐优化、双缓冲技术等具体实现方式。请读者结合附录的环境准备文档逐步配置开发环境，并通过 msopgen 生成工程模板，确保算本章节的代码示例能顺利运行。

2. 矩阵乘算子（SGEMM）开发

矩阵乘法是AI模型的核心计算单元之一。昇腾芯片为了提升计算效率，会把大矩阵拆分成多个小块并行处理。这一章重点讲解如何用昇腾的并行架构（SPMD模型）实现单精度矩阵乘法。您需要理解芯片的三级缓存体系——从全局内存到局部内存的数据搬运规则，以及如何通过分块策略让多个计算核心同时工作。开发过程中会涉及大量内存布局调整，比如要求数据地址对齐到512字节，否则数据搬运会变得特别慢。通过学习同步机制（如pipe_barrier）和双缓冲技术，您能让矩阵运算在芯片上实现接近理论极限的性能表现。

2.1 SGEMM计算流程

SGEMM（Single-precision General Matrix Multiply）是矩阵乘法的基础算子之一，其核心计算公式为：
C=α(A×B)+βC
其中 $ A $ 为 $ M \times K $ 矩阵，$ B $ 为 $ K \times N $ 矩阵，$ C $ 为 $ M \times N $ 矩阵。

分块计算策略

在昇腾NPU上，SGEMM计算通常采用分块（Tiling）策略，即将大矩阵划分为多个小块，利用多核并行计算提高效率。SGEMM中矩阵乘的具体步骤如下：

分块划分：
- 矩阵 $ A $ 按 $ M \times K $ 方向分块为 $ M_0 \times K_0 $ 的子矩阵。
- 矩阵 $ B $ 按 $ K \times N $ 方向分块为 $ K_0 \times N_0 $ 的子矩阵。
- 矩阵 $ C $ 按 $ M \times N $ 方向分块为 $ M_0 \times N_0 $ 的子矩阵。
计算流程：
- 每个 $ A $ 和 $ B $ 的分块相乘，得到 $ C $ 的分块结果。
- 所有分块结果累加，最终得到完整的 $ C $ 矩阵。

数据通路

SGEMM的典型数据通路如下：
GM→L1→(L0A,L0B)→CUBE→L0C→GM

其中：

GM：全局内存（Global Memory），用于存储输入和输出矩阵。
L1：一级缓存（L1 Buffer），用于暂存分块后的 $ A $ 和 $ B $ 矩阵。
L0A/L0B：零级缓存（L0A/B），用于进一步分块处理。
CUBE：矩阵计算单元（Cube Core），执行实际的矩阵乘法。
L0C：用于暂存矩阵乘结果的零级缓存。

2.2 内存布局与对齐

列优先存储（ND格式）

昇腾NPU支持多种数据布局，其中 ND格式 是默认的存储方式，即 按列优先 存储矩阵数据。

ND格式特点：

内存布局	存储方式	适用场景
ND格式	按列连续存储	Cube计算（矩阵乘）

代码示例：

// 示例：矩阵A分块按ND格式存储进行双缓冲的地址计算
LocalTensor<float> A_L0A = A_L0A_base + (L0AB_k_idx % 2) * 32 * 1024 / sizeof(float);

nN/zN布局转换规则

在不同计算阶段，矩阵的数据布局可能需要转换。例如：

nN格式：基块内按列优先，基块间按列优先。
zZ格式：基块内按行优先，基块间按行优先。
nZ格式：基块内按列优先，基块间按行优先。
zN格式：基块内按行优先，基块间按列优先。

布局转换策略：

转换类型	操作方式	优化目标
ND → nN	在L1中存储为nN格式	提高L2 Cache命中率
nN → zN	在L0A和L0B之间进行格式转换	优化Cube计算性能

512B地址对齐

GM地址对齐要求：从GM搬运数据到L1时，地址需对齐 512B，以最大化带宽利用率。
Padding策略：
- 小矩阵：若矩阵间距较小（如lda等于或略大于M），通过补0使间距对齐至512B。
- 大矩阵：若矩阵间距较大（如lda远大于M），可对无效数据赋0，确保有效数据连续且地址对齐。

代码示例：

// 示例：对A矩阵进行padding
for (int loop_idx = 0; loop_idx < loop; loop_idx++) {
    …
    auto in_ptr = src + N_idx * lda + M_block_idx * data_num;
    copy_gm_to_ubuf(buf, in_ptr, 0, 1, (data_actual + NUM_ELE_PERBLOCK - 1) / NUM_ELE_PERBLOCK, 0, 0);
    auto out_ptr = dst + N_idx / N0 * lda_padding * N0 + M_block_idx * data_num * N0 + N_idx % N0 * M0;
    copy_ubuf_to_gm(out_ptr, buf, 0, (data_actual + M0 - 1) / M0, M0 / NUM_ELE_PERBLOCK, 0, (M0 * N0 - M0) /
    NUM_ELE_PERBLOCK);   // 数据按照nN排布，n的宽度为128
}

2.3 硬件同步机制

三种同步模式

昇腾NPU提供了三种硬件同步模式，适用于不同的并行计算场景：

模式	同步范围	适用场景
模式0	所有AIV核同步	同步AIV核间的数据搬运
模式1	同一Group内的AIV核同步	优化Group内协作计算
模式2	同一Group内的AIC和AIV核同步	确保Cube计算与向量计算的协同

代码示例：

// 示例：AIV核间同步
pipe_barrier(PIPE_ALL);

// 示例：AIV与AIC核同步
setFlag(0);  // AIV设置标志位
waitFlag(0);  // AIC等待标志位

同步函数使用场景

pipe_barrier(PIPE_ALL)：强制所有计算单元同步，适用于分块计算前的数据准备。
setFlag(0) / waitFlag(0)：通过标志位控制同步，适用于AIV和AIC的协同计算。

2.4 双缓冲优化策略

双缓冲原理

双缓冲（Double Buffering）通过在各级内存中开辟两倍于原始数据的存储空间，实现数据搬运与计算的并行，从而掩盖搬运延迟。

各层级双缓冲代码模板

UB双缓冲

auto buf1 = reinterpret_cast<__ubuf__ float *>((uintptr_t) 0); // 96KB
auto buf2 = reinterpret_cast<__ubuf__ float *>((uintptr_t) 96 * 1024); // 96KB
int flag = 1;
auto buf = flag ? buf1 : buf2;
for( ; ; ){
    ...
    flag = 1 - flag;
    ...
}

L1双缓冲

auto L1_base_a = reinterpret_cast<__cbuf__ float *>((uintptr_t) 0);
auto L1_base_b = reinterpret_cast<__cbuf__ float *>((uintptr_t)(128 * 1024));
int64_t k_loop_ping_flag = 1;
for( ; ; ){
    auto L1_buf_a = k_loop_ping_flag ? L1_base_a : L1_base_a + 256 * 1024 / sizeof(float);
    auto L1_buf_b = k_loop_ping_flag ? L1_base_b : L1_base_b + 256 * 1024 / sizeof(float);
    ...
    k_loop_ping_flag = 1 - k_loop_ping_flag;
}

L0A/L0B双缓冲

auto L0A_base = reinterpret_cast<__ca__ float *>((uintptr_t) 0); // 共64KB
auto L0B_base = reinterpret_cast<__cb__ float *>((uintptr_t) 0); // 共64KB
for (int L0AB_k_idx = 0; L0AB_k_idx < L0AB_k_loop; L0AB_k_idx++) {
    ...
    auto L0A_buf = L0A_base + (L0AB_k_Idx % 2) * 32 * 1024 / sizeof(float);
    auto L0B_buf = L0B_base + (L0AB_k_idx % 2) * 32 * 1024 / sizeof(float);
    ...
}

L0C双缓冲

auto L0C_base = reinterpret_cast<__cc__ float *>((uintptr_t) 0); // 共128KB
int loop_ping_flag = 1;
for( ; ; ){
    ...
    auto L0C_buf = loop_ping_flag ? L0C_base + 64 * 1024 / sizeof(float) : L0C_base;
    ...
    loop_ping_flag = 1 - loop_ping_flag;
}

优化前后对比

未使用双缓冲：
- CUBE流水线存在空闲阶段，等待数据加载。
- 性能受限于数据搬运与计算的串行执行。
使用双缓冲：
- CUBE流水线满负荷运行，计算与搬运并行。
- Cube算子理论算力利用率 ≥ 80%。

流水图对比：

未使用双缓冲：CUBE流水线有明显空闲周期。
使用双缓冲：CUBE流水线连续满负荷运行。

2.5 实战经验总结

关键优化点

优化方向	实施方法	效果
内存对齐	对A/B矩阵进行padding，确保512B对齐	提升MTE2搬运带宽利用率达90%以上
双缓冲	在UB/L1/L0A等层级开辟双缓冲	Cube流水线利用率达90%以上
同步控制	使用pipe_barrier和setFlag/waitFlag	优化AIV与AIC计算协同效率

性能指标对比

SGEMM算子：在Atlas 800T A2 NPU上，93.24%的case性能达到1.0x A100。
CGEMM算子：复数矩阵乘通过AIV处理虚实分离，99.79%的case性能达到2.2x A100。

2.6 SGEMM算子代码框架

Mix算子代码框架

SGEMm算子需要同时使用Aic和Aiv进行计算，属于 Mix算子。

代码模板：

// demo_mix_op.cce
#define __aicore__ [aicore]

#ifdef __DAV_C220_CUBE__
extern "C" __global__ __aicore__ void demo_op_mix_aic() {
    pipe_barrier(PIPE_ALL);
}
#elif __DAV_C220_VEC__
extern "C" __global__ __aicore__void demo_op_mix_aiv() {
    pipe_barrier(PIPE_ALL);
}
#endif

编译与调用：

编译：分别编译Aic和Aiv代码，链接生成Mix算子二进文件。
调用：通过runtime接口调用Mix算子，需注意 blockDim 与 核索引 的计算。

blockDim配置建议

Atlas 800T A2 20核版本：blockDim建议设为20。
计算block索引：
- Aic索引：get_block_idx()
- Aiv索引：get_block_idx() * get_subblockdim() + get_subblockid()

2.7 总结

SGEMm算子开发的核心在于：

分块计算：合理划分矩阵维度，充分利用多核并并行能力。
内存对齐：确保数据地址512B对齐，减少搬运开销。
同步控制：正确选择同步模式，确保Aic/Aiv间的数据依赖关系。
双缓冲：在各级存储上实现双缓冲，优化Cube流水线利用率。

通过上述步骤，开发者可以高效地在昇腾NPU上实现SGemm算，充分发挥其算力优势。

3. 复数矩阵乘算子（CGEMM）开发

处理复数矩阵乘法比普通矩阵更复杂，因为芯片本身不支持复数运算。在昇腾上，您需要把复数计算拆解成四个普通矩阵运算，分别处理实部和虚部的组合。这一章会教您如何通过向量核（AIV）和矩阵核（AIC）的配合，实现复数矩阵乘法。比如，先用向量核将复数拆分成实虚两部分，再用矩阵核并行计算四个子矩阵乘法，最后再通过向量核把结果合并。特别需要注意的是，复数运算容易产生精度误差，开发时需要设计专门的验证步骤。通过学习这些拆解逻辑和同步策略，您能让复数计算在昇腾上既高效又准确。

3.1 CGEMM计算分解

复数矩阵乘法（CGEMM）在昇腾NPU上需拆解为四个SGEMM子算子，分别计算实部和虚部的组合结果。假设复数矩阵A和B的元素为Ar + Ai和Br + Bi，最终结果矩阵C的实部Cr和虚部Ci通过以下公式计算：

Cr = Ar*Br - Ai*Bi
Ci = Ar*Bi + Ai*Br

实现流程

虚实分离与Padding：AIV负责将输入矩阵的实部和虚部分离，并对数据进行内存对齐操作。
四次SGEMM调用：AIC执行四次单精度矩阵乘法（SGEMM），分别计算Ar*Br、Ai*Bi、Ar*Bi和Ai*Br。
虚实合并：AIV将四次SGEMM的结果合并为最终的复数矩阵C，并应用标量因子α和β进行缩放。

代码示例（虚实分离）

// AIV虚实分离示例
__aicore__ __global__ void CgemmAIV() {
    LocalTensor<float> Ar = ...;
    LocalTensor<float> Ai = ...;
    LocalTensor<float> Br = ...;
    LocalTensor<float> Bi = ...;
    // 分离实部和虚部后进行SGEMM计算
    SGEMM(Ar, Br, Cr);
    SGEMM(Ai, Bi, Ci);
    SGEMM(Ar, Bi, Ir);
    SGEMM(Ai, Br, Ii);
    // 合并结果为复数矩阵
    MergeResult(Cr, Ci, Ir, Ii, α, β);
}

3.2 数据布局优化

复数矩阵在昇腾NPU上的UB（Unified Buffer）存储需遵循特定规则：

实部与虚部连续排列：复数元素的实部和虚部分别存储为两个独立的单精度块，且顺序为实部→虚部。
数据搬运优化：通过半精度转置指令在原地进行转置操作实现虚实合并，无需额外存储开销。

关键优化策略

场景	优化方法	示例代码
UB存储布局	实部和虚部分别占连续内存	`Ar[0..n]` → `Ai[0..n]`
虚实合并	使用半精度转置指令原地转置	`Transpose(C, buf, params)`

代码示例（虚实合并）

// AIV虚实合并示例
LocalTensor<float> ArBr = ...;
LocalTensor<float> AiBi = ...;
LocalTensor<float> ArBi = ...;
LocalTensor<float> AiBr = ...;
LocalTensor<float> C = ...;

// 合并四次SGEMM结果
Add(C, ArBr, ArBi, ArBi, AiBr, α, β);
// 通过半精度转置指令将结果写回GM
Transpose(C, C, params);

3.3 同步与流水线控制

CGEMM的高效执行依赖于AIV（向量计算核）与AIC（矩阵计算核）的紧密协作与同步。关键点包括：

1. 同步模式选择

模式0：所有AIV同步（适用于虚实分离阶段）。
模式2：AIV与AIC同步（用于SGEMM子算子间的数据传递）。

2. 同步函数使用

setFlag()和waitFlag()用于控制数据依赖的同步点。
pipe_barrier(PIPE_ALL)确保全核同步，避免数据冲突。

代码示例（同步策略）

// AIV与AIC同步示例
__aicore__ __global__ void CgemmAIC() {
    LocalTensor<float> Ar = ...;
    LocalTensor<float> Br = ...;
    LocalTensor<float> Cr = ...;

    // 同步AIV虚实分离后的数据
    waitFlag(AIV_SYNC_FLAG);
    // 执行SGEMM
    SGEMM(Ar, Br, Cr);
    // 通知AIV完成计算
    setFlag(AIC_DONE_FLAG);
}

3. 流水线协同优化

阶段	核心操作	性能收益
虚实分离	AIV处理输入矩阵的实部和虚部	减少内存开销，提高并行度
SGEMM计算	AIC并行执行四次矩阵乘法	充分利用Cube流水线算力
结果合并	AIV通过半精度转置指令输出	降低UB→GM搬运延迟

3.4 实战调试与验证

1. 精度验证

复数运算中需注意硬件舍入误差和浮点计算顺序差异。例如：

虚实分离后的SGEMM需确保实部和虚部的独立性。
合并阶段需校验Cr和Ci的组合是否符合复数计算规则。

2. 调试工具

AscendC::printf：在NPU侧调试，需确保地址对齐（如512B）。
msprof op simulator：通过trace.json可视化流水线，识别同步瓶颈。

代码示例（调试输出）

// AIV调试示例
AscendC::printf("AIV BlockIdx: %d\n", get_block_idx());
AscendC::printf("Ar Size: %d, Ai Size: %d\n", Ar.size(), Ai.size());

3.5 性能优化建议

减少标量运算：在虚实分离和合并阶段避免使用if条件判断或小粒度循环。
双缓冲策略：在UB和L1中启用双缓冲，掩盖数据搬运延迟。
地址对齐优化：确保GM→UB搬运地址为512B对齐，提升带宽利用率。

优化对比（双缓冲前后）

指标	未启用双缓冲	启用双缓冲
Cube流水线利用率	60%	90%
MTE2搬运延迟	200μs	120μs

3.6 综合练习

任务目标

设计一个CGEMM算子，要求：

输入输出布局：支持复数矩阵的实部和虚部分离。
同步策略：结合setFlag和waitFlag实现AIV→AIC→AIV的流水线协同。
性能分析：使用msprof定位同步冲突，优化至Cube利用率≥80%。

参考步骤

AIV阶段：分离复数矩阵为实部和虚部，生成Ar、Ai、Br、Bi。
AIC阶段：调用四次SGEMM，分别计算Cr、Ci、Ir、Ii。
AIV阶段：合并四次SGEMM结果，应用α和β缩放，输出复数矩阵C。

代码模板（需补全）

// AIV虚实分离模板
__aicore__ __global__ void CgemmAIV() {
    LocalTensor<float> A = ...;
    LocalTensor<float> B = ...;

    // 分离实部和虚部
    Split(A, Ar, Ai);
    Split(B, Br, Bi);

    // 发送信号启动AIC计算
    setFlag(Sgemm_start);
    pipe_barrier(PIPE_AIC);

    // 合并结果
    Merge(Cr, Ci, Ir, Ii);
}

附录：CGEMM开发工具链

工具	用途	示例命令
`msopgen`	生成算子原型定义文件	`msopgen gen -i cgemm.json`
`ccec`	编译AIV/AIC混合算子	`ccec -std=c++17 cgemm.cce`
`msprof`	采集同步冲突与流水线利用率	`msprof op simulator ...`

通过以上步骤和工具，开发者可以快速实现复数矩阵乘算子的开发、调试与优化，适配昇腾NPU的并行架构。

4. 性能优化核心策略

算子性能优化看似复杂，但核心逻辑其实很直接：尽可能减少数据搬运次数，让计算单元满负荷运行。这一章会拆解几个关键技巧，比如如何通过批量搬运替代小颗粒搬运，如何利用双缓冲让数据搬运和计算同时进行。您还会学习到芯片的流水线机制——就像工厂的传送带，每个计算步骤需要精准配合才能避免空转。开发时要特别注意内存地址对齐问题，不规范的地址会导致硬件降频。通过掌握这些优化策略，您有可能让算子运行速度提升40%以上，甚至在某些场景下超越其他同级别芯片的性能表现。

4.1 数据搬运优化

核心原则：
昇腾NPU的内存带宽效率与搬运数据量密切相关，单次搬运需满足以下条件：

数据量 ≥16KB：确保一次搬运充分发挥带宽潜力
512B地址对齐：非对齐地址会触发硬件降频，32B对齐场景仅能发挥512B对齐场景的70%性能

优化手段：

减少搬运次数：使用DataCopy接口的批量搬运参数（blockCount/blockLen）
对齐优化：通过padding策略调整GM地址对齐
布局优化：利用nd2nz等搬运指令进行格式转换

代码模板对比：

// 反例：低效的for循环搬运
for(int i=0; i<16; i++) {
    DataCopy(tensorIn[i], tensorGM[i*16KB], 2KB);
}

// 正例：高效的blockCount参数
DataCopyParams params;
params.blockCount = 16;
params.blockLen = 2KB/8; // 每DataBlock 32B
params.srcStride = 16KB/8; // 源地址间隔16KB
params.dstStride = 0; // 目的地址连续
DataCopy(tensorIn, tensorGM, params);

性能收益：

16KB批量搬运相比循环搬运性能提升60%
512B对齐可使MTE2流水线利用率提升30%

4.2 内存管理优化

L1、L0A/B、L0C层级：

采用双缓冲策略，需开辟2倍空间。配置代码如下：

auto L1_base_a = reinterpret_cast<__cbuf__ float*>(0);
auto L1_base_b = reinterpret_cast<__cbuf__ float*>(128*1024);
int64_t ping_flag = 1;
for(;;) {
    auto L1_buf_a = ping_flag ? L1_base_a : L1_base_a+256KB;
    auto L1_buf_b = ping_flag ? L1_base_b : L1_base_b+256KB;
    ping_flag = 1-ping_flag;
}

L0A/B层级：

采用32KB切分策略，典型配置代码如下：

auto L0A_base = reinterpret_cast<__ca__ float*>(0);
auto L0B_base = reinterpret_cast<__cb__ float*>(0);
for(int i=0; i<L0AB_k_loop; i++) {
    auto L0A_buf = L0A_base + (i%2)*32KB;
    auto L0B_buf = L0B_base + (i%2)*32KB;
}

L0C层级：

采用128KB双缓冲策略，典型配置代码如下：

auto L0C_base = reinterpret_cast<__cc__ float*>(0);
int loop_flag = 1;
for(;;) {
    auto L0C_buf = loop_flag ? L0C_base : L0C_base+64KB;
    loop_flag = 1-loop_flag;
}

4.3 指令效率提升

分层策略：

优化层级包含两个核心优化方向：

减少指令发射
通过使用带repeat参数的指令替代传统循环结构，可显著减少指令发射次数。例如：

// 反例：for循环发射
for(int i=0; i<16; i++) {
    Add(dst[i], src0[i], src1[i], 2KB);
}

// 正例：repeat参数替代
Add(dst, src0, src1, {16, 0, 2KB, 8}); // repeat=16次

Counter模式优化
采用Counter模式可简化主尾块处理逻辑。对比示例：

// 反例：Normal模式
AscendC::SetVectorMask<float>(0, 128); // 需要处理主尾块
AscendC::Add(zLocal, xLocal, yLocal, 128); // 主块
if(tail>0) {
    AscendC::SetVectorMask<float>(0, tail);
    AscendC::Add(zLocal, xLocal, yLocal, tail);
}

// 正例：Counter模式
AscendC::SetMaskCount();
AscendC::SetVectorMask<float>(0, 15000); // 总元素数
AscendC::Add(zLocal, xLocal, yLocal, 15000); // 无需主尾块判断
AscendC::ResetMask();

模式选择指南：

标准模式切换逻辑如下：

// 标准模式切换
if(需要Counter模式) {
    SetMaskCount();
    SetVectorMask<dtype>(0, totalElements);
    // 调用计算API
    Compute(..., totalElements, 1, ...);
    SetMaskNorm(); // 恢复默认模式
} else {
    SetMaskNorm();
    // 调用计算API
    Compute(..., repeat, mask, ...);
}

4.4 负载均衡方案

核心指标：

constexpr int32_t MAX_CORE_NUM = 20; // Atlas 800T A2物理核数
context->SetBlockDim(MAX_CORE_NUM); // 块数量与物理核匹配

分块策略对比：

大K场景
优化手段：K方向上进行切分
实现要点：

使用原子加接口进行结果累加
每个核独立计算块需配置为blockDim % coreNum == 0

// 大K方向多核并行
int64_t blockDim = 20; // 物理核全开
for(int i=0; i<k_loop; i++) {
    // 每个核处理独立分块
    Compute(i);
}

小K场景
优化手段：L1全载策略
实现要点：

避免分块导致的无效搬运
适用于K<4096的场景

// L1全载策略
auto L1_full = reinterpret_cast<__cbuf__ float*>(0);
// 一次性载入所有数据
DataCopy(L1_full, tensorGM, totalSize);
// 多次复用同一内存块
for(int i=0; i<k_loop; i++) {
    Compute(L1_full);
}

流水线优化
实现要点：

双缓冲使能声明
Cube计算流水线优化
vector计算流水线优化

// 双缓冲使能声明
constexpr int32_t BUFFER_NUM = 2;

// Cube计算流水线优化
while(mm.Iterate<false>()) {
    Compute(); // 双缓冲交替使用
}
// vector计算流水线优化
pipe.InitBuffer(inQueueX, 2, size); // buffer_num=2

// 优化后性能指标
if(mte2_time > cube_time) {
    // 优先优化MTE2搬运
    OptimizeDataCopy();
} else {
    // 优先优化Cube计算
    OptimizeCompute();
}

4.5 狭长矩阵专项优化

典型场景：

// 狭长矩阵(M=100, N=100, K=10000)
if(K > 10000) {
    // 采用K方向切分策略
    int k_splits = K / 512; // 每512步切分
    for(int i=0; i<k_splits; i++) {
        ComputeSplit(i); // 原子加
    }
} else {
    // 采用L1全载策略
    DataCopy(tensorL1, tensorGM, totalSize);
    Compute(tensorL1); // 多次复用
}

性能指标：

优化维度	达标值	测试方法
MTE2延迟	≤120us	`msprof op`采集
Cube算力利用率	≥80%	aic_cube_ratio指标
Vector算力利用率	≥75%	aiv_vec_ratio指标

4.6 典型优化流程

性能调优三步法：

瓶颈定位：使用msprof op simulator采集流水图
优化实施：根据瓶颈选择对应策略
效果验证：通过采集得到的csv文件对比优化前后指标

工具链说明：

# 采集Cube流水利用率
msprof op --application="./ascblasSgemm 0 0 3333 4444 7777 3333 4444 7777" --aic-metrics="aic_cube_ratio" --output=profiling

# 采集Vector流水利用率
msprof op --application="./ascblasSgemm 0 0 3333 4444 7777 3333 4444 7777" --aic-metrics="aic_vec_ratio" --output=profile2

# chrome浏览器查看流水图
地址栏输入 chrome://tracing/ ，然后拖入 profile2/trace.json

关键指标：

aic_mte2_ratio：MTE2流水利用率（目标值95%+）
aic_cube_ratio：Cube流水利用率（目标值80%+）
resource_conflict_ratio：资源冲突率（目标值<5%）

优化建议：

// 栈空间优化
#define K_MAX_SHAPE_DIM 0 // 无用算子禁用ShapeInfo

// Bank冲突规避
LocalTensor<float> src0 = reinterpret_cast<__ubuf__ float*>(0x10000);
LocalTensor<float> src1 = reinterpret_cast<__ubuf__ float*>(0x10080); // 32B间隔

4.7 性能调优模板

通用优化步骤：

// 性能调优流程模板
void PerformanceTuning() {
    // Step1: 512B地址对齐检查
    CheckAddressAlignment();

    // Step2: 双缓冲策略使能
    EnableDoubleBuffer();

    // Step3: 核间负载均衡
    BalanceCoreLoad();

    // Step4: 非对齐数据处理
    HandleUnalignedData();

    // Step5: 流量调用msprof进行性能采集
    ProfilePerformance();
}

开发者需知：

90%的性能瓶颈源于内存布局不合理
80%的优化收益来自双缓冲策略
70%的开发者忽略bank地址冲突问题

5. 算子性能评估与调试

开发算子时经常遇到"运行正常但不知道芯片跑满了没有"的困惑，这时候就需要性能分析工具出手。昇腾提供的性能采集工具（msprof）能帮您生成详细的计算流水图，通过观察数据搬运和计算的重叠程度，就能知道哪里需要改进。更直观的是可视化工具（MindStudio Insight），它能把芯片内部的计算流程用时间线图展示出来，就像看电影分镜一样清楚。调试时要分场景处理：CPU侧代码可以用普通调试器（gdb）检查逻辑错误，而芯片侧代码则需要利用芯片专用调试接口（AscendC::printf）输出信息。通过系统化的验证流程，您能确保算子不仅能跑起来，还能跑得准确。

5.1 性能分析工具 msprof

昇腾NPU的性能分析工具 msprof 是开发者优化算子的得力助手，它能够帮助我们快速定位性能瓶颈并提供改进方向。以下是使用 msprof 的关键步骤：

性能评估模式

msprof op 模式用于评估实际运行在昇腾AI处理器上的算子性能，支持采集多类指标（如计算负载、内存负载等）。基本命令如下：

msprof op --application="./ascblasSgemm 0 0 3333 4444 7777 3333 4444 7777"  --output=../prof

关键参数说明：
- --application: 指定运行的算子程序及其参数。
- --output: 输出性能数据的目录。
- --aic-metrics: 可指定采集的指标（如 L2Cache、Memory 等），例如：
```
msprof op --application="./ascblasSgemm ..." --aic-metrics=L2Cache,Memory --output=../prof
```

仿真模式

msprof op simulator 模式用于生成算子的仿真数据，通过指令流水图分析优化潜力。常用命令：

msprof op simulator --application="./ascblasSgemm ..." --output=../prof

仿真模式的特殊参数：
- 采集 PipeUtilization（流水线利用率）和 ResourceConflictRatio（资源冲突比例）。
- 示例命令：
```
msprof op simulator --application="./ascblasSgemm ..." --aic-metrics=PipeUtilization --output=../prof
```

性能数据解读

通过 msprof 采集的性能数据会生成多个文件，例如：

*.csv：以表格形式展示性能指标（如 Cube 流水利用率、MTE2 搬运延迟）。
visualize_data.bin：可视化工具的二进制数据源。

关键指标示例：

指标名称	含义	优化建议
`aic_mte2_ratio`	MTE2 搬运效率	确保 GM 地址 512B 对齐，减少搬运次数
`aic_cube_ratio`	Cube 流水利用率	通过双缓冲或调整分块策略提升计算与搬运的并行性
`aic_vec_ratio`	Vector 流水利用率	优化向量计算指令的重复次数（repeat 参数）

5.2 流水线可视化

流水线图是分析算子执行效率的核心工具。msprof op simulator 会生成 trace.json 文件，支持在 Chrome 和 MindStudio Insight 中查看。

Chrome 浏览器分析

打开 Chrome 地址栏，输入 chrome://tracing。
拖拽 trace.json 文件到浏览器中。
通过 w（放大）、s（缩小）、a（左移）、d（右移）键操作视图，观察各流水线的指令重叠情况。

MindStudio Insight 分析

在 MindStudio 中打开 Insight 工具。
导入 trace.json 文件，系统会自动生成指令流水图。
重点查看：
- 空闲周期：Cube 和 Vector 流水线是否存在空闲。
- 依赖关系：不同指令之间的同步依赖是否合理。

对比优化前后差异

未使用双缓冲的 SGEMM：
Cube 流水线因等待数据搬运频繁空闲，Vector 流水线利用率低。

LocalTensor<float> c1Local = outQueueCO1.DeQue<float>();
Fixpipe(cGM, c1Local, fixpipeParams);
outQueueCO1.EnQue<float>(c1Local);

使用双缓冲后：
Cube 流水线连续运行，Vector 流水线利用率显著提升，整体耗时减少约 20%。

5.3 调试方法

Host 侧调试

适用场景：算子逻辑错误、输入输出数据格式问题。
工具推荐：gdb（调试 CPU 侧逻辑）、printf（验证 Tiling 策略）。
关键步骤：
1. 在 Host 代码中插入 printf 输出 Tiling 分块信息。
2. 使用 gdb 检查 CPU 侧内存地址是否正确分配。

Device 侧调试

适用场景：NPU 算子执行异常（如同步错误、内存地址冲突）。
工具推荐：AscendC::printf（NPU 侧调试）、AscendC::SetFlag/AscendC::WaitFlag（同步调试）。

注意事项：

AscendC::printf 需确保地址对齐，避免因地址非法导致 Cube 计算失败。

示例代码：

extern "C" __global__ __aicore__ void hello_world() {
    AscendC::printf("Block ID: %d\n", get_block_idx());
}

同步调试示例：

setFlag(eventId); // 标记搬运完成
waitFlag(eventId); // 等待搬运完成后触发计算

5.4 精度验证

精度差异来源

昇腾NPU的浮点计算可能与CPU或NVIDIA GPU存在差异，主要因以下原因：

非对齐地址：导致部分数据无法完整加载，产生舍入误差。
硬件舍入规则：昇腾NPU遵循 IEEE 754 标准，但某些指令可能引入额外舍入。

量化参数验证

以 SGEMM 算子为例，其输出需经过量化后写入 GM。以下是一个典型用例：

// 将结果从 L0C 搬运到 GM 时进行量化
DataCopyParams copyParams;
copyParams.quantPre = QuantMode::VQF322B8_PRE;
DataCopy(cGM, c1Local, copyParams);

验证步骤：
1. 在 Host 侧记录 CPU 计算的参考结果。
2. 在 Device 侧运行算子，保存输出数据。
3. 使用 verify_result.py 脚本计算绝对误差和相对误差，确保误差在可接受范围内。

复数矩阵乘的精度验证

CGEMM 的虚实合并阶段需特别注意复数计算的精度一致性。示例代码：

// 在 AIV 中完成虚实分离
LocalTensor<float> realA = separate_real(aGM);
LocalTensor<float> imagA = separate_imag(aGM);

验证建议：
- 在虚实分离后，分别对实部和虚部进行 Cast 转换为 float 类型。
- 对比 AIV 与 AIC 的同步时序，确保虚实合并无数据丢失。

5.5 常见问题及解决方案

问题类型	现象	解决方案
同步错误	算子执行卡死或结果错误	检查 `setFlag`/`waitFlag` 的调用顺序，确保同步 Buffer 地址正确
内存不足	Cube 流水利用率低	优化 L1 缓存搬运效率

6. 实战案例与练习

光会讲理论优化还不够，真正的的考验是面对真实模型时的调优能力。这一章通过多个实战案例展示完整的优化路径，比如如何让矩阵运算在20核芯片上实现负载均衡，如何处理超长维度矩阵的分块策略。每个案例都会给出具体的优化目标（如Cube利用率≥85%），并手把手演示如何通过调整分块参数、添加内存对齐逻辑、优化指令重复次数等步骤达成目标。最后的练习环节会模拟实际场景，让您在真实数据上训练优化直觉，掌握从发现问题到验证效果的完整闭环。这些案例会特别标注关键优化节点，帮助建立"哪里慢就怎么改"的思维模型。

实战案例部分选取了两类典型场景：普通矩阵乘法和复数矩阵乘法。通过对比优化前后的性能数据（比如Cube流水线利用率从55%提升到87%），您会直观看到每个优化步骤的收益。案例特别强调了双缓冲技术的普适性——在L1缓存、局部内存等不同层级都能通过开辟双倍空间实现计算与搬运的并行。最终的练习会给出明确参数（如M=2048, K=8192），要求您设计完整的分块策略和同步方案。通过这些案例，您不仅能掌握具体优化方法，更能学会如何根据芯片特性设计计算流程，这正是昇腾开发的核心竞争力所在。

6.1 SGEMM优化案例

6.1.1 基础性能对比

我们以Atlas 800T A2 NPU与NVIDIA A100 GPU的SGemm算子性能进行对比实验。测试环境为相同内存配置下，随机生成M,N,K在0~10000范围内的5000组shape。

场景	昇腾NPU	英伟达 GPU	性能占比
非对齐内存访问	256ms	280ms	91%
512B对齐	230ms	280ms	82%
双缓冲优化	200ms	280ms	71%

6.1.2 关键优化步骤

1. 内存对齐处理

Nd2NzParams dataCopyA1Params;
dataCopyA1Params.ndNum = 1;
dataCopyA1Params.nValue = m;
dataCopyA1Params.dValue = k;
DataCopy(a1Local, aGM, dataCopyA1Params);

优化点：

强制要求矩阵数据512B对齐
增加padding逻辑（见2.2章节）
修改TILING_DATA_FIELD_DEF结构体字段类型

2. 双缓冲实现

auto L1_base_a = reinterpret_cast<__cbuf__ float*>((uintptr_t)0);
auto L1_base_b = reinterpret_cast<__cbuf__ float*>((uintptr_t)(128 * 1024));
int64_t k_loop_ping_flag = 1;
for(;;){
    auto L1_buf_a = k_loop_ping_flag ? L1_base_a : L1_base_a + 256 * 1024 / sizeof(float);
    auto L1_buf_b = k_loop_ping_flag ? L1_base_b : L1_base_b + 256 * 1024 / sizeof(float);
    ...
    k_loop_ping_flag = 1 - k_loop_ping_flag;
}

优化效果：

Cube流水线利用率从55%提升至87%
MTE2搬运延迟从220us降至115us
整体吞吐量提升1.4倍

3. 指令优化

AscendC::Add(dstLocal, src0Local, src1Local, 32, m, addRepeatParams);

优化策略：

使用repeat参数替代传统for循环
修改K_MAX_SHAPE_DIM宏值
采用Counter模式简化mask配置

6.2 CGEMM优化案例

6.2.1 算子执行流水

CGEMM的完整计算流程包含四个阶段：

AIV：虚实分离及padding
AIC：四次SGEMM计算
AIV：标量乘及加减运算
AIC：最终结果累加

同步策略：

// 模式1：同一Group内AIV同步
setFlag(FLAG_AIV_SYNC);
// 模式2：组内AIC/AIV同步
pipe_barrier(PIPE_AIC_AIV);

6.2.2 典型优化场景

优化类型	原方案	优化方案
虚实合并	Ascend C原生的虚实合并指令	半精度转置指令实现原地转换
Vector和Cube协同	纯Vector实现	Vector和Cube协同实现
Cube利用率	单缓存搬运并计算	使用双缓冲策略

代码示例：

// 半精度转置实现虚实合并
LocalTensor<float> realLocal = inQueueReal.AllocTensor<float>();
LocalTensor<float> imagLocal = inQueueImag.AllocTensor<float>();
TransposeParams params;
params.rowSize = 4;
params.colSize = 4;
Transpose(realLocal, imagLocal, params);

6.3 综合练习

6.3.1 任务设计

练习1：SGEMM开发

输入矩阵：M=2048, K=8192, N=1024
目标算力：Cube利用率≥85%
优化重点：K方向分块策略

练习2：CGEMM开发

输入矩阵：M=4096, K=4096, N=4096
目标算力：Vector利用率≥70%
优化重点：虚实分离与合并

6.3.2 优化指导

优化手段	适用场景	操作建议
双缓冲	L1/L0A/B/C搬运	开辟2倍空间，使用`k_loop_ping_flag`交替
地址对齐	GM-L1搬运	使用`512B`对齐，增加`padding`逻辑
repeat优化	Vector/Scalar指令	将`for`循环改为`repeat`参数
K分块	M,N,K不均衡	将K=8192切分为2048分块
bank冲突规避	UB读写	每个bank group预留32B间隙

6.3.3 评估工具使用

msprof调用示例：

msprof op simulator --application="./ascblasSgemm 0 0 2048 8192 1024 2048 8192 1024" --output=../prof

trace.json分析要点：

观察Cube流水线连续性
检查Vector指令与Cube指令的重叠度
分析MTE2搬运与计算的并行度

优化目标：

Cube算子利用率 ≥ 80%
Vector算子利用率 ≥ 70%
60%的随机shape总体耗时 ≤ 1.0 x A100耗时

提示：建议在练习中优先采用双缓冲+padding组合优化，其次根据msprof op采集csv文件中的aic_cube_ratio和aic_mte2_ratio指标选择优化方向。对于Atlas 800T A2设备，建议blockDim设置为20（物理核数）。

你可能感兴趣的:(人工智能)

为了在未来的人工智能世界中取得成功，学生们必须学习人类写作的优点睿邸管家
澳大利亚各地的学生在新学年开始使用铅笔、钢笔和键盘学习写字。在工作场所，机器也在学习写作，如此有效，几年之内，它们可能会写得比人类更好。有时它们已经做到了，就像Grammarly这样的应用程序所展示的那样。当然，人类现在的日常写作可能很快就会由具有人工智能(AI)的机器来完成。手机和电子邮件软件常用的预测文本是无数人每天都在使用的一种人工智能写作形式。据AI行业研究机构称，到2022年，人工智能及
人工智能应用研究快讯 2021-11-30 峰谷皆平
[HTML]ArtificialIntelligenceforSkinCancerDetection:ScopingReviewATakiddin,JSchneider,YYang,AAbd-Alrazaq...JournalofMedicalInternet...,2021ABSTACT:Background:Skincanceristhemostcommoncancertypeaffectin
从振动信号到精准预警：AI 如何重塑工业设备健康管理？缘华工业智维人工智能计算机视觉边缘计算信息与通信
在智能制造浪潮席卷全球的当下，工业生产正经历着从传统模式向智能化、数字化转型的深刻变革。在这场变革中，AI驱动的振动分析技术犹如一颗璀璨新星，成为工业设备可靠运行的“健康卫士”。它通过在设备关键部位部署振动传感器，如同医生为患者听诊般实时采集设备运行时的振动信号，再借助强大的人工智能算法对这些“工业脉搏”进行深度解析，从而实现对工业设备从故障预警到寿命预测的全周期精准守护。一、AI振动分析：设备状
AI 生成虚拟宠物：24 小时陪你聊天解闷大力出奇迹985 人工智能宠物
本文围绕AI生成虚拟宠物展开，介绍这类依托人工智能技术诞生的虚拟伙伴，能实现24小时不间断陪伴聊天，为人们解闷。文中详细阐述其技术基础，包括自然语言处理、机器学习等；分析多样功能，如个性化互动、情绪回应等；探讨在独居人群、压力大者等不同群体中的应用场景，最后总结其为人们生活带来的积极影响及未来发展潜力，展现AI虚拟宠物在陪伴领域的独特价值。一、AI生成虚拟宠物的诞生背景与技术基石在快节奏的现代社会
GPT-4 在 AIGC 中的微调技巧：让模型更懂你的需求 AIGC应用创新大全 AI人工智能与大数据应用开发 MCP&Agent 云算力网络 AIGC ai
GPT-4在AIGC中的微调技巧：让模型更懂你的需求关键词：GPT-4、AIGC、模型微调、监督学习、指令优化、过拟合预防、个性化生成摘要：AIGC（人工智能生成内容）正在重塑内容创作行业，但通用的GPT-4模型可能无法精准匹配你的垂直需求——比如写电商爆款文案时总“跑题”，或生成技术文档时专业术语不够。本文将用“教小朋友学画画”的通俗类比，从微调的底层逻辑讲到实战技巧，带你掌握让GPT-4“更懂
AIGC内容生成实战：如何用ChatGPT+DALL·E打造高转化内容 AI大模型应用工坊 AI大模型开发实战 AIGC chatgpt ai
AIGC内容生成实战：如何用ChatGPT+DALL·E打造高转化内容关键词：AIGC、ChatGPT、DALL·E、内容生成、高转化营销、多模态协同、提示词工程摘要：随着AIGC（人工智能生成内容）技术的爆发式发展，ChatGPT（文本生成）与DALL·E（图像生成）的组合已成为内容创作领域的“黄金搭档”。本文将深度解析二者的协同原理，结合实战案例演示从需求分析到内容落地的全流程，并揭示提升内容
数据分析领域中AI人工智能的发展前景展望 AI大模型应用工坊 AI大模型开发实战数据分析人工智能数据挖掘 ai
数据分析领域中AI人工智能的发展前景展望关键词：数据分析、人工智能、机器学习、深度学习、数据挖掘、预测分析、自动化摘要：本文深入探讨了人工智能在数据分析领域的发展现状和未来趋势。我们将从核心技术原理出发，分析AI如何改变传统数据分析范式，详细讲解机器学习算法在数据分析中的应用，并通过实际案例展示AI驱动的数据分析解决方案。文章还将探讨行业应用场景、工具生态以及未来发展面临的挑战和机遇，为数据分析师
AI人工智能中的数据挖掘：提升智能决策能力
AI人工智能中的数据挖掘：提升智能决策能力关键词：数据挖掘、人工智能、机器学习、智能决策、数据分析、特征工程、模型优化摘要：本文深入探讨了数据挖掘在人工智能领域中的核心作用，重点分析了如何通过数据挖掘技术提升智能决策能力。文章从基础概念出发，详细介绍了数据挖掘的关键算法、数学模型和实际应用场景，并通过Python代码示例展示了数据挖掘的全流程。最后，文章展望了数据挖掘技术的未来发展趋势和面临的挑战
【三桥君】MCP中台，究竟如何实现多模型、多渠道、多环境的统一管控？如何以MCP为核心设计AI应用架构？三桥君《三桥君 MCP落地方法论》《三桥君 AI大模型落地方法论》#《三桥君 AI产品方法论》人工智能 AI产品经理 MCP API 三桥君系统架构 llama
你好，我是✨三桥君✨本文介绍>>一、引言随着人工智能技术的快速发展，越来越多的企业开始引入大语言模型（LLM）以提升用户体验和运营效率。然而，如何高效、稳定地将这些AI能力落地到生产环境呢？传统的系统架构往往难以应对AI应用的高并发、低延迟和灵活扩展需求，因此，从整体架构角度设计AI应用架构显得尤为重要。本文三桥君将深入探讨以MCP为核心的AI应用架构，并分析多种部署方式的优劣势，为企业在AI落地
深入理解卷积神经网络（CNN）与循环神经网络（RNN） CodeJourney. cnn rnn 人工智能
在当今的人工智能领域，神经网络无疑是最为璀璨的明珠之一。而卷积神经网络（ConvolutionalNeuralNetworks，CNN）和循环神经网络（RecurrentNeuralNetworks，RNN）作为神经网络家族中的重要成员，各自有着独特的架构和强大的功能，广泛应用于众多领域。本文将深入探讨这两种神经网络的原理、特点以及应用场景，为对深度学习感兴趣的读者提供全面的知识讲解。一、卷积神经
今年校招竞争真激烈 12_05
程序员满大街，都要找不到工作了。即使人工智能满大街，我也后悔当初没学机器学习，后悔当初没学Java。C++真难找工作。难道毕了业就失业吗？好担心！
如何运用深度学习打造高效AI人工智能系统 AI智能探索者 AI Agent 智能体开发实战人工智能深度学习 ai
如何运用深度学习打造高效AI人工智能系统关键词：深度学习、AI系统、神经网络、模型优化、实战开发摘要：本文将从深度学习的核心概念出发，结合生活实例和代码实战，系统讲解如何构建高效AI系统。我们会拆解数据准备、模型设计、训练优化、部署落地的全流程，揭秘“数据-模型-训练-推理”的协同机制，并通过具体案例演示从0到1开发AI系统的关键技巧，帮助开发者掌握打造高效AI系统的底层逻辑。背景介绍目的和范围在
非欧空间计算加速：图神经网络与微分几何计算的GPU优化（流形数据的内存布局优化策略）九章云极AladdinEdu 空间计算神经网络人工智能 gpu算力算法 java 开发语言
一、非欧空间计算的革命性意义与核心挑战在三维形状分析、社交网络建模、分子动力学模拟等领域，非欧几里得空间数据（流形数据）的处理正推动人工智能技术向更复杂的几何结构迈进。传统欧式空间优化方法在处理流形数据时面临根本性局限：黎曼度量导致距离计算失效、局部坐标系动态变化引发内存访问模式混乱、曲率变化影响并行计算效率。本文提出基于分块流形存储（BlockedManifoldStorage,BMS）与层次化
响应式编程实践：Spring Boot WebFlux构建高性能非阻塞服务 fanxbl957 Web spring boot 后端 java
博主介绍：Java、Python、js全栈开发“多面手”，精通多种编程语言和技术，痴迷于人工智能领域。秉持着对技术的热爱与执着，持续探索创新，愿在此分享交流和学习，与大家共进步。全栈开发环境搭建运行攻略：多语言一站式指南(环境搭建+运行+调试+发布+保姆级详解)感兴趣的可以先收藏起来，希望帮助更多的人响应式编程实践：SpringBootWebFlux构建高性能非阻塞服务一、引言在当今数字化时代，互
企业级RAG的数据方案选择 - 向量数据库、图数据库和知识图谱南七小僧 AI技术产品经理网站开发人工智能数据库知识图谱人工智能
如何为企业RAG选择合适的数据存储方式摘要:本文讨论了矢量数据库、图数据库和知识图谱在解决信息检索挑战方面的重要性，特别是针对企业规模的检索增强生成（RAG）。看看海外人工智能企业Writer是如何利用知识图谱增强企业级RAG。要点概要：矢量数据库高效存储数据，但缺乏上下文和关联信息。图数据库优先考虑数据点之间的关系，受益于关系结构。知识图谱在语义存储方面表现出色，由于其能够编码丰富的上下文信息，
【人工智能入门必看的最全Python编程实战（1）】 DFCED 人工智能 python 开发语言深度学习找工作就业
--------------------------------------------------------------------------------------------------------------------1.AIGC未来发展前景未完持续…1.1人工智能相关科研重要性拥有一篇人工智能科研论文及专利软著竞赛是保研考研留学深造以及找工作的关键门票！！！拥有一篇人工智能科研论文
2025毫米波雷达技术白皮书：智能汽车与物联网的感知核心
随着人工智能、物联网（IoT）和智能汽车产业的迅猛发展，毫米波雷达技术正成为感知领域的核心驱动力。毫米波雷达凭借其高精度、全天候和强抗干扰能力，广泛应用于智能汽车的自动驾驶、物联网的环境感知以及工业自动化。2025年，毫米波雷达技术在性能、应用场景和市场规模上都达到了一个全新的高度。本白皮书将深入探讨毫米波雷达技术的核心优势、发展趋势及其在智能汽车与物联网中的应用前景，同时推荐各大品牌的领先产品方
从零开始构建深度学习环境：基于Pytorch、CUDA与cuDNN的虚拟环境搭建与实践（适合初学者）荣华富贵8 程序员的知识储备2 程序员的知识储备3 深度学习 pytorch 人工智能
摘要：深度学习正在引领人工智能技术的革新，而对于初学者来说，正确搭建深度学习环境是迈向AI研究与应用的第一步。本文将为读者提供一套详尽的教程，指导如何在本地环境中搭建Pytorch、CUDA与cuDNN，以及如何利用Anaconda和PyCharm进行高效开发。内容涵盖从环境配置、常见错误修正，到基础的深度学习模型构建及训练。我们旨在为深度学习零基础的入门者提供一个全面且易于理解的“保姆级”教程，
人工智能概念之九：深度学习概述
文章目录相关文章一、深度学习的定位：AI时代的基石技术1.1技术生态全景图1.2技术革命的催化剂二、深度学习的双面性：性能优势与技术挑战2.1技术优势全景扫描2.2技术挑战深度剖析三、技术演进时间轴：70年的厚积薄发四、主流框架生态对比五、未来演进方向相关文章人工智能概念之二：人工智能核心概念：网页链接一、深度学习的定位：AI时代的基石技术1.1技术生态全景图深度学习处于人工智能（AI）技术金字塔
H800核心技术突破与行业应用实战智能计算研究中心其他
内容概要在人工智能技术持续迭代的背景下，H800芯片凭借自主架构优化与算力跃升，成为推动行业场景化落地的关键驱动力。本文将从技术路径、性能突破与行业应用三个维度，系统解析H800如何在高并发计算与低延时响应领域实现底层架构创新。首先聚焦其自主架构优化的核心技术路径，包括动态资源调度算法与异构计算单元的深度协同设计，揭示其在能效比与计算密度上的突破逻辑；进一步结合算力跃升的具体表现，探讨该芯片如何通
智慧建筑：科技引领房地产与建筑业的未来 RedPhoenix45
最新接入DeepSeek-V3模型，点击下载最新版本InsCodeAIIDE智慧建筑：科技引领房地产与建筑业的未来随着科技的飞速发展，人工智能（AI）和智能化工具正以前所未有的速度改变着各行各业。在房地产与建筑领域，这种变革尤为显著。从建筑设计到施工管理，再到物业管理，智能化技术正在重塑行业的每一个环节。本文将探讨如何利用先进的智能化工具提升房地产与建筑行业的效率，并介绍一款革命性的开发工具——它
智慧施工：AI技术赋能建筑安全监测新纪元
开发AI智能应用，就下载InsCodeAIIDE，一键接入DeepSeek-R1满血版大模型！智慧施工：AI技术赋能建筑安全监测新纪元在现代建筑行业中，施工安全始终是核心关注点之一。随着科技的飞速发展，人工智能（AI）和大数据分析逐渐成为提升施工安全的重要工具。本文将探讨如何利用智能化软件和大模型API来构建高效的施工安全监测系统，并介绍一款强大的开发工具——InsCodeAIIDE的应用场景及其
智慧工地系统：建筑行业数字化变革的引领者青云智慧园区 java
在建筑行业积极迈向数字化转型的浪潮中，智慧工地系统凭借“数据驱动、智能管控、协同增效”的核心优势，深度融合物联网、大数据、人工智能等前沿技术，构建起覆盖工程项目全生命周期的精细化管理体系。以下将从系统架构、核心功能模块、应用价值以及未来展望等方面，全方位剖析智慧工地系统如何实现施工全过程的智能化、高效化管理。一、系统架构：打造一体化协同管理平台智慧工地系统采用先进的分层架构设计，以底层的数据采集层
AGI和AIGC傻傻分不清楚，一篇文章告诉你如何分辨！
Look！我们的大模型商业化落地产品更多AI资讯请关注Free三天集训营助教在线为您火热答疑‍什么是AGI(人工通用智能)?AGI是ArtificialGeneralIntelligence的缩写，中文翻译为“通用人工智能”，该术语指的是机器能够完成人类能够完成的任何智力任务的能力。与狭义的人工智能(ANI)不同，狭义的人工智能是为特定领域或问题而设计的，而AGI旨在实现一般的认知能力，能够适应任
新一代数据库：融合多模智能，重塑数据价值
一、场景重塑产业格局：数据库“融合进化”AI浪潮奔涌而至，数字产业格局加速重构。云计算、移动互联、万物互联（IoT）、人工智能（AI）等技术的深度融合与快速落地，正以前所未有的速度重塑着企业的应用形态。新业务场景层出不穷——从高并发的在线交易、实时精准的分析决策，到海量物联网设备监控、基于图关系的风控反欺诈，再到AI驱动的智能推荐与内容生成，应用场景的多样性与复杂性已突破传统数据库的能力边界。这对
基于知识图谱技术增强大模型RAG知识库应用效果罗伯特之技术屋知识图谱人工智能
【摘要】本文是AI落地实践的优秀案例，利用RAG技术（Retrieval-AugmentedGeneration，检索增强生成）的知识库实践为背景，介绍了RAG技术的发展及存在的不足，以及知识图谱相关的知识，利用RAG技术去完善和智能化知识图谱。在AI技术大量涌现，但应用不足的情况下，指明了现有应用场景、技术与AI结合的具体做法。1.引言随着人工智能技术的加速演进，AI大模型如雨后春笋般纷纷涌现，
BGE-M3模型结合Milvus向量数据库强强联合实现混合检索
在基于生成式人工智能的应用开发中，通过关键词或语义匹配的方式对用户提问意图进行识别是一个很重要的步骤，因为识别的精准与否会影响后续大语言模型能否检索出合适的内容作为推理的上下文信息（或选择合适的工具）以给出用户最符合预期的回答。在本篇文章中，我将尽可能详细地介绍想达成准确识别用户提问意图的解决方案之一，即基于功能强大的BGE-M3模型和Milvus向量数据库实现混合检索（稠密向量densevect
朋友圈发的原力元宇宙项目到底能不能挣钱口碑信息传播者
原力元宇宙项目正如其名，是一场前所未有的数字化革命，融合了虚拟现实（VR）、人工智能（AI）、区块链（Blockchain）等前沿技术，开辟了全新的商业模式和赚钱机会。在朋友圈中频繁看到对该项目的推广宣传，确实反映了其在赚钱方面的潜力。本文将从多个角度解析原力元宇宙项目的盈利机制，揭示其中的商机所在。13分钟视频内容讲明白原力元宇宙创富项目，中国区运营服务对接微信：ForceZen激发兴趣的独特魅
构建高效 RAG 流程的七个关键点及其落地实践 charles666666 搜索引擎大数据需求分析交互笔记数据库
人工智能应用浪潮中，检索增强生成（RAG）技术凭借着结合大型语言模型（LLMs）的生成能力和信息检索系统的独特优势，成为了各企业挖掘数据价值、提升业务智能化水平的关键手段之一。然而，构建一个高效且精准的RAG流程并非易事，其中存在着诸多关键点和挑战。作为一名非资深IT技术顾问，我将基于丰富的实战经验，为大家深入剖析构建高效RAG流程的七个关键点及其落地实践。一、文档解析：混合格式的“第一道坎”在企
智能网关芯片：物联网连接的核心引擎
在物联网（IoT）生态系统中，智能网关芯片扮演着至关重要的角色，它是实现设备互联、数据转换和边缘计算的核心硬件。随着5G、人工智能（AI）和低功耗通信技术的快速发展，智能网关芯片的性能和功能不断提升，推动着智慧家居、工业物联网（IIoT）、智慧城市等领域的创新。智能网关芯片的关键技术智能网关芯片的核心能力在于其多协议支持能力。由于物联网设备采用不同的通信标准（如Wi-Fi、蓝牙、Zigbee、Lo
异常的核心类Throwable 无量 java 源码异常处理 exception
java异常的核心是Throwable，其他的如Error和Exception都是继承的这个类里面有个核心参数是detailMessage，记录异常信息，getMessage核心方法，获取这个参数的值，我们可以自己定义自己的异常类，去继承这个Exception就可以了，方法基本上，用父类的构造方法就OK，所以这么看异常是不是很easy package com.natsu;
mongoDB 游标（cursor）实现分页迭代开窍的石头 mongodb
上篇中我们讲了mongoDB 中的查询函数，现在我们讲mongo中如何做分页查询如何声明一个游标 var mycursor = db.user.find({_id:{$lte:5}}); 迭代显示游标数
MySQL数据库INNODB 表损坏修复处理过程 0624chenhong tomcat mysql
最近mysql数据库经常死掉，用命令net stop mysql命令也无法停掉，关闭Tomcat的时候，出现Waiting for N instance(s) to be deallocated 信息。查了下，大概就是程序没有对数据库连接释放，导致Connection泄露了。因为用的是开元集成的平台，内部程序也不可能一下子给改掉的，就验证一下咯。启动Tomcat,用户登录系统，用netstat -
剖析如何与设计人员沟通不懂事的小屁孩工作
最近做图烦死了，不停的改图，改图……。烦，倒不是因为改，而是反反复复的改，人都会死。很多需求人员不知该如何与设计人员沟通，不明白如何使设计人员知道他所要的效果，结果只能是沟通变成了扯淡，改图变成了应付。那应该如何与设计人员沟通呢？我认为设计人员与需求人员先天就存在语言障碍。对一个合格的设计人员来说，整天玩的都是点、线、面、配色，哪种构图看起来协调；哪种配色看起来合理心里跟明镜似的，
qq空间刷评论工具换个号韩国红果果 JavaScript
var a=document.getElementsByClassName('textinput'); var b=[]; for(var m=0;m<a.length;m++){ if(a[m].getAttribute('placeholder')!=null) b.push(a[m]) } var l
S2SH整合之session 灵静志远 spring AOP struts session
错误信息： Caused by: org.springframework.beans.factory.BeanCreationException: Error creating bean with name 'cartService': Scope 'session' is not active for the current thread; consider defining a scoped
xmp标签 a-john 标签
今天在处理数据的显示上遇到一个问题： var html = '<li><div class="pl-nr"><span class="user-name">' + user + '</span>' + text + '</div></li>'; ulComme
Ajax的常用技巧（2）---实现Web页面中的级联菜单 aijuans Ajax
在网络上显示数据，往往只显示数据中的一部分信息，如文章标题，产品名称等。如果浏览器要查看所有信息，只需点击相关链接即可。在web技术中，可以采用级联菜单完成上述操作。根据用户的选择，动态展开，并显示出对应选项子菜单的内容。在传统的web实现方式中，一般是在页面初始化时动态获取到服务端数据库中对应的所有子菜单中的信息，放置到页面中对应的位置，然后再结合CSS层叠样式表动态控制对应子菜单的显示或者隐
天-安-门，好高 atongyeye 情感
我是85后，北漂一族，之前房租1100，因为租房合同到期，再续，房租就要涨150。最近网上新闻，地铁也要涨价。算了一下，涨价之后，每次坐地铁由原来2块变成6块。仅坐地铁费用，一个月就要涨200。内心苦痛。晚上躺在床上一个人想了很久，很久。我生在农
android 动画百合不是茶 android 透明度平移缩放旋转
android的动画有两种 tween动画和Frame动画 tween动画;,透明度,缩放,旋转,平移效果 Animation 动画 AlphaAnimation 渐变透明度 RotateAnimation 画面旋转 ScaleAnimation 渐变尺寸缩放 TranslateAnimation 位置移动 Animation
查看本机网络信息的cmd脚本 bijian1013 cmd
@echo 您的用户名是：%USERDOMAIN%\%username%>"%userprofile%\网络参数.txt" @echo 您的机器名是：%COMPUTERNAME%>>"%userprofile%\网络参数.txt" @echo ___________________>>"%userprofile%\
plsql 清除登录过的用户征客丶 plsql
tools---preferences----logon history---history 把你想要删除的删除 -------------------------------------------------------------------- 若有其他凝问或文中有错误，请及时向我指出，我好及时改正，同时也让我们一起进步。 email ： binary_spac
【Pig一】Pig入门 bit1129 pig
Pig安装 1.下载pig wget http://mirror.bit.edu.cn/apache/pig/pig-0.14.0/pig-0.14.0.tar.gz 2. 解压配置环境变量如果Pig使用Map/Reduce模式，那么需要在环境变量中，配置HADOOP_HOME环境变量 expor
Java 线程同步几种方式 BlueSkator volatile synchronized ThredLocal ReenTranLock Concurrent
为何要使用同步？ java允许多线程并发控制，当多个线程同时操作一个可共享的资源变量时（如数据的增删改查），将会导致数据不准确，相互之间产生冲突，因此加入同步锁以避免在该线程没有完成操作之前，被其他线程的调用，从而保证了该变量的唯一性和准确性。 1.同步方法&
StringUtils判断字符串是否为空的方法（转帖） BreakingBad null StringUtils “”
转帖地址：http://www.cnblogs.com/shangxiaofei/p/4313111.html public static boolean isEmpty(String str) 　　判断某字符串是否为空，为空的标准是 str== null 或 str.length()== 0
编程之美-分层遍历二叉树 bylijinnan java 数据结构算法编程之美
import java.util.ArrayList; import java.util.LinkedList; import java.util.List; public class LevelTraverseBinaryTree { /** * 编程之美分层遍历二叉树 * 之前已经用队列实现过二叉树的层次遍历，但这次要求输出换行，因此要
jquery取值和ajax提交复习记录 chengxuyuancsdn jquery取值 ajax提交
// 取值 // alert($("input[name='username']").val()); // alert($("input[name='password']").val()); // alert($("input[name='sex']:checked").val()); // alert($("
推荐国产工作流引擎嵌入式公式语法解析器-IK Expression comsci java 应用服务器工作 Excel 嵌入式
这个开源软件包是国内的一位高手自行研制开发的，正如他所说的一样，我觉得它可以使一个工作流引擎上一个台阶。。。。。。欢迎大家使用，并提出意见和建议。。。 ----------转帖--------------------------------------------------- IK Expression是一个开源的（OpenSource），可扩展的（Extensible），基于java语言
关于系统中使用多个PropertyPlaceholderConfigurer的配置及PropertyOverrideConfigurer daizj spring
1、PropertyPlaceholderConfigurer Spring中PropertyPlaceholderConfigurer这个类，它是用来解析Java Properties属性文件值，并提供在spring配置期间替换使用属性值。接下来让我们逐渐的深入其配置。基本的使用方法是：(1) <bean id="propertyConfigurerForWZ&q
二叉树:二叉搜索树 dieslrae 二叉树
所谓二叉树,就是一个节点最多只能有两个子节点,而二叉搜索树就是一个经典并简单的二叉树.规则是一个节点的左子节点一定比自己小,右子节点一定大于等于自己(当然也可以反过来).在树基本平衡的时候插入,搜索和删除速度都很快,时间复杂度为O(logN).但是,如果插入的是有序的数据,那效率就会变成O(N),在这个时候,树其实变成了一个链表. tree代码:
C语言字符串函数大全 dcj3sjt126com c function
C语言字符串函数大全函数名: stpcpy 功能: 拷贝一个字符串到另一个用法: char *stpcpy(char *destin, char *source); 程序例: #include <stdio.h> #include <string.h> int main
友盟统计页面技巧 dcj3sjt126com 技巧
在基类调用就可以了, 基类ViewController示例代码 -(void)viewWillAppear:(BOOL)animated { [super viewWillAppear:animated]; [MobClick beginLogPageView:[NSString stringWithFormat:@"%@",self.class]];
window下在同一台机器上安装多个版本jdk，修改环境变量不生效问题处理办法 flyvszhb java jdk
window下在同一台机器上安装多个版本jdk，修改环境变量不生效问题处理办法本机已经安装了jdk1.7，而比较早期的项目需要依赖jdk1.6，于是同时在本机安装了jdk1.6和jdk1.7. 安装jdk1.6前，执行java -version得到 C:\Users\liuxiang2>java -version java version "1.7.0_21&quo
Java在创建子类对象的同时会不会创建父类对象 happyqing java 创建子类对象父类对象
1.在thingking in java 的第四版第六章中明确的说了，子类对象中封装了父类对象， 2."When you create an object of the derived class, it contains within it a subobject of the base class. This subobject is the sam
跟我学spring3 目录贴及电子书下载 jinnianshilongnian spring
一、《跟我学spring3》电子书下载地址：《跟我学spring3》（1-7 和 8-13） http://jinnianshilongnian.iteye.com/blog/pdf 跟我学spring3系列 word原版下载二、源代码下载最新依
第12章 Ajax（上） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
BI and EIM 4.0 at a glance blueoxygen BO
http://www.sap.com/corporate-en/press.epx?PressID=14787 有机会研究下EIM家族的两个新产品~~~~ New features of the 4.0 releases of BI and EIM solutions include: Real-time in-memory computing –
Java线程中yield与join方法的区别 tomcat_oracle java
长期以来，多线程问题颇为受到面试官的青睐。虽然我个人认为我们当中很少有人能真正获得机会开发复杂的多线程应用(在过去的七年中，我得到了一个机会)，但是理解多线程对增加你的信心很有用。之前，我讨论了一个wait()和sleep()方法区别的问题，这一次，我将会讨论join()和yield()方法的区别。坦白的说，实际上我并没有用过其中任何一个方法，所以，如果你感觉有不恰当的地方，请提出讨论。 &nb
android Manifest.xml选项阿尔萨斯 Manifest
结构继承关系 public final class Manifest extends Objectjava.lang.Objectandroid.Manifest 内部类 class Manifest.permission权限 class Manifest.permission_group权限组构造函数 public Manifest () 详细 androi
Oracle实现类split函数的方 zhaoshijie oracle
关键字：Oracle实现类split函数的方项目里需要保存结构数据，批量传到后他进行保存，为了减小数据量，子集拼装的格式，使用存储过程进行保存。保存的过程中需要对数据解析。但是oracle没有Java中split类似的函数。从网上找了一个，也补全了一下。 CREATE OR REPLACE TYPE t_split_100 IS TABLE OF VARCHAR2(100); cr