观熵

地平线旭日系列芯片 AI 架构与 SoC 分层结构建模实战：从 BPU 架构解析到嵌入式部署全流程

关键词

地平线旭日芯片、BPU 架构、嵌入式 SoC、AI 加速器、模型部署、智能驾驶、Matrix RTL、Tensor 移动单元、Runtime 调度、AI 分层建模

摘要

地平线旭日（Sunrise）系列 AI SoC 是国产嵌入式视觉智能芯片的重要代表，广泛应用于智能驾驶座舱、ADAS 视觉前端、机器人感知等高性能 AI 场景。其核心 BPU（Brain Processing Unit）架构具备高吞吐、低功耗、深度可编程等特性，通过与 ARM CPU、ISP、视频引擎等模块深度集成，实现多任务 AI 感知闭环。本文围绕旭日系列芯片（如旭日 2、旭日 3）从 SoC 构成、BPU 微架构、模型部署、分层资源映射与运行时优化等方面进行系统实战解析。重点覆盖 Horizon Matrix 开发平台、模型编译链 Horizon Robotic Open Explorer（HRoE）、AI 模型与硬件的高效映射策略，帮助工程人员构建端到端高性能 AI 部署系统。

地平线旭日系列 SoC 架构总览：多核融合与 AI 感知引擎集成
BPU（Brain Processing Unit）核心架构解析：计算单元、张量路径与执行单元设计
SoC 分层建模体系设计：从硬件资源到模型算子调度的抽象映射机制
Matrix Runtime 架构与模型执行流程全解析
模型编译工具链实战：BPU Kernel 构建与 Horizon HRoE 编译路径
Tensor 移动路径与内存调度优化策略：带宽感知与区域复用机制
多模型协同推理与 BPU 并发执行策略
Horizon SDK 在嵌入式系统中的部署实践（Linux/RTOS）
工程级部署案例分析：旭日 3 在智能座舱视觉感知中的落地路径
面向未来的旭日芯片架构演进方向与 AI 算力调度趋势展望

1. 地平线旭日系列 SoC 架构总览：多核融合与 AI 感知引擎集成

地平线旭日系列芯片定位于“高性能、低功耗、强实时”的边缘 AI 芯片平台，面向智能驾驶、智能座舱、机器人视觉感知等场景。在整体 SoC 结构上，旭日系列融合多核异构处理器、专用视觉感知加速模块、视频编解码子系统、Tensor 高速交换通道与片上深度神经网络加速器（BPU）等核心组件。

1.1 SoC 系统结构图构成要素

以旭日 3（Sunrise 3）为例，其 SoC 架构主要由以下模块组成：

双核 ARM Cortex-A55：负责系统控制、任务调度与轻量计算；
BPU（Brain Processing Unit）×2：主力 AI 加速核心，支持并行推理与模型级切换；
ISP（Image Signal Processor）：处理 MIPI/RAW 图像信号，输出 RGB/灰度张量；
VPU（Video Processing Unit）：支持 H.264/H.265 硬件编解码，可接入双路视频；
NOC（Network on Chip）与 Tensor Switch：负责片上张量流转与任务分发；
DDR4/LPDDR4X Memory Controller：统一管控片外内存数据调度；
Hobot Secure Boot Engine：用于 SoC 启动认证、安全密钥验证；
Power Domain Manager：各模块按需动态电源管理。

旭日系列提供单芯片封装方案，便于轻量化模组部署，适配性强，尤其适合中高端智能座舱与高性价比边缘感知设备。

1.2 模块间通信与调度机制

在旭日芯片中，BPU 与 CPU、ISP、VPU 之间通过片上通信互联（内部 NOC + AXI 总线 + 中断桥接）实现协同工作：

BPU 不与 CPU 共享寄存器空间，通过 Command Queue 下发任务；
所有输入张量需由 CPU 构造 Descriptor 并放入共享内存区，由 DMA 控制器搬运至 BPU；
BPU 推理完成后通过 Ring Buffer 通知 CPU 读取结果；
多个任务通过调度队列与 Slot 进行绑定，系统支持多 Stream 异步并发处理。

1.3 芯片级能效与算力指标

以旭日 3 AI SoC 为例，主要性能指标如下：

指标项	数据参数
AI 算力（INT8）	5.0 TOPS
AI 算力（FP16）	2.5 TFLOPS
最大支持分辨率	双路 1080p@30fps 或单路 4K@30fps
支持模型格式	BPU-optimized IR, ONNX
最大支持模型数	同时驻留运行 8 个模型
峰值功耗	< 3W（整机）

旭日系列在 SoC 层面为端侧部署提供了标准化、低成本、可配置的视觉感知平台，具备完整的计算链路封装能力与国产可控优势。

2. BPU（Brain Processing Unit）核心架构解析：计算单元、张量路径与执行单元设计

BPU 是地平线旭日芯片的 AI 推理核心，由 Horizon 自研的张量加速指令集（Horizon ISA）与可编程张量执行单元组成，专为深度神经网络运算设计，具备高吞吐、低延迟、结构可拓展等特点。

2.1 BPU 架构分层结构

BPU 整体分为五个主要执行模块：

Tensor Loader：接收张量描述信息与实际输入数据，负责对齐、缓存与 DMA 控制；
Matrix Engine：执行 Conv、MatMul、GEMM 等主力算子；
Fusion Unit：用于 BN、ReLU、Add、Mul 等轻量融合算子 inline 执行；
Scheduler：调度多个 Kernel/Layer 指令队列，实现子图级执行并发；
Tensor Writer：将中间结果与输出张量按 layout 写回系统共享内存；

每个 BPU 内部通常包含多个 Tile Engine，支持同一图多个分支并行运行，极大提升可用带宽与资源利用率。

2.2 指令调度与执行流程

BPU 并不执行 Python/Paddle/TensorFlow 层级的图，而是执行由 HRoE 编译器生成的张量执行指令链（Tensor Execution Plan）：

模型编译时由 HRoE 编译器生成带有 OP Fusion 和 Tiling 的子图；
每个子图会生成一段指令序列（即所谓的 BPU Kernel）；
调度器接收来自 CPU 的推理任务描述（包含输入张量地址、尺寸、batch size 等）；
BPU 内部将指令序列加载至 Kernel Buffer，执行完毕后触发中断通知 Host；
Host 从 Output Descriptor 中读取结果 tensor。

整个过程为全异步流水线操作，支持多个子图串联与并发并行。

2.3 张量路径与访存优化机制

BPU 中张量数据流分为以下几类路径：

输入张量路径：由 DRAM 加载至 BPU SRAM；
中间张量路径：保留在 Tile Buffer 中做跨层读写；
输出张量路径：从 SRAM 回写至 DDR，通过 CacheCoherent DMA 管理；
Control Path：由 CPU 下发 Descriptor，包括 Batch 数、Tensor ID、Shape、Layout 等。

张量通路被封装为 Tensor Descriptor Block，运行时支持快速转发与 Layout 转换。访问对齐方式支持：

64B 对齐（适用于常规卷积）；
Tile + Line 内存布局（适用于残差结构）；
Channel-Packed/Planar 格式自动适配（由 HRoE 推理识别）。

2.4 工程建议与开发注意事项

模型结构建议最大限度合并 BN/ReLU/Reshape 等轻量层，增强子图融合比；
模型中不建议使用动态 shape，推理阶段必须提供明确尺寸；
张量布局建议固定为 NCHW，减少 BPU layout convert 开销；
每路输入张量必须在 CPU 端通过 DMA 安全方式预加载；
推理任务尽可能 batch 合并，在 BPU 中可显著降低 per-inference latency。

BPU 架构设计聚焦端侧性能与算力效率，配合 Horizon 编译工具链与调度系统，可实现高并发、多模型、低功耗 AI 推理闭环，后续章节将结合 SoC 分层建模体系展开具体分析。

3. SoC 分层建模体系设计：从硬件资源到模型算子调度的抽象映射机制

地平线旭日系列 SoC 在硬件设计层面采用了典型的异构分层架构。为了提升模型部署灵活性与系统执行效率，Horizon 提出了系统级“软硬件映射一体化”的分层建模体系。该建模体系通过将硬件资源建模抽象为功能层（Functional Layer）、执行层（Execution Layer）与控制层（Control Layer），实现神经网络模型结构到底层资源的映射闭环。

3.1 SoC 分层结构划分原则

系统层面可划分如下三层：

控制层（Control Layer）
包括 CPU、系统总线、Scheduler 管理器，负责整体资源调度、任务下发、状态反馈等；
执行层（Execution Layer）
主要包括 BPU、VPU、Tensor Scheduler、Tile Buffer 管理器等，是模型执行核心；
功能层（Functional Layer）
对应具体 AI 功能模块，例如 ISP 图像预处理、模型 A/B/C 的 OP Fusion 部分、编码器子图等。

将各层解耦后，模型部署时不再关注物理资源如何划分，而是通过统一的资源接口进行张量描述与调度规则注册。

3.2 模型与资源映射策略

在 Horizon 工程实践中，模型算子会被映射为中间执行图（Intermediate Tensor DAG），每个算子节点携带如下属性：

所属模型编号；
执行优先级；
对应资源类型（如 BPU0、BPU1 或 VPU）；
内存预算（MB）；
延迟权重（Latency Weight）；
是否为常驻模型（Pinned）。

Scheduler 根据上述属性生成张量路由图和执行路径列表。

映射机制流程：

分析模型结构 → 子图划分（Fusion）；
子图进行 Operator Binding（绑定 BPU kernel）；
分配执行层资源池（Resource Pool）；
映射内存块、加载输入张量；
下发至 BPU，控制层接管调度权；
反馈完成，执行 output 写回。

3.3 分层映射优化策略

多模型共享 Fusion Unit / Tensor Cache 时，需控制张量写入时间窗口，防止 Cache Thrash；
对于内存占用高的子图，可采用 Offload 至 DDR 的 Swap 策略；
启用延迟感知调度（Latency-aware Queue），确保响应型模型优先执行；
复杂图结构建议重构为多子图分布执行，提升指令并行度与 IPU 吞吐。

3.4 工程实现建议

在模型编译阶段显式设置 Operator 绑定标记（如 layer_x → BPU1）；
使用资源映射表（Resource Map）提前构建 task → IPU 分布策略；
对多路视频并发任务建议采用双 BPU 对应双模型隔离部署；
开启带宽感知配置项，避免模型共用 IO 通道导致冲突。

分层建模体系有效解耦了算法与底层执行资源之间的耦合，提升了模型部署灵活性与系统运行时调度的可控性，是支撑旭日 SoC 多模型协同执行与复杂任务感知闭环的基础。

4. Matrix Runtime 架构与模型执行流程全解析

Matrix Runtime 是地平线为 BPU 执行环境专门设计的推理运行时系统，构建在 CNNDK（Cambricon Neural Network DevKit）接口与异构 SoC 架构之上，负责模型生命周期管理、张量创建与释放、子图调度、异步执行与结果同步等任务，是连接应用与底层 BPU 的核心执行引擎。

4.1 Matrix Runtime 模块构成

Matrix Runtime 架构如下所示：

Model Manager：负责加载 .bin 格式模型文件，解析为 Runtime 结构体；
Tensor Manager：为输入、输出、中间节点创建张量描述符与内存区域；
Graph Scheduler：负责子图（Subgraph）调度，包含优先级、资源映射、融合路径；
Execution Unit：执行每个子图的 Kernel 序列，调度 BPU 执行单元；
Result Synchronizer：任务完成后负责通知主线程进行数据读回；
Device API Binding：完成与 BPU 驱动的通信，包括 IOCTL 调用、共享内存映射等。

4.2 模型加载流程

完整加载流程如下：

应用通过 API 加载编译好的模型文件（如 yolov5.bin）；
Runtime 解析模型图结构与张量尺寸，构造子图任务池；
预分配 Tensor 输入输出内存块（或由用户传入）；
为每个子图生成 Execution Plan，绑定对应 BPU 编号；
准备就绪后通知 Runtime 进入执行阶段。

4.3 执行流程细节

执行阶段分为同步与异步两种调用方式：

同步方式（简单场景推荐）

matrix_run_sync(model_handle, input_tensor, output_tensor);

一次调用完成张量下发、执行、结果拉回；
阻塞当前线程直至推理完成；
执行流程可控、调试方便。

异步方式（多线程 + 多模型推荐）

matrix_run_async(model_handle, input_tensor, output_tensor, callback_fn);

推理过程异步入队；
支持并发调度与回调注册；
更适用于流媒体、视频帧实时推理场景。

4.4 异常处理与调度保障

Matrix Runtime 内置错误处理模块，涵盖：

内存分配失败（MEM_ALLOC_FAIL）；
执行计划构建失败（PLAN_BUILD_ERROR）；
BPU 执行异常（KERNEL_EXEC_TIMEOUT）；
中断超时未响应（WAIT_INTERRUPT_TIMEOUT）；

调度策略支持：

静态优先级绑定；
动态延迟感知调度；
推理 QoS 管理（高优模型占用预留资源）；
超时回收机制。

4.5 工程集成建议

所有模型加载完成后统一构建执行计划池，避免运行时图重构；
对于动态场景，使用内置 Tensor Arena 管理张量复用策略；
异常捕获后建议立即进行 matrix_reset()，避免任务堆积；
所有模型运行入口建议统一封装为线程池，提升 CPU 利用率；
可配合 Horizon Profiler 工具进行节点级别性能分析与调度链优化。

Matrix Runtime 是连接高层模型调用与底层 BPU 执行资源的关键桥梁，提供了成熟、灵活、稳定的推理管理能力，为地平线旭日系列芯片实现复杂 AI 应用提供了高质量的运行时基础设施保障。

5. 模型编译工具链实战：BPU Kernel 构建与 Horizon HRoE 编译路径

地平线提供了一套完整的模型编译工具链——HRoE（Horizon Robotics Open Explorer），该工具链支持从主流训练框架导出模型、静态图分析与优化、子图划分与融合、BPU 指令编译到最终 .bin 模型生成的全过程。HRoE 是旭日系列 BPU 的官方支持编译路径，是系统部署工程中最关键的环节之一。

5.1 支持的原始模型格式

HRoE 支持多种主流框架模型的转换与适配：

框架	支持情况	推荐路径
PyTorch	✅ 完整支持	`torch.onnx.export()` → ONNX
TensorFlow	✅ 主要支持 TF1.x	`.pb` → ONNX → HRoE
ONNX	✅ 强推荐	直接支持
PaddlePaddle	⚠️ 部分支持	建议先转 ONNX

原始模型统一转为 ONNX 格式后，交由 HRoE 进行结构化分析与中间表示生成。

5.2 模型转换与结构优化

第一阶段为模型结构转换与静态优化，使用 hr_convert_tool 命令行工具：

hr_convert_tool \
  --model-type onnx \
  --model-path yolov5.onnx \
  --output-model yolov5_output.json \
  --output-data yolov5_output.data \
  --input-shape '[1,3,640,640]' \
  --optimize_level O2

输出的 .json + .data 文件为模型结构描述与权重数据。

常见结构优化包括：

子图融合（Conv+BN+Relu）；
Layout 转换（NCHW → BPU Layout）；
数值精度裁剪（FP32 → FP16/INT8）；
非支持算子的重构（如将 custom layer 重写为标准结构）。

5.3 子图划分与 BPU Kernel 编译

第二阶段使用 hr_build_model 编译成 BPU 可执行的 .bin 文件：

hr_build_model \
  --input-model yolov5_output.json \
  --input-data yolov5_output.data \
  --output-model yolov5.bin \
  --platform Sunrise3 \
  --bpu-precision int8 \
  --calibration-data ./calib_images/ \
  --quantization-type symmetric

此阶段将：

将中间模型图划分为若干子图（Subgraph）；
每个子图生成对应的 BPU Kernel；
对所有张量进行离线量化，生成量化参数；
绑定执行计划并输出可部署模型。

量化策略：

类型	描述
symmetric	推荐用于 INT8 精度，简化乘加路径
asymmetric	支持更宽泛输入范围，但执行较慢
per-layer	每层使用一个 scale，兼容性更强
per-channel	精度更高，适用于高动态输入模型

5.4 常见错误与调试技巧

报错类型	原因及处理建议
op not supported	模型中包含 BPU 不支持算子，需转换或删除
quantization mismatch	校准数据量不足或数据分布与推理阶段不符
shape dynamic not allowed	输入尺寸未固定，需设置 `--input-shape` 明确大小
memory overflow in tile cut	子图切分导致中间张量过大，应开启 fuse 降维优化

建议启用调试输出：

--debug-level 3 --dump-intermediate true

可在 ./model_dump 中看到完整图结构、每层参数与中间 tensor 内容，便于逐步调试分析。

5.5 工程集成建议

模型结构应尽量保持简洁，避免分支过多与动态结构；
Batch size 建议固定（如 1 或 4），BPU 编译器对静态 Batch 支持更佳；
模型中若使用自定义前处理，推荐单独实现 CPU 端预处理逻辑；
每次编译建议保留完整 log 与 model_dump 文件，便于 CI/CD 回溯问题；
对于复杂多模型部署，可在编译阶段合并多个模型为 Multi-IR 格式。

通过 HRoE 工具链的结构分析、图优化与 BPU 指令编译能力，开发者可以将主流 AI 模型以最小代价快速适配到地平线旭日系列芯片，形成高效、稳定、结构闭环的部署模型体系。

6. Tensor 移动路径与内存调度优化策略：带宽感知与区域复用机制

在旭日系列 SoC 内部，BPU、CPU、DDR、VPU、ISP 等多个模块之间通过片上互联网络（NoC）进行数据交互。AI 推理阶段涉及大量张量传输，如何合理组织 Tensor 的移动路径、减少数据搬运带宽开销，是影响系统性能的核心因素之一。

6.1 张量生命周期分析与内存分区模型

每个张量在编译时都被标记以下生命周期阶段：

Input Load：从 DDR → SRAM；
Intermediate Use：在 Tile Buffer 中读写；
Output Store：从 SRAM → DDR；
Control Usage：仅作为指令传参存在。

Tensor 描述结构包含：

{
  "name": "input_tensor",
  "shape": [1, 3, 640, 640],
  "layout": "NCHW",
  "dtype": "int8",
  "memory_scope": "sram",
  "reusable": true,
  "life_span": [0, 14]
}

BPU 在编译阶段根据张量的生命周期生成 Memory Time Chart，用于后续的地址分配与冲突规避。

6.2 带宽感知移动策略

旭日芯片内部采用带宽感知调度模块（Bandwidth Aware Transfer Control），具备以下能力：

分析 Tensor 移动路径中总线使用密度；
动态调整搬运顺序，错峰执行数据传输；
多路张量打包搬运（Multi-Stream DMA）；
通道优先级调度（如 input 优于 intermediate）；

具体实现：

将不同生命周期张量分配至不同 SRAM 区域（Fast Buffer, Line Buffer）；
对于 Residual 等重用张量使用 Memory Reuse Pool；
在推理流水线中插入预取与延迟回写指令，打通计算与数据搬运的 Pipeline。

6.3 Tensor Reuse 策略

Horizon 提供自动张量重用机制，核心规则：

Tensor shape、dtype、layout 完全一致；
生命周期互斥；
不跨 Batch 使用；
不参与中间缓存转储。

通过 reuse，内存占用可下降 30%~45%，特别适合小模型或高并发任务。

开启方式：

--enable-tensor-reuse true

6.4 常见问题与规避方案

问题类型	原因分析	解决策略
Tensor overlap conflict	两个张量生命周期重叠未标识	修正模型结构，开启 reuse 检测
SRAM access stall	张量搬运与计算指令未解耦	引入 async DMA + cache preload 指令
Layout mismatch	模型 layout 与 BPU layout 不兼容	编译前统一转换为 NCHW + Packed 结构
IO 带宽瓶颈	多 Batch 张量冲突，外存读写频繁	降低 batch，或开启 Tile 内部中转缓存

6.5 工程建议与调优思路

模型设计阶段考虑 layout、分辨率、通道数对内存访问影响；
使用 hr_analyze_memory 工具查看张量在时间轴上的冲突密度；
对视频流输入模型，建议合并张量结构并预处理后统一搬运；
对于多模型部署，建议隔离各模型张量池，降低复用冲突概率；
所有 Tensor Layout 应尽量避免动态变换结构，否则将引入额外 buffer。

通过对 Tensor 生命周期建模、移动路径优化、内存 reuse 策略的结合使用，可显著降低 BPU 推理过程中的搬运开销与内存负载，提升整体 AI 系统的执行效率与功耗表现。

7. 多模型协同推理与 BPU 并发执行策略

地平线旭日系列芯片在实际应用中常需同时运行多个模型以支持复杂感知任务（如多摄像头、分工模型、多路识别）。为了充分释放片上 BPU 的执行能力，Runtime 提供了多模型并发执行框架与 BPU Task 调度体系。该体系支持子图级并发调度、优先级控制、核间负载平衡，帮助开发者构建稳定高效的推理服务。

7.1 多模型部署场景分类

场景类型	特点说明
同步切换型模型	多模型轮询使用，互不重叠，如人脸识别 + OCR
并发异构模型	多线程独立运行，输入输出张量互不干扰
同模型多实例	同一模型接收不同来源数据（如多摄像头并发）
主辅模型结构	主模型输出作为辅模型输入（如检测+分类串联）

旭日 BPU 支持任意组合模型结构的并行执行，但需要合理设计资源分配与调度策略。

7.2 BPU 执行 Slot 与调度机制

BPU 的硬件资源被抽象为可调度 Slot，运行时系统按以下方式进行任务分发：

每个模型的子图编译后被映射为一组 BPU Kernel；
Kernel 执行计划（Plan）在调度时绑定至空闲 Slot；
Slot 可按模型优先级、线程调度顺序分配；
支持 Slot 回收机制，执行完成后立即释放，供下一个子图复用。

配置方式（伪代码）：

matrix_runtime_config_t config;
config.priority = 2;
config.affinity_mask = 0b11; // 绑定 BPU0 和 BPU1
matrix_set_model_config(model_handle, &config);

7.3 并发策略与场景优化

多线程分发架构

每个模型分配独立线程，避免主线程阻塞；
使用异步推理接口 matrix_run_async() 配合 callback 回调机制；
使用线程池复用资源，避免频繁创建销毁开销。

并发张量输入策略

所有张量需预分配并绑定上下文（Tensor Binding）；
各线程间张量池必须隔离，避免地址覆盖；
可采用 MLU-style Tensor Arena 进行张量生命周期管理。

BPU 资源隔离与动态切换

高优先级模型固定绑定某一核，低优模型动态调度；
对于 Batch 延迟模型，采用延迟容忍策略合并输入；
每个模型执行完成后调用 matrix_release_slot() 明确释放资源。

7.4 实践建议

所有模型应在启动阶段预编译并常驻内存，避免动态加载延迟；
对推理结果无强实时要求的模型（如属性分类）可降低优先级；
若需模型热切换，建议使用版本化模型队列进行资源更新；
调度器支持多模型下的资源利用统计，可借助 matrix_profiler 工具采样；
使用日志观察是否存在某模型长时间占用某 Slot，应调整推理耗时或缩小 batch。

多模型协同机制结合 BPU 硬件级 Slot 并发能力，配合合理的调度策略，可以在边缘平台上构建近似“多线程 AI 虚拟机”的推理执行环境，极大提升感知系统整体吞吐与响应能力。

8. Horizon SDK 在嵌入式系统中的部署实践（Linux/RTOS）

旭日系列芯片支持完整的 Horizon AI SDK（Matrix + NN Runtime + BPU Driver + 工具链），可部署在基于 Linux 或 RTOS 的嵌入式系统中。其部署过程涉及驱动加载、运行库集成、模型文件部署、任务调度与系统服务适配等步骤，是边缘智能系统落地的核心技术路径。

8.1 SDK 部署组件构成

Horizon AI SDK 包括以下核心模块：

模块名称	功能说明
libmatrix.so	推理引擎运行库，负责模型加载与执行
libhbrt.so	BPU 硬件抽象层 Runtime
libbpu_driver.so	与内核态驱动通信的用户态接口
libisp / libvenc	图像处理与视频编码库（选配）
bin 工具链	模型转换、性能分析、编译支持工具
header 文件	Matrix Runtime 与 Tensor 接口定义

SDK 分为 host_package（开发机交叉编译使用）与 target_package（设备端部署使用）两部分，二者需版本保持一致。

8.2 Linux 系统集成流程

以 Ubuntu/CentOS 为例，设备端部署流程如下：

驱动加载

insmod bpu_driver.ko
insmod bpu_sram.ko

设备节点验证：

ls /dev/hb-bpu0 /dev/hb-sram0

运行库部署

将 SDK lib 和 model 拷贝至设备 /usr/lib 与 /opt/models 目录下，确保动态库路径配置正确。

权限配置

为设备节点与资源目录分配访问权限：

chmod 666 /dev/hb-*
chown aiuser /opt/models/*

系统服务集成

将推理服务以 daemon 或系统 service 启动，可注册为 systemd 服务单元：

[Unit]
Description=Horizon Matrix Inference Service

[Service]
ExecStart=/usr/bin/inference_server
Restart=always

[Install]
WantedBy=multi-user.target

8.3 RTOS 或微型系统部署路径

对于 FreeRTOS、RT-Thread 等微型系统平台，SDK 提供轻量级裁剪版本：

提供静态链接版本 libmatrix.a、libbpu.a；
支持裸机加载模型后启动 task 异步执行；
所有张量需手动分配内存并通过接口注册；
不支持多模型管理与动态加载，适用于固定任务部署。

部署建议：

所有内存区域需通过静态分区提前分配；
推理过程由中断驱动或轮询方式控制；
建议将模型编译为只读 flash 区，避免重写损耗；
所有接口调用前均需手动初始化 stack 与 task 状态。

8.4 工程实践建议

所有推理程序建议使用 watchdog 防止执行超时；
模型文件版本需严格匹配 SDK 编译版本；
多线程模型访问建议使用互斥锁保证资源安全；
对于自动重启场景，需关闭 BPU power save 模式，避免初始化失败；
推荐使用 hbprofiler 工具定期采样推理时间、帧率与出错率。

旭日平台提供了完整 SDK 支持，开发者可快速构建从驱动初始化、模型部署到服务调度的系统落地路径。通过结合 Matrix Runtime 能力与嵌入式系统设计方法，可以高效实现工业级、稳定性强、可长期运行的 AI 终端应用。

9. 工程级部署案例分析：旭日 3 在智能座舱视觉感知中的落地路径

地平线旭日 3 芯片在智能座舱场景下得到了广泛应用，主要承载 DMS（驾驶员监测系统）、OMS（乘客监测系统）、多路摄像头感知处理等任务。其多 BPU 并发推理能力与 SoC 级视频处理模块，在保证 AI 推理性能的同时，也兼顾功耗控制与系统响应稳定性。以下为某前装座舱项目的部署实战解析。

9.1 系统硬件平台配置

模块	参数配置
主控 SoC	Horizon Sunrise 3（旭日3）
CPU 架构	双核 Cortex-A55 @1.4GHz
AI 加速器	双 BPU（INT8）@5 TOPS
摄像头接口	MIPI-CSI × 3，接入车内 RGB 与 IR 摄像头
存储与内存	4GB LPDDR4 + 16GB eMMC
操作系统	Linux 5.10 + Yocto（AARCH64）
外设控制	CAN × 1, LIN × 2, UART × 4

9.2 部署模型与功能拆解

系统共部署了 4 个模型，并基于任务类型进行合理分配：

DMS 模型（人脸关键点 + 闭眼/打哈欠检测）
- 模型结构：ResNet-BN 主干 + 单输出头
- 输入分辨率：1280×720
- 推理频率：10fps
- 部署方式：常驻于 BPU0
OMS 模型（乘客数量检测 + 姿态识别）
- 模型结构：YOLOv5-lite + 全连接分类器
- 输入分辨率：640×480
- 推理频率：5fps
- 部署方式：驻留于 BPU1
Face ID 模型（人脸特征向量提取）
- 模型结构：MobileFaceNet
- 部署方式：按需加载，单推理
行为识别模型（单通道 3s 行为序列 CNN）
- 模型结构：1D CNN + GRU
- 推理频率：每5s一次，触发式

模型全部通过 HRoE 工具链编译为 .bin 格式，并在设备启动阶段由 Matrix Runtime 初始化加载至内存。

9.3 运行时调度策略设计

BPU0 长驻任务：DMS 模型，绑定高优先级、线程 affinity 固定；
BPU1 混合任务：OMS + 行为识别，采用 round-robin 调度；
所有模型在执行前统一由 CPU 提交任务描述符至 Scheduler；
动态模型（Face ID）采用热加载机制，任务完成后释放 memory pool。

并配合调度资源隔离：

matrix_config_t dms_cfg = {
  .priority = 3,
  .affinity_mask = 0b01,  // BPU0
};
matrix_set_model_config(dms_model, &dms_cfg);

系统采用 4 个推理线程 + 2 个资源复用线程构建了完整的感知执行池，确保车内所有输入信号可在 200ms 内完成处理与融合决策。

9.4 性能表现与实际评估

指标项	数据表现
平均帧处理延迟	88ms（DMS）/ 103ms（OMS）
设备平均功耗	3.2W（全负载）
BPU 占用率	BPU0：60~~72%；BPU1：35~~58%
日志级异常率	< 0.1%，主要集中于张量尺寸不匹配
启动后模型加载耗时	238ms
峰值资源使用	DDR 使用 67%，Flash 使用 42%，CPU 使用 <40%

9.5 工程落地总结

推荐将任务划分为驻留型（高频）与调度型（低频）以构建资源调度优先级；
多模型同时运行时，需开启 Tensor Arena 机制以减少重复内存占用；
可通过 hbprofiler 建立 BPU 使用趋势图，辅助系统稳定性调参；
所有模型需预定义推理通路结构，避免执行路径 runtime 构建；
日常 OTA 升级建议仅更新 .bin 模型文件，不替换完整 runtime。

该工程部署实践充分利用了旭日 SoC 的硬件调度能力与软件执行策略，在不借助外部 GPU 或主控 AI 芯片的前提下，完成了座舱核心感知任务的全部落地。

10. 面向未来的旭日芯片架构演进方向与 AI 算力调度趋势展望

伴随智能汽车、边缘机器人、工业视觉等应用场景的算力密度持续增长，地平线旭日芯片体系正朝向更强大的异构协同、动态调度与云端协同推理方向发展。本文结合 2025 年已公开信息，总结旭日系列芯片的未来演进方向与核心优化趋势。

10.1 硬件层级的演进方向

1）双核 BPU + 高密度 Tile 架构

下一代旭日 4 将采用双 Tile Block 模式，每个 Block 内含独立指令调度器与 SRAM Cache，支持更复杂子图并发与跨子图调度。

2）统一内存模型（Unified Memory Mapping）

从传统 CPU/BPU/VPU 独立 memory controller 演进为统一的 Tensor Memory Bank，由中央 Memory Mapper 管理访问区域与生命周期。

3）算力精度自适应架构（Mixed Precision Core）

芯片支持在运行时动态切换 INT8 / INT4 / FP16 精度，BPU 支持混合编译模式（Mixed Graph Execution），可降低功耗同时提升吞吐。

10.2 软件栈与部署能力趋势

图编译融合增强：支持子图内动态切换 layout 与精度，提供在线 AutoFuse 能力；
Runtime Scheduler 自进化：通过运行时反馈采样（BPU stall、Tensor reuse）自动调整调度路径；
轻量推理栈裁剪优化：面向 RTOS 提供无锁异步调度模块，适配工业场景；
标准化中间表示接口（IR）：未来 SDK 将支持 OpenVINO IR 与 MLIR 结构输入；
云端调度协同：配合地平线 HBFusion 工具支持端侧图裁剪、云侧任务合并策略。

10.3 工程建议与开发趋势

模型开发阶段应考虑 Mixed Graph 架构支持，标注精度等级；
推理链路建议支持动态调度策略注册能力，如 frame-based 或 latency-based；
多设备部署时建议统一抽象设备描述文件（Device Description JSON）管理资源；
推荐在 SDK 部署框架中内嵌监控点，包括温控阈值、调度饱和度、内存池耗尽率等指标；
开发流程应构建完整 OTA 与远程图优化链路，提升生命周期内系统进化能力。

未来的旭日 SoC 将不再仅仅是“一个嵌入式 AI 推理芯片”，而是构成车规级、工业级智能系统中灵活协同、智能调度、自适应优化的核心处理器。开发者在工程实践中应构建面向调度架构的设计理念与模型部署逻辑，抓住硬件演进赋能的机会，实现更大规模、更高密度、更低延迟的边缘 AI 系统。

个人简介

作者简介：全栈研发，具备端到端系统落地能力，专注人工智能领域。
个人主页：观熵
个人邮箱：[email protected]
座右铭：愿科技之光，不止照亮智能，也照亮人心！

专栏导航

观熵系列专栏导航：
AI前沿探索：从大模型进化、多模态交互、AIGC内容生成，到AI在行业中的落地应用，我们将深入剖析最前沿的AI技术，分享实用的开发经验，并探讨AI未来的发展趋势
AI开源框架实战：面向 AI 工程师的大模型框架实战指南，覆盖训练、推理、部署与评估的全链路最佳实践
计算机视觉：聚焦计算机视觉前沿技术，涵盖图像识别、目标检测、自动驾驶、医疗影像等领域的最新进展和应用案例
国产大模型部署实战：持续更新的国产开源大模型部署实战教程，覆盖从模型选型 → 环境配置 → 本地推理 → API封装 → 高性能部署 → 多模型管理的完整全流程
Agentic AI架构实战全流程：一站式掌握 Agentic AI 架构构建核心路径：从协议到调度，从推理到执行，完整复刻企业级多智能体系统落地方案！
云原生应用托管与大模型融合实战指南
智能数据挖掘工程实践
Kubernetes × AI工程实战
TensorFlow 全栈实战：从建模到部署：覆盖模型构建、训练优化、跨平台部署与工程交付，帮助开发者掌握从原型到上线的完整 AI 开发流程
PyTorch 全栈实战专栏： PyTorch 框架的全栈实战应用，涵盖从模型训练、优化、部署到维护的完整流程
深入理解 TensorRT：深入解析 TensorRT 的核心机制与部署实践，助力构建高性能 AI 推理系统
Megatron-LM 实战笔记：聚焦于 Megatron-LM 框架的实战应用，涵盖从预训练、微调到部署的全流程
AI Agent：系统学习并亲手构建一个完整的 AI Agent 系统，从基础理论、算法实战、框架应用，到私有部署、多端集成
DeepSeek 实战与解析：聚焦 DeepSeek 系列模型原理解析与实战应用，涵盖部署、推理、微调与多场景集成，助你高效上手国产大模型
端侧大模型：聚焦大模型在移动设备上的部署与优化，探索端侧智能的实现路径
行业大模型 · 数据全流程指南：大模型预训练数据的设计、采集、清洗与合规治理，聚焦行业场景，从需求定义到数据闭环，帮助您构建专属的智能数据基座
机器人研发全栈进阶指南：从ROS到AI智能控制：机器人系统架构、感知建图、路径规划、控制系统、AI智能决策、系统集成等核心能力模块
人工智能下的网络安全：通过实战案例和系统化方法，帮助开发者和安全工程师识别风险、构建防御机制，确保 AI 系统的稳定与安全
智能 DevOps 工厂：AI 驱动的持续交付实践：构建以 AI 为核心的智能 DevOps 平台，涵盖从 CI/CD 流水线、AIOps、MLOps 到 DevSecOps 的全流程实践。
C++学习笔记？：聚焦于现代 C++ 编程的核心概念与实践，涵盖 STL 源码剖析、内存管理、模板元编程等关键技术
AI × Quant 系统化落地实战：从数据、策略到实盘，打造全栈智能量化交易系统
大模型运营专家的Prompt修炼之路：本专栏聚焦开发 / 测试人员的实际转型路径，基于 OpenAI、DeepSeek、抖音等真实资料，拆解从入门到专业落地的关键主题，涵盖 Prompt 编写范式、结构输出控制、模型行为评估、系统接入与 DevOps 管理。每一篇都不讲概念空话，只做实战经验沉淀，让你一步步成为真正的模型运营专家。

如果本文对你有帮助，欢迎三连支持！

点个赞，给我一些反馈动力
⭐ 收藏起来，方便之后复习查阅
关注我，后续还有更多实战内容持续更新

你可能感兴趣的:(国产,NPU,×,Android,推理优化,人工智能,架构)

x86-64汇编语言训练程序与实战十除以十等于一
本文还有配套的精品资源，点击获取简介：汇编语言是一种低级语言，与机器代码紧密相关，特别适用于编写系统级代码及性能要求高的应用。nasm编译器是针对x86和x86-64架构的汇编语言编译器，支持多种语法风格和指令集。项目Euler提供数学和计算机科学问题，鼓励编程技巧应用，前100个问题的答案可共享。x86-64架构扩展了寄存器数量并引入新指令，提升了数据处理效率。学习汇编语言能够深入理解计算机底层
移动端城市区县二级联动选择功能实现包 good2know
本文还有配套的精品资源，点击获取简介：本项目是一套为移动端设计的jQuery实现方案，用于简化用户在选择城市和区县时的流程。它包括所有必需文件：HTML、JavaScript、CSS及图片资源。通过动态更新下拉菜单选项，实现城市到区县的联动效果，支持数据异步加载。开发者可以轻松集成此功能到移动网站或应用，并可基于需求进行扩展和优化。1.jQuery移动端解决方案概述jQuery技术简介jQuery
（二）SAP Group Reporting (GR) 核心子模块功能及数据流向架构解析
数据如何从子公司流转到合并报表的全过程，即数据采集→合并引擎→报表输出，特别是HANA内存计算如何优化传统ETL瓶颈。SAPGroupReporting(GR)核心模块功能及数据流向的架构解析，涵盖核心组件、数据处理流程和关键集成点，适用于S/4HANA1809+版本：一、核心功能模块概览模块功能关键事务码/FioriApp数据采集(DataCollection)整合子公司财务数据（SAP/非SA
深入解析JVM工作原理：从字节码到机器指令的全过程
一、JVM概述Java虚拟机(JVM)是Java平台的核心组件，它实现了Java"一次编写，到处运行"的理念。JVM是一个抽象的计算机器，它有自己的指令集和运行时内存管理机制。JVM的主要职责：加载：读取.class文件并验证其正确性存储：管理内存分配和垃圾回收执行：解释或编译字节码为机器指令安全：提供沙箱环境限制恶意代码二、JVM架构详解JVM由三个主要子系统组成：1.类加载子系统类加载过程分为
ARM 和 AMD 架构的区别 m0_69576880 arm开发 windows 架构
ARM架构和AMD架构是两种不同的计算机处理器架构，它们有以下几个主要区别：设计出发点、兼容性、性能特点、市场定价。设计出发点：①ARM构架：ARM架构最初是为嵌入式系统设计的，旨在提供低功耗和高效能的解决方案。它主要应用于移动设备、嵌入式系统和物联网设备②AMD架构：AMD架构是基于x86架构的扩展，旨在提供与Intel架构兼容的处理器。它主要用于台式机、服务器和工作站等计算机系统。兼容性：AR
MotionLCM 部署优化踩坑解决bug AI算法网奇 aigc与数字人深度学习宝典文生motion
目录依赖项windowstorchok：渲染黑白图问题解决：humanml3d：sentence-t5-large下载数据：报错：Nomodulenamed'sentence_transformers'继续报错：fromtransformers.integrationsimportCodeCarbonCallback解决方法：推理相关转mesh：module‘matplotlib.cm‘hasno
JVM 内存模型深度解析：原子性、可见性与有序性的实现练习时长两年半的程序员小胡 JVM 深度剖析：从面试考点到生产实践 jvm java 内存模型
在了解了JVM的基础架构和类加载机制后，我们需要进一步探索Java程序在多线程环境下的内存交互规则。JVM内存模型（JavaMemoryModel，JMM）定义了线程和主内存之间的抽象关系，它通过规范共享变量的访问方式，解决了多线程并发时的数据一致性问题。本文将从内存模型的核心目标出发，详解原子性、可见性、有序性的实现机制，以及volatile、synchronized等关键字在其中的作用。一、J
Flowable 高级扩展：自定义元素与性能优化实战练习时长两年半的程序员小胡 Flowable 流程引擎实战指南流程图 flowable BPMN 流程引擎 java
在前五篇文章中，我们从基础概念、流程设计、API实战、SpringBoot集成，到外部系统协同，逐步构建了Flowable的应用体系。但企业级复杂场景中，原生功能往往难以满足定制化需求——比如需要特殊的审批规则网关、与决策引擎联动实现动态路由，或是在高并发场景下优化流程引擎性能。本文将聚焦Flowable的高级扩展能力，详解如何自定义流程元素、集成规则引擎，并掌握大型系统中的性能调优策略。一、自定
企业级区块链平台Hyperchain核心原理剖析 boyedu 区块链区块链企业级区块链平台 Hyperchain
Hyperchain作为国产自主可控的企业级联盟区块链平台，其核心原理围绕高性能共识、隐私保护、智能合约引擎及可扩展架构展开，通过多模块协同实现企业级区块链网络的高效部署与安全运行。以下从核心架构、关键技术、性能优化、安全机制、应用场景五个维度展开剖析：一、核心架构：分层解耦与模块化设计Hyperchain采用分层架构，将区块链功能解耦为独立模块，支持灵活组合与扩展：P2P网络层由验证节点（VP）
车载刷写架构 --- 整车刷写中为何增加了ECU 队列刷写策略？汽车电子实验室电子电器架构——刷写方案车载电子电气架构架构开发语言车载诊断进阶篇汽车中央控制单元HPC软件架构关于网关转发性能引起的思考
我是穿拖鞋的汉子，魔都中坚持长期主义的汽车电子工程师。老规矩，分享一段喜欢的文字，避免自己成为高知识低文化的工程师：周末洗了一个澡，换了一身衣服，出了门却不知道去哪儿，不知道去找谁，漫无目的走着，大概这就是成年人最深的孤独吧!旧人不知我近况，新人不知我过往，近况不该旧人知，过往不与新人讲。纵你阅人何其多，再无一人恰似我。时间不知不觉中，来到新的一年。2025开始新的忙碌。成年人的我也不知道去哪里渡
车载诊断架构 ---面向售后的DTC应该怎么样填写？汽车电子实验室车载电子电气架构漫谈UDS诊断协议系列 EV（电动汽车）常规知识必备架构面向售后的DTC 车载诊断架构 OEM怎么掌握软件开发能力车载通信网络槪述 android ZEVonUDS-J1979
我是穿拖鞋的汉子，魔都中坚持长期主义的汽车电子工程师。老规矩，分享一段喜欢的文字，避免自己成为高知识低文化的工程师：简单，单纯，喜欢独处，独来独往，不易合同频过着接地气的生活，除了生存温饱问题之外，没有什么过多的欲望，表面看起来很高冷，内心热情，如果你身边有这样灵性的人，一定要好好珍惜他们眼中有神有光，干净，给人感觉很舒服，有超强的感知能力有形的无形的感知力很强，能感知人的内心变化喜欢独处，好静，
车载诊断架构 --- 关于诊断时间参数P4的浅析汽车电子实验室车载电子电气架构漫谈UDS诊断协议系列架构开发语言关于网关转发性能引起的思考汽车中央控制单元HPC软件架构车载诊断进阶篇
关于诊断时间参数P4的浅析我是穿拖鞋的汉子，魔都中坚持长期主义的汽车电子工程师。老规矩，分享一段喜欢的文字，避免自己成为高知识低文化的工程师：所谓鸡汤，要么蛊惑你认命，要么怂恿你拼命，但都是回避问题的根源，以现象替代逻辑，以情绪代替思考，把消极接受现实的懦弱，伪装成乐观面对不幸的豁达，往不幸上面喷“香水”来掩盖问题。无人问津也好,技不如人也罢,你都要试着安静下来,去做自己该做的事.而不是让内心的烦
车载刷写架构 --- 刷写思考扩展汽车电子实验室电子电器架构——刷写方案架构开发语言关于网关转发性能引起的思考汽车中央控制单元HPC软件架构车载诊断进阶篇
我是穿拖鞋的汉子，魔都中坚持长期主义的汽车电子工程师。老规矩，分享一段喜欢的文字，避免自己成为高知识低文化的工程师：做到欲望极简，了解自己的真实欲望，不受外在潮流的影响，不盲从，不跟风。把自己的精力全部用在自己。一是去掉多余，凡事找规律，基础是诚信；二是系统思考、大胆设计、小心求证；三是“一张纸制度”，也就是无论多么复杂的工作内容，要在一张纸上描述清楚；四是要坚决反对虎头蛇尾，反对繁文缛节，反对老
通义万相2.2：开启高清视频生成新纪元 Liudef06小白特殊专栏 AIGC 人工智能人工智能通义万相2.2 图生视频
通义万相2.2：开启高清视频生成新纪元2025年7月28日，中国AI领域迎来里程碑时刻——通义万相团队正式开源其革命性视频生成模型Wan2.2的核心权重，这标志着开源社区首次获得支持720P高清视频生成的先进模型架构。一、架构革新：混合专家系统1.1MoE视频扩散架构通义万相2.2首次将混合专家（MoE）架构引入视频扩散模型，通过双专家系统实现计算效率与模型容量的平衡：classMoEVideoD
EasyPlayer播放器系列开发计划2025 xiejiashu EasyPlayer EasyPlayer EasyPlayer播放器 RTSP播放器 js播放器 Web播放器
EasyPlayer系列产品发展至今，已经超过10年，从最早的EasyPlayerRTSP播放器，到如今维护的3条线：EasyPlayer-RTSP播放器：Windows、Android、iOS；EasyPlayerPro播放器：Windows、Android、iOS；EasyPlayer.js播放器：H5；这3个播放器各有各的应用场景，用户量也是巨大，像RTSP版本的播放器，到今天依然还有很多低
编程算法：技术创新的引擎与业务增长的核心驱动力
在数字经济时代，算法已成为推动技术创新与业务增长的隐形引擎。从存内计算突破冯·诺依曼瓶颈，到动态规划优化万亿级金融交易，编程算法正在重塑产业竞争格局。一、存内计算：突破冯·诺依曼瓶颈的算法革命1.1存内计算的基本原理传统计算架构中90%的能耗消耗在数据搬运上。存内计算（Processing-in-Memory）通过直接在存储单元执行计算，实现能效10-100倍提升：#传统计算vs存内计算能耗模型i
基于redis的Zset实现作者的轻量级排名周童學 Java redis 数据库缓存
基于redis的Zset实现轻量级作者排名系统在今天的技术架构中，Redis是一种广泛使用的内存数据存储系统，尤其在需要高效检索和排序的场景中表现优异。在本篇博客中，我们将深入探讨如何使用Redis的有序集合（ZSet）构建一个高效的笔记排行榜系统，并提供相关代码示例和详细的解析。1.功能背景与需求假设我们有一个笔记分享平台，用户可以发布各种笔记，系统需要根据用户发布的笔记数量来生成一个实时更新的
JVM 内存分配与回收策略：从对象创建到内存释放的全流程
在JVM的运行机制中，内存分配与回收策略是连接对象生命周期与垃圾收集器的桥梁。它决定了对象在堆内存中的创建位置、存活过程中的区域迁移，以及最终被回收的时机。合理的内存分配策略能减少GC频率、降低停顿时间，是优化Java应用性能的核心环节。本文将系统解析JVM的内存分配规则、对象晋升机制，以及实战中的内存优化技巧。一、对象优先在Eden区分配：新生代的“临时缓冲区”大多数情况下，Java对象在新生代
猎板 PCB 控深槽工艺：5G 基站散热模块的关键支撑猎板PCB黄浩 5G 运维数据库
PCB控深槽工艺在5G基站散热模块中的关键作用：猎板PCB的技术突破在5G基站的密集高频信号与高功率运行环境下，散热性能直接决定了设备的稳定性和寿命。猎板PCB通过创新性的控深槽工艺（控深锣/控深铣），结合材料科学与结构优化，为5G基站散热模块提供了高精度、高可靠性的解决方案，有效攻克了高热负荷下的技术瓶颈。一、5G基站散热的核心挑战热负荷激增：5G基站的射频功放（PA）、电源管理模块等器件功耗显
为了在未来的人工智能世界中取得成功，学生们必须学习人类写作的优点睿邸管家
澳大利亚各地的学生在新学年开始使用铅笔、钢笔和键盘学习写字。在工作场所，机器也在学习写作，如此有效，几年之内，它们可能会写得比人类更好。有时它们已经做到了，就像Grammarly这样的应用程序所展示的那样。当然，人类现在的日常写作可能很快就会由具有人工智能(AI)的机器来完成。手机和电子邮件软件常用的预测文本是无数人每天都在使用的一种人工智能写作形式。据AI行业研究机构称，到2022年，人工智能及
Redis + Caffeine 实现高效的两级缓存架构周童學 Java 缓存 redis 架构
Redis+Caffeine实现高效的两级缓存架构引言在现代高并发系统中，缓存是提升系统性能的关键组件之一。传统的单一缓存方案往往难以同时满足高性能和高可用性的需求。本文将介绍如何结合Redis和Caffeine构建一个高效的两级缓存系统，并通过三个版本的演进展示如何逐步优化代码结构。项目源代码：github地址、gitee地址两级缓存架构概述两级缓存通常由本地缓存（如Caffeine）和分布式缓
旧系统UI焕新陷阱：保留业务习惯与引入新交互的平衡点把控贝格前端工场 ui 交互
摘要**想给老旧系统换上“高颜值新衣”，却遭遇员工集体吐槽“不会用”？满心期待新交互能提升效率，结果用户操作频频出错，业务进度反而被拖慢？旧系统UI焕新本是优化体验的好机会，可在保留多年养成的业务操作习惯，与引入更先进便捷的新交互方式之间，却横亘着巨大鸿沟。稍有不慎，就会陷入“改了不如不改”的尴尬境地。这场关于“守旧”与“创新”的博弈，究竟该如何破局？一、旧系统UI焕新：一场甜蜜又棘手的改造工程旧
Android 应用权限管理详解
文章目录1.权限类型2.权限请求机制3.权限组和分级4.权限管理的演进5.权限监控和SELinux强制访问控制6.应用权限审核和GooglePlayProtect7.开发者最佳实践8.用户权限管理9.Android应用沙箱模型10.ScopedStorage（分区存储）11.背景位置权限（BackgroundLocationAccess）12.权限回收和自动清理13.权限请求的用户体验设计14.G
严重的DDoS 攻击澳大利亚主要宽带提供商 Fancy1816575412
本周早些时候，澳大利亚最大的固定无线宽带运营商CirrusCommunications遭受了一次重大的DDoS攻击，导致其一半以上的网络瘫痪。该公司在其网站上声称：“强大的架构、数百个传输站点以及光纤和微波回程的使用使其能够以非常高的正常运行时间提供高速”。CirrusCommunications表示，它覆盖了澳大利亚十大人口中心以及几个主要的区域中心，主要为企业和政府客户提供服务。然而，据The
深入理解 Tomcat Wrapper 原理北漂老男人 Tomcat tomcat java
深入理解TomcatWrapper原理一、引言在Tomcat的分层容器架构中，Wrapper作为最底层的容器，专门负责管理单个Servlet的生命周期及请求分发。每一个Servlet（包括JSP、Filter等）都对应一个Wrapper。Wrapper是Servlet规范与Tomcat容器实现之间的桥梁，直接关系到请求的分发效率、Servlet的加载与重用、安全隔离等。本文将系统剖析Wrapper
Pktgen-DPDK：开源网络测试工具的深度解析与应用艾古力斯
本文还有配套的精品资源，点击获取简介：Pktgen-DPDK是基于DPDK的高性能流量生成工具，适用于网络性能测试、硬件验证及协议栈开发。它支持多种网络协议，能够模拟高吞吐量的数据包发送。本项目通过利用DPDK的高速数据包处理能力，允许用户自定义数据包内容，并实现高效的数据包管理与传输。文章将指导如何安装DPDK、编译Pktgen、配置工具以及使用方法，最终帮助开发者和网络管理员深入理解并优化网络
大模型量化终极对决：FP8 vs AWQ INT4，谁才是性能与精度的王者？曦紫沐大模型人工智能大模型量化 FP8 AWQ_INT4
摘要在大模型部署与优化中，量化技术是突破性能瓶颈的关键。FP8量化与AWQINT4量化作为当前主流方案，分别以“高精度”和“极致压缩”为核心优势。本文通过表格对比二者的数据格式、精度损失、硬件依赖及适用场景，助您在不同需求下精准选择最优方案。一、数据格式：浮点与整数的底层差异FP8量化采用浮点数（FP8），包含E4M3（4位阶码+3位尾数）和E5M2（5位阶码+2位尾数）两种格式，保留动态范围；而
分布式链路追踪系统架构设计：从理论到企业级实践 ma451152002 java 分布式系统架构
分布式链路追踪系统架构设计：从理论到企业级实践本文深入探讨分布式链路追踪系统的架构设计原理、关键技术实现和企业级应用实践，为P7架构师提供完整的技术方案参考。目录引言：分布式链路追踪的重要性核心概念与技术原理系统架构设计数据模型与协议标准核心组件架构设计性能优化与扩展性设计企业级实施策略技术选型与对比分析监控与运维体系未来发展趋势P7架构师面试要点引言：分布式链路追踪的重要性微服务架构下的挑战在现
人工智能应用研究快讯 2021-11-30 峰谷皆平
[HTML]ArtificialIntelligenceforSkinCancerDetection:ScopingReviewATakiddin,JSchneider,YYang,AAbd-Alrazaq...JournalofMedicalInternet...,2021ABSTACT:Background:Skincanceristhemostcommoncancertypeaffectin
Android 基础知识：Android 应用权限详解流水mpc android
这篇文章为大家系统的梳理一下Android权限相关的知识，在日常开发中，我们都用过权限，但是对于权限的一些细节我们可能掌握的还不够全面，这篇文章会全面的为大家介绍权限相关的知识。当然，本篇文章依然是参考了Google的官方文档：应用权限。本文目录一、认识Android权限（一）Android系统为什么需要权限？Android系统设置权限的目的是保护Android用户的隐私。对于用户的敏感数据And
scala的option和some 矮蛋蛋编程 scala
原文地址： http://blog.sina.com.cn/s/blog_68af3f090100qkt8.html 对于学习 Scala 的 Java™ 开发人员来说，对象是一个比较自然、简单的入口点。在本系列前几期文章中，我介绍了 Scala 中一些面向对象的编程方法，这些方法实际上与 Java 编程的区别不是很大。我还向您展示了 Scala 如何重新应用传统的面向对象概念，找到其缺点
NullPointerException Cb123456 android BaseAdapter
java.lang.NullPointerException: Attempt to invoke virtual method 'int android.view.View.getImportantForAccessibility()' on a null object reference 出现以上异常.然后就在baidu上
PHP使用文件和目录天子之骄 php文件和目录读取和写入 php验证文件 php锁定文件
PHP使用文件和目录 1.使用include()包含文件 (1)：使用include()从一个被包含文档返回一个值 (2)：在控制结构中使用include() include_once()函数需要一个包含文件的路径，此外，第一次调用它的情况和include()一样，如果在脚本执行中再次对同一个文件调用，那么这个文件不会再次包含。在php.ini文件中设置
SQL SELECT DISTINCT 语句何必如此 sql
SELECT DISTINCT 语句用于返回唯一不同的值。 SQL SELECT DISTINCT 语句在表中，一个列可能会包含多个重复值，有时您也许希望仅仅列出不同（distinct）的值。 DISTINCT 关键词用于返回唯一不同的值。 SQL SELECT DISTINCT 语法 SELECT DISTINCT column_name,column_name F
java冒泡排序 3213213333332132 java 冒泡排序
package com.algorithm; /** * @Description 冒泡 * @author FuJianyong * 2015-1-22上午09:58:39 */ public class MaoPao { public static void main(String[] args) { int[] mao = {17,50,26,18,9,10
struts2.18 +json,struts2-json-plugin-2.1.8.1.jar配置及问题！ 7454103 DAO spring Ajax json qq
struts2.18 出来有段时间了！（貌似是稳定版）闲时研究下下！貌似 sruts2 搭配 json 做 ajax 很吃香！实践了下下！不当之处请绕过！呵呵网上一大堆 struts2+json 不过大多的json 插件都是 jsonplugin.34.jar strut
struts2 数据标签说明 darkranger jsp bean struts servlet Scheme
数据标签主要用于提供各种数据访问相关的功能，包括显示一个Action里的属性，以及生成国际化输出等功能数据标签主要包括： action ：该标签用于在JSP页面中直接调用一个Action，通过指定executeResult参数，还可将该Action的处理结果包含到本页面来。 bean ：该标签用于创建一个javabean实例。如果指定了id属性，则可以将创建的javabean实例放入Sta
链表.简单的链表节点构建 aijuans 编程技巧
/*编程环境WIN-TC*/ #include "stdio.h" #include "conio.h" #define NODE(name, key_word, help) \ Node name[1]={{NULL, NULL, NULL, key_word, help}} typedef struct node { &nbs
tomcat下jndi的三种配置方式 avords tomcat
jndi(Java Naming and Directory Interface，Java命名和目录接口)是一组在Java应用中访问命名和目录服务的API。命名服务将名称和对象联系起来，使得我们可以用名称访问对象。目录服务是一种命名服务，在这种服务里，对象不但有名称，还有属性。 tomcat配置
关于敏捷的一些想法 houxinyou 敏捷
从网上看到这样一句话：“敏捷开发的最重要目标就是：满足用户多变的需求，说白了就是最大程度的让客户满意。” 感觉表达的不太清楚。感觉容易被人误解的地方主要在“用户多变的需求”上。第一种多变，实际上就是没有从根本上了解了用户的需求。用户的需求实际是稳定的，只是比较多，也比较混乱，用户一般只能了解自己的那一小部分，所以没有用户能清楚的表达出整体需求。而由于各种条件的，用户表达自己那一部分时也有
富养还是穷养，决定孩子的一生 bijian1013 教育人生
是什么决定孩子未来物质能否丰盛？为什么说寒门很难出贵子，三代才能出贵族？真的是父母必须有钱，才能大概率保证孩子未来富有吗？-----作者：@李雪爱与自由事实并非由物质决定，而是由心灵决定。一朋友富有而且修养气质很好，兄弟姐妹也都如此。她的童年时代，物质上大家都很贫乏，但妈妈总是保持生活中的美感，时不时给孩子们带回一些美好小玩意，从来不对孩子传递生活艰辛、金钱来之不易、要懂得珍惜
oracle 日期时间格式转化征客丶 oracle
oracle 系统时间有 SYSDATE 与 SYSTIMESTAMP； SYSDATE：不支持毫秒，取的是系统时间； SYSTIMESTAMP：支持毫秒，日期，时间是给时区转换的，秒和毫秒是取的系统的。日期转字符窜：一、不取毫秒： TO_CHAR(SYSDATE, 'YYYY-MM-DD HH24:MI:SS') 简要说明， YYYY 年 MM 月
【Scala六】分析Spark源代码总结的Scala语法四 bit1129 scala
1. apply语法 FileShuffleBlockManager中定义的类ShuffleFileGroup，定义： private class ShuffleFileGroup(val shuffleId: Int, val fileId: Int, val files: Array[File]) { ... def apply(bucketId
Erlang中有意思的bug bookjovi erlang
代码中常有一些很搞笑的bug，如下面的一行代码被调用两次（Erlang beam） commit f667e4a47b07b07ed035073b94d699ff5fe0ba9b Author: Jovi Zhang <[email protected]> Date: Fri Dec 2 16:19:22 2011 +0100 erts:
移位打印10进制数转16进制-2008-08-18 ljy325 java 基础
/** * Description 移位打印10进制的16进制形式 * Creation Date 15-08-2008 9:00 * @author 卢俊宇 * @version 1.0 * */ public class PrintHex { // 备选字符 static final char di
读《研磨设计模式》-代码笔记-组合模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; abstract class Component { public abstract void printStruct(Str
利用cmd命令将.class文件打包成jar chenyu19891124 cmd jar
cmd命令打jar是如下实现：在运行里输入cmd，利用cmd命令进入到本地的工作盘符。(如我的是D盘下的文件有此路径 D:\workspace\prpall\WEB-INF\classes) 现在是想把D:\workspace\prpall\WEB-INF\classes路径下所有的文件打包成prpall.jar。然后继续如下操作： cd D: 回车 cd workspace/prpal
[原创]JWFD v0.96 工作流系统二次开发包 for Eclipse 简要说明 comsci eclipse 设计模式算法工作 swing
JWFD v0.96 工作流系统二次开发包 for Eclipse 简要说明 &nb
SecureCRT右键粘贴的设置 daizj secureCRT 右键粘贴
一般都习惯鼠标右键自动粘贴的功能，对于SecureCRT6.7.5 ，这个功能也已经是默认配置了。老版本的SecureCRT其实也有这个功能，只是不是默认设置，很多人不知道罢了。菜单： Options->Global Options ...->Terminal 右边有个Mouse的选项块。 Copy on Select Paste on Right/Middle
Linux 软链接和硬链接 dongwei_6688 linux
1.Linux链接概念Linux链接分两种，一种被称为硬链接（Hard Link），另一种被称为符号链接（Symbolic Link）。默认情况下，ln命令产生硬链接。【硬连接】硬连接指通过索引节点来进行连接。在Linux的文件系统中，保存在磁盘分区中的文件不管是什么类型都给它分配一个编号，称为索引节点号(Inode Index)。在Linux中，多个文件名指向同一索引节点是存在的。一般这种连
DIV底部自适应 dcj3sjt126com JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
Centos6.5使用yum安装mysql——快速上手必备 dcj3sjt126com mysql
第1步、yum安装mysql [root@stonex ~]# yum -y install mysql-server 安装结果： Installed: mysql-server.x86_64 0:5.1.73-3.el6_5 &nb
如何调试JDK源码 frank1234 jdk
相信各位小伙伴们跟我一样，想通过JDK源码来学习Java，比如collections包，java.util.concurrent包。可惜的是sun提供的jdk并不能查看运行中的局部变量，需要重新编译一下rt.jar。下面是编译jdk的具体步骤： 1.把C:\java\jdk1.6.0_26\sr
Maximal Rectangle hcx2013 max
Given a 2D binary matrix filled with 0's and 1's, find the largest rectangle containing all ones and return its area. public class Solution { public int maximalRectangle(char[][] matrix)
Spring MVC测试框架详解——服务端测试 jinnianshilongnian spring mvc test
随着RESTful Web Service的流行，测试对外的Service是否满足期望也变的必要的。从Spring 3.2开始Spring了Spring Web测试框架，如果版本低于3.2，请使用spring-test-mvc项目（合并到spring3.2中了）。 Spring MVC测试框架提供了对服务器端和客户端（基于RestTemplate的客户端）提供了支持。 &nbs
Linux64位操作系统（CentOS6.6）上如何编译hadoop2.4.0 liyong0802 hadoop
一、准备编译软件 1.在官网下载jdk1.7、maven3.2.1、ant1.9.4，解压设置好环境变量就可以用。环境变量设置如下：（1）执行vim /etc/profile （2）在文件尾部加入: export JAVA_HOME=/home/spark/jdk1.7 export MAVEN_HOME=/ho
StatusBar 字体白色 pangyulei status
[[UIApplication sharedApplication] setStatusBarStyle:UIStatusBarStyleLightContent]; /*you'll also need to set UIViewControllerBasedStatusBarAppearance to NO in the plist file if you use this method
如何分析Java虚拟机死锁 sesame java thread oracle 虚拟机 jdbc
英文资料： Thread Dump and Concurrency Locks Thread dumps are very useful for diagnosing synchronization related problems such as deadlocks on object monitors. Ctrl-\ on Solaris/Linux or Ctrl-B
位运算简介及实用技巧（一）：基础篇 tw_wangzhengquan 位运算
http://www.matrix67.com/blog/archives/263 去年年底写的关于位运算的日志是这个Blog里少数大受欢迎的文章之一，很多人都希望我能不断完善那篇文章。后来我看到了不少其它的资料，学习到了更多关于位运算的知识，有了重新整理位运算技巧的想法。从今天起我就开始写这一系列位运算讲解文章，与其说是原来那篇文章的follow-up，不如说是一个r
jsearch的索引文件结构 yangshangchuan 搜索引擎 jsearch 全文检索信息检索 word分词
jsearch是一个高性能的全文检索工具包，基于倒排索引，基于java8，类似于lucene，但更轻量级。 jsearch的索引文件结构定义如下： 1、一个词的索引由=分割的三部分组成：第一部分是词第二部分是这个词在多少