ARM Ethos-N、NPU 架构、Android NNAPI、Ethos-N77、Ethos-N57、模型部署、TFLite Delegate、SoC 集成、AI 加速器、边缘推理、推理性能调优
ARM Ethos-N 系列 NPU(Neural Processing Unit)作为针对边缘 AI 任务推出的专用神经网络加速器,已广泛应用于各类搭载 Cortex-A 系列 CPU 的 SoC 芯片中。自 Ethos-N77/N57/N37 等主力产品线推出以来,ARM 提供了一套完整的推理加速链路,从 IP 核硬件结构、软件 SDK 到 Android NNAPI 支持,形成了从 SoC 级集成到应用端部署的闭环生态。本文基于 2025 年最新发布的 ARM 官方技术资料与主流芯片厂商的实际部署案例,深入剖析 Ethos-N 架构设计逻辑、指令调度机制、模型兼容特性、Android 平台的调度路径,以及工程实践中的部署策略与性能调优路径,帮助开发者实现高效、稳定、低功耗的边缘 AI 推理系统。
ARM Ethos-N 系列是专为边缘设备神经网络推理任务设计的 NPU(Neural Processing Unit)加速器架构,定位于以低功耗、高吞吐为核心指标,服务于智能手机、IoT、可穿戴、智能摄像头等对能效比有极高要求的场景。其作为 ARM Total Compute 体系的重要组成部分,与 Cortex CPU 和 Mali GPU 形成三核协同平台,已被多家芯片厂商集成进 Android SoC 芯片中。
产品型号 | 典型算力配置 | 面向场景 | 集成平台示例 |
---|---|---|---|
Ethos-N77 | 高性能 (1~4 TOPS) | 高端手机、AR终端 | MediaTek 天玑9300、Unisoc T820 |
Ethos-N57 | 中性能 (512~1024 GOPS) | 中端手机、智能音箱 | Rockchip RK3588S |
Ethos-N37 | 轻量型 (128~512 GOPS) | IoT、摄像头、家居设备 | STM32MP3、全志T5芯片组 |
每一代产品基于相同的核心架构(command engine + tensor engine + streaming memory subsystem),可灵活按片上面积与算力需求裁剪定制。
截至 2025 年 5 月,ARM 官方数据显示 Ethos-N 已在超 50 款 Android 商用设备中实现部署,支持平台包括:
随着 AI 本地化需求提升,Ethos-N 已成为替代 Mali GPU 推理、提升 CPU 能耗瓶颈的核心组件。
Ethos-N 架构设计以高度定制化的深度学习计算单元为核心,围绕模型执行过程中的卷积、GEMM、激活函数、通道压缩等操作进行硬件流水线融合,其核心由四个子模块构成:Command Stream Engine、Tensor Processing Engine、SRAM-based Local Memory 与 AXI 接口模块。
TPE 是 Ethos-N 的推理核心模块,具备以下结构特性:
以 Ethos-N77 为例,其在标准配置下支持每周期处理 128 MAC,配合 Streaming DMA 可达 2 TOPS 性能。
CSE 是模型执行过程中的任务调度器:
开发者在模型编译后生成的命令流文件 .ncom
可被直接加载至 CSE 执行,无需手动调度。
该机制避免频繁 DDR 访问,尤其适合推理中对功耗敏感的 IoT 与移动场景。
SoC 集成后,CPU 通过写入 Ethos-N Control Register 即可完成模型调度、参数传输与结果回收。
Ethos-N 架构凭借其硬件融合度高、功耗低、模型兼容性强等特性,成为当前 Android 平台下轻量化 AI 推理的首选加速器之一。
ARM Ethos-N NPU 的执行架构围绕“指令流驱动 + 数据流调度”展开,通过将神经网络模型转换为 NCOM(二进制命令流)后加载进指令调度单元,实现各类算子的串行或并行调度执行。其核心在于对数据流图的分段分层调度、buffer 生命周期优化和资源绑定的高效融合。
Ethos-N 执行的基本单元为 command block,每个 block 对应网络中一组算子及其输入输出张量。整体执行路径为:
模型结构 → 图优化器(CMSIS-NN Graph Tool) → Command Stream → Ethos-N 控制器
每条指令流中包含:
例如一个典型的 MobileNetV2 网络会被划分为多个“块”:
Block | 包含算子 | Fusion 策略 |
---|---|---|
Block 1 | Conv2D + ReLU6 | 硬件融合 |
Block 2 | Depthwise Conv + Add | 中间张量复用 |
Block 3 | Pointwise Conv + Output | 局部 buffer 复用优化 |
Ethos-N 使用静态调度 + 局部并行策略调度算子:
该机制确保在有限的 SRAM 和指令 FIFO 容量下,仍可实现高效的数据通路调度。
当模型输入尺寸较大(如 1080p 图像)或张量通道数远超 SRAM 能力时,Ethos-N 会:
开发者可通过 Ethos-N Performance Advisor 工具查看具体 Tile 划分情况与每个 Block 的执行延迟。
Ethos-N 支持中间张量 Reuse 与生命周期裁剪:
在多层神经网络(如 ResNet)中,常见的 residual path 会被识别为“复用路径”,系统可自动插入 Add 算子而不做冗余拷贝。
通过上述调度优化,Ethos-N 在执行中实现了“图感知 + 计算融合 + 数据复用”三位一体的执行优化策略,显著降低了功耗并提升了推理吞吐。
ARM 官方提供的 Ethos-N SDK 工具链为模型转换、调度配置、执行分析提供全流程支持,帮助开发者将 PyTorch/TensorFlow 模型快速转化为可部署在 NPU 上的指令文件,并在开发阶段实现性能 Profiling 与错误调试。
工具名称 | 主要功能 | 当前版本(2025Q2) |
---|---|---|
ethos-n-convert |
将 TFLite/ONNX 转为 Ethos-N 编码格式模型(.ncom) | 23.11.1 |
ethos-n-offline |
模型预编译与张量调度模拟执行器 | 23.11.1 |
ethos-n-performance |
性能剖析工具,支持可视化性能热点与 SRAM 使用率分析 | 23.11.1 |
ethos-n-driver-stack |
提供 runtime HAL 接口,供 SoC 集成适配使用 | 与芯片耦合 |
ethos-n-convert \
--model model_fp32.tflite \
--output model_int8.ncom \
--accelerator-config ethos-n77 \
--quantization-mode int8 \
--performance-estimate enabled
转换说明:
.ncom
(命令文件)、.json
(图结构信息)、.log
(转换日志)。开发者应在模型设计阶段完成量化感知训练(QAT)以提升 Ethos-N 执行兼容性。
转换完成后使用 ethos-n-performance
进行性能预估:
ethos-n-performance \
--command-stream model_int8.ncom \
--accelerator-config ethos-n77 \
--report out/report.html
输出报告中包括:
开发者可据此判断模型结构是否适合 Ethos-N 架构,是否存在瓶颈算子需替换、是否存在过长的执行链需分段优化。
通过 SDK 工具链,开发者可将主流框架下的 AI 模型快速适配至 Ethos-N,配合模型结构优化与静态调度信息,使实际部署效果接近硬件理论上限,为后续 Android 平台推理路径集成打下基础。
Android NNAPI(Neural Networks API)是 Google 提供的硬件加速推理中间层,允许不同厂商的 AI 加速器通过 Vendor HAL 接口集成进系统推理链路。ARM Ethos-N 系列 NPU 自 Android 13 起正式支持 NNAPI 驱动集成路径,并逐步成为主流 Android SoC 平台上默认的低功耗推理 backend。
NNAPI 架构中核心模块包含:
以 [email protected]::IDevice
为例,典型推理流程为:
ARM 官方提供 ethosn-driver
开源项目,支持在 Android SoC 上集成 Ethos-N NPU:
device/
目录中添加 Ethos-N HAL 驱动;Android.bp
文件将 HAL 动态链接至系统服务;neuralnetworks.xml
中声明 Ethos-N 为 NNAPI 的默认或可选 backend;libethosn_driver.so
和对应 libethosn_delegate.so
放入 vendor/lib64/
路径下;最终系统中可通过以下方式验证是否成功集成:
adb shell dumpsys nnapi
若输出中包含 ethosn
backend 及其 supported operation list,说明驱动部署成功。
由于 Ethos-N 不支持所有 TFLite 算子(如自定义 Transformer 模型、部分 LayerNorm 运算),NNAPI 会默认启用 fallback:
ExecutionBurst
将多个子图融合调度,避免频繁跨内存;PerformanceMode::SUSTAINED_SPEED
优化子图调度顺序;该策略确保在不完整支持模型结构的前提下,Ethos-N 依然能参与主流模型大部分推理路径,提升整体系统性能与能耗表现。
nnapi_model_test
工具加载 tflite 模型并验证是否调度至 Ethos-N;ethosn-performance
工具配合 dumpsys nnapi
查看子图分布与执行耗时;NNAPI_LOGGING=1
环境变量记录每次推理调度流程;以天玑9300 平台为例,成功部署后可实现 MobileNetV2 模型全量调度至 Ethos-N,平均推理耗时从 CPU 路径的 88ms 降至 27ms,功耗下降超过 65%。
TensorFlow Lite 是当前 Android 应用中使用最广泛的 AI 推理框架,Ethos-N 官方提供的 TFLite Delegate 插件,可实现模型推理流程中与 Ethos-N 的直接对接,不依赖 NNAPI 亦可进行低功耗部署,并提供更细粒度的调度与量化控制能力。
TFLite Delegate 是一种运行时扩展机制,支持将部分模型算子下发至专用硬件执行,典型的调度流程:
Interpreter::ModifyGraphWithDelegate()
初始化 delegate;与 NNAPI 相比,TFLite Delegate 支持更高定制度(如算子融合策略、张量 layout 优化)以及 debug 能力。
tflite::InterpreterBuilder(*model, resolver)(&interpreter);
ethosn_delegate::EthosnDelegateOptions options;
options.performance_mode = ethosn_delegate::PerformanceMode::High;
auto ethosn_delegate = tflite::ethosn_delegate::CreateEthosnDelegate(options);
interpreter->ModifyGraphWithDelegate(ethosn_delegate.get());
其中 ethosn_delegate::EthosnDelegateOptions
可配置:
performance_mode
(Low/High/Sustained);enable_caching
(是否缓存已转换模型);buffer_format
(张量内存布局 NHWC/NCHW);enable_quantization_inspection
(是否导出量化 profile 数据);在 Android 平台可直接通过 JNI 封装提供给 Java/Kotlin 层使用。
同时建议使用 ethosn_delegate_benchmark
工具执行性能测试:
ethosn_delegate_benchmark --graph=model.tflite --use_delegate=true
输出内容中将显示 delegate 接管的算子数量、每个子图耗时、buffer 占用与执行频率。
项目 | NNAPI 调度方式 | TFLite Delegate 方式 |
---|---|---|
调度粒度 | 系统级推理子图 | 自定义子图划分 |
算子支持范围 | Google 定义支持列表 | 可由 SDK 内部更新扩展 |
调试能力 | 受限于 HAL 层日志 | 可在用户态全流程打印信息 |
部署复杂度 | 依赖系统 NNAPI 服务 | 可嵌入 App 中直接运行 |
灵活性与可控性 | 低 | 高 |
在系统厂商集成已完成前,TFLite Delegate 是应用层开发者接入 Ethos-N 加速能力的主要路径,特别适合对执行效率有严格控制、需自定义缓存/布局/量化策略的中高端 AI 应用。
通过 NNAPI 与 Delegate 双路径部署能力,Ethos-N 构建起从系统到应用、从驱动到 SDK 的完整接入生态。
ARM Ethos-N 作为可配置 IP 核,其在 SoC 平台中的集成不仅影响 NPU 的可用性,也直接决定了推理过程中的数据吞吐能力、功耗表现和系统资源调度效率。SoC 厂商在集成 Ethos-N IP 时,需结合 AXI 接口设计、SRAM buffer 分布、DMA 引擎位置与地址映射策略,构建高效、稳定的片上异构推理路径。
Ethos-N 通常通过以下方式集成进 SoC:
典型 SoC 架构如下所示:
Cortex-A720
│
AXI-Lite
│
Ethos-N Control Block
│ AXI-4
└──► DMA ───────► Shared SRAM / DRAM
│
Tensor Buffer Pool
Ethos-N 采用 MMU + IOMMU 支持虚拟地址访问,兼容 Android Kernel DMA-BUF 与 ION 分配器:
内核态中通过设备树配置 NPU 访问区域:
ethosn@12340000 {
compatible = "arm,ethosn77";
reg = <0x12340000 0x10000>;
interrupts = ;
dma-coherent;
memory-region = <&npu_reserved>;
};
其中 dma-coherent
表示该区域与 CPU cache 一致,适合共享模型数据访问。
在高并发环境中,SoC 应实现 NPU 的动态时钟调节(通过 DVFS)、热控控制与 QoS 权重调整机制,实现资源合理分配与系统能耗平衡。
SoC 平台 | 集成 NPU 型号 | SRAM 配置 | AXI 带宽 | 系统兼容特性 |
---|---|---|---|---|
联发科 天玑9300 | Ethos-N77 | 2MB 共享SRAM | 128-bit DDR | 支持 cache-coherent + IOMMU |
瑞芯微 RK3588 | Ethos-N57 | 1MB 片上SRAM | 64-bit DDR | 支持 UIO 映射 + DMA-BUF 共享 |
全志 A527 | Ethos-N37 | 512KB 共享RAM | 32-bit DRAM | 支持 Linux DRM buffer 接口 |
高效的 SoC 集成不仅能释放 NPU 的峰值算力,还为调度器提供充足的 buffer 和带宽支撑,提升模型整体运行的稳定性和吞吐能力。
在边缘端 AI 需求快速增长的背景下,设备中往往需要并行运行多个 AI 模型(如人脸识别 + 手势识别 + 语音唤醒)。Ethos-N 在多模型部署场景中通过任务图分离、静态 buffer 规划、算子级排队调度等机制,实现了对有限资源的最大化复用,有效避免资源阻塞与性能下降。
Ethos-N 并不支持硬件级多上下文并发执行(multi-context execution),因此需采用时间片或优先级调度方式完成:
Android NNAPI 14 开始支持模型 session ID 分离,与 Ethos-N runtime 协同调度,避免多模型任务混乱。
开发者可通过 Ethos-N SDK API 设置 session scheduling config,如:
EthosnSessionConfig config;
config.priority = ETHOSN_PRIORITY_HIGH;
config.buffer_sharing_mode = ETHOSN_BUFFER_EXCLUSIVE;
在实际部署中发现,如果多个模型共享 DMA buffer 且调度器未正确标注生命周期,极易导致读取错误或内存打穿,严重影响系统稳定性。
asynchronous mode
,避免阻塞高实时性推理;通过统一资源池、精细化调度策略与系统协同接口的融合,Ethos-N 构建了从单模型向多模型并发的稳定扩展能力,满足车载、安防、终端设备日益增长的多任务 AI 推理需求。
在边缘侧部署 Ethos-N NPU 时,尽管架构设计已高度优化,但在实际运行中仍会受到内存瓶颈、DMA 拖尾、频繁 cache flush 等因素影响,导致推理延迟增高或能效降低。结合主流 SoC 的调度日志与性能追踪数据,本文总结出常见性能瓶颈类型及相应的优化方案,并提供能耗控制的工程实操路径。
ethosn-performance
为例)ethosn-performance --command-stream model.ncom \
--accelerator-config ethos-n77 \
--report perf_analysis.html
输出包括:
开发者可据此调整模型结构或量化方式,规避高延迟路径。
echo 300000 > /sys/class/devfreq/ethosn/target_freq
模型类型 | 延迟(ms) | 功耗(mW) | 能效(fps/W) |
---|---|---|---|
MobileNetV3-S | 18.4 | 420 | 131 |
YOLOv5-Nano | 43.7 | 620 | 38 |
EfficientNet-Lite | 51.2 | 750 | 26 |
MobileNetV3 等轻量网络在 Ethos-N 上具有最佳能效比,推荐优先选型部署。
通过综合使用 profiling、batch 合并、频率限制等手段,可将 Ethos-N 推理阶段平均功耗控制在 350550mW,适配典型边缘端 35W 功耗预算系统。
自 2023 年起,ARM 宣布将 Ethos-N 系列 NPU 向“结构可重构、语义可编排、调度可融合”的方向演进,结合未来版本 Android AI Runtime(AAR)架构变化,为边缘端构建统一的 AI 加速基础设施。
该系列架构将支持 LLM 编码器端、Agent 推理路径的高吞吐部署,同时保留当前 Ethos-N77/N57 系列向下兼容接口。
2024 年起,Google 提出 Android AAR(AI Acceleration Runtime)计划:
AARCompiler
输出 hardware-specific IR;Model Registry
与 Delegate Broker
,进行设备侧运行时模型版本管理与 Delegate 优选;ARM 与 Google 合作已于 AOSP master 分支提交初步支持:
ethos-n-mlir
支持;随着 Ethos-N 架构进入可编程调度、模型描述符集成与 runtime 可插拔部署阶段,开发者不仅需理解指令执行底层机制,也必须具备 AI 模型、编译中间层与系统调度三者协同能力,实现面向下一代 Android AI 中台架构的持续演进适配。
个人简介
作者简介:全栈研发,具备端到端系统落地能力,专注人工智能领域。
个人主页:观熵
个人邮箱:[email protected]
座右铭:愿科技之光,不止照亮智能,也照亮人心!
观熵系列专栏导航:
AI前沿探索:从大模型进化、多模态交互、AIGC内容生成,到AI在行业中的落地应用,我们将深入剖析最前沿的AI技术,分享实用的开发经验,并探讨AI未来的发展趋势
AI开源框架实战:面向 AI 工程师的大模型框架实战指南,覆盖训练、推理、部署与评估的全链路最佳实践
计算机视觉:聚焦计算机视觉前沿技术,涵盖图像识别、目标检测、自动驾驶、医疗影像等领域的最新进展和应用案例
国产大模型部署实战:持续更新的国产开源大模型部署实战教程,覆盖从 模型选型 → 环境配置 → 本地推理 → API封装 → 高性能部署 → 多模型管理 的完整全流程
Agentic AI架构实战全流程:一站式掌握 Agentic AI 架构构建核心路径:从协议到调度,从推理到执行,完整复刻企业级多智能体系统落地方案!
云原生应用托管与大模型融合实战指南
智能数据挖掘工程实践
Kubernetes × AI工程实战
TensorFlow 全栈实战:从建模到部署:覆盖模型构建、训练优化、跨平台部署与工程交付,帮助开发者掌握从原型到上线的完整 AI 开发流程
PyTorch 全栈实战专栏: PyTorch 框架的全栈实战应用,涵盖从模型训练、优化、部署到维护的完整流程
深入理解 TensorRT:深入解析 TensorRT 的核心机制与部署实践,助力构建高性能 AI 推理系统
Megatron-LM 实战笔记:聚焦于 Megatron-LM 框架的实战应用,涵盖从预训练、微调到部署的全流程
AI Agent:系统学习并亲手构建一个完整的 AI Agent 系统,从基础理论、算法实战、框架应用,到私有部署、多端集成
DeepSeek 实战与解析:聚焦 DeepSeek 系列模型原理解析与实战应用,涵盖部署、推理、微调与多场景集成,助你高效上手国产大模型
端侧大模型:聚焦大模型在移动设备上的部署与优化,探索端侧智能的实现路径
行业大模型 · 数据全流程指南:大模型预训练数据的设计、采集、清洗与合规治理,聚焦行业场景,从需求定义到数据闭环,帮助您构建专属的智能数据基座
机器人研发全栈进阶指南:从ROS到AI智能控制:机器人系统架构、感知建图、路径规划、控制系统、AI智能决策、系统集成等核心能力模块
人工智能下的网络安全:通过实战案例和系统化方法,帮助开发者和安全工程师识别风险、构建防御机制,确保 AI 系统的稳定与安全
智能 DevOps 工厂:AI 驱动的持续交付实践:构建以 AI 为核心的智能 DevOps 平台,涵盖从 CI/CD 流水线、AIOps、MLOps 到 DevSecOps 的全流程实践。
C++学习笔记?:聚焦于现代 C++ 编程的核心概念与实践,涵盖 STL 源码剖析、内存管理、模板元编程等关键技术
AI × Quant 系统化落地实战:从数据、策略到实盘,打造全栈智能量化交易系统
大模型运营专家的Prompt修炼之路:本专栏聚焦开发 / 测试人员的实际转型路径,基于 OpenAI、DeepSeek、抖音等真实资料,拆解 从入门到专业落地的关键主题,涵盖 Prompt 编写范式、结构输出控制、模型行为评估、系统接入与 DevOps 管理。每一篇都不讲概念空话,只做实战经验沉淀,让你一步步成为真正的模型运营专家。
点个赞,给我一些反馈动力
⭐ 收藏起来,方便之后复习查阅
关注我,后续还有更多实战内容持续更新