高通 QCS6490 平台上 YOLO 全系列模型性能深度评测

一、引言

在当今人工智能飞速发展的时代,边缘计算设备凭借其低延迟、高隐私性等优势,在智能物联网(AIoT)领域扮演着愈发关键的角色。高通 QCS6490 作为一款专为工业与商业物联网应用精心打造的高性能系统级芯片(SoC),自问世以来便备受瞩目。其采用先进的 6nm 制程工艺,集成了八核高通 Kryo 670 CPU,包含 4 个可睿频至 2.7GHz 的高性能 Cortex - A78 核心以及 4 个运行频率约为 1.9GHz 的 Cortex - A55 核心,通过大小核协同工作模式,实现了卓越的性能功耗比。在 AI 运算方面,借助第 6 代高通 AI Engine,搭配 Hexagon 处理器与融合 AI 加速器,拥有高达 12 TOPS 的算力,能在低功耗状态下高效完成各类 AI 推理任务。此外,在连接性上支持企业级 Wi - Fi 6/6E,数据传输速率可达多千兆位且延迟极低;其高性能三重 ISP 最多可支持 5 路摄像头并发工作,并能捕捉高达 192MP 的图像,为视觉处理提供了丰富且优质的图像源。

与此同时,YOLO(You Only Look Once)系列模型作为目标检测领域的佼佼者,凭借其高效的网络架构,能够对输入图像进行快速且精准的处理,在安防监控、交通管理、工业检测、医学影像分析等众多领域得到了广泛应用。YOLO 系列不断发展,从早期版本到如今的 YOLOv11 等,各版本在网络的深度和宽度上有所差异,开发者可根据实际项目中的计算资源限制、对检测精度以及检测速度的不同要求,灵活选择最适配的版本。

鉴于高通 QCS6490 平台强大的计算、AI 及连接能力,以及 YOLO 全系列模型在目标检测领域的领先地位,深入探究两者结合后的性能表现具有重要的现实意义。本次针对高通 QCS6490 平台上 YOLO 全系列模型的性能测试,将全面、深入地分析不同 YOLO 版本在该平台上的运行效率、检测精度等关键指标,为相关行业在边缘设备上部署智能视觉应用提供详实、可靠的数据参考与专业的技术指导,推动智能物联网应用迈向新的发展高度。

二、Benchmark

 YOLO系列Benchmark

高通QCS6490关于YOLO系列Benchmark

模型

尺寸640*640

类型 CPU NPU QNN2.31
FP32 INT8
YOLOv5n 目标识别 154.02 ms 6.49 FPS 3.14 ms 318.47 FPS
YOLOv5s 目标识别 375.6 ms 2.66 FPS  4.89 ms 204.50 FPS
YOLOv5m 目标识别 1439.28 ms 0.69 FPS  13.42 ms 74.52 FPS
YOLOv5l 目标识别 2780.12 ms 0.36 FPS  23.19 ms 43.12 FPS
YOLOv5x 目标识别 3525.42 ms 0.28 FPS  41.09 ms 24.34 FPS
YOLOv6n 目标识别 208.19 ms 4.80  FPS 3.11 ms 321.54 FPS
YOLOv6s 目标识别 730.3 ms 1.37 FPS  8.61 ms 116.14 FPS
YOLOv6m 目标识别 2603.81 ms 0.38 FPS  15.06 ms 66.40 FPS
YOLOv6l 目标识别 2937.03 ms 0.34 FPS  29.72 ms 33.65 FPS
YOLOv7 目标识别 1970.48 ms 0.51 FPS  22.92 ms 43.63 FPS
YOLOv7-X 目标识别  3516.18 ms 0.28 FPS  42.91 ms 23.30 FPS
YOLOv8n 目标识别 215.19 ms 4.65 FPS  4.76 ms 210.08 FPS
YOLOv8s 目标识别 590.92 ms 1.69  FPS 7.84 ms 127.55 FPS
YOLOv8m 目标识别 1310.2 ms 0.76  FPS 17.41 ms 57.44 FPS
YOLOv8l 目标识别 2697.88 ms 0.37  FPS 29.71 ms 33.66 FPS
YOLOv8x 目标识别 4022.64 ms 0.25 FPS 47.35 ms 21.12 FPS
YOLOv10n 目标识别 207.12 ms 4.83 FPS 5.53 ms 180.83 FPS
YOLOv10s 目标识别 492.82 ms 2.03 FPS 7.98 ms 125.31 FPS
YOLOv10m 目标识别 1219.93 ms 0.82 FPS 16.41 ms 60.94 FPS
YOLOv10B 目标识别 1766.49 ms 0.57 FPS 20.24 ms 49.41 FPS
YOLOv10l 目标识别 2187.53 ms 0.46 FPS 25.17 ms 39.73 FPS
YOLOv10x 目标识别 2779.64 ms 0.36 FPS 38.5 ms 25.97 FPS
YOLO11n 目标识别 182.86 ms 5.47 FPS 5.02 ms 199.20 FPS
YOLO11s 目标识别 458.7ms 2.18 FPS  8.4 ms 119.05 FPS
YOLO11m 目标识别 1266 ms 0.79 FPS 20.92 ms 47.80 FPS
YOLO11l 目标识别 1601.65 ms 0.62 FPS  25.13 ms 39.79 FPS
YOLO11x 目标识别 3196.28 ms 0.31 FPS  64.63 ms 15.47 FPS
YOLO-NAS-s 目标识别 659.95 ms 1.52  FPS 15.89  ms 62.93 FPS
YOLO-NAS-m 目标识别 1521.02 ms 0.66  FPS 20.8 ms 48.08 FPS
YOLO11n-seg 分割 290.66 ms 3.44  FPS 5.95 ms 168.07 FPS
YOLO11s-seg 分割 656.31 ms 1.52 FPS  9.75 ms 102.56 FPS
YOLO11m-seg 分割 1806.41 ms 0.55 FPS  27.85 ms 35.91 FPS
YOLO11l-seg 分割 2179.93 ms 0.46 FPS 32.78 ms 30.51 FPS
YOLO11x-seg 分割 4588.8 ms 0.22 FPS 85.25 ms 11.73 FPS
YOLO11n-cls 分类 538.82 ms 1.86 FPS  6.03 ms 165.84 FPS
YOLO11s-cls 分类 343.45 ms 2.91 FPS 8.26 ms 121.07 FPS
YOLO11m-cls 分类 741.52 ms 1.35 FPS  23.97 ms 41.72 FPS
YOLO11l-cls 分类 925.53 ms 1.08 FPS 27.74 ms 36.05 FPS
YOLO11x-cls 分类 1818.27 ms 0.55 FPS 54.33 ms 18.41 FPS
YOLO11n-pose 姿态估计 262.1 ms 3.82 FPS  5.26 ms 190.11 FPS
YOLO11s-pose 姿态估计 538.18 ms 1.86  FPS 8.76 ms 114.16 FPS
YOLO11m-pose 姿态估计 1308 ms 0.76  FPS 20.99 ms 47.64 FPS
YOLO11l-pose 姿态估计 1665.97 ms 0.60 FPS 25.01 ms 39.98 FPS
YOLO11x-pose 姿态估计 3380.63 ms 0.30 FPS 65.3 ms 15.31 FPS
YOLO11n-obb OBB 191.02 ms 5.24  FPS 4.5 ms 222.22 FPS
YOLO11s-obb OBB 461.77 ms 2.17 FPS 7.43 ms 134.59 FPS
YOLO11l-obb OBB 1242.83 ms 0.80 FPS 20.64 ms 48.45 FPS
YOLO11l-obb OBB 1562.55 ms 0.64  FPS 24.41 ms 40.97 FPS
YOLO11x-obb OBB 3373.26 ms 0.30  FPS 65.01 ms 15.38 FPS

二、高通 QCS6490 平台技术剖析

2.1 硬件架构

2.1.1 CPU 性能

高通 QCS6490 的八核 Kryo 670 CPU 构建了坚实的计算基础。高性能的 Cortex - A78 核心在面对复杂计算任务时,如模型的前期数据预处理、复杂算法的中间计算步骤等,能够以高频率运行,快速完成指令处理,大大缩短任务执行时间。而 Cortex - A55 核心则在系统处于轻负载状态,例如在监控场景中等待目标出现时的低功耗维持、简单数据的缓存与传输等操作中,以较低功耗运行,保障系统长时间稳定运行的同时,有效降低整体能耗。这种大小核异构的设计模式,通过智能调度算法,依据任务的类型和负载程度,动态分配任务到不同核心,实现了性能与功耗的完美平衡,为 YOLO 模型在不同运算阶段提供了灵活且高效的计算支持。

2.1.2 AI 引擎与算力

第 6 代高通 AI Engine 搭配 Hexagon 处理器与融合 AI 加速器,赋予了 QCS6490 强大的 AI 运算能力。在 YOLO 模型执行推理过程中,AI 引擎能够针对模型中的卷积运算、矩阵乘法等关键操作进行硬件加速。例如,在处理大量图像数据以识别目标物体时,其高达 12 TOPS 的算力可使模型快速完成对图像特征的提取与分析,相较于传统处理器大幅提升了推理速度。并且,AI 引擎在设计上充分考虑了能效比,在低功耗状态下依然能够保持较高的运算效率,这对于需要长时间运行的边缘智能设备而言,既能保证实时性的检测需求,又能降低设备的散热压力和能源消耗,延长设备的续航时间。

2.1.3 图形处理与视觉相关硬件

Adreno 643 GPU 在图形渲染方面发挥着重要作用,它能够对 YOLO 模型处理后的检测结果进行高效可视化。在安防监控应用中,将检测到的目标物体以清晰的边界框、标签等形式叠加在监控画面上,确保操作人员能够直观、准确地获取监控信息。同时,Spectra 570L ISP 的多摄像头处理能力为 YOLO 模型提供了丰富的图像输入源。在智能交通场景中,可同时接入多路摄像头,对不同方向的车辆、行人进行全方位检测,拓宽了检测视野范围。其高达 64MP/30fps 的图像捕捉能力,能够获取高分辨率的图像,为 YOLO 模型提供更清晰、更丰富的图像细节,有助于提升对小目标物体的检测精度。

2.2 软件支持

2.2.1 操作系统兼容性

QCS6490 具备出色的多操作系统兼容性,支持 Android、Linux、Ubuntu 及微软 Windows IoT Enterprise 等多种主流操作系统。这使得开发者能够根据项目的具体需求和自身的技术栈偏好,选择最适合的操作系统进行 YOLO 模型的部署与开发。例如,在工业自动化场景中,由于 Linux 系统具有高度的可定制性和稳定性,开发者可以基于 Linux 系统对 QCS6490 进行深度优化,确保 YOLO 模型在复杂工业环境下稳定运行。而在一些消费级智能设备中,Android 系统因其广泛的应用生态和易于开发的特点,能够快速实现基于 YOLO 模型的智能视觉应用开发与推广。

2.2.2 开发工具与框架支持

高通为开发者提供了一系列丰富的开发工具和框架,如 Qualcomm AI Engine Direct SDK。该 SDK 集成了模型转换、量化等功能,能够将常见的深度学习模型(如 YOLO 系列模型)高效地转换为适合 QCS6490 硬件架构运行的格式,并通过量化技术在不显著损失模型精度的前提下,进一步提升模型的推理速度和降低内存占用。以 YOLOv8n 模型转换为例,利用该 SDK 中的 qnn - onnx - converter 工具,能够将 onnx 格式的 YOLOv8n 模型顺利转换为量化后的 QNN 中间文件,再通过 qnn - model - lib - generator 工具编译生成可在 QCS6490 上运行的动态链接库文件,极大地简化了模型部署流程,加速了从模型开发到实际应用的转化过程。

三、YOLO 全系列模型概述

Ultralytics 支持的机型 -Ultralytics YOLO 文档

3.1 YOLO 模型发展历程

YOLO 模型自诞生以来,经历了多次重大迭代升级,不断推动着目标检测技术的发展。最初的 YOLO 版本创新性地将目标检测任务视为回归问题,通过一次性对整个图像进行处理,直接预测目标物体的类别和位置,彻底改变了传统目标检测算法基于滑动窗口的复杂模式,大幅提高了检测速度,使得实时目标检测成为可能。随后的 YOLOv2 版本在 YOLO 的基础上,引入了 Batch Normalization(批归一化)技术,加速了模型的收敛速度,提高了模型的稳定性;同时采用了更高分辨率的图像输入,提升了检测精度。YOLOv3 版本进一步改进了网络结构,设计了更适合目标检测的 Darknet - 53 网络,增加了多尺度检测机制,能够更好地检测不同大小的目标物体,在检测精度和速度上都取得了显著提升。随着技术的不断演进,后续的 YOLOv4、YOLOv5、YOLOv8 乃至最新的 YOLOv10 等版本,在网络架构优化、损失函数设计、训练策略改进等方面持续创新,不断刷新目标检测领域的性能记录。

3.2 模型架构与特点

3.2.1 YOLOv1 - YOLOv3

YOLOv1 的网络结构较为简洁,由 24 个卷积层和 2 个全连接层组成,其核心思想是将图像划分为多个网格,每个网格负责预测落入该网格内的目标物体。这种简单直接的设计虽然实现了快速检测,但在检测精度尤其是对小目标物体的检测上存在一定局限性。YOLOv2 对网络结构进行了优化,引入了新的网络层如 Convolutional With Anchor Boxes(带锚框的卷积层),通过预先定义不同大小和比例的锚框,更好地适应不同形状的目标物体,提高了检测的召回率。YOLOv3 则构建了 Darknet - 53 网络,该网络包含大量的残差块,增强了网络对特征的提取能力;同时采用了多尺度预测机制,在不同尺度的特征图上进行目标检测,能够更有效地检测出小、中、大不同尺寸的目标物体,在保持较高检测速度的同时,显著提升了检测精度。

3.2.2 YOLOv4 - YOLOv5

YOLOv4 在训练过程中集成了多种先进的技术,如 Mish 激活函数、DropBlock 正则化方法等,进一步提升了模型的性能。在网络结构上,它结合了 CSPNet(Cross Stage Partial Network)和 SPP(Spatial Pyramid Pooling)模块,CSPNet 通过跨阶段局部连接,减少了计算量,提高了模型的训练效率;SPP 模块则通过不同尺度的池化操作,增加了网络对不同尺度目标的适应性。YOLOv5 作为一个更加灵活和轻量级的版本,其网络结构在设计上更加注重模型的可扩展性和易用性。它包含了 YOLOv5s、YOLOv5m、YOLOv5l、YOLOv5x 等多个不同版本,各版本在网络的深度和宽度上有所差异。开发者可以根据实际项目的硬件资源和性能需求,灵活选择合适的版本。例如,YOLOv5s 版本网络结构较浅、宽度较窄,适合在资源有限的边缘设备上运行,能够实现较快的检测速度;而 YOLOv5x 版本网络结构更深、更宽,具有更高的检测精度,但相应地对硬件计算资源要求也更高。

3.2.3 YOLOv8 - YOLOv10

YOLOv8 在模型架构上进行了进一步创新,采用了全新的网络设计理念,如引入了更高效的特征融合方式,使得不同尺度的特征信息能够更充分地交互,从而提升对复杂场景下目标物体的检测能力。在训练过程中,它利用了更先进的训练算法和数据增强技术,进一步提高了模型的泛化能力和检测精度。YOLOv10 则在准确性和效率方面取得了更显著的突破。它通过优化网络架构,减少了推理过程中的计算负载,实现了更低的延迟,这对于实时性要求极高的应用场景如自动驾驶、实时监控等具有重要意义。同时,YOLOv10 在检测小目标物体方面有了重大改进,通过改进特征提取方式和检测头设计,能够更准确地识别复杂场景中的小目标,在各种基准测试场景中表现出色,全面超越了之前的 YOLO 版本以及其他一些先进的目标检测模型。

3.3 应用领域

3.3.1 安防监控

在安防监控领域,YOLO 系列模型发挥着至关重要的作用。通过实时分析监控视频流,能够快速检测出异常行为如人员入侵、物体遗留、火灾烟雾等。例如,在大型商场、写字楼等场所的监控系统中,YOLO 模型可以实时监测各个区域的人员活动情况,一旦检测到有人闯入限制区域或出现异常聚集,系统能够立即发出警报通知安保人员,有效提高了安防监控的效率和及时性,保障了场所的安全。

3.3.2 交通管理

在智能交通系统中,YOLO 模型可对道路上的车辆、行人、交通标志等进行准确检测与识别。通过对交通摄像头拍摄的图像或视频进行分析,能够实现车辆流量统计、车速检测、违规行为抓拍(如闯红灯、超速、违规变道等)。例如,在城市交通路口部署的智能交通监控设备中,利用 YOLO 模型实时分析交通状况,为交通信号灯的智能控制提供数据支持,优化交通流量,减少拥堵,提高道路通行效率。

3.3.3 工业检测

在工业生产过程中,产品质量检测是确保产品质量的关键环节。YOLO 系列模型能够快速检测产品表面的缺陷与瑕疵,如电子产品的焊接点缺陷、机械零件的表面裂纹、纺织品的瑕疵等。通过对生产线上的产品图像进行实时检测,能够及时发现不合格产品,实现自动化的质量控制,提高生产效率,降低生产成本,提升产品质量的一致性和稳定性。

3.3.4 医学影像分析

在医学领域,YOLO 模型也逐渐展现出其应用潜力。在医学影像分析中,它可以辅助医生检测特定的病变区域,如在 X 光、CT、MRI 等影像中检测肿瘤、结节、骨折等病变。通过快速准确地识别病变区域,为医生提供辅助诊断信息,帮助医生更高效地进行疾病诊断,提高诊断的准确性和及时性,为患者的治疗争取宝贵时间。

四、性能测试方案

4.1 测试环境搭建

4.1.1 硬件环境

本次测试选用搭载高通 QCS6490 SoC 的开发板作为核心硬件平台。该开发板配备了充足的内存(如 8GB LPDDR4X)和存储(如 128GB UFS 3.1),以确保在运行 YOLO 模型时能够顺利加载模型参数和处理大量的图像数据。同时,为了获取测试所需的图像数据,连接了多个高清摄像头(如分辨率为 1080P 的 CMOS 摄像头),通过开发板的 Spectra 570L ISP 实现多摄像头数据的同步采集与处理。此外,为保证测试过程中网络数据传输的稳定性,开发板通过有线网络连接至千兆以太网,并配备了支持 Wi - Fi 6E 的无线网卡,以便在需要时进行无线数据传输测试。

4.1.2 软件环境

操作系统方面,根据测试需求和开发便利性,选择了 Ubuntu 22.04 LTS 作为开发板的运行系统。在该系统环境下,安装了高通提供的完整软件包,包括AidLite SDK、驱动程序以及相关的依赖库。同时,为了运行 YOLO 全系列模型,安装了 Python 3.10 以及深度学习框架 tflite(版本适配 QCS6490 平台)。此外,还安装了一系列用于图像预处理、后处理以及性能测试分析的工具,如 OpenCV 用于图像的读取、裁剪、缩放等操作;NumPy 用于数值计算;Matplotlib 用于绘制性能测试结果图表等。

4.2 测试数据集准备

为了全面、准确地评估 YOLO 全系列模型在高通 QCS6490 平台上的性能,选用了多个具有代表性的公开数据集,包括 COCO(Common Objects in Context)数据集、PASCAL VOC(Visual Object Classes)数据集以及针对特定应用场景的自定义数据集。COCO 数据集包含了大量丰富多样的图像,涵盖了 80 个不同类别的目标物体,图像场景复杂,具有广泛的代表性;PASCAL VOC 数据集则在目标检测领域具有悠久的历史,包含 20 个常见的物体类别,常用于模型性能的基准测试。对于自定义数据集,根据实际应用场景(如工业检测中的产品缺陷检测),收集了大量包含正常产品和缺陷产品的图像,并进行了精细标注,标注内容包括目标物体的类别、位置坐标等信息。在测试过程中,将数据集按照一定比例划分为训练集、验证集和测试集,其中测试集用于实际的模型性能测试,以确保测试结果的客观性和准确性。

4.3 测试指标确定

本次性能测试主要关注以下几个关键指标:

4.3.1 推理速度

推理速度是衡量 YOLO 模型在 QCS6490 平台上实时性的重要指标,以每秒处理的图像帧数(FPS)来表示。通过记录模型对大量测试图像进行推理所需的总时间,并结合图像数量计算得出平均每秒处理的图像帧数。推理速度越快,意味着模型能够在更短的时间内对输入图像进行目标检测,更适合于对实时性要求较高的应用场景,如实时监控、自动驾驶等。

4.4 测试流程设计

4.4.1 模型转换与优化

在正式测试之前,首先需要将 YOLO 全系列模型的原始权重文件(如 PyTorch 格式的onnx文件)转换为适合高通 QCS6490 平台运行的格式。利用AIMO 中的模型转换工具,将模型转换为 QNN(Qualcomm Neural Network)格式,并进行量化处理,以减少模型的内存占用和提高推理速度。在量化过程中,选择合适的量化策略(如 8 位整数量化),并通过对验证集的评估,确保量化后的模型在精度损失可接受的范围内。

你可能感兴趣的:(高通 QCS6490 平台上 YOLO 全系列模型性能深度评测)