onnx模型部署

大模型量化终极对决：FP8 vs AWQ INT4，谁才是性能与精度的王者？

摘要在大模型部署与优化中，量化技术是突破性能瓶颈的关键。FP8量化与AWQINT4量化作为当前主流方案，分别以“高精度”和“极致压缩”为核心优势。

曦紫沐·2025-07-29 22:08

Python爬虫【五十八章】Python数据清洗与分析全攻略：从Pandas到深度学习的异常检测进阶

2.1自动编码器异常检测（时序数据）2.2图神经网络异常检测（关系型数据）第三章：综合案例实战案例1：金融交易反欺诈系统案例2：工业传感器异常检测第四章：性能优化与工程实践4.1大数据处理加速技巧4.2模型部署方案第五章

程序员_CLUB·2025-07-29 05:36

【Ollama】大模型本地部署与 Java 项目调用指南

Ollama大模型本地部署与Java项目调用指南一、引言背景介绍Ollama是一个轻量级的大语言模型部署工具，支持快速在本地拉取、运行主流开源模型（如LLaMA3、Mistral、Gemma等）。

科马·2025-07-28 23:46

【代码问题】【模型部署】部署千问时，ImportError: Cannot import available module of Qwen2_5_VLForConditionalGeneration

多半是环境的问题，最主要的是python版本要高python==3.12.9accelerate==1.8.1pipinstallqwen-vl-utils[decord]==0.0.8peft==0.14.0transformers==4.52.3torch==2.7.0torchvision==0.22.0modelscope==1.27.1

Catching Star·2025-07-28 06:45

基于Jetson Nano与PyTorch的无人机实时目标跟踪系统搭建指南

引言：边缘计算赋能智能监控在AIoT时代，将深度学习模型部署到嵌入式设备已成为行业刚需。

·2025-07-28 01:42

Linux指令&&ros学习&&python深度学习&&bug学习笔记

##这个文件是关于ros、linux指令，pytorch、python、onnx和相关problem的一些笔记###ROS&&linux**find:在当前路径或指定的路径下递归地搜索文件或目录，并可以根据不同的条件进行过滤和匹配

起个别名·2025-07-27 01:07

stable diffusion No module named taming

图片gan模型部署报错。

·2025-07-26 01:19

论文笔记：EMR-MERGING: Tuning-Free High-Performance Model Merging

2024neurips1intro随着HuggingFace、timm和torchvision等开源仓库的发展，预训练与微调模型的数量激增，这导致模型部署的存储和成本负担加重。

UQI-LIUWJ·2025-07-24 13:41

模型优化-------模型压缩

特别适合模型部署在边缘设备、移动端、嵌入式系统等资源受限环境中。

AI扶我青云志·2025-07-24 00:16

如何构建FunASR的本地语音识别服务

支持多种部署方式：本地Python、Docker容器、ONNX推理优化等。开源地址：GitHub-FunASR

·2025-07-23 20:48

程序员管理与AIStarter开发：如何避免需求Bug，提升项目效率

AIStarter专注AI模型部署（如Ollama），一键安装，免费为主，市场反馈超棒！总结：

ai_xiaogui·2025-07-23 13:35

基于国产手机 SoC 的多模态模型推理加速实战：GPU × NPU 协同优化全流程解析

NPU协同优化全流程解析关键词多模态模型推理、NPU硬件加速、GPU并行计算、国产手机SoC、端侧部署优化、华为昇腾NPU、小米Surge芯片、高通AIEngine、异构计算加速、TFLiteNNAPI、ONNXRuntimeEP

观熵·2025-07-23 09:36

边缘计算与量子模型优化驱动医疗诊断新突破

值得关注的是，框架选型直接影响着模型部署的可行性——TensorFlow在移动端推理优化方面的工具链完备性，与PyTorch动态图机制对迭

·2025-07-23 07:29

从0构建 HarmonyOS 本地语音识别项目：Whisper 完整落地教程

在很多移动场景下（驾驶、弱网环境、隐私敏感场景等），云端语音识别存在如下痛点：⏳网络延迟高、体验割裂⚠️数据隐私风险大网络依赖强，弱网/无网直接无法使用而将语音识别模型部署在鸿蒙设备

观熵·2025-07-22 21:19

SFT深度实践指南：从数据构建到模型部署*的全流程解析

一、SFT技术原理与定位核心定义SFT是在预训练语言模型（如LLaMA、GPT）基础上，利用标注数据优化模型以适应特定任务的技术。其本质是通过调整模型参数，将通用语言能力迁移至专业领域（如法律、医疗）或任务（如对话生成、代码补全）。与预训练的区别预训练：使用无标注数据（如维基百科）学习通用表征，消耗千亿级token算力。SFT：使用标注数据（如指令-答案对）进行任务适配，成本仅为预训练的1/100

大千AI助手·2025-07-22 18:34

大模型部署的整体架构

一、大模型部署架构1.1部署架构大模型部署的整体架构是一个多层次、软硬件协同的系统工程，旨在解决模型规模庞大、计算资源密集、延迟敏感等挑战。

flyair_China·2025-07-22 04:25

借助 Amazon SageMaker Catalog 功能，简化从数据到洞察的路径

AmazonSageMakerCatalog应运而生，作为统一的数据和特征治理中心，它能打通从原始数据到模型部署的全链路，显著加速数据科学项目落地。

·2025-07-22 00:30

模型移植实战：从PyTorch到ONNX完整指南

一、认识ONNXONNX（OpenNeuralNetworkExchange）是一种开放的模型表示格式，由微软和Facebook（现Meta）在2017年共同推出，旨在解决深度学习模型在不同框架之间的互操作性问题

慕婉0307·2025-07-21 18:50

Python Gradio：快速搭建人脸识别应用

PythonGradio：快速搭建人脸识别应用关键词：Python,Gradio,人脸识别,深度学习,计算机视觉,交互式应用,模型部署摘要：本文详细介绍了如何使用Python的Gradio库快速搭建一个交互式的人脸识别应用

Python编程之道·2025-07-20 10:25

ONNX模型使用指南：从零开始掌握跨领域模型部署

ONNX模型使用指南：从零开始掌握跨领域模型部署ONNX模型作为一种开放式的神经网络交换格式，已成为AI模型部署的行业标准。

·2025-07-20 01:25

英伟达Triton 推理服务详解

它支持多种深度学习框架和硬件平台，能够帮助开发者和企业高效地将AI模型部署到生产环境中。Triton主要用于模型推理服务化，即将训练好的模型通过

leo0308·2025-07-19 11:09

PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）

PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？

阿牛的药铺·2025-07-12 18:06

模型实战（21）之 C++ - tensorRT部署yolov8-det 目标检测

C++-tensorRT部署yolov8-det目标检测python环境下如何直接调用推理模型转换并导出：pt->onnx->.engineC++tensorrt部署检测模型不写废话了，直接上具体实现过程

明月醉窗台·2025-07-11 16:08

边缘人工智能与医疗AI融合发展路径：技术融合与应用前景（上）

边缘AI区别于传统的云计算模式，它将数据处理和AI模型部署在数据源头附近，实现快速响应和隐私保护。这种特性使其在医疗保健领域具有独特优势，特别是在实时监测、紧急响应和患者隐私保护等方面。边缘AI

Allen_Lyb·2025-07-10 07:57

onnxruntime-1.22.0交叉编译arm64目标平台

1背景在上一实践《sherpa-onnxAI语音框架添加acl加速库实践》中，笔者基于最新github源码版本编译出的onnxruntime动态库（包括acl库)测试效果不理想，后续尝试下载onnxruntime

·2025-07-09 18:36

手机通话语音离线ASR识别商用和优化方向

一、前言前面的篇章中，我们尝试了将FunASR的ONNX模型文件加载到Android应用中，实现手机本地不依赖服务器和网络的离线ASR语音识别。

limingade·2025-07-08 20:10

一文读懂 Sigmoid 与 Hard Sigmoid 激活函数：从原理到量化部署

在神经网络训练与部署中，激活函数扮演着关键角色，不仅影响模型训练过程，也直接决定了模型部署到实际设备后的性能表现。

·2025-07-08 16:42

【机器学习笔记 Ⅱ】10 完整周期

机器学习的完整生命周期（End-to-EndPipeline）机器学习的完整周期涵盖从问题定义到模型部署的全过程，以下是系统化的步骤分解和关键要点：1.问题定义（ProblemDefinition）目标

·2025-07-07 12:24

【TensorRT】TensorRT及加速原理

其核心架构分为三层：前端解析器支持ONNX/UFF/Caffe等格式的模型解析执行格式验证和初步结构优化优化引擎核心优化层（层融合、精度校准、内存优化等）生成优化后的计算图（OptimizedGraph

浩瀚之水_csdn·2025-07-06 19:24

超详细yolov8/11-segment实例分割全流程概述：配置环境、数据标注、训练、验证/预测、onnx部署(c++/python)详解

姿态/旋转/分类模型的环境配置、训练、推理预测等命令非常类似，这里不再详细叙述，主要参考**【YOLOv8/11-detect目标检测全流程教程】**，下面有相关链接，这里主要针对数据标注、格式转换、模型部署等不同细节部分

·2025-07-06 09:24

使用TVM编译部署DarkNet模型：YOLO-V2和YOLO-V3实战指南

tvm-cnTVMDocumentationinChineseSimplified/TVM中文文档项目地址:https://gitcode.com/gh_mirrors/tv/tvm-cn前言在深度学习模型部署领域

周情津Raymond·2025-07-06 01:35

《ONNX推理部署全解析：从基础到进阶的实用指南》

ONNX基础入门ONNX是什么ONNX，即OpenNeuralNetworkExchange（开放神经网络交换），是一种用于表示深度学习模型的开放标准文件格式。

空云风语·2025-07-05 22:45

yolo11官方ONNXRuntime部署推理的脚本测试，包括检测模型和分割模型的部署推理

一、检测模型1.脚本路径：D:/ultralytics-main/examples/YOLOv8-ONNXRuntime/main.py2.使用案例下载好onnx模型保存至D:/ultralytics-main

Revao·2025-07-05 22:12

《YOLO11的ONNX推理部署：多语言多架构实践指南》

引言：YOLO11与ONNX的相遇在计算机视觉的广袤星空中，目标检测始终是一颗耀眼的明星，其在自动驾驶、智能安防、工业检测、医疗影像分析等诸多领域都有着举足轻重的应用。

空云风语·2025-07-05 22:40

Ollama-python：调用大模型服务实现代码自动补全，提升编程开发效率！

大模型部署在本地后，我们可以有哪些应用呢？本文介绍如何通过Ollama的pythonsdk，调用本地部署的大模型服务，对我们的代码进行自动补全，提升日常的编程开发效率。

·2025-07-05 17:10

YOLO 推理部署全方案」：一文掌握部署方式与性能对比！

下面是常见的YOLO推理部署方式：1️⃣PyTorch原生部署使用原始PyTorch模型.pt文件直接调用model(input)进行推理✅优点：简单、灵活、易于调试❌缺点：推理速度较慢，不适合生产环境2️⃣ONNX

要努力啊啊啊·2025-07-05 16:59

文心4.5开源模型部署实践

文心4.5开源模型部署实践使用fastdeploy本地部署执行命令：python-mfastdeploy.entrypoints.openai.api_server\ --modelbaidu/ERNIE

skywalk8163·2025-07-05 03:02

重构企业智能服务：大模型部署背后的战略与落地实践

个人主页：慌ZHANG-CSDN博客期待您的关注一、引言：从“能用”到“可用”的时代跃迁过去一年中，大语言模型（LLMs）实现了从实验室“黑科技”到企业场景“生产力”的巨大跃迁。无论是通用问答、客户支持、文本生成、知识库问询，还是代码辅助、财报分析，大模型的边界已快速渗透到各行各业。然而，许多企业在试图将ChatGPT或DeepSeek等模型引入自己的业务系统时却发现：在线服务存在数据泄露风险；响

慌ZHANG·2025-07-04 11:46

mlflow案例

Tutorial—MLflow2.4.1documentation本教程展示了如何使用MLflow端到端执行以下操作：（1）训练线性回归模型（2）将训练模型的代码打包为可重复使用和可复制的模型格式（3）将模型部署到一个简单的

·2025-07-04 07:43

pythonflow_MLflow系列1：MLflow入门教程（Python）

这篇教程展示了如何：训练一个线性回归模型将训练代码打包成一个可复用可复现的模型格式将模型部署成一个简单的HTTP服务用于进行预测这篇教程使用的数据来自UCI的红酒质量数据集，主要用于根据红酒的PH值，酸度

weixin_39872334·2025-07-04 07:13

BAAI/BGE-VL多模态模型部署、原理、代码详解（实现图像文本混合检索），包含BEG-VL多模态模型的本地部署详细步骤及代码原理解析

本文包含BGE-VL多模态模型的本地部署详细步骤及代码原理解析文章目录前言一、模型下载二、计算流程解析1.BGE-VL-base/Large2.BGE-VL-MLLM-s1/s2三、总结前言提示：这里可以添加本文要记录的大概内容：包含四个模型及数据集，数据集未开源，四个模型可以分别下载：其中，BGE-VL-base/Large是基于CLIP训练的模型，BGE-VL-MLLM-S1/S2是基于LLM

令令小宁·2025-07-04 01:09

【Rust日报】Rust稳定2024版本将于 2025年2月20日发布

使用@pykeio/ort进行高性能的ONNX推理。使用@huggingface/tokenizers进行快速编码。支持使用@rayon-rs/rayon进行批量嵌入生成和并行计算。

·2025-07-04 00:32

RK3576 Yolo 部署

2.开发需求在RK3576上运行yolov8的官方例程3.开发环境Ubuntu20.04+Conda+Yolov8+RK35764.实现步骤4.1PyTorch文件转ONNX4.1.1下载权重文件下载官方权重文件

·2025-07-03 21:41

使用numpy或pytorch校验两个张量是否相等

文章目录1、numpy2、pytorch做算法过程中，如果涉及到模型落地，那必然会将原始的深度学习的框架训练好的模型转换成目标硬件模型的格式，如onnx,tensorrt,openvino,tflite

·2025-07-03 20:33

【模型部署】如何在Linux中通过脚本文件部署模型

在Linux中，你可以将部署命令保存为可执行脚本文件，并通过终端直接调用。以下是几种常见且实用的方法：方法1：Shell脚本（推荐）步骤创建一个.sh文件（例如start_vllm.sh）：#!/bin/bashCUDA_VISIBLE_DEVICES=7\python-mvllm.entrypoints.openai.api_server\--served-model-nameQwen2-7B-

满怀1015·2025-07-03 02:19

Spring Boot + ONNX Runtime模型部署

模型部署正是Java工程师融入AI领域的方向。为什么Java工程师必须掌握模型部

·2025-07-02 16:04

onnx模型部署 python_深度学习模型转换与部署那些事(含ONNX格式详细分析)

背景深度学习模型在训练完成之后，部署并应用在生产环境的这一步至关重要，毕竟训练出来的模型不能只接受一些公开数据集和榜单的检验，还需要在真正的业务场景下创造价值，不能只是为了PR而躺在实验机器上在现有条件下，一般涉及到模型的部署就要涉及到模型的转换，而转换的过程也是随着对应平台的不同而不同，一般工程师接触到的平台分为GPU云平台、手机和其他嵌入式设备对于GPU云平台来说，在上面部署本应该是最轻松的事

weixin_39759270·2025-07-02 11:02

vLLM调度部署Qwen3

vLLM介绍在之前的文章中，我们介绍了如何使用ollama部署qwen3，一般而言，ollama适合个人部署使用，在面对企业级的模型部署时，一般更建议使用vLLMvLLM（高效大语言模型推理库）是一个专为大语言模型

你好，此用户已存在·2025-07-02 10:19

从源码编译 ONNX Runtime GPU 1.18.2 并验证 CUDA 推理成功

文章目录从源码编译ONNXRuntimeGPU1.18.2并验证CUDA推理成功【实测环境+完整步骤】✅环境信息（实测成功）第一步：获取源码️第二步：编译命令参数说明（重点）第三步：安装构建好的`.whl

草莓奶忻·2025-07-02 09:41

如何构建AI原生应用领域的高效SaaS架构

如何构建AI原生应用领域的高效SaaS架构关键词：AI原生应用、SaaS架构、微服务、容器化、机器学习模型部署、自动扩展、多租户隔离摘要：本文深入探讨如何构建面向AI原生应用的高效SaaS架构。

AI原生应用开发·2025-07-01 20:39

推荐频道