模型部署

大模型量化技术原理-LLM.int8()、GPTQ

近年来，随着Transformer、MOE架构的提出，使得深度学习模型轻松突破上万亿规模参数，从而导致模型变得越来越大，因此，我们需要一些大模型压缩技术来降低模型部署的成本，并提升模型的推理性能。

吃果冻不吐果冻皮·2024-02-20 21:39

我把ChatGPT部署到我的手机上

正常的大模型部署都是在服务器上的但是最近我看到一个手机上可以运行的大模型分享给大家MiniCPMMiniCPM是基于MLC-LLM开发，将MiniCPM和MiniCPM-V在Android手机端上运行。

·2024-02-20 17:55

81TensorFlow 2 模型部署方法实践--TensorFlow Serving 部署模型

TensorFlowServing部署模型TensorFlowServing是一个针对机器学习模型的灵活、高性能的服务系统，专为生产环境而设计。本节实验将使用TensorFlowServing部署MobileNetV2模型，并通过两种方法访问TensorFlowServing服务进行图像识别。TensorFlowServing安装在这里我们通过Docker来安装TensorFlowServing，

Jachin111·2024-02-14 13:25

深度学习笔记：推理服务

推理服务是把训练好的模型部署到线上，进行实时预测的过程。如阿里的RTP系统顾名思义，实时预测是相对于非实时预测(离线预测)而言，非实时预测是将训练好

TaoTao Li·2024-02-14 03:58

如何实现远程云服务器模型部署在本地使用

远程云服务器模型部署在本地使用1.问题说明：在使用pycharm的ssh连接到远程云服务器时，模型已经加载成功并且出现了如下标识：但是我们打开本地的7080端口，发现是拒绝访问。这是什么情况？

时光诺言·2024-02-14 01:53

LMDeploy 大模型量化部署实践

在浦语的MDeploy大模型量化部署实践课程中，可能需要完成的任务包括：大模型部署背景2、LMDeploy简介环境配置：这个部分你需要安装并设置相关的开发工具和库。

查里王·2024-02-12 23:57

AI工程化工具设计

需要有一个方便的改名字的工具，将下载的图片，一键式改名；3，需要有一个方便的，自动化的标注工具，提高标注效率4，需要有一个方便的，图形化的训练和测试工具，自动训练，并给出训练结果报告5，需要有一个方便的部署工具，方便把模型部署到

LabVIEW_Python·2024-02-12 21:44

开发者都能玩转的大模型训练

而且基于亚马逊云科技的云服务器优势，可以直接将模型部署到线上托管环境上，非常方便，且无技术“隔阂”，无缝操作。据我

·2024-02-11 17:57

hummingbird，一个便于将模型部署到边缘设备的Python库！

前言随着人工智能和机器学习的快速发展，将训练好的模型部署到生产环境中成为了一个重要的任务。而边缘计算设备，如智能手机、嵌入式系统和物联网设备，也需要能够运行机器学习模型以进行实时推理。

漫走云雾·2024-02-11 05:31

hummingbird，一个非常好用的 Python 库！

随着人工智能和机器学习的快速发展，将训练好的模型部署到生产环境中成为了一个重要的任务。而边缘计算设备，如智能手机、嵌入式系统和物联网设备，也需要能够运行机器学习模型以进行实时推理。

近咫／＼ぃ天涯·2024-02-10 12:54

论文撰写八大技巧与八大心得，一文读懂

各位大佬、敬请查阅声明:作为全网AI领域干货最多的博主之一，❤️不负光阴不负卿❤️日常搬砖帮老板审了不少Paper，总结一些心得分享给各位正在路上的科研小伙伴计算机视觉、超分重建、图像修复、目标检测、模型部署都在学习墨理学

墨理学AI·2024-02-10 12:34

使用阿里云通义千问14B（Qianwen-14B）模型自建问答系统

使用阿里云通义千问14B（Qianwen-14B）模型自建问答系统时，调度服务器资源的详情将取决于以下关键因素：模型部署：GPU资源：由于Qianwen-14B是一个大规模语言模型，推理时需要高性能的GPU

wangqiaowq·2024-02-09 12:20

hummingbird，一个非常好用的 Python 库！

前言随着人工智能和机器学习的快速发展，将训练好的模型部署到生产环境中成为了一个重要的任务。而边缘计算设备，如智能手机、嵌入式系统和物联网设备，也需要能够运行机器学习模型以进行实时推理。

漫走云雾·2024-02-08 12:42

读懂 FastChat 大模型部署源码所需的异步编程基础

原文：读懂FastChat大模型部署源码所需的异步编程基础-知乎目录0.前言1.同步与异步的区别2.协程3.事件循环4.await5.组合协程6.使用Semaphore限制并发数7.运行阻塞任务8.异步迭代器

javastart·2024-02-08 09:08

llama2模型部署方案的简单调研-GPU显存占用(2023年7月25日版)

先说结论全精度llama27B最低显存要求：28GB全精度llama213B最低显存要求：52GB全精度llama270B最低显存要求：280GB16精度llama27B预测最低显存要求：14GB16精度llama213B预测最低显存要求：26GB16精度llama270B预测最低显存要求：140GB8精度llama27B预测最低显存要求：7GB8精度llama213B预测最低显存要求：13GB8

海皇海皇吹·2024-02-05 20:50

周同学文章汇总

目录前言1.C++2.Linux3.环境配置4.AlgoC++5.Makefile6.模型部署7.tensorRT从零起步高性能部署8.保姆级从零手写自动驾驶CV9.剪枝与重参10.量化11.国内首个BVE

爱听歌的周童鞋·2024-02-04 19:23

Python机器学习模型库之hummingbird使用详解

概要随着人工智能和机器学习的快速发展，将训练好的模型部署到生产环境中成为了一个重要的任务。而边缘计算设备，如智能手机、嵌入式系统和物联网设备，也需要能够运行机器学习模型以进行实时推理。

Rocky006·2024-02-03 13:15

(新手亲测有效)bug解决：在用显存24G的3090采用LoRA微调ChatGLM-6B（FP16）时报错torch.OutOfMemoryError:CUDA out of Memory.

理论上，ChatGLM-6B（FP16）模型部署运行时需要大约13G的显存空间即可。

韬小志·2024-02-02 20:34

《YOLOv8-Pose关键点检测》专栏介绍 & CSDN独家改进创新实战 & 专栏目录

pose的yolo数据集；模型性能提升、pose模式部署能力；应用范围：工业工件定位、人脸、摔倒检测等支持各个关键点检测；指导手册目录1.手把手入门教程1.1训练准备篇，数据集制作1.1案列实战1.1模型部署

AI小怪兽·2024-02-01 15:38

英特尔正式发布OpenVINO™ 2023.3版本

OpenVINO™是英特尔针对自家硬件平台开发的一套深度学习工具库，包含推断库，模型优化等等一系列与深度学习模型部署相关的功能。

hyang1974·2024-02-01 04:19

yolov8数据标注、模型训练到模型部署全过程

文章目录一、数据标注（x-anylabeling）1.安装方式1.1直接通过Releases安装1.2clone源码后采用终端运行2.如何使用二、模型训练三、模型部署3.1onnx转engine3.2c

只搬烫手的砖·2024-01-30 09:09

python+keras搭建的模型部署至嵌入式端PSoc6

前面已经写了文章描述如何搭建简单的水果分类模型，本文将介绍如何将搭建的模型部署至嵌入式端，本文利用MLConfigurator提供的配置程序MLConfigurator来导入预先训练好的机器学习模型，而它的目前版本仅支持

deleteeee·2024-01-30 08:24

PyTorch2ONNX-分类模型：速度比较（固定维度、动态维度）、精度比较

图像分类模型部署:PyTorch->ONNX1.模型部署介绍1.1人工智能开发部署全流程step1数据数据采集定义类别标注数据集step2模型训练模型测试集评估调参优化可解释分析step3部署手机/平板服务器

Le0v1n·2024-01-30 07:08

对于jetson nano 的docker部署jetson-inference等模型

对于Nvidiajetsonnano来说是一款十分优秀的网络模型部署设备我对于nano来说也是学习了2个星期左右.这也是对我这一阶段做一个复习总结吧!

诶我就不告诉你·2024-01-27 00:55

开源模型部署及使用

开源模型部署及使用1.Langchain-Chatchat1.环境2.运行3.效果2.facefusion1.环境2.运行3.效果3.Aquila1.环境2.运行1.Langchain-ChatchatLangchain-Chatchat

我是小z呀·2024-01-26 17:40

大模型部署手记（22）Ubuntu+TensorRT-LLM+通义千问

阅读了https://zhuanlan.zhihu.com/p/662406460张小白不禁打开了这个链接：GitHub-Tlntin/Qwen-7B-Chat-TensorRT-LLM看了下环境：貌似不难满足：记住：16G显存可以用int8。docker已经有了：先根据https://docs.nvidia.com/datacenter/cloud-native/container-toolki

张小白TWO·2024-01-26 16:26

TensorRT-9.0和TensorRT-LLM马上要发布了！

作者|Oldpan编辑|oldpan博客点击下方卡片，关注“自动驾驶之心”公众号ADAS巨卷干货，即可获取点击进入→自动驾驶之心【模型部署】技术交流群本文只做学术分享，如有侵权，联系删文TensorRT

自动驾驶之心·2024-01-26 16:52

【模型部署】入门教程（六）：实现 PyTorch-ONNX 精度对齐工具

模型部署入门教程（六）：实现PyTorch-ONNX精度对齐工具-知乎(zhihu.com)目录设计思路代码实现Debug算子Debugger类生成调试节点提取调试模型运行调试模型输出调试信息使用方法总结系列传送门久等啦

卖报的大地主·2024-01-26 07:41

书生·浦语大模型--第五节课笔记&作业--LMDeploy 大模型量化部署实践

文章目录大模型部署背景LMDeploy简介动手实践创建环境服务部署在线转换离线转换TurboMind推理+API服务Gradio作为前端Demo演示TurboMind服务作为后端TurboMind推理作为后端作业大模型部署背景部署

李日音·2024-01-25 21:28

模型部署flask学习篇（二）---- flask用户登录&用户管理

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、用户登录&用户管理1、flask路由:可以接收get请求和post请求2、动态路由3、获取提交的参数4、返回数据（四种形式）5、模板处理（也就是在html中）二、完整代码三、完整html代码1、login.html2、index.html3、edit.html前言在学习机器学习或者深度学习后，我们常常会将自己训练好的模

算法小白（真小白）·2024-01-25 00:31

ncnn模型部署——使用VS2019把项目打包成DLL文件

一、项目打包成DLL文件1.创建动态链接库DLL项目创建完成，项目中包含源文件dllmain.cpp,pch.cpp，头文件framework.h,pch.h2.编写和配置DLL项目（1）配置pch.h文件，在头文件pch.h中定义宏，宏的作用的是允许该函数能够被外部访问，并直接调用//pch.h:这是预编译标头文件。//下方列出的文件仅编译一次，提高了将来生成的生成性能。//这还将影响Intel

liguiyuan112·2024-01-24 14:31

模型部署flask学习篇（一）---- flask初始及创建登录页面

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、Flask快速使用二、快速使用flask三、创建登录页面前言在学习机器学习或者深度学习后，我们常常会将自己训练好的模型来进行部署或者可视化出来，供自己或者别人来使用，那么python的flask框架就可以作为选择之一。一、Flask快速使用安装#python环境的安装方式pipinstallflask#conda环境安

算法小白（真小白）·2024-01-24 10:32

书生·浦语大模型实战营-学习笔记5

LMDeploy大模型量化部署实践大模型部署背景LMDeploy简介轻量化、推理引擎、服务核心功能-量化显存消耗变少了大语言模型是典型的访存密集型任务，因为它是decoder-by-decoder先把数据量化为

Kinno酱·2024-01-24 05:52

第五节课 LMDeploy 大模型量化部署实践（笔记）

LMDeploy大模型量化部署实践_哔哩哔哩_bilibili课程文档：https://github.com/InternLM/tutorial/blob/main/lmdeploy/lmdeploy.md1.大模型部署背景

幽径微澜·2024-01-24 05:34

地平线旭日 X3 开发板上手体验

最近嫖到一块旭日X3开发板，借此熟悉地平线AI芯片旭日X3模型部署流程，以及算法工具链。这里基本是跟着官方的用户手册进行操作，其中也遇到一些奇怪的问题。

哦豁灬·2024-01-24 04:00

【书生·浦语大模型实战营05】《(5)LMDeploy 大模型量化部署实践》学习笔记

《(5)LMDeploy大模型量化部署实践》课程文档：《LMDeploy的量化和部署》1、大模型部署背景1.1模型部署定义将训练好的模型在特定软硬件环境中启动的过程，使模型能够接收输入并返回预测结果为了满足性能和效率的需求

songyuc·2024-01-24 03:42

【书生·浦语大模型实战】“PDF阅读小助手”学习笔记

1模型部署在InternStudio平台中选择A100(1/4)的配置，镜像选择Cuda11.7-conda，可以选择已有的开发机langchain；1.1创建工作空间mkdir/root/pdf_project1.2Clone

songyuc·2024-01-24 03:42

大模型学习与实践笔记（十二）

使用RAG方式，构建opencv专业资料构建专业知识库，并搭建专业问答助手，并将模型部署到openxlab平台代码仓库：https://github.com/AllYoung/LLM4opencv1：创建代码仓库在

AllYoung_362·2024-01-23 21:19

AI大模型三种技术服务模式的比较

大模型服务是指将大模型部署在云端，提供给用户通过API或界面调用的服务。大模型服务可以帮助用户解决各种知识获取、创作、沟通等问题，提高效率和创新性。对大模型的使用从轻度到重度有三种模式：纯提示词模

AI明说·2024-01-23 21:16

走出大模型部署新手村！小明这样用魔搭×函数计算

作者：拓山前文介绍了魔搭ModelScope社区模型服务SwingDeploy服务。开发者可以将模型从魔搭社区的模型库一键部署至阿里云函数计算，当选择模型并部署时，系统会选择对应的机器配置。按需使用可以在根据工作负载动态的减少资源，节约机器使用成本。5分钟完成从开源模型至模型推理API服务的生产转换……好，优势前文已经介绍过了。那么，到底怎么应该怎么开始使用，本文将带小明（纯纯的小白）走出新手村，

阿里云云原生·2024-01-23 20:35

HugggingFace 推理 API、推理端点和推理空间相关模型部署和使用以及介绍

HugggingFace推理API、推理端点和推理空间相关模型部署和使用以及介绍。HuggingFace是一家开源模型库公司。

代码讲故事·2024-01-23 08:54

深度学习笔记（九）——tf模型导出保存、模型加载、常用模型导出tflite、权重量化、模型部署

文中程序以Tensorflow-2.6.0为例部分概念包含笔者个人理解，如有遗漏或错误，欢迎评论或私信指正。本篇博客主要是工具性介绍，可能由于软件版本问题导致的部分内容无法使用。首先介绍tflite:TensorFlowLite是一组工具，可帮助开发者在移动设备、嵌入式设备和loT设备上运行模型，以便实现设备端机器学习。框架具有的主要特性：延时（数据无需往返服务器）隐私（没有任何个人数据离开设备）

絮沫·2024-01-22 20:20

大模型训练折戟之路

在租用资源之前，首先在笔记本电脑上部署LLaMA.CPP，使用大模型部署成功，因为资源不足，又没有GPU，

manok·2024-01-22 11:59

篇二：MindSpore在实际项目中的应用与挑战

其次，模型部署和运行效率也是实际项目中需要考虑的重要问题。在某些场景下，模型的运行速度和稳定性对于用户体验至关重要。通过优化模型结构和算法、调整运行环境配置等方式，我

GT开发算法工程师·2024-01-20 22:05

【小白向】MMDeploy安装部署|暗坑标注版

文章目录序言正文1安装PPLCV2TensorRT环境相关3编译MMDeploy4编译SDK结束序言本文主要针对在编译安装OpenMMLab团队的MMDeploy模型部署工具时遇到的“难以下手”的问题。

早上真好·2024-01-20 22:22

走出大模型部署新手村！小明这样用魔搭+函数计算

作者：拓山前文介绍了魔搭ModelScope社区模型服务SwingDeploy**服务**。开发者可以将模型从魔搭社区的模型库一键部署至阿里云函数计算，当选择模型并部署时，系统会选择对应的机器配置。按需使用可以在根据工作负载动态的减少资源，节约机器使用成本。5分钟完成从开源模型至模型推理API服务的生产转换……好，优势前文已经介绍过了。那么，到底怎么应该怎么开始使用，本文将带小明（纯纯的小白）走出

Serverless 社区·2024-01-19 16:44

魔搭+ 函数计算: 一键部署，缩短大模型选型到生产的距离

引言面对魔搭ModelScope社区提供的海量模型，用户希望快速进行选型并生产使用起来，但在此之前，却一定会面临算力管理难、模型部署难等一系列问题，那么能否实现快速把选定的模型部署在云端功能强大的GPU

Serverless 社区·2024-01-19 16:14

轻松玩转书生·浦语大模型internlm-demo 配置验证过程

helloworld/hello_world.md1.InternLM-Chat-7B智能对话Demo本小节我们将使用InternStudio中的A100(1/4)机器和InternLM-Chat-7B模型部署一个智能对话

cq99312254·2024-01-19 14:54

浦语·灵笔图文理解创作 Demo

本小节我们将使用InternStudio中的A100(1/4)*2机器和internlm-xcomposer-7b模型部署一个图文理解创作demo1.环境准备首先在InternStudio上选择A100

cq99312254·2024-01-19 14:54

开源模型应用落地-qwen模型小试-入门篇（四）

使用Gradio，我们可以快速地将模型部署为一

charles_vaez·2024-01-19 13:31

推荐频道

模型部署

大模型量化技术原理-LLM.int8()、GPTQ

我把ChatGPT部署到我的手机上

81TensorFlow 2 模型部署方法实践--TensorFlow Serving 部署模型

深度学习笔记：推理服务

如何实现远程云服务器模型部署在本地使用

LMDeploy 大模型量化部署实践

AI工程化工具设计

开发者都能玩转的大模型训练

hummingbird，一个便于将模型部署到边缘设备的Python库！

hummingbird，一个非常好用的 Python 库！

论文撰写八大技巧与八大心得，一文读懂

使用阿里云通义千问14B（Qianwen-14B）模型自建问答系统

hummingbird，一个非常好用的 Python 库！

读懂 FastChat 大模型部署源码所需的异步编程基础

llama2模型部署方案的简单调研-GPU显存占用(2023年7月25日版)

周同学文章汇总

Python机器学习模型库之hummingbird使用详解

(新手亲测有效)bug解决：在用显存24G的3090采用LoRA微调ChatGLM-6B（FP16）时报错torch.OutOfMemoryError:CUDA out of Memory.

《YOLOv8-Pose关键点检测》专栏介绍 & CSDN独家改进创新实战 & 专栏目录

英特尔正式发布OpenVINO™ 2023.3版本

yolov8数据标注、模型训练到模型部署全过程

python+keras搭建的模型部署至嵌入式端PSoc6

PyTorch2ONNX-分类模型：速度比较（固定维度、动态维度）、精度比较

对于jetson nano 的docker部署jetson-inference等模型

开源模型部署及使用

大模型部署手记（22）Ubuntu+TensorRT-LLM+通义千问

TensorRT-9.0和TensorRT-LLM马上要发布了！

【模型部署】入门教程（六）：实现 PyTorch-ONNX 精度对齐工具

书生·浦语大模型--第五节课笔记&作业--LMDeploy 大模型量化部署实践

模型部署flask学习篇（二）---- flask用户登录&用户管理

ncnn模型部署——使用VS2019把项目打包成DLL文件

模型部署flask学习篇（一）---- flask初始及创建登录页面

书生·浦语大模型实战营-学习笔记5

第五节课 LMDeploy 大模型量化部署实践（笔记）

地平线旭日 X3 开发板上手体验

【书生·浦语大模型实战营05】《(5)LMDeploy 大模型量化部署实践》学习笔记

【书生·浦语大模型实战】“PDF阅读小助手”学习笔记

大模型学习与实践笔记（十二）

AI大模型三种技术服务模式的比较

走出大模型部署新手村！小明这样用魔搭×函数计算

HugggingFace 推理 API、推理端点和推理空间相关模型部署和使用以及介绍

深度学习笔记（九）——tf模型导出保存、模型加载、常用模型导出tflite、权重量化、模型部署

大模型训练折戟之路

篇二：MindSpore在实际项目中的应用与挑战

【小白向】MMDeploy安装部署|暗坑标注版

走出大模型部署新手村！小明这样用魔搭+函数计算

魔搭+ 函数计算: 一键部署，缩短大模型选型到生产的距离

轻松玩转书生·浦语大模型internlm-demo 配置验证过程

浦语·灵笔图文理解创作 Demo

开源模型应用落地-qwen模型小试-入门篇（四）