tensorrt推理第10页

MiniMax发布MiniMax-M1推理模型，支持100万Token上下文，降低成本。

公司以创新的MoE（混合专家）架构和闪电注意力机制（LightningAttention）技术著称，先后推出支持200K上下文长度的abab6.5模型和全球首个开源混合架构推理模型MiniMax-M125

我的学校你进不来·2025-06-17 20:29

【MCP】连接阿里云百炼MCP至Cursor及其他AI工具

阿里云百炼（BailianModelComputingPlatform,MCP）提供了强大的模型推理能力和丰富的模型选择。Cursor作为一款“AINative”的代码编辑器，深度集成了LLM

HeXDev·2025-06-17 20:59

✨零基础手把手｜Docker+vLLM极速部署OpenAI风格API：5分钟4卡GPU推理+避坑指南+完整镜像配置

一、Docker基础命令查看容器状态dockerps#查看运行中的容器dockerps-a#查看所有容器（包括已停止的）查看镜像列表dockerimages#列出本地所有镜像二、镜像与容器操作镜像打包为.tar文件dockersave-o#将镜像导出为.tar文件#示例：dockersave-omy_image.tarvllm/vllm-openai:v0.8.4打包多个镜像到一个文件docker

·2025-06-17 18:16

「大模型学习」(10)LLM的量化（GPTQ、LLM.int8()、AWQ）不信你学不会！

通过对模型进行量化，减少HBM和TensorCore之间的数值传输量，从而加快模型推理时间。显卡对整数运算速度快于浮点型数据，从而加快模型推理时间。为什么量化对神经网络精度影响不大？

木楚子·2025-06-17 16:32

海思Hi3516实现板端推理（附c++源码）

提示：本文主要讲述利用SVPACL提供的API实现板端推理，用于实现图像的目标检测。源码下载链接在文末目录前言一、什么是SVPACL？

静_俭·2025-06-17 16:59

LangSmith 实战指南：大模型链路调试与监控的深度解析

且在包含多个处理步骤的复杂智能体中，思维链推理过程的中间思考步骤通常对开发者不可见，进一步增加了调试的复杂性。

N201871643·2025-06-17 14:48

旅游规划智能体之ReAct Agent实战

ReAct框架作为现代AIAgent开发的核心技术之一，为构建具备复杂推理能力的智能系统提供了重要的理论基础和实践指导。

敲键盘的小夜猫·2025-06-17 07:30

【2025保姆级教程】DeepSeek全场景使用指南：从避坑到高阶玩法

四大核心优势1.技术性价比革命✅混合专家架构（MoE）：仅激活370亿参数即可实现GPT-4级别性能，推理成本降低80%✅中文优化：文言文翻译准确率92.3%，远超国际开源模型✅多模态支持：支持PDF/

Lucas55555555·2025-06-17 01:15

百万行级代码理解要不要建立Codebase RAG能力？cline说不

作为开源AInativeIDE的Top产品，一致被诟病的一点是，prompt全靠拼接，全靠Claude4200K上下文推理能力。处理百万行代码仓，对比Cursor毫无优势可言。"

小橘子就是小橘子·2025-06-16 23:38

『大模型笔记』基于Transformer的生成式模型分布式服务系统

基于Transformer的生成式模型分布式服务系统文章目录一、生成模型的推理过程二、当前推理系统的局限1.不灵活的请求级调度（request-levelbatch）2.批处理受限于请求形状不同三、Orca

AI大模型前沿研究·2025-06-16 23:07

win10安装wsl2(ubuntu20.04)并安装 TensorRT-8.6.1.6、cuda_11.6、cudnn

参考博客：1.CUDA】如何在windows上安装Ollama3+openwebui（docker+WSL2+ubuntu+nvidia-container）：https://blog.csdn.net/smileyan9/article/details/1403916672.在Windows10上安装WSL2：https://download.csdn.net/blog/column/10991

狄龙疤·2025-06-16 23:03

深入探究 Python 领域 vllm 的核心功能_副本

深入探究Python领域vLLM的核心功能：让大模型推理像高铁一样高效关键词：vLLM、大语言模型推理、PagedAttention、连续批处理、GPU优化摘要：大语言模型（LLM）的推理效率一直是工业落地的

Python编程之道·2025-06-16 22:58

【论文解读】OmegaPRM：MCTS驱动的自动化过程监督，赋能LLM数学推理新高度

1stauthorLiangchenLuo‪YinxiaoLiu‬-‪GoogleScholar‬paper:[2406.06592]ImproveMathematicalReasoninginLanguageModelsbyAutomatedProcessSupervisioncode:sanowl/OmegaPRM:thisisanimplementationforthepaperImprov

vlln·2025-06-16 21:54

大模型推理优化

什么是大模型推理**大模型推理其实就是大模型如何输出，怎么输出，输出什么的过程。

slient_love·2025-06-16 14:06

解锁Grok-3的极致潜能：高阶应用与创新实践

引言Grok-3，作为xAI公司推出的第三代人工智能模型，以其强大的推理能力和多模态处理能力在全球AI领域掀起了热潮。

淮橘√·2025-06-16 14:06

LangChain智能体执行引擎AgentExecutor详解

当智能体需要执行多步操作时，例如多次调用工具或进行循环推理，开发者必须手动处理多个复杂

·2025-06-16 14:35

TensorFlow与Pytorch的区别

它能够进行深度神经网络的训练和推理，具有高效、灵活、跨平台等优点，被广泛应用于图像识别、语音识别、自然语言处理、推荐系统等领域。

m0_49517971·2025-06-16 11:44

征程 6｜Cache 使用场景

一、缓存机制基础1.1缓存类型对比1.2典型应用场景缓存缓冲区：适用于高频CPU访问场景（如AI推理中间数据）非缓存缓冲区：适用于设备直传场景（如DMA数据流）二、数据一致性问题深度解析2.1DMA-CPU

·2025-06-16 10:47

经典论文阅读《A Framework for Unifying Reordering Transformations》《统一重排序变换的框架》

框架旨在为变换提供一种统一的表示和推理方式。作为框架的一部分，我们提供了辅助构建和使用调度的算法，特别是用于检验调度合法性、对齐调度以及为调度生成优化代码的算法。

好好学习啊天天向上·2025-06-16 09:29

【项目实训】【项目博客#06】大模型微调与推理优化（4.21-5.11）

【项目实训】【项目博客#06】大模型微调与推理优化（4.21-5.11）文章目录【项目实训】【项目博客#06】大模型微调与推理优化（4.21-5.11）项目博客概述一、整体架构设计二、QLora量化微调技术

elon_z·2025-06-16 05:07

llama3源码解读之推理-infer

文章目录前言一、整体源码解读1、完整main源码2、tokenizer加载3、llama3模型加载4、llama3测试数据文本加载5、llama3模型推理模块1、模型推理模块的数据处理2、模型推理模块的

tangjunjun-owen·2025-06-16 05:05

我可以理解llama.cpp是用C++实现了算法，而其他项目一般用python实现？

llama.cpp项目:主要用于推理和部署。下面我们来详细对比一下这两种方式的异同和优劣。范式一：Python+C++/CUDA后端(主流方式)这是绝大多数AI项目（包

欧先生^_^·2025-06-16 05:35

Mozilla 开源 llamafile:大语言模型分发与部署新范式

然而,这些LLM的训练和推理对计算资源提出了极高要求,动辄数十甚至数百GB的模型体积也给分发和部署带来诸多不便。

codebat_raymond·2025-06-16 05:33

YOLOv4 训练与推理流程详解

✅YOLOv4训练与推理流程详解一、前言YOLOv4是目标检测领域的一次重要升级，由AlexeyBochkovskiy等人在论文《YOLOv4:OptimalSpeedandAccuracyofObjectDetection

要努力啊啊啊·2025-06-16 02:45

微信小程序开发文档指南：全面解析 wx.getInferenceEnvInfo API

本文将详细介绍wx.getInferenceEnvInfoAPI，该API用于获取通用AI推理引擎版本，并详细解析其参数、回调函数、使用场景和实际应用案例。

梦玄网络安全·2025-06-15 23:31

专注于医疗领域的多模态开源大型语言模型：Lingshu-32B

该模型的问世旨在为医疗行业提供更精准、更高效的多模态文本理解与推理服务，其相关研究以论文《Lingshu：AGeneralistFoundationMode

Open-source-AI·2025-06-15 23:55

Linux下编译并打包MNN项目迁移至其他设备

1.构建项目结构该项目是利用MNN框架对MTCNN网络进行推理，实现对目标的实时检测运行环境：Linux相关库：opencv，MNN先给出项目的总体结构，如下：mtcnn_mnn/├──include/

AI小小怪·2025-06-15 22:47

KAG框架在E-Health问答中的应用

逻辑形式引导的推理引擎逻辑形式生成与转换：根据用户的医

徐福记c·2025-06-15 17:20

预训练、指令微调与RLHF如何塑造LLM

大型语言模型（LLM）那令人惊叹的语言理解、生成和在特定引导下的推理能力，并非魔法的产物，而是源于一个极其复杂、耗资巨大且经过精心设计的多阶段训练过程。

由数入道·2025-06-15 16:15

S4-Driver: Scalable Self-Supervised Driving Multimodal Large Language Model with Spatio-Temporal

文章主要内容总结本文提出了一种基于多模态大语言模型（MLLM）的可扩展自监督自动驾驶运动规划框架S4-Driver，旨在解决端到端自动驾驶中依赖人工标注和3D空间推理能力不足的问题。

UnknownBody·2025-06-15 15:37

基于LatentSync的音频对口型数字人

本篇内容聚焦于LatentSync项目的部署流程与模块运行机制，围绕模型配置、推理脚本、训练流程及可视化界面的使用展开讲解，梳理各部分在项目启动

Mr数据杨·2025-06-15 12:17

AI Agent 核心策略解析：Function Calling 与 ReAct 的设计哲学与应用实践

本文将深入探讨两种核心的Agent设计策略：FunctionCalling（函数调用）和ReAct（推理+行动），分析它们的设计原理、应用场景及协同价值，为开发者提供技术选型参考。

DZSpace·2025-06-15 05:01

NORA：一个用于具身任务的小型开源通才视觉-语言-动作模型

现有的视觉-语言-动作(VLA)模型在零样本场景中展现出优异的性能，展现出令人印象深刻的任务执行和推理能力。然而，视觉编码的局限性也带来巨大的挑战，这可能导致诸如物体抓取等任务的执行失败。

三谷秋水·2025-06-15 00:51

一文彻底搞懂大型语言模型（LLM）：核心机制、训练流程、关键技术与未来展望（LLM领域必读）

它们不仅能与人流畅对话、写作，甚至在编程、逻辑推理等领域也展现出令人惊叹的能力。那么，这些“语言巨匠”究竟是什么？它们如何工作？又将如何重塑我们的世界？本文将给你娓娓道来。

浠寒AI·2025-06-14 22:11

认知架构如何提升AI原生应用的智能化水平？

关键词：认知架构、AI原生应用、智能决策、记忆模块、推理引擎摘要：本文将从"AI原生应用为何需要更聪明的大脑"这一问题出发，通过类比人类认知系统，深入解析认知架构的核心模块（感知、记忆、推理、决策）如何协同工作

AGI大模型与大数据研究院·2025-06-14 18:11

目标检测算法——YOLO-Word——算法详解

一、概述1、是什么是一个目标检测器，通过结合CLIP文本编码器，拥有了开放检测（推理时识别训练时没有的目标）的能力。

TigerZ*·2025-06-14 08:44

一文搞定离线环境下的RAG引擎部署

然而，在许多企业场景中，出于数据安全和性能的考虑，服务器往往部署在无法访问互联网的离线环境中，并要求极致的推理效率。这给依赖外部资源的应用部署带来了巨大挑战。

木鱼时刻·2025-06-14 08:05

2026年因果推理模块集成规划方案：技术路径、实施策略与行业赋能

一、技术架构设计：神经符号混合与因果引擎融合1.核心架构分层（参考）视觉/文本/时序多模态感知层因果特征提取器神经-符号接口动态因果图谱

百态老人·2025-06-14 01:24

✨如何在 vLLM 中取消 Qwen3 的 Thinking 模式

如何在vLLM中取消Qwen3的Thinking模式在使用Qwen3模型与vLLM（VeryLargeLanguageModel）进行推理服务时，你可能会发现模型默认会输出类似“我正在思考……”的提示内容

杨靳言先·2025-06-14 00:15

whisper相关的开源项目 (asr)

faster-whisper使用CTranslate2加速推理，支持CPU/GPU，速度比原版快4倍，内存占用更低。适合需要高效部

code-ranger·2025-06-13 22:31

大模型现在用的最多其次是预训练模型,大模型用于rag agent 预训练模型用于微调任务

当前的人工智能领域，大模型与预训练模型的应用场景呈现出显著的差异化特征，以下从技术逻辑、应用场景及典型案例三个维度展开分析：一、大模型（LLM）的核心应用：RAGAgent架构1.技术逻辑：动态知识检索与推理融合大模型

MYH516·2025-06-13 21:52

图像匹配像素跟踪roma

目录roma算法模型下载：roma推理代码：roma算法模型下载：romatch/models/model_zoo/__init__.pyweight_urls={"romatch":{"outdoor

AI算法网奇·2025-06-13 19:41

从实验室到产业：IndexTTS 在六大核心场景的落地实践

通过批次推理模式，用户可将

gogoMark·2025-06-13 18:35

R1新版本性能直逼GPT-4，用户惊呼：这推理深度绝了

然而，这一低调操作却被民间评测团队“打脸式”曝光：新版R1在代码生成、复杂推理等核心场景中，性能直追OpenAI最新发布的o3旗舰模型！【民间评测炸锅：性能对标o3，

HPC_fac13052067816·2025-06-13 17:57

算法在嵌入式端的部署与优化

算法在嵌入式端的部署与优化前言理论1.参考资源2.其他1.将深度学习模型移植到嵌入式端时，提高推理速度的方法2.深度学习模型移植到嵌入式端的主要流程3.假设将已经训练好的目标检测模型（比如YOLOv3)

早日退休！！！·2025-06-13 16:50

语音活动检测模型SileroVAD

其推理速度在单线程CPU上可达2-3倍于PyTorch版本（ONNX优化后），且支持批量处理以提升吞吐量。高精度检测基于深度学习（CNN/

大囚长·2025-06-13 14:33

【vLLM 学习】Data Parallel

vLLM是一款专为大语言模型推理加速而设计的框架，实现了KV缓存内存几乎零浪费，解决了内存管理瓶颈问题。

·2025-06-13 12:26

Hummingbird库：将机器学习模型转换为深度学习模型

微软推出的Hummingbird库正是为了解决这一需求，它可以将经过训练的传统机器学习模型转换为等效的深度学习模型，从而加速推理并支持跨平台部署。

萧鼎·2025-06-13 10:34

AI Agent核心技术深度解析：Function Calling与ReAct对比报告

摘要本文系统分析了大语言模型（LLM）与外部工具交互的两大核心技术范式：FunctionCalling（函数调用）和ReAct（推理-行动框架）。

chanalbert·2025-06-13 09:28

【论文笔记】UnifiedQA：新SOTA，生成模型一统问答任务

尽管任务形式不同，但模型所需的语义理解和推理能力是共通的，或许不需要format-special

iLuz·2025-06-13 07:16

推荐频道

tensorrt推理