tensorrt推理第13页

【AI News | 20250415】每日AI进展

采用DiT架构和对抗后训练技术，推理速度较同类快62倍，训练成本仅为行业1/3。目前已通过即梦平台提供试用，其低成本高

三道杠卷胡·2025-06-03 15:23

DeepSeek赋能数据治理解决方案

DeepSeek技术架构解析混合专家模型（MoE）创新：动态专家路由：通过门控网络实现专家动态选择，提升推理效率。

公众号：优享智库·2025-06-03 13:10

Spring AI 调用 DeepSeek：快速集成国产大模型的实战指南（包含本地部署方案）

而DeepSeek作为国产大模型的代表，凭借其强大的推理、代码生成和多语言支持能力，成为开发者关注的焦点。本文将详细讲解如何通过SpringAI快速集成DeepSeek，实现智能对话、代码生成等

老北京儿码农·2025-06-03 10:46

腾讯混元2025CVPR论文全解读：6篇论文速通大模型前沿

Insight-V:ExploringLong-ChainVisualReasoningwithMultimodalLargeLanguageModels（Insight-V:大语言模型中的长思维链视觉推理探索

zhangjiaofa·2025-06-03 05:40

在本地基于deepseek和Dify平台构建私有化知识库平台

一、技术选型DeepSeek-R1国内开源的先进大语言推理模型，支持长文本处理和复杂推理，适合私有知识库场景。优势：低成本部署、支持中文语境、可离线运行。

勤奋的知更鸟·2025-06-03 03:31

测试策略：AI模型接口的单元测试与稳定性测试

在AI系统中，由于模型本身存在推理结果非确定性、接口响应延迟性、上下文状态复杂性等特点，使得测试工作不再局限于传统的接口输入输出验证，更

大数据张老师·2025-06-03 02:25

FlashAttention（flash_attn）的高效注意力机制实现库学习，与 torch.nn.MultiheadAttention 在数学上是完全相同

它通过减少显存占用和加速计算，显著提升大模型（如LLM、视觉Transformer）的训练和推理效率。

Hali_Botebie·2025-06-03 00:09

《HarmonyOS SDK AI 开发避坑指南：典型问题与解决方案》

开发者在使用AISDK时，常面临三大核心痛点：环境兼容性：SDK版本碎片化导致依赖冲突性能瓶颈：模型推理延迟与算力分配不合理架构复杂性：分布式AI调用链路难以调试本文通过真实案例解析、代码级解决方案和性能调优技巧

鸿蒙大白·2025-06-02 23:29

AI——认知建模工具：SOAR

其核心机制基于状态空间搜索和规则触发，强调目标导向的推理过程。二、安装与配置下载SOAR官网：https://soar.e

夏子曦·2025-06-02 19:57

Python训练第三十五天

DAY35模型可视化与推理知识点回顾：三种不同的模型可视化方法：推荐torchinfo打印summary+权重分布可视化进度条功能：手动和自动写法，让打印结果更加美观推理的写法：评估模式作业：调整模型定义时的超参数

火兮明兮·2025-06-02 15:01

企业级AI开启落地战，得场景者得天下

一方面，推理大模型的迭代升级，给智能体带来了更好的体验效果。“之前常说‘各领风骚数百年’，但在AI领域，大模型能领风骚的时间极短

光锥智能·2025-06-02 14:54

Python 领域 vllm 流式推理实现原理

Python领域vllm流式推理实现原理关键词：vllm、流式推理、大语言模型、推理优化、Python实现、KV缓存、注意力机制摘要：本文深入探讨了vllm（VectorizedLargeLanguageModel

Python编程之道·2025-06-02 11:05

《大模型项目实战》：从0到1，打造属于你的多领域智能AI Chat应用，非常详细收藏这一篇就够了！

当用户向Chat应用提出问题时，Chat应用就会利用其学习到的知识和自然语言处理技术来理解用户的意图，然后推理生成相应的答案。

AGI大模型学习·2025-06-02 11:33

国产大模型轻量部署实测报告：推理速度 × 内存占用 × 精度表现全维度对比与趋势解析

推理是否能控资源、可测量、可对比？部署国产大模型，不该是黑盒式的“跑通就完了”，而是要：用数

观熵·2025-06-02 09:21

医疗数理范式化：从范式迁移到认知革命的深度解析

数理思维在医疗领域的应用，本质上是将抽象的数学概念、逻辑推理与具体的医疗实践相结合，通过构建精确的数学模型，分析海量的医疗数据，从而为临床决策提供科学依据。这种思维方式不仅能够提高诊断的准确

Allen_Lyb·2025-06-02 08:14

医疗多模态共情推理与学习一体化网络构成初探

1引言：多模态共情推理的概念内涵与技术背景在当今医疗人工智能领域，多模态共情推理正逐步成为突破临床决策支持系统瓶颈的关键范式。

Allen_Lyb·2025-06-02 08:42

ARM Ethos-N NPU 架构剖析与 Android 中的部署路径：从 IP 核集成到端侧模型推理实战

ARMEthos-NNPU架构剖析与Android中的部署路径：从IP核集成到端侧模型推理实战关键词ARMEthos-N、NPU架构、AndroidNNAPI、Ethos-N77、Ethos-N57、模型部署

观熵·2025-06-02 05:23

ARMv9 架构演进下的 AI 异构能力增强方向解析：从 CPU 到系统级智能算力协同

ARMv9架构演进下的AI异构能力增强方向解析：从CPU到系统级智能算力协同关键词ARMv9、异构计算、SVE2、AI推理优化、NPU融合、安全隔离计算、AndroidSoC、DSP协同、MemoryTagging

观熵·2025-06-02 04:42

YOLOv3目标检测实战

预测流程3.案例：使用YOLOv3进行目标检测3.1数据集准备3.2模型定义3.2.1Darknet-53主干网络3.2.2YOLOv3检测头3.3训练与优化3.3.1损失函数3.3.2训练脚本3.4模型推理

宁安我·2025-06-01 23:39

OramaCore 是您 AI 项目、答案引擎、副驾驶和搜索所需的 AI 运行时。它包括一个成熟的全文搜索引擎、矢量数据库、LLM界面和更多实用程序

它包括一个成熟的全文搜索引擎、矢量数据库、LLM具有行动计划和推理功能的接口、用于根据数据编写和运行您自己的自定义代理的JavaScript运行时，以及更多实用程序。

struggle2025·2025-06-01 23:08

DeepSeek私有部署全栈架构总览：从NPU到模型中台全路径解析

DeepSeek私有部署全栈架构总览：从NPU到模型中台全路径解析关键词DeepSeek私有化部署、国产AI算力、推理服务架构、模型中台、AI系统集成、全栈闭环部署摘要私有化部署的大模型系统若想在企业场景真正落地

观熵·2025-06-01 22:02

源码解析（一）：GraphRAG

原文技术博客GraphRAG是一种结构化的、分层的检索增强生成(RAG)方法，它利用知识图谱来增强LLM的输出，用于推理私有数据集中的复杂信息。

汪汪汪侠客·2025-06-01 21:51

推理模型与普通模型的思考逻辑到底有什么不一样

1.推理模型：AI界的“思考者”1.1从蒙眼猜拳到步步为营传统LLM像是蒙着眼睛的拳击手，输入问题后直接挥拳（输出答案），可能一击制胜也可能打偏。

TGITCIC·2025-06-01 20:13

【Block总结】TAB，令牌聚合块|融合组内自注意力（IASA）和组间交叉注意力（IRCA）|即插即用

CATANet通过高效的内容感知令牌聚合模块（CATA）来捕捉长距离依赖关系，同时保持高推理速度。

AI浩·2025-06-01 18:04

DeepSeek-R1-0528，官方的端午节特别献礼

刻在国人骨子里的浪漫2025年05月28日|DeepSeek端午特别献礼当粽叶飘香时，DeepSeek悄然带来一份节日惊喜版本号DeepSeek-R1-0528正式上线官方赋予它的灵魂是：思考更深·推理更强用户通过官网

极客密码·2025-06-01 17:52

基于python部署paddleocrv5的onnx模型PPOCRv5模型部署源码+onnx模型+使用说明

1.项目简介本项目是PaddleOCRv5的ONNX版本实现，具有以下特点：支持简体中文、繁体中文、中文拼音、英文和日文识别无需深度学习训练框架，可直接部署使用支持ARM和x86架构高性能推理，识别速度快识别精度与

FL1623863129·2025-06-01 15:35

首发推理模型不限商用，直面DeepSeek挑战

第一，将开源一个具备推理能力的大语言模型，包含参数权重那种。上一次这样开源还是6年前推出GPT-2。这几乎就是冲着DeepSeek-R1来的。奥特曼表示，这个模型非常强。

奋斗的java小伙·2025-06-01 11:14

DeepSeek R1-0528 新开源推理模型（免费且快速）

DeepSeek推出了新模型，但这不是R2！R1-0528是DeepSeek的最新模型，在发布仅数小时后就在开源社区获得了巨大关注。这个悄然发布的模型DeepSeekR1-0528，已经开始与OpenAI的o3一较高下。让我来详细介绍这次更新的新内容。DeepSeekR1-0528发布DeepSeek在这次发布中采用了不寻常的方式。没有华丽的发布会或营销攻势。他们将R1-0528上传到Huggin

李孟聊人工智能·2025-06-01 11:41

转换PP-OCRv5模型为OpenVINO格式的详细指南

OpenVINO则是英特尔推出的开源深度学习推理框架，能显著优化模型在英特尔硬件上的推理性能。本文将详细介绍如何将PP-OCRv5模型转换为OpenVINO格式（.xml和.bin文件），并实现高效

mingo_敏·2025-06-01 08:50

m0_46521579·2025-06-01 06:03

【实战分享】TensorRT+LLM：大模型推理性能优化初探

TensorRT-LLM初体验千呼万唤始出来，备受期待的Tensorrt-LLM终于发布，发布版本0.5.0。

fengbeely·2025-06-01 06:02

为何 RAG 向量存储应优先考虑 PostgreSQL + pgvector 而非 MySQL？

通过将LLM的推理能力与外部知识库的实时、特定信息相结合，RAG能够生成更准确、更相关、更值得信赖的回答。

qq_44199605·2025-06-01 05:27

打牌不说真话

我们通过假设每个人的某句话为假，结合“每人三句话中两句真一句假”来推理。因不超

小小桃核·2025-06-01 04:53

代码随想录算法训练营 Day62 总结篇开始的结束

刷题常回顾，不回顾只有短期记忆刷题必须要手动推理，才能记忆更牢

JK0x07·2025-06-01 03:43

NanoGPT的BenchMarking.py

在深度学习领域，它通常涉及对模型的训练速度、推理速度、内存占用等指标进行测量，以便评估不同模型、不同硬件配置或者不同软件版本之间的性能差异。

2301_80365274·2025-06-01 02:40

【代码解析】用PyTorch实现混合专家（MoE）语言模型

最近，DeepSeek-V2作为一个强大的开源MoE语言模型，以其创新的Transformer架构实现了经济高效的训练和推理，引起了社区的极大兴趣。

Kaydeon·2025-06-01 01:05

如何在dify中添加自定义reranker模型

思路概述将Xinference中的reranker模型集成到Dify中，主要思路是先在Xinference中部署reranker模型，使其能提供稳定的推理服务，然后通过Dify的模型供应商配置功能，将Xinference

由数入道·2025-06-01 00:58

DeepSeek 近日动态，落地情况。2025-05-31

黑铁润肺·2025-05-31 22:05

目标检测算法之RT-DETR

BackgroundModelArchitectureEfficientHybridEncoderUncertainty-minimalQuerySelection总结BackgroundReal-timeDetectionTransformer（RT-DETR）是一个基于tranformer的实时推理目标检测模型

碌碌无为的小张·2025-05-31 19:20

计算机化学对高分子科学的贡献,计算机在化学中的应用论文(2)

计算机在化学中的应用论文篇二试谈计算机模拟在化学中的应用摘要：采用分子动力学模拟和蒙特卡洛方法等计算机模拟技术可以很好的解决科学技术中传统的推理演绎和实验方法不能满足理论研究的需要，这些技术应用于化学工业和教学领域也有光明的前景

因诺君·2025-05-31 19:46

互联网大厂Java求职面试：AI大模型集成与云原生架构的巅峰对决-3

第一轮提问：AI大模型集成的深度挑战技术总监：你们是如何实现多模型调度与协同推理的？有没

在未来等你·2025-05-31 16:56

Graph-RAG：知识图谱与大模型完美融合的开创性探索

本文将揭示Graph-RAG的神秘面纱，这是一种突破传统的技术，它将知识图谱的严谨结构与RAG的动态生成能力相结合，为我们提供了一种全新的理解和推理复杂数据的方法。

AGI大模型学习·2025-05-31 10:12

在本地安装和部署 Xinference，并下载对应的模型

引言Xinference是一个开源的推理框架，支持多种深度学习模型的本地推理，适用于GPU和CPU环境。它可以用于自然语言处理、计算机视觉等任务，并且提供了API接口，方便集成到各种应用中。

萧鼎·2025-05-31 09:06

17、Swift框架微调实战（2）-QWQ-32B LORA微调cot数据集

1、QWQ-32B介绍1.1基本介绍QwQ是Qwen系列的大模型之一，专注于推理能力（reasoning）。

Andy_shenzl·2025-05-31 02:14

23、Swift框架微调实战（3）-Qwen2.5-VL-7B LORA微调OCR数据集

Qwen2.5-VL具备作为视觉Agent的能力，可以推理并动态使用工具，初步操作电脑和手机。在视频处理上，Qwen2.5-VL能够理解超过1小时的长视频，精准定位相关片段捕捉事件。

Andy_shenzl·2025-05-31 02:43

异构硬件平台模型统一编译与部署体系构建实战：多引擎兼容、跨架构适配与高效分发全流程解析

异构硬件平台模型统一编译与部署体系构建实战：多引擎兼容、跨架构适配与高效分发全流程解析关键词异构编译框架、跨架构模型适配、统一推理部署、多引擎集成、模型格式转换、推理部署流水线、系统级落地实践摘要随着人工智能系统向多终端

观熵·2025-05-30 23:56

AI Agent: AI的下一个风口具身智能的核心与未来

AIAgent:AI的下一个风口具身智能的核心与未来1.背景介绍1.1人工智能发展历程回顾1.1.1早期人工智能的探索1.1.2机器学习的崛起1.1.3深度学习的突破1.2人工智能的局限性1.2.1缺乏常识推理能力

AI天才研究院·2025-05-30 20:38

OpenAI Operator 智能体升级核心解读（AI模型4o→o3）

一、‌核心升级‌1.‌模型升级‌底层模型从‌GPT-4o‌升级至‌o3‌，显著提升推理能力与任务完成稳定性。

我的学校你进不来·2025-05-30 20:06

GraphInstruct: Empowering Large Language Models with Graph Understanding and Reasoning Capability

GraphDirective：赋予大型语言模型图形理解和推理能力摘要1引言2相关工作3GraphInstruct基准4GraphLM：在GraphInstruction上训练大型语言模型5

UnknownBody·2025-05-30 18:17

ChainLM: Empowering Large Language Models with Improved Chain-of-Thought Prompting

ChainLM：用改进的思想链提示为大型语言模型赋能摘要1引言2实证分析3CoT改进4实验5相关工作6结论摘要思维链提示可以增强大型语言模型的推理能力，成为解决复杂推理任务的主要方法。