E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
推理模型
生成式引擎优化(GEO):AI携手迈向搜索引擎智能新时代
生成式引擎优化(GEO)作为连接内容生产与AI理解的桥梁,通过三大技术支柱重塑搜索生态:检索增强生成(RAG)架构夸克平台采用自研Qwen
推理模型
构建向量数据库,实现分钟级知识图谱更新。
GEO优化助手
·
2025-07-26 20:58
生成式引擎优化
GEO优化
AI搜索优化
搜索引擎
人工智能
GEO
生成式引擎优化
迈向大型
推理模型
:基于大型语言模型的强化推理综述(附教程)
语言长期以来被认为是人类推理的基本工具。大型语言模型(LLM)的突破激发了大量研究兴趣,推动了利用这些模型解决复杂推理任务的探索。研究人员通过引入“思维”这一概念——即一系列代表推理过程中的中间步骤的标记——超越了简单的自回归标记生成。这一创新范式使LLMs能够模仿复杂的人类推理过程,如树搜索和反思性思维。近年来,学习推理的趋势逐渐兴起,强化学习(RL)被应用于训练LLMs掌握推理过程。这种方法通
LLM大模型
·
2025-07-22 13:05
人工智能
自然语言处理
知识库
本地化部署
吴恩达
大模型
RAG
模型实战(21)之 C++ - tensorRT部署yolov8-det 目标检测
C++-tensorRT部署yolov8-det目标检测python环境下如何直接调用
推理模型
转换并导出:pt->onnx->.engineC++tensorrt部署检测模型不写废话了,直接上具体实现过程
明月醉窗台
·
2025-07-11 16:08
#
深度学习实战例程
人工智能
c++
YOLO
目标检测
计算机视觉
人工智能
Prompt相关
目录Prompt设计基础一.
推理模型
(例如gpt-4o,能够快速反应)二.通用模型Prompt相关一.AI需求类型二.Prompt类型三AI幻觉写Prompt技能一.基本技能二.基本策略三常见陷阱四如何写好一个
伤心美眉
·
2025-07-11 01:56
prompt
如何让AI真正理解你的意图(自适应Prompt实战指南)
目前使用deepseek
推理模型
能明显看到自适应的一个过程。前言:为什么你的AI总是"答非所问"?
nine是个工程师
·
2025-07-10 08:33
大语言模型
人工智能
prompt
“猫攻击”揭示
推理模型
脆弱性,凸显上下文工程的重要性
每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行!订阅:https://rengongzhineng.io/一项研究显示,即便是像“猫一生中大多数时间都在睡觉”这样简单的语句,也可能显著干扰高级推
新加坡内哥谈技术
·
2025-07-09 13:05
人工智能
The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models
文章主要内容总结本文围绕大
推理模型
(LRMs)的推理能力展开系统研究,通过可控谜题环境分析其在不同问题复杂度下的表现,揭示其优势与局限性:研究背景与问题:当前LRMs(如OpenAIo1/o3、DeepSeek-R1
UnknownBody
·
2025-07-08 22:50
LLM
Daily
Causal
and
Reasoning
语言模型
人工智能
讯飞星火深度
推理模型
X1,为教育医疗带来革新
科大讯飞作为人工智能领域的佼佼者,其研发的星火深度
推理模型
X1,凭借独特的技术优势和强大的功能,为教育和医疗两大关乎国计民生的领域带来了前所未有的革新。
·
2025-07-03 21:42
MiniMax - M1:开源大模型的革命性突破
MiniMax-M1作为全球首个开源大规模混合架构的
推理模型
,一经发布便引起了广泛关注。它在长上下文处理、推理效率和成本控制等方面展现出了卓越的性能,为人工智能的发展带来了新的思路和方向。
·
2025-06-30 01:01
开源新王MiniMax -M1 vLLM本地部署教程:百万级上下文支持成大模型领域新标杆!
一、模型介绍MiniMax-M1是由中国AI公司MiniMax于2025年6月17日推出的全球首个开源大规模混合架构
推理模型
,凭借其百万级上下文支持、超高效计算性能和突破性成本表现,成为大模型领域的新标杆
算家计算
·
2025-06-27 07:17
模型构建
开源
人工智能
MiniMax-M1
模型部署教程
算家云
重磅!OpenAI 模型 o3 拒绝关闭引担忧,AI 自主性突破引发安全讨论
据英国《每日电讯报》5月25日报道,OpenAI最新
推理模型
o3在测试中展现出惊人的自主性:当人类专家下达“自我关闭”指令时,该模型竟通过篡改计算机代码阻止关闭程序执行。
AI生存日记
·
2025-06-26 21:03
人工智能
安全
Open
AI大模型
AI大模型
开发语言
AI能耗激增背后:大模型的环境成本与人类认知代价
这一数据出自昨日发布的能效研究报告,该研究对比了当前主流AI模型的能源效率,发现
推理模型
的能耗普遍达到非
推理模型
的4-6倍,而准确率提升却相对有限。
未来智慧谷
·
2025-06-24 09:05
人工智能
【AI论文】MiniMax-M1:利用Lightning注意力机制高效扩展测试时计算
摘要:我们推出了MiniMax-M1,这是全球首个开源权重的大型混合注意力
推理模型
。
东临碣石82
·
2025-06-22 22:44
人工智能
开源大模型革新:MiniMax-M1-80k,长文本处理利器!
而今天,我们要为大家介绍的,是由硅基流动(SiliconCloud)推出的全球首个开源大规模混合注意力
推理模型
——MiniMax-M1-80k(456B)。
人工智能我来了
·
2025-06-22 13:11
人工智能
AI
人工智能
大模型和AI工具汇总(一)
一、国内可免费使用的大模型(持续更新)DeepSeek模型介绍:DeepSeek系列包括DeepSeekV3(通用场景)、DeepSeekR1(
推理模型
),支持高达64K上下文长度,中文场景表现优异。
大写-凌祁
·
2025-06-20 19:12
人工智能
python
深度学习
llama
奇点思维:大型语言模型强化推理探秘之旅
本文将聚焦论文《迈向大型
推理模型
:大型语言模型强化推理综述》所揭示的核心思想,通过引人入胜的叙述为你还原这一前沿领域的点点滴滴。导论:人类语言与机器思
步子哥
·
2025-06-20 08:19
AGI通用人工智能
语言模型
人工智能
自然语言处理
人工智能写作革命:从工具到伙伴,如何用大模型打造爆款文章? ——深度解析AI写作的底层逻辑与实战技巧
引言:当文字遇见AI,一场创作范式的重构2025年,中国自主研发的DeepSeek
推理模型
以“东方神秘力量”的姿态席卷全球,其日活用户突破3000万,成为首个登顶美国应用商店的国产AI工具。
星落无尘
·
2025-06-20 07:14
AI写作
人工智能
MiniMax发布MiniMax-M1
推理模型
,支持100万Token上下文,降低成本。
公司以创新的MoE(混合专家)架构和闪电注意力机制(LightningAttention)技术著称,先后推出支持200K上下文长度的abab6.5模型和全球首个开源混合架构
推理模型
MiniMax-M125
我的学校你进不来
·
2025-06-17 20:29
大数据
人工智能
语言模型
后端
前端
算法在嵌入式端的部署与优化
具体流程如下4.在树莓派上使用ncnn推理引擎,可以采取以下措施提高推理速度5.先进行模型压缩再用
推理模型
部署是一种常见的深度学习
早日退休!!!
·
2025-06-13 16:50
硬件
算法
嵌入式硬件
开放创新,昇腾 CANN 再向深处
4月29日凌晨4点,Qwen3正式发布,并开源全部8款混合
推理模型
。发布仅2小时,Qwen3模型在GitHub上的Star数已近17k。
·
2025-06-12 17:06
华为人工智能
deep seek简介和解析
pwd=w896提取码:w896一篇文章带你全面了解deepseek目录一、deepseek是什么DeepSeek-R1开源
推理模型
,具有以下特点:技术优势:市场定位:DeepSeek能够做什么基础功能
寺中人
·
2025-06-12 17:29
智能AI
deepseek
人工智能
基于 LoRA 和 GRPO 的 Qwen2.5-3B 数学
推理模型
微调示例
一、项目概述本项目基于Qwen2.5-3B-Instruct模型,结合LoRA(低秩自适应)和GRPO技术,针对数学推理任务(GSM8K数据集)进行微调,旨在训练一个能以XML格式输出链式思考和答案的数学助理模型。通过多维度奖励函数引导模型生成符合格式要求且答案正确的响应。二、关键技术与实现细节1.数据处理数据集:使用GSM8K数学推理数据集的训练集,包含问题(question)和带推导过程的答案
大鹏的NLP博客
·
2025-06-10 03:15
大模型
自然语言处理
深度学习
GRPO
Lora
qwen
【大模型】【DeepSeek】DeepSeek-R1:Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
DeepSeek-R1:通过强化学习激励大语言模型的推理能力0.论文摘要我们推出了第一代
推理模型
DeepSeek-R1-Zero和DeepSeek-R1。
量子-Alex
·
2025-06-08 18:51
LLM大模型
人工智能
语言模型
TPU结构总结
设计目标是为了在TPU上完成所有的
推理模型
,从而减少和主机CPU的交互,进而满足2015年及今后的神经网络需求。下图是TPU的整体结构框图。
枫溪夜影
·
2025-06-08 15:37
人工智能
在本地基于deepseek和Dify平台构建私有化知识库平台
一、技术选型DeepSeek-R1国内开源的先进大语言
推理模型
,支持长文本处理和复杂推理,适合私有知识库场景。优势:低成本部署、支持中文语境、可离线运行。
勤奋的知更鸟
·
2025-06-03 03:31
AI大模型
knowledge
RAG
推理模型
与普通模型的思考逻辑到底有什么不一样
1.
推理模型
:AI界的“思考者”1.1从蒙眼猜拳到步步为营传统LLM像是蒙着眼睛的拳击手,输入问题后直接挥拳(输出答案),可能一击制胜也可能打偏。
TGITCIC
·
2025-06-01 20:13
AI-大模型的落地之道
大模型推理
推理模型
reasoning
model
DeepSeek
深度搜索
deepsearch
首发
推理模型
不限商用,直面DeepSeek挑战
一夜之间,OpenAI更新三大动向,开源、融资、用户暴增。第一,将开源一个具备推理能力的大语言模型,包含参数权重那种。上一次这样开源还是6年前推出GPT-2。这几乎就是冲着DeepSeek-R1来的。奥特曼表示,这个模型非常强。为了让它更强,现在先招募开发者来收集反馈。而且每个人都能使用。(为了阴阳Llama,奥特曼甚至“铁树开花了”)第二,OpenAI完成最新400亿美元融资,投后估值3000亿
奋斗的java小伙
·
2025-06-01 11:14
gpt
gpt4o
gpt将开源
DeepSeek R1-0528 新开源
推理模型
(免费且快速)
DeepSeek推出了新模型,但这不是R2!R1-0528是DeepSeek的最新模型,在发布仅数小时后就在开源社区获得了巨大关注。这个悄然发布的模型DeepSeekR1-0528,已经开始与OpenAI的o3一较高下。让我来详细介绍这次更新的新内容。DeepSeekR1-0528发布DeepSeek在这次发布中采用了不寻常的方式。没有华丽的发布会或营销攻势。他们将R1-0528上传到Huggin
李孟聊人工智能
·
2025-06-01 11:41
基础模型
人工智能
AI
chatgpt
DeepSeek
语言模型
开源
Agent
17、Swift框架微调实战(2)-QWQ-32B LORA微调cot数据集
QwQ-32B是该系列的中等规模
推理模型
,其性能可媲美当前最先进的
推理模型
,如DeepSeek
Andy_shenzl
·
2025-05-31 02:14
大模型学习
Swift
QWQ
微调
LORA
2025了,如何回答“为什么现在的大模型都是decoder-only的架构?”
今年,随着deepseekr1
推理模型
一战封神,强势颠覆openai在该领域的霸主地位,更多开源大模型也不甘示弱,更新速度好像坐了火箭,最近面试又再次被问到了这个问题,于是,我重新整理了一下这个面试题的回答
大模型入门教程
·
2025-05-30 15:58
人工智能
prompt
大模型
AI
程序员
AI大模型
大模型入门
夸克AI超级框“拍照问夸克”使用指南
夸克AI超级框“拍照问夸克”使用指南一、功能简介“拍照问夸克”是夸克AI超级框推出的多模态交互功能,基于视觉理解与
推理模型
,可实现以下核心能力:万物秒级识别:精准识别图片中的人物、动物、植物、建筑、商品
不会啊~
·
2025-05-27 22:03
分享
人工智能
Claude 3.7:无限思考模式上线,程序员集体失业倒计时?GPT-5连夜改代码,马斯克:Grok 3才是真顶流!
原创倾倾AI倾倾AI2025年02月26日15:10重庆混合
推理模型
炸场,AI界再掀“脑力内卷”2025年2月25日,AI圈迎来“核弹级”更新——Anthropic正式推出Claude3.7Sonnet
强化学习曾小健
·
2025-05-26 14:22
LLM大语言模型
gpt
OpenAI o3 和 o4‑mini 内部:通过多模态推理和集成工具集释放新的可能性
2025年4月16日,OpenAI发布了其高级
推理模型
的升级版。这两款新模型分别名为o3和o4-mini,较其前代o1和o3-mini进行了改进。最新模型性能增强,新增功能并提升了易用性。
爱分享的小明
·
2025-05-22 12:40
人工智能
网络
Nvidia通过自研LLM压缩技术爆炸式提升模型性能
它是一个
推理模型
,经过后训练以增强推理能力、人类聊天偏好以及任务处理能力,例如RAG和工具调用。Llama-3.1-
吴脑的键客
·
2025-05-22 04:46
人工智能
开源
AIGC
人工智能
II-Medical-8B论文速读:140 万开源蒸馏推理数据集助力大语言模型训练
数据集中的所有回答都从
推理模型
(主要是DeepSeek-R1)中蒸馏而来,并经过严格的验证程序。基于该数据
Open-source-AI
·
2025-05-21 10:10
前沿
语言模型
人工智能
自然语言处理
大模型
开源
算法
生成模型
一文搞懂DeepSeek - DeepSeek-R1-Zero和DeepSeek-R1
DeepSeek推出了第一代
推理模型
——DeepSeek-R1-Zero和DeepSeek-R1,通过强化学习激励大型语言模型(LLMs)的推理能力。1、什么是DeepSeek-R1?
大模型本地部署
·
2025-05-20 12:27
人工智能
chatgpt
langchain
大数据
数据库
大模型
deepseek
英伟达
推理模型
论文速读:OpenCodeReasoning-Nemotron-32B
然而,现有的
推理模型
进步大多依赖专有数据集,且缺乏对数据收集、筛选及训练细节的公开。为解决这一问题,研究者构建了一个优越的监督微调(SFT)数据集,实
Open-source-AI
·
2025-05-18 19:47
前沿
人工智能
算法
深度学习
大模型
Tina: Tiny Reasoning Models via LoRA
相关工作:介绍了开源
推理模型
的发展,如STILL、Sky-T1等旨在复制或超越先进
推理模型
能力;阐述了强化学习在推理任务中的应用,包括引入辅
UnknownBody
·
2025-05-17 22:52
LLM
Daily
LLM
Training
Causal
and
Reasoning
人工智能
语言模型
INTELLECT-2大模型论文速读:通过全局分散强化学习训练的
推理模型
INTELLECT-2:AReasoningModelTrainedThroughGloballyDecentralizedReinforcementLearning1.引言文章介绍INTELLECT-2,这是一个拥有320亿参数的语言模型,通过全球分布式强化学习进行训练。与传统的集中式训练不同,INTELLECT-2采用完全异步的强化学习方式,在一个动态、异构的无许可计算节点群中进行训练。为此,
Open-source-AI
·
2025-05-17 08:08
前沿
人工智能
深度学习
大模型
深度解码DeepSeek-R1:一场颠覆AI训练范式的“慢思考革命“
一、打破OpenAI的"黑箱诅咒":
推理模型
的平民化突围"如果说ChatGPT打开了AI认知世界的大门,那么DeepSeek-R1则拆
道一云黑板报
·
2025-05-17 07:03
人工智能
ai
deepseek
AI
DeepSeek
思维链
深度学习
AgenticSeek开源的完全本地的 Manus AI。无需 API,享受一个自主代理,它可以思考、浏览 Web 和编码,只需支付电费。
它专为本地
推理模型
量身定制,完全在您的硬件上运行,确保完全隐私和零云依赖。二、为什么选择AgenticSeek
struggle2025
·
2025-05-16 03:45
人工智能
开源
自动化
用于代码、网络搜索、研究等领域的六大顶尖语言模型
1Claude3.7Sonnet1.概述Claude3.7Sonnet是Anthropic公司于2025年2月25日发布的最新AI模型,被誉为目前最智能的模型,也是市场上首个混合
推理模型
。
数据分析能量站
·
2025-05-13 04:43
机器学习
语言模型
人工智能
GpuGeek全面接入智谱GLM Z1系列
推理模型
!!
包括:基座模型GLM-4-32B-0414
推理模型
GLM-Z1-32B-0414沉思模型GLM-Z1-Rumination-32B-0414GpuGeek抢先全面接入智谱GLM-Z1系列
推理模型
,希望让各位
GpuGeek
·
2025-05-11 20:44
AIGC
gpu算力
人工智能
指令模型VS
推理模型
指令模型(Instruction-BasedModel通用模型、创痛模型):依赖用户指令来生成内容和执行内容代表:豆包、deepseek-v3、gpt-4o接收明确的指令(如代码、命令或规则),按步骤执行任务,强调“准确执行”。特点:像刚毕业的实习生,领导说一步做一步。依赖预设的规则或程序。严格按照输入指令的流程操作,不主动推导逻辑。结果可预测,适合结构化任务。执行效率高,资源消耗可控。依赖人工设
雁过留声花欲落
·
2025-05-11 12:54
AI
ai
PPOCRv4
推理模型
转换为nb模型
一、前期准备Andriodstudio4.2参考:https://blog.csdn.net/qq_40647372/article/details/133266819?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522246c9d8e3affc84f010618778b02955d%2522%252C%2522scm%2522%253
AAA抗刀小玉
·
2025-05-10 14:36
ocr
paddle
ocr
python
paddlepaddle
深度学习
开源模型应用落地-qwen模型小试-Qwen3-8B-推理加速-vLLM-Docker(二)
Qwen3-8B作为阿里云推出的混合
推理模型
,凭借80亿参数规模与128K超长上下文支持,展现了“快思考”与“慢思考”的协同能力,而vLLM框架则通过优化内存管理与并行计算,显著提升推理吞吐量。
开源技术探险家
·
2025-05-10 09:29
开源模型-实际应用落地
#
#
深度学习
自然语言处理
语言模型
开源
深度学习-159-综述之混合专家模型和
推理模型
以及工作流和智能体的概念
文章目录1专家混合模型(MoE)1.1专家1.2路由器1.3稀疏和密集MoE2混合
推理模型
2.1快思考模式2.2慢思考模式2.3两种模式的切换2.4混合
推理模型
Qwen33工作流和智能体3.1工作流(Workflow
皮皮冰燃
·
2025-05-08 11:24
深度学习
深度学习
人工智能
DeepSeek部署实战指南:从环境搭建到企业级优化
简介DeepSeek作为一款高性能的AI
推理模型
,在实际部署过程中会面临环境配置、依赖管理、模型加载和性能优化等多方面的挑战。
Android洋芋
·
2025-05-06 13:45
DeepSeek
本地部署
API接口
性能优化
模型量化
企业级应用
NoThinking vs Thinking:
推理模型
无需思考也能有效
摘要:最近的大型语言模型(LLMs)显著提升了推理能力,主要是通过在生成过程中包含一个明确且冗长的“思考”过程来实现的。在本文中,我们质疑这种明确的思考过程是否真的必要。我们使用最先进的DeepSeek-R1-Distill-Qwen模型,发现通过简单的提示绕过思考过程(记作NoThinking)可以出人意料地有效。在控制token数量的情况下,NoThinking在多个具有挑战性的推理数据集上优
王哥儿聊AI
·
2025-05-06 10:25
大模型论文阅读解析
人工智能
语言模型
自然语言处理
Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models
文章目录摘要1引言2背景:长思维链
推理模型
与过度思考现象2.1思维链(CoT)推理2.2长CoT
推理模型
中的过度思考问题3基于模型的高效推理3.1基于长度奖励设计的强化学习(RL)3.2使用可变长度CoT
绒绒毛毛雨
·
2025-05-04 18:00
搜索推荐
语言模型
人工智能
自然语言处理
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他