海棠AI实验室

深入解析 DeepSeek R1：强化学习如何驱动大模型推理能力的进化

引言

在 AI 竞赛日益激烈的时代，DeepSeek-AI 推出了 DeepSeek R1，试图以强化学习（RL） 直接训练推理能力，而非仅依赖传统的监督微调（SFT）。这一思路不仅为大规模语言模型（LLMs）带来了新的训练范式，还在跨任务推理迁移上表现出潜力。
本文将深入解析 DeepSeek R1 的架构、训练方法和对比实验，并从多维度审视其局限性与未来发展方向。同时，我们也会在文中介绍 DeepSeek R1 蒸馏到多个小规模模型的过程及其在下游任务的效果表现，以期为学术与开源社区提供可参考的实践经验。

1. DeepSeek R1 体系概览

1.1 系列版本

DeepSeek R1 主要包括两个核心版本：

DeepSeek R1-Zero
采用纯强化学习进行训练，未使用任何人工标注或监督微调数据，旨在验证从零开始通过 RL 学习推理能力的可行性。
DeepSeek R1
在 R1-Zero 的基础上，加入**冷启动数据（Cold Start Data）**以及多阶段训练策略，进一步提升了模型的可读性、稳定性与语言一致性。

在此基础上，DeepSeek-AI 还提供了蒸馏版本，将 DeepSeek R1 的推理能力迁移至 Qwen 和 LLaMA 等开源模型，推出了从 1.5B 到 70B 参数量的多个版本，并开放相关权重，以便社区在更轻量的条件下享受 DeepSeek R1 的推理优势。

1.2 与传统 LLM 方法的比较

传统 LLM 训练： 以监督微调（SFT）为主，需要大量人工标注的数据，并辅以指令微调（Instruction Tuning）或 RLHF（人类反馈强化学习）等方法来提升对话质量。
DeepSeek R1： 更强调直接训练模型的推理能力，减少对人工标注的依赖。RL 方式能够让模型自主“试错”，在多步推理场景下逐步学习自我反思与**复杂推理链（Chain of Thought, CoT）**等能力。

2. 训练方法：强化学习激发推理能力

本节将介绍 DeepSeek R1 的训练框架，从纯强化学习到强化学习与监督结合，再到多规模模型的蒸馏，力求为读者清晰呈现其核心思路和实验依据。

2.1 DeepSeek R1-Zero：强化学习自我进化

2.1.1 核心算法：Group Relative Policy Optimization（GRPO）

在传统强化学习中，Proximal Policy Optimization (PPO) 常被用于对话或序列决策任务。然而，PPO 需要训练价值网络或引入复杂的估计函数。为此，DeepSeek R1-Zero 采用了 Group Relative Policy Optimization (GRPO)，一种基于群体奖励的算法，其特征包括：

群体基准值估计：通过同时采样多个对话或推理路径，统计群体平均奖励作为基准值；
相对奖励更新：模型仅根据自身与群体基准值的相对表现做梯度更新；
低计算资源需求：相比传统需要单独训练价值网络的 RL 方法，GRPO 的实现更为轻量级。

参考文献：

He et al. (2024). Group-based Rewards in Large Language Model Training.

Schulman et al. (2017). Proximal Policy Optimization Algorithms. arXiv

2.1.2 奖励建模与推理格式

准确性奖励（Accuracy Reward）：根据模型输出与参考答案的匹配程度，或在特定评测脚本下运行结果是否正确来定义。
格式奖励（Format Reward）：为确保模型推理过程遵循统一的模板（如 ... 表示思考过程， ... 表示最终答案），在推理格式合规时给予额外奖励。

2.1.3 自我进化能力

在 RL 训练中，DeepSeek R1-Zero 会经历大量多步推理与自我纠错（self-reflection）的过程，因而逐步学会：

多步分解：将复杂任务拆解为多个可行子问题；
链式推理：保持上下文信息的一致性，进行类 CoT（Chain of Thought）的推理；
自我反思：在中间步骤出现错误时，及时修正思路并再次尝试。

示例
问题：一个袋子里有 5 个苹果和 3 个橙子，拿出 2 个苹果后还剩下多少个橙子？
 袋子里有5苹果3橙子，取出2苹果不影响橙子数，仍有3橙子 
 3 

尽管 DeepSeek R1-Zero 展示了可观的自发推理能力，但在语言可读性、风格一致性等方面仍存在局限。为此，DeepSeek-AI 在 R1 版本中引入了外部数据与精细化训练策略。

2.2 DeepSeek R1：结合冷启动数据与多阶段训练

为解决 R1-Zero 版本在可读性不佳、语言混合等问题上遇到的瓶颈，DeepSeek R1 添加了“冷启动数据”并融入多阶段训练流程：

冷启动阶段
- 数据来源与规模：由预训练模型 DeepSeek V3 大规模生成多种任务的 CoT 数据；涵盖数学推理、法律问答、通用写作、翻译等。规模约 50 万条，其中包含一定比例的多语言数据。
- 人工筛选：基于错误率、可读性与格式合规率等指标进行初步过滤；通过专业标注团队复查其中的关键推理步骤。
推理强化学习
- 在冷启动模型基础上，引入语言一致性奖励，进一步强化模型在多语言场景下保持风格统一；
- 同时保留准确性和格式奖励，确保在自我进化的过程中不会牺牲正确率与结构化输出。
拒绝采样与监督微调（SFT）
- 对在推理强化学习阶段生成的低质量对话进行拒绝采样，过滤不符合预期或逻辑错误的内容；
- 结合 DeepSeek V3 的多领域数据再次进行监督微调，以提升语言流畅度与可读性。
全面强化学习
- 最终阶段在综合场景下进行 RL 训练，涵盖对话生成、信息检索、翻译、写作以及安全性过滤等子任务；
- 进一步优化模型的推理深度、用户友好性与鲁棒性。

2.3 蒸馏：从大模型到小模型的推理迁移

DeepSeek R1 还将自身的推理能力通过**蒸馏（Distillation）**的方式迁移至 Qwen、LLaMA 等开源模型，推出了 1.5B、7B、8B、14B、32B、70B 等多档模型版本。与直接对小模型进行监督微调或 RL 训练相比，“教师—学生”蒸馏可在较少训练资源下显著提升小模型的推理表现。

蒸馏核心流程：
1. 基于 DeepSeek R1 生成标准推理样本 (带有和结构)。
2. 小模型（学生）以模仿损失（Mimicking Loss）的方式学习教师（DeepSeek R1）输出，包括中间思考过程和最终答案。
3. 在关键领域（如数学推理、代码生成）可再追加小规模 RL 或 SFT 来微调学生模型的特定能力。
效果对比：
- 实验表明，相比直接对小模型进行纯 RL 训练，蒸馏方式能稳定获得约 5%～10% 的准确率提升（根据内部对比实验，在相同计算预算和训练轮次的前提下）。

3. Benchmark 测试结果：DeepSeek R1 vs. 竞品

本节评测基于公开或社区约定的数据集，以及部分内部自定义测试集。以下结果仅代表特定实验条件下（同样的硬件、相似超参数设置、近似批量大小）的对比。

3.1 数学推理

AIME 2024：指的是 DeepSeek-AI 在内部仿照 AIME（American Invitational Mathematics Examination）难度水平设计的新题集，共计 500 余题，综合考查代数、几何、组合、数论等。
- DeepSeek R1：达成 79.8% 的 Pass@1 正确率；
- OpenAI-o1-1217（内部标注为 GPT-4 的某测试版本）：约 79.2%；
- 注：基于同一套题目测试，DeepSeek R1 以微弱优势领先。
MATH-500：一个社区通用数学推理数据子集（非官方完整 MATH 数据集），在难度上适中。
- DeepSeek R1：97.3% Pass@1；
- 最优开源模型对比：如 Alpaca 等 ~80% 左右；
- 注：因部分题目在社区已有公开解答，可能带来训练时的“见题”偏差，结果仅作参考。

3.2 编程推理

Codeforces Internal Set：DeepSeek-AI 收集了自 Codeforces 公开题库中提炼的 300 道中难度题目，用自动化测试脚本判断解决正确性。
- DeepSeek R1：能在一次提交（Pass@1）下解决 65.9% ；
- GPT-4o（OpenAI GPT-4 的另一个版本）在相同测试条件下约 67%；
- 注：DeepSeek R1 与 GPT-4o 的差距在 1% 左右，整体处于同一量级。
LiveCodeBench：针对动态代码执行进行测评；
- DeepSeek R1：65.9% Pass@1；
- Claude 3.5：63.0% 左右（内部测评）；
- 注：此处结果与 Codeforces Internal Set 分数相近，说明 DeepSeek R1 在编程推理任务中具备较稳定的表现。

3.3 语言理解

MMLU 子集：在主流的多任务语言理解评测（MMLU）中选取若干子集（如历史、数学、物理、生物）共 5,000 道题，采用多选形式。
- DeepSeek R1：90.8% (子集测试)；
- OpenAI-o1-1217：91.8%；
- 注：此结果并非官方完整 MMLU 全量测试，仅供对比参考。
GPQA Diamond：内部构建的高级问答测试，含较多推理题与跨知识领域问题。
- DeepSeek R1：71.5%；
- Claude 3.5：约 69.0%；
- GPT-4o：约 73%；
- 注：对高级知识和推理能力要求较高，R1 位列中上水平。

4. 局限性与未来方向

4.1 泛化能力

在多轮对话中，DeepSeek R1 仍可能出现过度重复或逻辑跳跃的问题；
针对函数调用与 JSON 输出等结构化任务，有时难以保持格式严谨度。

4.2 多语言混合问题

深度融合中英双语时，模型偶尔会在句子中混用多种语言；
需要进一步在大规模多语言语料中进行 RL 或 SFT 来优化语言切换能力。

4.3 提示词敏感性

实验中观察到，DeepSeek R1 在零样本（Zero-shot）推理时效果较好，而少样本（Few-shot）提示有时会使模型答案趋于冗长或过拟合到示例模式；
后续会针对 Prompt Engineering 进行更深入的优化。

4.4 软件工程与代码理解

目前尚未在大规模软件工程场景（如大型代码仓库理解、调试任务）进行深度 RL 训练；
未来将扩充编程语料与调试对话数据，使模型在软件工程任务中更具实用性。

改进设想

引入多语言联邦学习架构，引导模型在不同语言、不同领域的协作推理；

结合更多开源 API 使用数据，优化函数调用与代码生成能力；

在 Prompt 侧添加自适应策略，根据用户输入上下文动态选择提示模版，降低提示词的敏感度。

5. 结论

DeepSeek R1 通过纯强化学习到RL 与监督微调结合的分阶段策略，显著强化了 LLM 的复杂推理与自我反思能力。在数学、编程和多领域语言理解等任务上，其表现已接近甚至超过部分高规格商业模型。关键创新包括：

引入 GRPO 算法：更轻量化地实现 RL，节约训练资源；
冷启动 + 多阶段训练：在保证推理深度的同时兼顾可读性与一致性；
蒸馏到小模型：在更小的参数规模下保持较高推理能力，为开源社区提供实用选择。

面向未来，DeepSeek-AI 将持续在工程化、跨语言、Prompt 友好度等方面精进 DeepSeek R1，推动“强化学习+推理优化”在更广泛领域中落地。随着蒸馏模型和训练脚本的进一步开源，期待更多研究者与开发者一同挖掘其潜能，为 LLM 世界带来更多创新与便利。

附录：示例与引用

A.1 示例推理过程

用户： 我有一个列表 [2, 3, 6, 9] ，请问如何判断它能否构成等差数列？

 等差数列需要相邻两项差值相同；
列表差值：3-2=1，6-3=3，9-6=3，不相同；
因此不能构成等差数列。


 这不是等差数列

A.2 参考或相关链接

MMLU Benchmark (Brown et al., 2020)
Proximal Policy Optimization (PPO)
DeepSeek-AI 官方 GitHub

如何在本地部署可参考本地部署DeepSeek R1：打造私人AI助手完全指南

播客英文版：【深度解析】强化学习的魔力：揭秘DeepSeek-R1的惊人表现

你可能感兴趣的:(智元启示录,人工智能,deep,learning,DeepSeek-R1)

C++ 计数排序、归并排序、快速排序每天搬一点点砖 c++数据结构算法
计数排序：是一种基于哈希的排序算法。他的基本思想是通过统计每个元素的出现次数，然后根据统计结果将元素依次放入排序后的序列中。这种排序算法适用于范围较小的情况，例如整数范围在0到k之间计数排序步骤：1初始化一个长度为最大元素值加1的计数数组，所有元素初始化为02遍历原始数组，将每个元素值作为索引，在计数数组中对应位置加13将数组清空4遍历计数器数组，按照数组中的元素个数放回到元数组中计数排序的优点和
上半年居民消费榜出炉！这个城市的人最能花 BBM优选官方
上半年居民消费榜出炉哪个地方的人最能花钱？国家统计局公布的数据显示上海上半年居民人均可支配收入32612元居民人均消费支出21321元均为全国最高成为最能挣钱也最能花钱的城市1上海人均消费支出全国第一国家统计局公布的31省份居民人均消费支出数据显示，上海、北京、天津上半年居民人均消费支出排名前三。其中，上海上半年居民人均消费支出21321元，位居榜首。上海也是上半年全国仅有的居民人均消费支出突破2
京东家电年销售额是去年的1300%，主要来自于他.... Shanshan小课堂
经过大半个月角逐纠缠，时间终于来到6月18日，618全球年中购物节迎来最高潮。作为国内最大的家电零售平台，京东家电从18日0点开始，便开启了飞速狂奔的模式，仅8分钟销售额就突破20亿元!展现出强劲的增长势头与家电主场的王者霸气的同时，也让各家电品牌实现了爆发式增长，美的、海尔、格力、奥克斯均在3分钟内突破1亿元大关。在今年的618中，除了消费者已经熟悉的网购形式外，线上线下联动的融合模式、社交电商
C++ ：vector的模拟诚自然成 c++开发语言
目录一、vector的迭代器二、vector的构造函数默认构造函数参数构造函数迭代器范围构造函数拷贝构造函数swap:交换vector重载赋值符析构函数reserve:扩容vectorresize:调整大小push_back:添加元素empty:判空pop_back:后删获取大小与容量：size(),capacity()重载operator[]：元素访问insert：插入元素erase:删除一个元
为了在未来的人工智能世界中取得成功，学生们必须学习人类写作的优点睿邸管家
澳大利亚各地的学生在新学年开始使用铅笔、钢笔和键盘学习写字。在工作场所，机器也在学习写作，如此有效，几年之内，它们可能会写得比人类更好。有时它们已经做到了，就像Grammarly这样的应用程序所展示的那样。当然，人类现在的日常写作可能很快就会由具有人工智能(AI)的机器来完成。手机和电子邮件软件常用的预测文本是无数人每天都在使用的一种人工智能写作形式。据AI行业研究机构称，到2022年，人工智能及
7月29日星期二今日早报简报微语报早读微语早读生活
7月29日星期二，农历闰六月初五，早报#微语早读。1、国家育儿补贴方案公布！3周岁前每娃每年3600元；2、火狐浏览器官宣关闭北京公司，将终止中国账户服务；3、税务总局：2021年以来查处网络主播偷逃税案件360余起，查补税款30多亿元；4、江苏省体育局：职业俱乐部获男足中超冠军奖补3000万元；5、深圳出现首宗基孔肯雅热病例；6、税务总局：从今年个税汇算看，超1亿纳税人依法申请退税1300多亿，
社交电商平台有哪些？社交电商怎么做？氧惠评测
社交电商平台有很多，以下是一些常见的社交电商平台：氧惠APP是与以往完全不同的抖客+淘客app！2024全新模式，我的直推也会放到你下面。主打：带货高补贴，深受各位带货团队长喜爱（训练营导师每天出单带货几万单）。注册即可享受高补贴+0撸+捡漏等带货新体验。送万元推广大礼包，教你如何1年做到百万团队。珊珊导师氧惠邀请码888999，注册送万元推广大礼包，教你如何1年做到百万团队。氧惠app：氧惠ap
元宇宙中的视觉技术：虚拟化身与场景生成 xcLeigh 计算机视觉CV 元宇宙虚拟化身场景生成 AIGC 数字孪生
元宇宙中的视觉技术：虚拟化身与场景生成前言一、元宇宙与视觉技术的深度关联1.1元宇宙概念深度剖析1.2视觉技术：元宇宙的“灵魂之窗”二、虚拟化身：数字世界的“第二自我”2.1虚拟化身技术的深度解析2.1.1核心技术构成2.1.2技术实现原理与流程2.2虚拟化身的应用领域及案例展示2.2.1游戏娱乐领域2.2.2教育培训领域三、场景生成：构建元宇宙的虚拟天地3.1场景生成技术全景透视3.1.1关键技
Deepseek技术深化：驱动大数据时代颠覆性变革的未来引擎荣华富贵8 spring boot 搜索引擎后端缓存 redis
在大数据时代，信息爆炸和数据驱动的决策逐渐重塑各行各业。作为一项前沿技术，Deepseek正在引领新一轮技术革新，颠覆传统数据处理与分析方式。本文将从理论原理、应用场景和前沿代码实践三个层面，深入剖析Deepseek技术如何为大数据时代提供颠覆性变革的解决方案。一、技术背景与核心思想1.1大数据挑战与机遇在数据量呈指数级增长的背景下，传统数据处理方法面临数据存储、计算效率和信息提取精度的诸多挑战。
Zread.AI：一键将GitHub项目转化为结构化中文手册的AI代码维基工具
Zread.AI：一键将GitHub项目转化为结构化中文手册的AI代码维基工具文章来源：PoixeAI文章目录Zread.AI工具概述核心功能优势亮点典型应用场景上手指南注意事项官网地址Zread.AI由智谱Z.ai推出，是一款面向开发者的AI代码维基工具，可在几秒内把任何公开GitHub仓库转化为结构化中文手册，并通过独家Buzz面板聚合commits、issues与相关新闻，让项目脉搏一目了然
人工智能应用研究快讯 2021-11-30 峰谷皆平
[HTML]ArtificialIntelligenceforSkinCancerDetection:ScopingReviewATakiddin,JSchneider,YYang,AAbd-Alrazaq...JournalofMedicalInternet...,2021ABSTACT:Background:Skincanceristhemostcommoncancertypeaffectin
学C++的五大惊人好处
为什么要学c++学c++有什么用学习c++的好处有1.中考可以加分2.高考可能直接录取3.就业广且工资高4.在未来30--50年c++一定是一个很受欢迎的职业5.c++成功的例子deepsick等AI智能C++语言兼备编程效率和编译运行效率的语言C++语言是C语言功能增强版,在c语言的基础上添加了面向对象编程和泛型编程的支持既继承了C语言高效，简洁，快速和可移植的传统,又具备类似Java、Go等其
我应该如何使用直返APP才能获得更多的返利？氧惠好物
要想在直返APP获得更多返利，您可以尝试以下几个方法：氧惠APP（带货领导者）——是与以往完全不同的抖客+淘客app！2024全新模式，我的直推也会放到你下面。主打：带货高补贴，深受各位带货团队长喜爱（每天出单带货几十万单）。注册即可享受高补贴+0撸+捡漏等带货新体验。送万元推广大礼包，教你如何1年做到百万团队。首先，注册并完善账户信息。注册后，您将获得新人专享优惠券，以及更多的返利机会。同时，确
从振动信号到精准预警：AI 如何重塑工业设备健康管理？缘华工业智维人工智能计算机视觉边缘计算信息与通信
在智能制造浪潮席卷全球的当下，工业生产正经历着从传统模式向智能化、数字化转型的深刻变革。在这场变革中，AI驱动的振动分析技术犹如一颗璀璨新星，成为工业设备可靠运行的“健康卫士”。它通过在设备关键部位部署振动传感器，如同医生为患者听诊般实时采集设备运行时的振动信号，再借助强大的人工智能算法对这些“工业脉搏”进行深度解析，从而实现对工业设备从故障预警到寿命预测的全周期精准守护。一、AI振动分析：设备状
基于DeepSeek的下一代大型游戏开发革命：架构、核心技术与项目管理实践 Liudef06小白特殊专栏人工智能 AIGC 架构人工智能 deepseek
基于DeepSeek的下一代大型游戏开发革命：架构、核心技术与项目管理实践DeepSeek大模型正重塑游戏开发范式，本文将深入解析如何利用这一革命性技术构建下一代大型游戏，涵盖从架构设计到项目管理的全流程实践。目录DeepSeek游戏引擎核心架构1.1神经符号系统融合架构1.2动态世界生成引擎智能NPC与剧情系统2.1角色人格建模技术2.2动态叙事生成算法大型项目管理体系3.1敏捷-AI混合开发流
AI 生成虚拟宠物：24 小时陪你聊天解闷大力出奇迹985 人工智能宠物
本文围绕AI生成虚拟宠物展开，介绍这类依托人工智能技术诞生的虚拟伙伴，能实现24小时不间断陪伴聊天，为人们解闷。文中详细阐述其技术基础，包括自然语言处理、机器学习等；分析多样功能，如个性化互动、情绪回应等；探讨在独居人群、压力大者等不同群体中的应用场景，最后总结其为人们生活带来的积极影响及未来发展潜力，展现AI虚拟宠物在陪伴领域的独特价值。一、AI生成虚拟宠物的诞生背景与技术基石在快节奏的现代社会
GPT-4 在 AIGC 中的微调技巧：让模型更懂你的需求 AIGC应用创新大全 AI人工智能与大数据应用开发 MCP&Agent 云算力网络 AIGC ai
GPT-4在AIGC中的微调技巧：让模型更懂你的需求关键词：GPT-4、AIGC、模型微调、监督学习、指令优化、过拟合预防、个性化生成摘要：AIGC（人工智能生成内容）正在重塑内容创作行业，但通用的GPT-4模型可能无法精准匹配你的垂直需求——比如写电商爆款文案时总“跑题”，或生成技术文档时专业术语不够。本文将用“教小朋友学画画”的通俗类比，从微调的底层逻辑讲到实战技巧，带你掌握让GPT-4“更懂
神经形态计算如何突破冯·诺依曼架构限制？ AI算力网络与通信 AI人工智能与大数据技术 AI算力网络与通信原理 AI人工智能大数据架构架构 ai
神经形态计算如何突破冯·诺依曼架构限制？关键词：神经形态计算、冯·诺依曼架构、内存墙、存算一体、脉冲神经网络、类脑芯片、低功耗计算摘要：本文将从“冯·诺依曼架构的前世今生”讲起，用“图书馆管理员搬书”的生活案例类比其核心矛盾，再通过“人脑神经元工作模式”的比喻引入神经形态计算的核心原理。我们将一步步拆解冯·诺依曼架构的三大限制（内存墙、高功耗、非结构化数据处理弱），并对应解析神经形态计算的三大突破
19.0-《超越感觉》-说服他人 SAM52
Becausethoughtfuljudgmentsdeservetobeshared,andthewaytheyarepresentedcanstronglyinfluencethewayothersreacttothem.因为经过深思熟虑的判断值得分享，而这些判断的呈现方式会强烈影响其他人对它们的反应。Bylearningtheprinciplesofpersuasionandapplying
AIGC内容生成实战：如何用ChatGPT+DALL·E打造高转化内容 AI大模型应用工坊 AI大模型开发实战 AIGC chatgpt ai
AIGC内容生成实战：如何用ChatGPT+DALL·E打造高转化内容关键词：AIGC、ChatGPT、DALL·E、内容生成、高转化营销、多模态协同、提示词工程摘要：随着AIGC（人工智能生成内容）技术的爆发式发展，ChatGPT（文本生成）与DALL·E（图像生成）的组合已成为内容创作领域的“黄金搭档”。本文将深度解析二者的协同原理，结合实战案例演示从需求分析到内容落地的全流程，并揭示提升内容
数据分析领域中AI人工智能的发展前景展望 AI大模型应用工坊 AI大模型开发实战数据分析人工智能数据挖掘 ai
数据分析领域中AI人工智能的发展前景展望关键词：数据分析、人工智能、机器学习、深度学习、数据挖掘、预测分析、自动化摘要：本文深入探讨了人工智能在数据分析领域的发展现状和未来趋势。我们将从核心技术原理出发，分析AI如何改变传统数据分析范式，详细讲解机器学习算法在数据分析中的应用，并通过实际案例展示AI驱动的数据分析解决方案。文章还将探讨行业应用场景、工具生态以及未来发展面临的挑战和机遇，为数据分析师
AI人工智能中的数据挖掘：提升智能决策能力
AI人工智能中的数据挖掘：提升智能决策能力关键词：数据挖掘、人工智能、机器学习、智能决策、数据分析、特征工程、模型优化摘要：本文深入探讨了数据挖掘在人工智能领域中的核心作用，重点分析了如何通过数据挖掘技术提升智能决策能力。文章从基础概念出发，详细介绍了数据挖掘的关键算法、数学模型和实际应用场景，并通过Python代码示例展示了数据挖掘的全流程。最后，文章展望了数据挖掘技术的未来发展趋势和面临的挑战
【大模型微调实战】4. P-Tuning爆款文案生成：让模型学会小红书“爽感”写作，转化率提升300% AI_DL_CODE 大模型微调 P-Tuning 小红书文案爆款生成情绪强化自然语言生成提示工程
摘要：在内容营销竞争白热化的当下，普通文案已难以突破流量壁垒。本文聚焦P-Tuning技术在小红书爆款文案生成中的落地应用，通过参数化提示向量优化，将抽象的“爽感”写作转化为可量化、可训练的技术指标。文中提出“六步成文法”，从情绪化数据集构建到爆款元素复刻，完整拆解如何用RTX3060级显卡实现0.1%参数量微调，使文案点击率从2.1%提升至8.7%，爆文率提高5倍，单条文案带货超8万元。核心创新
2018年中南大学中英翻译某翁
参考：20180827235856533.jpg【1】机器学习理论表明，机器学习算法能从有限个训练集样本上得到较好的泛化【1】Machinelearningtheoryshowsthatmachinelearningalgorithmcangeneralizewellfromfinitetrainingsetsampleslimited有限的infinite无限的【2】这似乎违背了一些基本的逻辑准
【三桥君】MCP中台，究竟如何实现多模型、多渠道、多环境的统一管控？如何以MCP为核心设计AI应用架构？三桥君《三桥君 MCP落地方法论》《三桥君 AI大模型落地方法论》#《三桥君 AI产品方法论》人工智能 AI产品经理 MCP API 三桥君系统架构 llama
你好，我是✨三桥君✨本文介绍>>一、引言随着人工智能技术的快速发展，越来越多的企业开始引入大语言模型（LLM）以提升用户体验和运营效率。然而，如何高效、稳定地将这些AI能力落地到生产环境呢？传统的系统架构往往难以应对AI应用的高并发、低延迟和灵活扩展需求，因此，从整体架构角度设计AI应用架构显得尤为重要。本文三桥君将深入探讨以MCP为核心的AI应用架构，并分析多种部署方式的优劣势，为企业在AI落地
深入理解卷积神经网络（CNN）与循环神经网络（RNN） CodeJourney. cnn rnn 人工智能
在当今的人工智能领域，神经网络无疑是最为璀璨的明珠之一。而卷积神经网络（ConvolutionalNeuralNetworks，CNN）和循环神经网络（RecurrentNeuralNetworks，RNN）作为神经网络家族中的重要成员，各自有着独特的架构和强大的功能，广泛应用于众多领域。本文将深入探讨这两种神经网络的原理、特点以及应用场景，为对深度学习感兴趣的读者提供全面的知识讲解。一、卷积神经
收评：两市震荡沪指涨0.57%创业板指涨1.42% 光伏风能板块大涨甚念_3264
金融界网站9月14日讯早盘三大股指高开，盘初市场震荡上行，创业板指一度涨超2％，随后指数呈现震荡整理态势，临近午盘小幅回落；午后A股延续低迷表现，深成指两度翻绿，尾盘两市小幅上扬。截至收盘，沪指涨0.57％，报3278.81点，深成指涨0.61％，报13021.99点，创业板指涨1.42％，报2572.6点。两市成交额约7700亿元；北向资金净流入近20亿元。行业板块方面，环保工程、材料行业、仪器
今年校招竞争真激烈 12_05
程序员满大街，都要找不到工作了。即使人工智能满大街，我也后悔当初没学机器学习，后悔当初没学Java。C++真难找工作。难道毕了业就失业吗？好担心！
不想去上班，在家就能做十大工作配音就业圈
如果不想上班，居家以下十个工作可供参考。1.在线调查：加入各种在线调查平台，回答问卷并获得奖励。一般是几元，到几十元不等。兼职副业推荐公众号，配音新手圈，声优配音圈，新配音兼职圈，配音就业圈，鼎音副业，有声新手圈，每天更新各种远程工作与在线兼职，职位包括：写手、程序开发、剪辑、设计、翻译、配音、无门槛、插画、翻译、等等。。。每日更新兼职。2.网上写作：如果你擅长写作，可以选择成为自由撰稿人，为网站
世上没有一杆秤，可以称出母爱的重量蜗牛读书育儿
2021年贺岁电影《你好，李焕英》上映之后，票房一路飙升，短短两个月时间票房就突破了50亿元。这是贾玲为了纪念自己的母亲而导演了一部作品。讲述了一个普通女孩与母亲的故事，但就是这么一个普通的故事却感动了千千万万的观众。因为贾玲在影片中，将“子欲养而亲不待”的遗憾之情发挥得淋漓尽致，戳中了无数人的泪点。无独有偶，在十年前，有一个叫孙宇的大男孩，也是因为一个关于母亲的故事感动了无数的读者。不过，与贾玲
ASM系列六利用TreeApi 添加和移除类成员 lijingyao8206 jvm 动态代理 ASM 字节码技术 TreeAPI
同生成的做法一样，添加和移除类成员只要去修改fields和methods中的元素即可。这里我们拿一个简单的类做例子，下面这个Task类，我们来移除isNeedRemove方法，并且添加一个int 类型的addedField属性。 package asm.core; /** * Created by yunshen.ljy on 2015/6/
Springmvc-权限设计 bee1314 spring Web jsp
万丈高楼平地起。权限管理对于管理系统而言已经是标配中的标配了吧，对于我等俗人更是不能免俗。同时就目前的项目状况而言，我们还不需要那么高大上的开源的解决方案，如Spring Security，Shiro。小伙伴一致决定我们还是从基本的功能迭代起来吧。目标： 1.实现权限的管理（CRUD） 2.实现部门管理（CRUD) 3.实现人员的管理（CRUD） 4.实现部门和权限
算法竞赛入门经典（第二版）第2章习题 CrazyMizzz c 算法
2.4.1 输出技巧 #include <stdio.h> int main() { int i, n; scanf("%d", &n); for (i = 1; i <= n; i++) printf("%d\n", i); return 0; } 习题2-2 水仙花数(daffodil
struts2中jsp自动跳转到Action 麦田的设计者 jsp webxml struts2 自动跳转
1、在struts2的开发中，经常需要用户点击网页后就直接跳转到一个Action，执行Action里面的方法，利用mvc分层思想执行相应操作在界面上得到动态数据。毕竟用户不可能在地址栏里输入一个Action（不是专业人士） 2、＜jsp:forward page="xxx.action" /＞，这个标签可以实现跳转，page的路径是相对地址,不同与jsp和j
php 操作webservice实例 IT独行者 PHP webservice
首先大家要简单了解了何谓webservice，接下来就做两个非常简单的例子，webservice还是逃不开server端与client端。我测试的环境为：apache2.2.11 php5.2.10做这个测试之前，要确认你的php配置文件中已经将soap扩展打开，即extension=php_soap.dll; OK 现在我们来体验webservice //server端 serve
Windows下使用Vagrant安装linux系统 _wy_ windows vagrant
准备工作：下载安装 VirtualBox ：https://www.virtualbox.org/ 下载安装 Vagrant ：http://www.vagrantup.com/ 下载需要使用的 box ：官方提供的范例：http://files.vagrantup.com/precise32.box 还可以在 http://www.vagrantbox.es/
更改linux的文件拥有者及用户组(chown和chgrp) 无量 c linux chgrp chown
本文（转） http://blog.163.com/yanenshun@126/blog/static/128388169201203011157308/ http://ydlmlh.iteye.com/blog/1435157 一、基本使用：使用chown命令可以修改文件或目录所属的用户：命令
linux下抓包工具矮蛋蛋 linux
原文地址： http://blog.chinaunix.net/uid-23670869-id-2610683.html tcpdump -nn -vv -X udp port 8888 上面命令是抓取udp包、端口为8888 netstat -tln 命令是用来查看linux的端口使用情况 13 . 列出所有的网络连接 lsof -i 14. 列出所有tcp 网络连接信息 l
我觉得mybatis是垃圾！：“每一个用mybatis的男纸，你伤不起” alafqq mybatis
最近看了每一个用mybatis的男纸，你伤不起原文地址：http://www.iteye.com/topic/1073938 发表一下个人看法。欢迎大神拍砖；个人一直使用的是Ibatis框架，公司对其进行过小小的改良；最近换了公司，要使用新的框架。听说mybatis不错；就对其进行了部分的研究；发现多了一个mapper层；个人感觉就是个dao；
解决java数据交换之谜百合不是茶数据交换
交换两个数字的方法有以下三种，其中第一种最常用 /* 输出最小的一个数 */ public class jiaohuan1 { public static void main(String[] args) { int a =4; int b = 3; if(a<b){ // 第一种交换方式 int tmep =
渐变显示 bijian1013 JavaScript
<style type="text/css"> #wxf { FILTER: progid:DXImageTransform.Microsoft.Gradient(GradientType=0, StartColorStr=#ffffff, EndColorStr=#97FF98); height: 25px; } </style>
探索JUnit4扩展：断言语法assertThat bijian1013 java 单元测试 assertThat
一.概述 JUnit 设计的目的就是有效地抓住编程人员写代码的意图，然后快速检查他们的代码是否与他们的意图相匹配。 JUnit 发展至今，版本不停的翻新，但是所有版本都一致致力于解决一个问题，那就是如何发现编程人员的代码意图，并且如何使得编程人员更加容易地表达他们的代码意图。JUnit 4.4 也是为了如何能够
【Gson三】Gson解析{"data":{"IM":["MSN","QQ","Gtalk"]}} bit1129 gson
如何把如下简单的JSON字符串反序列化为Java的POJO对象? {"data":{"IM":["MSN","QQ","Gtalk"]}} 下面的POJO类Model无法完成正确的解析： import com.google.gson.Gson;
【Kafka九】Kafka High Level API vs. Low Level API bit1129 kafka
1. Kafka提供了两种Consumer API High Level Consumer API Low Level Consumer API(Kafka诡异的称之为Simple Consumer API，实际上非常复杂) 在选用哪种Consumer API时，首先要弄清楚这两种API的工作原理，能做什么不能做什么，能做的话怎么做的以及用的时候，有哪些可能的问题
在nginx中集成lua脚本：添加自定义Http头，封IP等 ronin47 nginx lua
Lua是一个可以嵌入到Nginx配置文件中的动态脚本语言，从而可以在Nginx请求处理的任何阶段执行各种Lua代码。刚开始我们只是用Lua 把请求路由到后端服务器，但是它对我们架构的作用超出了我们的预期。下面就讲讲我们所做的工作。强制搜索引擎只索引mixlr.com Google把子域名当作完全独立的网站，我们不希望爬虫抓取子域名的页面，降低我们的Page rank。 location /{
java-归并排序 bylijinnan java
import java.util.Arrays; public class MergeSort { public static void main(String[] args) { int[] a={20,1,3,8,5,9,4,25}; mergeSort(a,0,a.length-1); System.out.println(Arrays.to
Netty源码学习-CompositeChannelBuffer bylijinnan java netty
CompositeChannelBuffer体现了Netty的“Transparent Zero Copy” 查看API（ http://docs.jboss.org/netty/3.2/api/org/jboss/netty/buffer/package-summary.html#package_description）可以看到，所谓“Transparent Zero Copy”是通
Android中给Activity添加返回键 hotsunshine Activity
// this need android:minSdkVersion="11" getActionBar().setDisplayHomeAsUpEnabled(true); @Override public boolean onOptionsItemSelected(MenuItem item) {
静态页面传参 ctrain 静态
$(document).ready(function () { var request = { QueryString : function (val) { var uri = window.location.search; var re = new RegExp("" + val + "=([^&?]*)", &
Windows中查找某个目录下的所有文件中包含某个字符串的命令 daizj windows 查找某个目录下的所有文件包含某个字符串
findstr可以完成这个工作。 [html] view plain copy >findstr /s /i "string" *.* 上面的命令表示，当前目录以及当前目录的所有子目录下的所有文件中查找"string&qu
改善程序代码质量的一些技巧 dcj3sjt126com 编程 PHP 重构
有很多理由都能说明为什么我们应该写出清晰、可读性好的程序。最重要的一点，程序你只写一次，但以后会无数次的阅读。当你第二天回头来看你的代码时，你就要开始阅读它了。当你把代码拿给其他人看时，他必须阅读你的代码。因此，在编写时多花一点时间，你会在阅读它时节省大量的时间。让我们看一些基本的编程技巧：尽量保持方法简短尽管很多人都遵
SharedPreferences对数据的存储 dcj3sjt126com
SharedPreferences简介： &nbs
linux复习笔记之bash shell (2) bash基础 eksliang bash bash shell
转载请出自出处： http://eksliang.iteye.com/blog/2104329 1.影响显示结果的语系变量（locale） 1.1locale这个命令就是查看当前系统支持多少种语系，命令使用如下： [root@localhost shell]# locale LANG=en_US.UTF-8 LC_CTYPE="en_US.UTF-8"
Android零碎知识总结 gqdy365 android
1、CopyOnWriteArrayList add(E) 和remove(int index)都是对新的数组进行修改和新增。所以在多线程操作时不会出现java.util.ConcurrentModificationException错误。所以最后得出结论：CopyOnWriteArrayList适合使用在读操作远远大于写操作的场景里，比如缓存。发生修改时候做copy，新老版本分离，保证读的高
HoverTree.Model.ArticleSelect类的作用 hvt Web .net C#hovertree asp.net
ArticleSelect类在命名空间HoverTree.Model中可以认为是文章查询条件类，用于存放查询文章时的条件，例如HvtId就是文章的id。HvtIsShow就是文章的显示属性，当为-1是，该条件不产生作用，当为0时，查询不公开显示的文章，当为1时查询公开显示的文章。HvtIsHome则为是否在首页显示。HoverTree系统源码完全开放，开发环境为Visual Studio 2013
PHP 判断是否使用代理 PHP Proxy Detector 天梯梦 proxy
1. php 类 I found this class looking for something else actually but I remembered I needed some while ago something similar and I never found one. I'm sure it will help a lot of developers who try to
apache的math库中的回归——regression（翻译） lvdccyb Math apache
这个Math库，虽然不向weka那样专业的ML库，但是用户友好，易用。多元线性回归，协方差和相关性（皮尔逊和斯皮尔曼），分布测试（假设检验，t，卡方，G），统计。数学库中还包含，Cholesky，LU，SVD，QR，特征根分解，真不错。基本覆盖了：线代，统计，矩阵，最优化理论曲线拟合常微分方程遗传算法（GA），还有3维的运算。。。
基础数据结构和算法十三：Undirected Graphs (2) sunwinner Algorithm
Design pattern for graph processing. Since we consider a large number of graph-processing algorithms, our initial design goal is to decouple our implementations from the graph representation
云计算平台最重要的五项技术 sumapp 云计算云平台智城云
云计算平台最重要的五项技术 1、云服务器云服务器提供简单高效，处理能力可弹性伸缩的计算服务，支持国内领先的云计算技术和大规模分布存储技术，使您的系统更稳定、数据更安全、传输更快速、部署更灵活。特性机型丰富通过高性能服务器虚拟化为云服务器，提供丰富配置类型虚拟机，极大简化数据存储、数据库搭建、web服务器搭建等工作；仅需要几分钟，根据CP
《京东技术解密》有奖试读获奖名单公布 ITeye管理员活动
ITeye携手博文视点举办的12月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 12月试读活动回顾： http://webmaster.iteye.com/blog/2164754 本次技术图书试读活动获奖名单及相应作品如下：一等奖（两名） Microhardest：http://microhardest.ite

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他