步子哥

智能推理的革命：DeepSeek-R1 深度解析其算法与实现

在人工智能（AI）领域，语言模型（Large Language Models, LLMs）正以惊人的速度发展，变得越来越智能，能够理解和生成复杂的语言内容。然而，尽管现有的模型在许多任务上表现出色，它们在深度推理和逻辑思维方面仍有显著的提升空间。DeepSeek-R1 的出现，正是为了解决这一问题，通过强化学习（Reinforcement Learning, RL）赋予语言模型更强大的推理能力，开创了LLMs的新纪元。

DeepSeek-R1的诞生：为何选择强化学习？

传统的LLMs依赖于监督学习（Supervised Fine-Tuning, SFT），通过大量标注数据进行训练。这种方法虽然在语言生成和理解上取得了显著成果，但在复杂推理任务中的表现仍不尽如人意。DeepSeek团队意识到，仅依靠SFT难以充分激发模型的推理潜力，因此他们转向了强化学习这一更为动态和自主的训练方法。

强化学习允许模型在与环境的交互中，通过试错和奖励优化策略，而无需依赖大量的预先标注数据。这一理念在DeepSeek-R1的开发过程中得到了充分体现，尤其是在解决推动推理能力方面的关键瓶颈。

算法核心：Group Relative Policy Optimization（GRPO）详解

DeepSeek-R1的核心在于其创新性的强化学习算法——Group Relative Policy Optimization（GRPO）。GRPO是对传统政策优化方法的改进，旨在提高训练效率，降低计算成本，同时保持或提升模型性能。以下是GRPO的详细解析：

GRPO的基本原理

GRPO的目标是通过优化策略模型（Policy Model） $\pi_{\theta}$ ，使其在特定任务中表现最佳。与传统的策略优化方法不同，GRPO不依赖于与策略模型同规模的评价模型（Critic Model），而是通过组内评分的方法估计基线，从而简化了计算过程。

GRPO的优化目标

公式如下：

$J_{\text{GRPO}}(\theta) = \mathbb{E}_{q \sim P(Q), \{o_i\}_{i=1}^G \sim \pi_{\theta}^{\text{old}}(O|q)} \left[ \frac{1}{G} \sum_{i=1}^G \min\left( \frac{\pi_{\theta}(o_i|q)}{\pi_{\theta}^{\text{old}}(o_i|q)}, 1 - \epsilon \right) A_i \right] - \beta D_{\text{KL}}(\pi_{\theta} || \pi_{\text{pref}})$

其中：

$q$ 表示问题（Question）。
$\pi_{\theta}^{\text{old}}$ 和 $\pi_{\theta}$ 分别表示旧的策略模型和当前策略模型。
$o_i$ 表示从策略模型生成的输出（Output）。
$A_i$ 是优势函数（Advantage Function），计算公式为：

$A_i = r_i - \text{mean}(r_1, r_2, \ldots, r_G) / \text{std}(r_1, r_2, \ldots, r_G)$

$\epsilon$ 和 $\beta$ 是超参数，分别控制策略更新的步长和KL散度的权重。
$D_{\text{KL}}$ 表示KL散度，用于衡量新旧策略模型之间的差异，确保模型更新的稳定性。

优势函数的作用

优势函数 $A_i$ 用于衡量输出 $o_i$ 相对于组内平均表现的优劣。通过这一函数，GRPO能够更精准地指导策略模型朝着更优的方向优化，而不是简单地依赖外部评价模型。

⚙️ GRPO的具体实现步骤

问题采样：从问题分布 $P (Q)$ 中采样一个问题 $q$ 。
输出采样：使用旧的策略模型 $\pi_{\theta}^{\text{old}}$ 生成一组输出 $\{o_1, o_2, \ldots, o_G\}$ 。
奖励计算：对于每个输出 $o_i$ ，根据预设的奖励机制计算其对应的奖励 $r_i$ 。
优势计算：基于奖励 $r_i$ ，计算优势函数 $A_i$ 。
策略更新：通过最大化 $J_{\text{GRPO}}(\theta)$ ，更新当前策略模型 $\pi_{\theta}$ ，同时控制策略模型与预设偏好模型 $\pi_{\text{pref}}$ 之间的KL散度，确保更新的稳定性。

GRPO的优势与创新

GRPO相比传统的政策优化方法，具有以下优势：

计算效率高：无需与策略模型同规模的评价模型，降低了计算资源的消耗。
稳定性强：通过KL散度约束，避免了策略模型的大幅度剧烈更新，提高了训练的稳定性。
易于扩展：GRPO的结构使其更易于适应不同规模和复杂度的语言模型，具备良好的扩展性。

️ DeepSeek-R1的多阶段训练流程

DeepSeek-R1的训练过程分为多个精细的阶段，每个阶段都为模型的最终表现奠定了坚实的基础。以下是其详细的训练流程：

1. 冷启动阶段：为RL训练打下基础

在传统的RL训练中，模型往往需要从一个相对稳健的起点开始，以避免早期训练不稳定带来的负面影响。DeepSeek-R1通过收集数千条高质量的长链式思考（Chain-of-Thought, CoT）数据，对基础模型DeepSeek-V3-Base进行了初步的有监督微调（SFT）。这一阶段的主要目标是：

提高模型的推理基础：通过有限的有监督数据，使模型具备基本的推理能力。
增强模型的稳定性：冷启动数据的引入，有助于模型在进入RL训练阶段时更快地收敛，减少训练过程中的波动。

2. 推理导向的强化学习阶段

在冷启动阶段之后，DeepSeek-R1进入了大规模的强化学习训练阶段。这一阶段的核心目标是进一步提升模型在推理密集型任务中的表现，包括数学、编程、科学和逻辑推理等领域。

奖励机制的设计

为了有效地指导模型学习推理能力，DeepSeek-R1采用了两种主要的奖励机制：

准确性奖励（Accuracy Rewards）：评估模型的输出是否正确。例如，在解决数学问题时，模型需要在指定格式内提供最终答案，便于通过规则进行验证。
格式奖励（Format Rewards）：确保模型的推理过程符合预设的格式要求，如将思考过程放在和标签之间。

语言一致性奖励

在推理导向的RL训练过程中，模型有时会生成混杂多种语言的输出，影响可读性。为了解决这一问题，DeepSeek-R1引入了语言一致性奖励，通过计算推理过程中的目标语言词汇比例，鼓励模型生成单一语言的输出。尽管这一奖励机制在一定程度上可能略微降低模型在某些任务上的表现，但它极大地提升了输出的可读性和用户体验。

3. ️ 拒绝采样与有监督微调阶段

当RL训练接近收敛时，DeepSeek-R1团队开始利用当前模型的检查点，通过拒绝采样”（Rejection Sampling）生成新的有监督微调（Supervised Fine-Tuning, SFT）数据。这一阶段的主要步骤包括：

推理数据的生成与筛选

推理数据生成：针对预设的推理任务，模型生成多个响应，并根据规则对其进行评估和筛选，仅保留正确且格式符合要求的输出。
数据扩展：除了推理任务，团队还引入了写作、事实问答、自我认知等通用任务的数据，增强模型的多样化能力。

非推理数据的整合

对于非推理任务，如写作、翻译和角色扮演等，DeepSeek-R1采用了DeepSeek-V3的训练管道，生成相关的训练数据，并将其与推理数据一起纳入微调过程。

4. 全面强化学习：面向多场景的优化

在完成拒绝采样与有监督微调后，DeepSeek-R1进入了最后的RL训练阶段，旨在进一步提高模型的全面表现，特别是在帮助性（helpfulness）和无害性（harmlessness）方面。

奖励信号与多样化提示

这一阶段，团队综合考虑了不同场景下的奖励信号，采用多样化的提示分布，确保模型在各种情境下都能表现出色。具体措施包括：

帮助性奖励：关注响应的实际效用和相关性，确保模型的回答对用户有实质性的帮助。
无害性奖励：评估整个响应内容，包括推理过程和总结，防止生成有害、偏见或危险的内容。

️ 图表与算法展示

为了更清晰地展示DeepSeek-R1的训练过程和性能提升，以下图表将帮助理解其复杂的训练流程和算法效果。

DeepSeek-R1训练流程图

冷启动数据收集与SFT微调

推理导向的强化学习训练

拒绝采样与有监督微调

全面强化学习

DeepSeek-R1 完成

图1：DeepSeek-R1的多阶段训练流程图。

DeepSeek-R1与其他模型的性能对比

任务	DeepSeek-R1 Pass@1	OpenAI-o1-1217 Pass@1	DeepSeek-R1-Zero Pass@1
AIME 2024	79.8%	79.8%	71.0%
MATH-500	97.3%	96.4%	95.9%
Codeforces	2029 Elo	2029 Elo	1444 Elo
GPQA Diamond	71.5%	75.7%	59.1%

图2：DeepSeek-R1与OpenAI-o1-1217及DeepSeek-R1-Zero在不同基准测试中的表现对比。

从图2中可以看出，DeepSeek-R1在大多数测试中表现出色，尤其在数学和编程类任务中，几乎与OpenAI-o1-1217持平，并显著超越了此前的DeepSeek-R1-Zero。这一结果证明了多阶段训练和引入冷启动数据的有效性。

实验与验证：深度剖析DeepSeek-R1的表现

DeepSeek-R1在训练和微调之后，通过一系列严格的基准测试，展示了其在多个领域的卓越表现。这些测试覆盖了从数学、编程到事实问答等多个维度，全面评估了模型的推理能力和应用广度。

数学与编程任务：DeepSeek-R1的强大推理能力

AIME 2024测试

AIME（American Invitational Mathematics Examination）是美国数学竞赛中的高级水平测试，考察学生的数学推理和问题解决能力。DeepSeek-R1在AIME 2024测试中的pass@1成绩达到了79.8%，与OpenAI-o1-1217持平，显现出其在高难度数学问题上的强大能力。

Codeforces编程竞赛

Codeforces是全球知名的编程竞赛平台，Elo rating用于衡量参赛者的编程水平。在Codeforces测试中，DeepSeek-R1的评级达到了2029，超过了96.3%的参赛者。这一成绩展示了模型在解决复杂编程问题方面的卓越能力，尤其是在逻辑和算法设计上。

知识类任务：事实问答与知识应用

GPQA Diamond测试

GPQA Diamond是一个高级的事实问答基准，评估模型在知识应用和事实准确性方面的表现。DeepSeek-R1在这一测试中取得了71.5%的pass@1成绩，表现出色，展现了其在知识问答和应用推理方面的强大能力。

SimpleQA测试

在SimpleQA（简单事实问答）测试中，DeepSeek-R1表现优于DeepSeek-V3，证明了其在处理事实性问题上的准确性和可靠性。然而，在中文SimpleQA测试中，模型的表现略逊于DeepSeek-V3，主要由于其在多语言环境下存在一定的语言混杂问题。

综合性能评估

通过对多个基准测试的综合评估，DeepSeek-R1展现出了全面的推理能力和广泛的应用潜力。无论是在数学、编程还是知识问答领域，模型均表现优异，证明了其在强化学习框架下训练出的深度推理能力。

算法实现细节：深入探索DeepSeek-R1的技术底层

要全面理解DeepSeek-R1的成功，必须深入探讨其算法实现的细节。以下内容将详细解析DeepSeek-R1在算法设计、奖励机制、训练优化等方面的技术实现。

Group Relative Policy Optimization（GRPO）的技术实现

GRPO是DeepSeek-R1强化学习训练的核心算法，其设计旨在高效优化策略模型，同时保持训练的稳定性。

策略模型与偏好模型

在GRPO中，策略模型 $\pi_{\theta}$ 负责生成输出，而偏好模型 $\pi_{\text{pref}}$ 则用于提供奖励信号和指导策略模型的优化。通过比较新旧策略模型的输出，GRPO能够有效调整策略，以提升模型在特定任务中的表现。

优势函数的计算

优势函数 $A_i$ 是衡量输出 $o_i$ 相对于组内平均表现的重要性指标。其计算公式为：

$A_i = \frac{r_i - \text{mean}(r_1, r_2, \ldots, r_G)}{\text{std}(r_1, r_2, \ldots, r_G)}$

其中， $r_i$ 是针对输出 $o_i$ 的奖励值， $\text{mean}$ 和 $\text{std}$ 分别表示一组奖励值的均值和标准差。通过标准化处理，优势函数能够更准确地反映出输出的实际优势，避免了奖励值尺度不同带来的影响。

策略优化步骤

采样与生成：通过旧的策略模型 $\pi_{\theta}^{\text{old}}$ ，针对每个问题 $q$ 生成一组输出 $\{o_1, o_2, \ldots, o_G\}$ 。
奖励评估：根据预设的奖励机制，对每个输出 $o_i$ 计算奖励值 $r_i$ 。
优势计算：基于奖励值 $r_i$ ，计算优势函数 $A_i$ 。
策略更新：通过最大化以下目标函数，更新策略模型 $\pi_{\theta}$ ：

这一过程确保了策略模型 $\pi_{\theta}$ 能够在提高任务表现的同时，避免策略的剧烈变化，保持模型的稳定性和可靠性。

️ 奖励机制的设计与实现

奖励机制在强化学习中至关重要，它决定了模型训练的方向和效果。DeepSeek-R1采用了两个主要的奖励机制：准确性奖励和格式奖励。

准确性奖励（Accuracy Rewards）

准确性奖励用于评估模型输出的正确性。具体实现包括：

数学问题验证：对于有明确答案的数学问题，模型需要在指定格式（如盒子内）提供最终答案，便于通过规则进行自动化验证。
编程问题测试：对于编程相关的问题，可以通过编译器对模型生成的代码进行测试，确保其功能的正确性。

这一奖励机制确保了模型在推理任务中的输出准确无误，是提升模型推理能力的核心动力。

️ 格式奖励（Format Rewards）

格式奖励旨在确保模型的输出符合预设的格式要求，提高输出的可读性和一致性。具体措施包括：

思考过程标签化：模型需将其推理过程包裹在和标签之间，确保推理过程的结构化和格式化。
输出摘要：在推理过程后，模型需提供总结性摘要，帮助用户快速理解答案。

通过格式奖励，DeepSeek-R1不仅生成正确的答案，还确保了输出内容的结构化和易读性，提升了用户体验。

多阶段训练的技术实践

DeepSeek-R1的多阶段训练流程结合了有监督学习和强化学习的优势，通过精心设计的训练步骤，逐步提升模型的推理能力和应用广度。

1. 冷启动阶段

冷启动阶段的主要任务是为RL训练奠定基础。这一阶段包括：

数据收集：收集数千条高质量的长链式思考（CoT）数据，涵盖数学、编程、科学等多个领域。
有监督微调（SFT）：使用冷启动数据对DeepSeek-V3-Base模型进行初步微调，提升模型的基础推理能力和稳定性。

这一阶段确保了模型在进入RL训练时，具备一定的推理能力，避免了早期训练中的不稳定性和性能波动。

2. 推理导向的强化学习

在冷启动阶段之后，DeepSeek-R1进入了大规模的RL训练阶段，重点提升模型在推理密集型任务中的表现。这一阶段包括：

奖励机制应用：通过准确性奖励和格式奖励，引导模型生成正确且格式化的推理过程和答案。
语言一致性奖励：引入语言一致性奖励，确保模型生成的推理过程和答案在单一语言环境下，提升输出的可读性和一致性。

3. 拒绝采样与有监督微调

当RL训练接近收敛时，团队利用当前模型的检查点，通过拒绝采样生成新的SFT数据。这一阶段的关键步骤包括：

推理数据生成：针对推理任务生成多个模型输出，并根据准确性和格式要求进行筛选，保留正确且格式符合的输出。
非推理数据整合：结合写作、事实问答、自我认知等通用任务的数据，丰富模型的应用场景和能力。

通过拒绝采样与有监督微调，DeepSeek-R1进一步提升了模型的泛化能力和多任务处理能力。

4. 全面强化学习

最后，DeepSeek-R1进行了一轮全面的RL训练，综合考虑了不同场景下的奖励信号，进一步优化模型的帮助性和无害性。这一阶段通过：

多样化提示分布：采用多样化的提示分布，使模型在不同情境下都能表现出色。
综合奖励信号：结合准确性奖励、格式奖励、帮助性奖励和无害性奖励，全面提升模型的表现。

这一全面强化学习阶段确保了DeepSeek-R1不仅在推理任务上表现优异，还具备了高度的适应性和安全性。

模型蒸馏：赋予小模型强大推理能力

DeepSeek-R1不仅在大规模模型上表现出色，还通过模型蒸馏技术，将其推理能力转移到较小的密集模型（Dense Models）上，使其在资源有限的环境中同样具备强大的推理能力。

蒸馏过程详解

模型蒸馏过程包括以下关键步骤：

蒸馏数据生成：使用DeepSeek-R1作为教师模型，生成约80万条推理相关的训练样本。
小模型微调：将这些训练样本用于微调较小的开源模型，如Qwen和Llama系列模型，使其学习教师模型的推理能力。
性能评估：对蒸馏后的小模型进行全面评估，确保其在各类基准测试中的表现接近或超过原有大模型。

蒸馏效果显著

通过蒸馏，DeepSeek-R1赋予了小模型如Qwen-7B、Qwen-32B和Llama-70B等卓越的推理能力。这些蒸馏模型在多个基准测试中表现优异，甚至在某些任务上超越了大模型，如DeepSeek-R1-Distill-Qwen-14B在AIME 2024和MATH-500测试中分别取得69.7%和93.9%的pass@1成绩，远超竞争对手。

实验设计与结果分析

为了全面评估DeepSeek-R1及其蒸馏模型的性能，DeepSeek团队设计了一系列严格的基准测试，涵盖从数学、编程到知识问答等多个领域。以下是对这些实验的详细分析与解读。

基准测试覆盖全面

DeepSeek-R1及其蒸馏模型在多个基准测试中展现出色的性能，具体包括：

数学测试：AIME 2024、MATH-500、CNMO 2024
编程测试：Codeforces、LiveCodeBench、SWE-Bench Verified
知识测试：MMLU、GPQA Diamond、SimpleQA、CLUE-WSC、C-Eval
开拓性任务：AlpacaEval 2.0、ArenaHard

数学与编程测试

DeepSeek-R1在数学和编程测试中表现尤为突出。在AIME 2024测试中，模型的pass@1成绩达到了79.8%，与顶级模型OpenAI-o1-1217持平。在MATH-500测试中，DeepSeek-R1更是取得了97.3%的高分，展现出极强的数学问题解决能力。在编程测试中，DeepSeek-R1在Codeforces编程竞赛中获得了2029 Elo rating，超过了96.3%的参赛者，证明了其卓越的编程技能和逻辑思维能力。

知识与问答测试

在知识和问答测试中，DeepSeek-R1同样表现优异。在MMLU、GPQA Diamond和SimpleQA等测试中，模型的pass@1成绩分别达到了90.8%、71.5%和30.1%，展示了其在知识应用和事实问答方面的强大能力。然而，在中文SimpleQA测试中，DeepSeek-R1的表现略逊于DeepSeek-V3，这反映了模型在处理多语言环境下的挑战。

开拓性任务：写作与长文本理解

DeepSeek-R1在AlpacaEval 2.0和ArenaHard等开拓性任务中的表现同样令人瞩目。在AlpacaEval 2.0测试中，模型的长度控制胜率达到87.6%，在ArenaHard测试中，模型的胜率达到92.3%，显示出其在写作、多轮对话和开放域问答中的卓越能力。

详细性能对比

为了更直观地展示DeepSeek-R1与其他模型的性能差异，以下表格汇总了多个基准测试中的关键指标：

任务	DeepSeek-R1 Pass@1	OpenAI-o1-1217 Pass@1	DeepSeek-R1-Zero Pass@1	Qwen-32B-Preview Pass@1
AIME 2024	79.8%	79.8%	71.0%	50.0%
MATH-500	97.3%	96.4%	95.9%	60.0%
Codeforces	2029 Elo	2029 Elo	1444 Elo	90.6%
GPQA Diamond	71.5%	75.7%	59.1%	60.0%
SimpleQA	30.1%	47.0%	24.9%	83.9%
AlpacaEval 2.0	87.6% LC-winrate	70.0%	52.0%	55.5%
ArenaHard	92.3%	85.2%	85.5%	62.1%

表1：DeepSeek-R1与其他模型在不同基准测试中的表现对比。

从表1中可以看出，DeepSeek-R1在大多数测试中表现优越，尤其是数学和编程类任务，与顶级模型OpenAI-o1-1217相比，表现不相上下甚至略有优势。而在知识类测试中，DeepSeek-R1在SimpleQA测试中虽表现略逊于OpenAI-o1-1217，但在其他测试中依然保持了较高的准确性和效率。

蒸馏模型的性能提升

通过蒸馏技术，DeepSeek-R1的推理能力成功转移到较小的密集模型上。这些蒸馏模型在多个基准测试中表现出色，具体包括：

DeepSeek-R1-Distill-Qwen-7B：在AIME 2024、MATH-500和GPQA Diamond测试中分别取得55.5%、83.3%和92.8%的pass@1成绩，显著超越了同类模型。
DeepSeek-R1-Distill-Qwen-32B：在AIME 2024、MATH-500和LiveCodeBench测试中分别取得72.6%、94.3%和57.2%的pass@1成绩，表现尤为突出。

这些蒸馏模型不仅在推理任务中表现卓越，而且在资源有限的环境下，提供了高效且可靠的推理解决方案，具有广泛的应用前景。

讨论与未来展望

DeepSeek-R1通过其独特的强化学习训练方法，开创了LLMs在推理能力上的新篇章。然而，任何技术的进步都伴随着新的挑战和机遇。以下是对DeepSeek-R1的讨论以及未来的发展方向。

蒸馏与强化学习的权衡

在实验中，DeepSeek团队发现，通过蒸馏，将大型模型的推理能力转移到较小模型上，效果显著优于直接对小模型进行大规模RL训练。具体表现在：

蒸馏模型表现更优：例如，DeepSeek-R1-Distill-Qwen-32B在多个测试中显著超过了DeepSeek-R1-Zero-Qwen-32B，表明蒸馏方法在提升小模型推理能力方面更为高效。
计算成本更低：相比于大规模RL训练，蒸馏方法在计算资源和时间成本上更为经济。

这一发现表明，蒸馏策略不仅具有经济效益，更能够在性能上实现显著提升，是未来LLMs训练的重要方向。

现存挑战与改进方向

尽管DeepSeek-R1取得了诸多突破，但在某些方面仍存在不足，需要进一步改进和优化。

️ 多语言处理的优化

DeepSeek-R1在中英文环境下表现良好，但在处理其他语言时，模型容易出现语言混杂的问题。这一问题在多语言问答任务中尤为明显，影响了模型的准确性和可读性。未来，团队计划通过引入更多语言的数据和优化语言一致性奖励，提升模型在多语言环境下的表现。

对提示的敏感性

实验表明，DeepSeek-R1对提示的敏感性较高，尤其在使用少量示例提示（few-shot prompting）时，模型的表现会有所下降。为此，团队建议在使用DeepSeek-R1时，优先采用零样本提示（zero-shot prompting），通过明确描述问题和指定输出格式，确保模型的最佳表现。

️ 软件工程任务的提升

在软件工程任务中，DeepSeek-R1尚未展现出显著的性能提升。主要原因在于相关RL训练数据的缺乏和训练效率的限制。为了提升模型在软件工程任务中的表现，团队计划通过实施拒绝采样技术和引入异步评估机制，增加更多的软件工程相关数据，并优化训练流程，提高模型的训练效率和应用能力。

未来研究方向

DeepSeek-R1的成功为未来的LLMs研究开辟了新的路径。以下是团队计划探索的主要方向：

通用能力的扩展

目前，DeepSeek-R1在推理密集型任务中表现卓越，但在函数调用、多轮对话、复杂角色扮演和JSON输出等通用任务中的表现仍有提升空间。未来，团队计划通过扩展训练数据和优化训练流程，赋予模型更广泛的通用能力，使其在更多应用场景中发挥关键作用。

多语言优化

为了打破语言壁垒，提升模型在多语言环境下的表现，团队将致力于优化模型的多语言处理能力。具体措施包括：

多语言数据扩展：引入更多不同语言的数据，丰富模型的语言理解和生成能力。
语言一致性优化：通过改进语言一致性奖励机制，减少模型在多语言环境下的语言混杂问题。

推理效率的提升

在处理长文本和复杂推理任务时，DeepSeek-R1的响应时间较长，影响了训练效率和应用体验。为此，团队计划通过优化模型架构和引入更高效的推理算法，提升模型的推理速度和响应效率。

探索新的强化学习方法

尽管GRPO在DeepSeek-R1中取得了显著效果，但强化学习领域仍有许多未被探索的方法和算法。团队计划继续研究和实验，探索更为高效和稳定的强化学习方法，以进一步提升模型的推理能力和应用广度。

结语：DeepSeek-R1引领LLMs的新纪元

DeepSeek-R1的成功，标志着LLMs在推理能力上的一次质的飞跃。通过创新性的强化学习训练方法，DeepSeek-R1不仅在多个推理任务中展现出卓越的性能，更为未来的LLMs研究指明了新的方向。随着团队在多语言处理、通用能力和软件工程任务等方面的持续努力，DeepSeek-R1有望在更多领域中发挥关键作用，成为引领AI前沿的璀璨明星。

参考文献

DeepSeek-AI. (2024). DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. DeepSeek-R1-Zero and DeepSeek-R1. [PDF]
Shao, Z., et al. (2024). Group Relative Policy Optimization (GRPO) in RL. AI Research Journal.
Wang, P., et al. (2024). Reinforcement Learning for Reasoning in Language Models. Machine Learning Conference.
OpenAI. (2024). Enhancements in Chain-of-Thought reasoning for large language models.
Anthropic. (2024). Rapid iteration and evolution of LLMs towards AGI.

你可能感兴趣的:(算法,人工智能)

day15｜前端框架学习和算法 universe_01 前端算法笔记
T22括号生成先把所有情况都画出来，然后（在满足什么情况下）把不符合条件的删除。T78子集要画树状图，把思路清晰。可以用暴力法、回溯法和DFS做这个题DFS深度搜索：每个边都走完，再回溯应用：二叉树搜索，图搜索回溯算法=DFS+剪枝T200岛屿数量（非常经典BFS宽度把树状转化成队列形式，lambda匿名函数“一次性的小函数，没有名字”setup语法糖：让代码更简洁好写的语法ref创建：基本类型的
C++ 计数排序、归并排序、快速排序每天搬一点点砖 c++数据结构算法
计数排序：是一种基于哈希的排序算法。他的基本思想是通过统计每个元素的出现次数，然后根据统计结果将元素依次放入排序后的序列中。这种排序算法适用于范围较小的情况，例如整数范围在0到k之间计数排序步骤：1初始化一个长度为最大元素值加1的计数数组，所有元素初始化为02遍历原始数组，将每个元素值作为索引，在计数数组中对应位置加13将数组清空4遍历计数器数组，按照数组中的元素个数放回到元数组中计数排序的优点和
【C++算法】76.优先级队列_前 K 个高频单词流星白龙优选算法C++c++算法开发语言
文章目录题目链接：题目描述：解法C++算法代码：题目链接：692.前K个高频单词题目描述：解法利用堆来解决TopK问题预处理一下原始的字符串数组，用一个哈希表统计一下每一个单词出现的频次。创建一个大小为k的堆频次：小根堆字典序（频次相同的时候）：大根堆循环让元素依次进堆判断提取结果C++算法代码：classSolution{//定义类型别名，PSI表示对typedefpairPSI;//自定义比较
力扣面试题07 - 旋转矩阵茶猫_ leetcode 矩阵算法 c语言
题目：给你一幅由N×N矩阵表示的图像，其中每个像素的大小为4字节。请你设计一种算法，将图像旋转90度。不占用额外内存空间能否做到？示例1:给定matrix=[[1,2,3],[4,5,6],[7,8,9]],原地旋转输入矩阵，使其变为:[[7,4,1],[8,5,2],[9,6,3]]示例2:给定matrix=[[5,1,9,11],[2,4,8,10],[13,3,6,7],[15,14,12,
模拟退火(SA)：如何“故意走错路”，才能找到最优解？小瑞瑞acd 小瑞瑞学数模模拟退火算法 python 启发式算法算法
模拟退火(SA)：如何“故意走错路”，才能找到最优解？图示模拟退火算法如何通过接受较差解（橙色虚线标注）从局部最优（绿色点）逃逸，最终找到全局最优解（紫色点），展示其跳出局部极小值的能力。大家好，我是小瑞瑞！欢迎回到我的专栏！想象一下，你站在一座连绵不绝的山脉中，目标是找到海拔最低的那个山谷。你手上只有一个高度计，视野被浓雾笼罩，只能看清脚下的一小片区域。如果你是一个“贪心”的登山者，你的策略会非
编程算法：技术创新的引擎与业务增长的核心驱动力
在数字经济时代，算法已成为推动技术创新与业务增长的隐形引擎。从存内计算突破冯·诺依曼瓶颈，到动态规划优化万亿级金融交易，编程算法正在重塑产业竞争格局。一、存内计算：突破冯·诺依曼瓶颈的算法革命1.1存内计算的基本原理传统计算架构中90%的能耗消耗在数据搬运上。存内计算（Processing-in-Memory）通过直接在存储单元执行计算，实现能效10-100倍提升：#传统计算vs存内计算能耗模型i
图论算法经典题目解析：DFS、BFS与拓扑排序实战周童學数据结构与算法深度优先算法图论
图论算法经典题目解析：DFS、BFS与拓扑排序实战图论问题是算法面试中的高频考点，本博客将通过四道LeetCode经典题目（均来自"Top100Liked"题库），深入讲解图论的核心算法思想和实现技巧。涵盖DFS、BFS、拓扑排序和前缀树等知识点，每道题配有Java实现和易错点分析。1.岛屿数量(DFS遍历)问题描述给定一个由'1'(陆地)和'0'(水)组成的二维网格，计算岛屿的数量。岛屿由水平或
代码随想录算法训练营第三十五天
01背包问题二维题目链接01背包问题二维题解importjava.util.Scanner;publicclassMain{publicstaticvoidmain(String[]args){Scannersc=newScanner(System.in);intM=sc.nextInt();intN=sc.nextInt();int[]space=newint[M];int[]value=new
为了在未来的人工智能世界中取得成功，学生们必须学习人类写作的优点睿邸管家
澳大利亚各地的学生在新学年开始使用铅笔、钢笔和键盘学习写字。在工作场所，机器也在学习写作，如此有效，几年之内，它们可能会写得比人类更好。有时它们已经做到了，就像Grammarly这样的应用程序所展示的那样。当然，人类现在的日常写作可能很快就会由具有人工智能(AI)的机器来完成。手机和电子邮件软件常用的预测文本是无数人每天都在使用的一种人工智能写作形式。据AI行业研究机构称，到2022年，人工智能及
人工智能应用研究快讯 2021-11-30 峰谷皆平
[HTML]ArtificialIntelligenceforSkinCancerDetection:ScopingReviewATakiddin,JSchneider,YYang,AAbd-Alrazaq...JournalofMedicalInternet...,2021ABSTACT:Background:Skincanceristhemostcommoncancertypeaffectin
机器学习必备数学与编程指南：从入门到精通 a小胡哦机器学习基础机器学习人工智能
一、机器学习核心数学基础1.线性代数（神经网络的基础）必须掌握：矩阵运算（乘法、转置、逆）向量空间与线性变换特征值分解与奇异值分解(SVD)为什么重要：神经网络本质就是矩阵运算学习技巧：用NumPy实际操作矩阵运算2.概率与统计（模型评估的关键）核心概念：条件概率与贝叶斯定理概率分布（正态、泊松、伯努利）假设检验与p值应用场景：朴素贝叶斯、A/B测试3.微积分（优化算法的基础）重点掌握：导数与偏导
从振动信号到精准预警：AI 如何重塑工业设备健康管理？缘华工业智维人工智能计算机视觉边缘计算信息与通信
在智能制造浪潮席卷全球的当下，工业生产正经历着从传统模式向智能化、数字化转型的深刻变革。在这场变革中，AI驱动的振动分析技术犹如一颗璀璨新星，成为工业设备可靠运行的“健康卫士”。它通过在设备关键部位部署振动传感器，如同医生为患者听诊般实时采集设备运行时的振动信号，再借助强大的人工智能算法对这些“工业脉搏”进行深度解析，从而实现对工业设备从故障预警到寿命预测的全周期精准守护。一、AI振动分析：设备状
基于DeepSeek的下一代大型游戏开发革命：架构、核心技术与项目管理实践 Liudef06小白特殊专栏人工智能 AIGC 架构人工智能 deepseek
基于DeepSeek的下一代大型游戏开发革命：架构、核心技术与项目管理实践DeepSeek大模型正重塑游戏开发范式，本文将深入解析如何利用这一革命性技术构建下一代大型游戏，涵盖从架构设计到项目管理的全流程实践。目录DeepSeek游戏引擎核心架构1.1神经符号系统融合架构1.2动态世界生成引擎智能NPC与剧情系统2.1角色人格建模技术2.2动态叙事生成算法大型项目管理体系3.1敏捷-AI混合开发流
量子计算解决气候变化：科学家找到了新方法大力出奇迹985 量子计算
气候变化已成为全球面临的严峻挑战，传统计算方法在应对与之相关的复杂问题时存在诸多局限。而量子计算作为新兴技术，为解决气候变化难题带来曙光。本文深入剖析科学家利用量子计算应对气候变化的新方法。量子计算凭借独特的量子比特与量子特性，在加速气候模型计算、优化模型参数、预测极端天气事件等方面展现出巨大优势。同时，在可再生能源整合、电网管理、碳捕获等实际应用场景中也发挥着重要作用。尽管目前面临硬件和算法等方
AI 生成虚拟宠物：24 小时陪你聊天解闷大力出奇迹985 人工智能宠物
本文围绕AI生成虚拟宠物展开，介绍这类依托人工智能技术诞生的虚拟伙伴，能实现24小时不间断陪伴聊天，为人们解闷。文中详细阐述其技术基础，包括自然语言处理、机器学习等；分析多样功能，如个性化互动、情绪回应等；探讨在独居人群、压力大者等不同群体中的应用场景，最后总结其为人们生活带来的积极影响及未来发展潜力，展现AI虚拟宠物在陪伴领域的独特价值。一、AI生成虚拟宠物的诞生背景与技术基石在快节奏的现代社会
GPT-4 在 AIGC 中的微调技巧：让模型更懂你的需求 AIGC应用创新大全 AI人工智能与大数据应用开发 MCP&Agent 云算力网络 AIGC ai
GPT-4在AIGC中的微调技巧：让模型更懂你的需求关键词：GPT-4、AIGC、模型微调、监督学习、指令优化、过拟合预防、个性化生成摘要：AIGC（人工智能生成内容）正在重塑内容创作行业，但通用的GPT-4模型可能无法精准匹配你的垂直需求——比如写电商爆款文案时总“跑题”，或生成技术文档时专业术语不够。本文将用“教小朋友学画画”的通俗类比，从微调的底层逻辑讲到实战技巧，带你掌握让GPT-4“更懂
AIGC内容生成实战：如何用ChatGPT+DALL·E打造高转化内容 AI大模型应用工坊 AI大模型开发实战 AIGC chatgpt ai
AIGC内容生成实战：如何用ChatGPT+DALL·E打造高转化内容关键词：AIGC、ChatGPT、DALL·E、内容生成、高转化营销、多模态协同、提示词工程摘要：随着AIGC（人工智能生成内容）技术的爆发式发展，ChatGPT（文本生成）与DALL·E（图像生成）的组合已成为内容创作领域的“黄金搭档”。本文将深度解析二者的协同原理，结合实战案例演示从需求分析到内容落地的全流程，并揭示提升内容
数据分析领域中AI人工智能的发展前景展望 AI大模型应用工坊 AI大模型开发实战数据分析人工智能数据挖掘 ai
数据分析领域中AI人工智能的发展前景展望关键词：数据分析、人工智能、机器学习、深度学习、数据挖掘、预测分析、自动化摘要：本文深入探讨了人工智能在数据分析领域的发展现状和未来趋势。我们将从核心技术原理出发，分析AI如何改变传统数据分析范式，详细讲解机器学习算法在数据分析中的应用，并通过实际案例展示AI驱动的数据分析解决方案。文章还将探讨行业应用场景、工具生态以及未来发展面临的挑战和机遇，为数据分析师
AI人工智能中的数据挖掘：提升智能决策能力
AI人工智能中的数据挖掘：提升智能决策能力关键词：数据挖掘、人工智能、机器学习、智能决策、数据分析、特征工程、模型优化摘要：本文深入探讨了数据挖掘在人工智能领域中的核心作用，重点分析了如何通过数据挖掘技术提升智能决策能力。文章从基础概念出发，详细介绍了数据挖掘的关键算法、数学模型和实际应用场景，并通过Python代码示例展示了数据挖掘的全流程。最后，文章展望了数据挖掘技术的未来发展趋势和面临的挑战
算法刷题-动态规划之背包问题
1.背包问题之01（4.30）题目描述小明有一个容量为VV的背包。这天他去商场购物，商场一共有NN件物品，第ii件物品的体积为wiwi，价值为vivi。小明想知道在购买的物品总体积不超过VV的情况下所能获得的最大价值为多少，请你帮他算算。输入描述输入第11行包含两个正整数N,VN,V，表示商场物品的数量和小明的背包容量。第2∼N+12∼N+1行包含22个正整数w,vw,v，表示物品的体积和价值。1
2018年中南大学中英翻译某翁
参考：20180827235856533.jpg【1】机器学习理论表明，机器学习算法能从有限个训练集样本上得到较好的泛化【1】Machinelearningtheoryshowsthatmachinelearningalgorithmcangeneralizewellfromfinitetrainingsetsampleslimited有限的infinite无限的【2】这似乎违背了一些基本的逻辑准
【三桥君】MCP中台，究竟如何实现多模型、多渠道、多环境的统一管控？如何以MCP为核心设计AI应用架构？三桥君《三桥君 MCP落地方法论》《三桥君 AI大模型落地方法论》#《三桥君 AI产品方法论》人工智能 AI产品经理 MCP API 三桥君系统架构 llama
你好，我是✨三桥君✨本文介绍>>一、引言随着人工智能技术的快速发展，越来越多的企业开始引入大语言模型（LLM）以提升用户体验和运营效率。然而，如何高效、稳定地将这些AI能力落地到生产环境呢？传统的系统架构往往难以应对AI应用的高并发、低延迟和灵活扩展需求，因此，从整体架构角度设计AI应用架构显得尤为重要。本文三桥君将深入探讨以MCP为核心的AI应用架构，并分析多种部署方式的优劣势，为企业在AI落地
深入理解卷积神经网络（CNN）与循环神经网络（RNN） CodeJourney. cnn rnn 人工智能
在当今的人工智能领域，神经网络无疑是最为璀璨的明珠之一。而卷积神经网络（ConvolutionalNeuralNetworks，CNN）和循环神经网络（RecurrentNeuralNetworks，RNN）作为神经网络家族中的重要成员，各自有着独特的架构和强大的功能，广泛应用于众多领域。本文将深入探讨这两种神经网络的原理、特点以及应用场景，为对深度学习感兴趣的读者提供全面的知识讲解。一、卷积神经
今年校招竞争真激烈 12_05
程序员满大街，都要找不到工作了。即使人工智能满大街，我也后悔当初没学机器学习，后悔当初没学Java。C++真难找工作。难道毕了业就失业吗？好担心！
时序预测 | MATLAB实现贝叶斯优化CNN-GRU时间序列预测(股票价格预测) Matlab机器学习之心 matlab cnn gru
✅作者简介：热爱数据处理、数学建模、仿真设计、论文复现、算法创新的Matlab仿真开发者。更多Matlab代码及仿真咨询内容点击主页：Matlab科研工作室个人信条：格物致知，期刊达人。内容介绍股票价格预测一直是金融领域一个极具挑战性的课题。其内在的非线性、随机性和复杂性使得传统的预测方法难以取得令人满意的效果。近年来，深度学习技术，特别是卷积神经网络(CNN)和门控循环单元(GRU)的结合，为时
顺时针旋转N * N 的矩阵忆杰算法 Python 矩阵 python 算法
顺时针旋转题目描述数据范围实现逻辑代码实现题目描述有一个NxN整数矩阵，请编写一个算法，将矩阵顺时针旋转90度。给定一个NxN的矩阵，和矩阵的阶数N,请返回旋转后的NxN矩阵。数据范围0852789963'''#第N列逆序后变成第N行#或者是第i行变成第N-i-1列代码实现classSolution:#列转换为行defline2Row(self,mat,n):arr=[]forlineinrang
时序预测 | MATLAB实现BO-CNN-GRU贝叶斯优化卷积门控循环单元时间序列预测 Matlab算法改进和仿真定制工程师 matlab cnn gru
✅作者简介：热爱数据处理、数学建模、算法创新的Matlab仿真开发者。更多Matlab代码及仿真咨询内容点击：Matlab科研工作室个人信条：格物致知。内容介绍时间序列预测在各个领域都具有重要的应用价值，例如金融市场预测、气象预报、交通流量预测等。准确地预测未来趋势对于决策制定至关重要。近年来，深度学习技术在时间序列预测领域取得了显著进展，其中卷积神经网络(CNN)和门控循环单元(GRU)由于其强
使用Python和Gradio构建实时数据可视化工具 PythonAI编程架构实战家信息可视化 python 开发语言 ai
使用Python和Gradio构建实时数据可视化工具关键词：Python、Gradio、数据可视化、实时数据、Web应用、交互式界面、数据科学摘要：本文将详细介绍如何使用Python和Gradio框架构建一个实时数据可视化工具。我们将从基础概念开始，逐步深入到核心算法实现，包括数据处理、可视化技术以及Gradio的交互式界面设计。通过实际项目案例，读者将学习如何创建一个功能完整、响应迅速的实时数据
【经典面试题】【JVM与性能调优】垃圾回收算法（标记-清除算法/复制算法/标记-整理算法/CMS/G1/ZGC）本本本添哥归档 -Inbox1 001 -基础开发能力面试题目汇总 jvm 算法
JVM自动管理内存，当对象不再被引用时，垃圾回收器（GarbageCollector）会自动释放这些对象占用的内存。标记-清除算法（Mark-Sweep）：标记垃圾再清除，会产生碎片。复制算法（Copying）：将存活对象复制到新区域，适合新生代，无碎片但浪费空间。标记-整理算法（Mark-Compact）：标记后将存活对象移到一端，清除另一端，适合老年代。分代收集算法（GenerationalC
从零到一：基于差分隐私决策树的客户购买预测系统实战开发笙囧同学决策树算法机器学习
作者简介：笙囧同学，中科院计算机大模型方向硕士，全栈开发爱好者联系方式：[email protected]各大平台账号：笙囧同学座右铭：偷懒是人生进步的阶梯文章导航快速导航前言-项目背景与价值项目概览-系统架构与功能技术深度解析-核心算法原理️系统实现详解-工程实践细节性能评估与分析-实验结果分析Web系统开发-前后端开发部署与运维-DevOps实践完整复现指南-手把手教程️实践案例与故障排除-问
TOMCAT在POST方法提交参数丢失问题 357029540 java tomcat jsp
摘自http://my.oschina.net/luckyi/blog/213209 昨天在解决一个BUG时发现一个奇怪的问题，一个AJAX提交数据在之前都是木有问题的，突然提交出错影响其他处理流程。检查时发现页面处理数据较多，起初以为是提交顺序不正确修改后发现不是由此问题引起。于是删除掉一部分数据进行提交，较少数据能够提交成功。恢复较多数据后跟踪提交FORM DATA ，发现数
在MyEclipse中增加JSP模板删除-2008-08-18 ljy325 jsp xml MyEclipse
在D:\Program Files\MyEclipse 6.0\myeclipse\eclipse\plugins\com.genuitec.eclipse.wizards_6.0.1.zmyeclipse601200710\templates\jsp 目录下找到Jsp.vtl，复制一份，重命名为jsp2.vtl,然后把里面的内容修改为自己想要的格式，保存。然后在 D:\Progr
JavaScript常用验证脚本总结 eksliang JavaScript javaScript表单验证
转载请出自出处：http://eksliang.iteye.com/blog/2098985 下面这些验证脚本，是我在这几年开发中的总结，今天把他放出来，也算是一种分享吧，现在在我的项目中也在用！包括日期验证、比较，非空验证、身份证验证、数值验证、Email验证、电话验证等等...! &nb
微软BI（4） 18289753290 微软BI SSIS
1） Q:查看ssis里面某个控件输出的结果： A MessageBox.Show(Dts.Variables["v_lastTimestamp"].Value.ToString()); 这是我们在包里面定义的变量 2):在关联目的端表的时候如果是一对多的关系，一定要选择唯一的那个键作为关联字段。 3) Q：ssis里面如果将多个数据源的数据插入目的端一
定时对大数据量的表进行分表对数据备份酷的飞上天空大数据量
工作中遇到数据库中一个表的数据量比较大，属于日志表。正常情况下是不会有查询操作的，但如果不进行分表数据太多，执行一条简单sql语句要等好几分钟。。分表工具：linux的shell + mysql自身提供的管理命令原理：使用一个和原表数据结构一样的表，替换原表。 linux shell内容如下： =======================开始
本质的描述与因材施教永夜-极光感想随笔
不管碰到什么事,我都下意识的想去探索本质,找寻一个最形象的描述方式。我坚信,世界上对一件事物的描述和解释,肯定有一种最形象,最贴近本质,最容易让人理解 &
很迷茫。。。随便小屋随笔
小弟我今年研一，也是从事的咱们现在最流行的专业（计算机）。本科三流学校，为了能有个更好的跳板，进入了考研大军，非常有幸能进入研究生的行业（具体学校就不说了，怕把学校的名誉给损了）。先说一下自身的条件，本科专业软件工程。主要学习就是软件开发，几乎和计算机没有什么区别。因为学校本身三流，也就是让老师带着学生学点东西，然后让学生毕业就行了。对专业性的东西了解的非常浅。就那学的语言来说
23种设计模式的意图和适用范围 aijuans 设计模式
Factory Method 意图定义一个用于创建对象的接口，让子类决定实例化哪一个类。Factory Method 使一个类的实例化延迟到其子类。　　适用性当一个类不知道它所必须创建的对象的类的时候。　　当一个类希望由它的子类来指定它所创建的对象的时候。　　当类将创建对象的职责委托给多个帮助子类中的某一个，并且你希望将哪一个帮助子类是代理者这一信息局部化的时候。 Abstr
Java中的synchronized和volatile aoyouzi java volatile synchronized
说到Java的线程同步问题肯定要说到两个关键字synchronized和volatile。说到这两个关键字，又要说道JVM的内存模型。JVM里内存分为main memory和working memory。 Main memory是所有线程共享的，working memory则是线程的工作内存，它保存有部分main memory变量的拷贝，对这些变量的更新直接发生在working memo
js数组的操作和this关键字百合不是茶 js 数组操作 this关键字
js数组的操作; 一:数组的创建: 1、数组的创建 var array = new Array();　//创建一个数组 var array = new Array([size]);　//创建一个数组并指定长度，注意不是上限，是长度 var arrayObj = new Array([element0[, element1[, ...[, elementN]]]
别人的阿里面试感悟 bijian1013 面试分享工作感悟阿里面试
原文如下：http://greemranqq.iteye.com/blog/2007170 一直做企业系统，虽然也自己一直学习技术，但是感觉还是有所欠缺，准备花几个月的时间，把互联网的东西，以及一些基础更加的深入透析，结果这次比较意外，有点突然，下面分享一下感受吧！ &nb
淘宝的测试框架Itest Bill_chen spring maven 框架单元测试 JUnit
Itest测试框架是TaoBao测试部门开发的一套单元测试框架，以Junit4为核心，集合DbUnit、Unitils等主流测试框架，应该算是比较好用的了。近期项目中用了下，有关itest的具体使用如下： 1.在Maven中引入itest框架： <dependency> <groupId>com.taobao.test</groupId&g
【Java多线程二】多路条件解决生产者消费者问题 bit1129 java多线程
package com.tom; import java.util.LinkedList; import java.util.Queue; import java.util.concurrent.ThreadLocalRandom; import java.util.concurrent.locks.Condition; import java.util.concurrent.loc
汉字转拼音pinyin4j 白糖_ pinyin4j
以前在项目中遇到汉字转拼音的情况，于是在网上找到了pinyin4j这个工具包，非常有用，别的不说了，直接下代码： import java.util.HashSet; import java.util.Set; import net.sourceforge.pinyin4j.PinyinHelper; import net.sourceforge.pinyin
org.hibernate.TransactionException: JDBC begin failed解决方案 bozch ssh 数据库异常 DBCP
org.hibernate.TransactionException: JDBC begin failed: at org.hibernate.transaction.JDBCTransaction.begin(JDBCTransaction.java:68) at org.hibernate.impl.SessionImp
java-并查集（Disjoint-set）-将多个集合合并成没有交集的集合 bylijinnan java
import java.util.ArrayList; import java.util.Arrays; import java.util.HashMap; import java.util.HashSet; import java.util.Iterator; import java.util.List; import java.util.Map; import java.ut
Java PrintWriter打印乱码 chenbowen00 java
一个小程序读写文件，发现PrintWriter输出后文件存在乱码，解决办法主要统一输入输出流编码格式。读文件： BufferedReader 从字符输入流中读取文本，缓冲各个字符，从而提供字符、数组和行的高效读取。可以指定缓冲区的大小，或者可使用默认的大小。大多数情况下，默认值就足够大了。通常，Reader 所作的每个读取请求都会导致对基础字符或字节流进行相应的读取请求。因
[天气与气候]极端气候环境 comsci 环境
如果空间环境出现异变...外星文明并未出现,而只是用某种气象武器对地球的气候系统进行攻击,并挑唆地球国家间的战争,经过一段时间的准备...最大限度的削弱地球文明的整体力量,然后再进行入侵...... 那么地球上的国家应该做什么样的防备工作呢? &n
oracle order by与union一起使用的用法 daizj UNION oracle order by
当使用union操作时，排序语句必须放在最后面才正确，如下：只能在union的最后一个子查询中使用order by，而这个order by是针对整个unioning后的结果集的。So：如果unoin的几个子查询列名不同，如 Sql代码 select supplier_id, supplier_name from suppliers UNI
zeus持久层读写分离单元测试 deng520159 单元测试
本文是zeus读写分离单元测试,距离分库分表,只有一步了.上代码: 1.ZeusMasterSlaveTest.java package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Assert; import org.j
Yii 截取字符串(UTF-8) 使用组件 dcj3sjt126com yii
1.将Helper.php放进protected\components文件夹下。 2.调用方法： Helper::truncate_utf8_string($content,20,false); //不显示省略号 Helper::truncate_utf8_string($content,20); //显示省略号 &n
安装memcache及php扩展 dcj3sjt126com PHP
安装memcache tar zxvf memcache-2.2.5.tgz cd memcache-2.2.5/ /usr/local/php/bin/phpize (?) ./configure --with-php-confi
JsonObject 处理日期 feifeilinlin521 java json JsonOjbect JsonArray JSONException
写这边文章的初衷就是遇到了json在转换日期格式出现了异常 net.sf.json.JSONException: java.lang.reflect.InvocationTargetException 原因是当你用Map接收数据库返回了java.sql.Date 日期的数据进行json转换出的问题话不多说直接上代码 &n
Ehcache（06）——监听器 234390216 监听器 listener ehcache
监听器 Ehcache中监听器有两种，监听CacheManager的CacheManagerEventListener和监听Cache的CacheEventListener。在Ehcache中，Listener是通过对应的监听器工厂来生产和发生作用的。下面我们将来介绍一下这两种类型的监听器。
activiti 自带设计器中chrome 34版本不能打开bug的解决 jackyrong Activiti
在acitivti modeler中，如果是chrome 34，则不能打开该设计器，其他浏览器可以，经证实为bug，参考 http://forums.activiti.org/content/activiti-modeler-doesnt-work-chrome-v34 修改为，找到 oryx.debug.js 在最头部增加 if (!Document.
微信收货地址共享接口-终极解决 laotu5i0 微信开发
最近要接入微信的收货地址共享接口，总是不成功，折腾了好几天，实在没办法网上搜到的帖子也是骂声一片。我把我碰到并解决问题的过程分享出来，希望能给微信的接口文档起到一个辅助作用，让后面进来的开发者能快速的接入，而不需要像我们一样苦逼的浪费好几天，甚至一周的青春。各种羞辱、谩骂的话就不说了，本人还算文明。如果你能搜到本贴，说明你已经碰到了各种 ed
关于人才 netkiller.github.com 工作面试招聘 netkiller 人才
关于人才每个月我都会接到许多猎头的电话，有些猎头比较专业，但绝大多数在我看来与猎头二字还是有很大差距的。与猎头接触多了，自然也了解了他们的工作，包括操作手法，总体上国内的猎头行业还处在初级阶段。总结就是“盲目推荐，以量取胜”。目前现状许多从事人力资源工作的人，根本不懂得怎么找人才。处在人才找不到企业，企业找不到人才的尴尬处境。企业招聘，通常是需要用人的部门提出招聘条件，由人
搭建 CentOS 6 服务器 - 目录 rensanning centos
(1) 安装CentOS ISO（desktop/minimal）、Cloud（AWS/阿里云）、Virtualization（VMWare、VirtualBox）详细内容 (2) Linux常用命令 cd、ls、rm、chmod...... 详细内容 (3) 初始环境设置用户管理、网络设置、安全设置...... 详细内容 (4) 常驻服务Daemon
【求助】mongoDB无法更新主键 toknowme mongodb
Query query = new Query(); query.addCriteria(new Criteria("_id").is(o.getId())); &n
jquery 页面滚动到底部自动加载插件集合 xp9802 jquery
很多社交网站都使用无限滚动的翻页技术来提高用户体验，当你页面滑到列表底部时候无需点击就自动加载更多的内容。下面为你推荐 10 个 jQuery 的无限滚动的插件： 1. jQuery ScrollPagination jQuery ScrollPagination plugin 是一个 jQuery 实现的支持无限滚动加载数据的插件。 2. jQuery Screw S