tangjunjun-owen

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning论文解读

文章目录

前言
一、摘要
二、引言
三、贡献
- 1. 贡献
- - 后训练：基础模型的大规模强化学习
  - 蒸馏：较小的模型也可以很强大
- 2. 评估结果概览
- - reasoning tasks
  - knowledge
  - ohters
四、方法
- 1.Overview
- 2.DeepSeek-R1-Zero: Reinforcement Learning on the Base Model
- - Reinforcement Learning Algorithm(GRPO重点)
  - Reward Modeling
  - Training Template
  - Performance, Self-evolution Process and Aha Moment of DeepSeek-R1-Zero
  - - Performance of DeepSeek-R1-Zero
    - Self-evolution Process of DeepSeek-R1-Zero
    - Aha Moment of DeepSeek-R1-Zero
    - Drawback of DeepSeek-R1-Zero
- 3.DeepSeek-R1: Reinforcement Learning with Cold Start
- - 冷启动
  - 面向推理的强化学习
  - 拒绝采样和监督微调
  - - 推理性数据
    - 非推理性数据
    - 适用于所有场景的强化学习
- 4. Distillation: Empower Small Models with Reasoning Capability
五、实验
- Benchmarks
- Evaluation Prompts
- Baselines
- Evaluation Setup
- 1.DeepSeek-R1 Evaluation
- 2.Distilled Model Evaluation
六、结论

前言

DeepSeek R1 是一款基于强化学习的大规模语言模型，因其技术突破和开源共享而备受关注。它成功复现了顶尖模型的深度推理能力，并且是开源的，让全球的研究者和开发者可以自由使用和改进。DeepSeek R1 不仅在数学、算法等领域表现出色，还展示了跨任务应用的能力，如写作等。该模型在资源有限的情况下，通过算法创新实现了高效性能，降低了使用门槛，并通过一键部署简化了接入流程。因此，DeepSeek R1 因其技术创新、易用性和广泛的适用性迅速获得了市场的高度评价，成为下载排行榜的首位，被视为可能改变全球AI竞争格局的重要产品。

论文地址：https://arxiv.org/pdf/2501.12948

一、摘要

We introduce our first-generation reasoning models, DeepSeek-R1-Zero and DeepSeek-R1. DeepSeek-R1-Zero, a model trained via large-scale reinforcement learning (RL) without supervised fine-tuning (SFT) as a preliminary step, demonstrates remarkable reasoning capabilities. Through RL, DeepSeek-R1-Zero naturally emerges with numerous powerful and intriguing reasoning behaviors. However, it encounters challenges such as poor readability, and language mixing. To address these issues and further enhance reasoning performance, we introduce DeepSeek-R1, which incorporates multi-stage training and cold-start data before RL. DeepSeekR1 achieves performance comparable to OpenAI-o1-1217 on reasoning tasks. To support the research community, we open-source DeepSeek-R1-Zero, DeepSeek-R1, and six dense models (1.5B, 7B, 8B, 14B, 32B, 70B) distilled from DeepSeek-R1 based on Qwen and Llama.

我们介绍了第一代推理模型DeepSeek-R1-Zero和DeepSeek-R1。DeepSeek-R1-Zero是通过大规模强化学习（RL）训练的模型，没有预先进行监督微调（SFT），展示了显著的推理能力。通过RL，DeepSeek-R1-Zero自然地展现出了许多强大而有趣的推理行为。然而，它也面临着可读性差、语言混合等问题。为了解决这些问题并进一步提升推理性能，我们引入了DeepSeek-R1，它在RL之前采用了多阶段训练和冷启动数据。DeepSeek-R1在推理任务上的表现与OpenAI-o1-1217相当。为了支持研究社区，我们将DeepSeek-R1-Zero、DeepSeek-R1及其基于Qwen和Llama提炼出的六个密集型模型（1.5B, 7B, 8B, 14B, 32B, 70B）开源。

二、引言

In recent years, Large Language Models (LLMs) have been undergoing rapid iteration and evolution (Anthropic, 2024; Google, 2024; OpenAI, 2024a), progressively diminishing the gap towards Artificial General Intelligence (AGI).

Recently, post-training has emerged as an important component of the full training pipeline. It has been shown to enhance accuracy on reasoning tasks, align with social values, and adapt to user preferences, all while requiring relatively minimal computational resources against pre-training. In the context of reasoning capabilities, OpenAI’s o1 (OpenAI, 2024b) series models were the first to introduce inference-time scaling by increasing the length of the Chain-ofThought reasoning process. This approach has achieved significant improvements in various reasoning tasks, such as mathematics, coding, and scientific reasoning. However, the challenge of effective test-time scaling remains an open question for the research community. Several prior works have explored Various approaches, including process-based reward models (Lightman et al., 2023; Uesato et al., 2022; Wang et al., 2023), reinforcement learning (Kumar et al., 2024), and search algorithms such as Monte Carlo Tree Search and Beam Search (Feng et al., 2024; Trinh et al., 2024; Xin et al., 2024). However, none of these methods has achieved general reasoning performance comparable to OpenAI’s o1 series models.
In this paper, we take the first step toward improving language model reasoning capabilities using pure reinforcement learning (RL). Our goal is to explore the potential of LLMs to develop reasoning capabilities without any supervised data, focusing on their self-evolution through a pure RL process. Specifically, we use DeepSeek-V3-Base as the base model and employ GRPO (Shao et al., 2024) as the RL framework to improve model performance in reasoning. During training, DeepSeek-R1-Zero naturally emerged with numerous powerful and interesting reasoning behaviors. After thousands of RL steps, DeepSeek-R1-Zero exhibits super performance on reasoning benchmarks. For instance, the pass@1 score on AIME 2024 increases from 15.6% to 71.0%, and with majority voting, the score further improves to 86.7%, matching the performance of OpenAI-o1-0912.

However, DeepSeek-R1-Zero encounters challenges such as poor readability, and language mixing. To address these issues and further enhance reasoning performance, we introduce DeepSeek-R1, which incorporates a small amount of cold-start data and a multi-stage training pipeline. Specifically, we begin by collecting thousands of cold-start data to fine-tune the DeepSeek-V3-Base model. Following this, we perform reasoning-oriented RL like DeepSeek-R1-Zero. Upon nearing convergence in the RL process, we create new SFT data through rejection sampling on the RL checkpoint, combined with supervised data from DeepSeek-V3 in domains such as writing, factual QA, and self-cognition, and then retrain the DeepSeek-V3-Base model. After fine-tuning with the new data, the checkpoint undergoes an additional RL process, taking into account prompts from all scenarios. After these steps, we obtained a checkpoint referred to
as DeepSeek-R1, which achieves performance on par with OpenAI-o1-1217.

We further explore distillation from DeepSeek-R1 to smaller dense models. Using Qwen2.5-32B (Qwen, 2024b) as the base model, direct distillation from DeepSeek-R1 outperforms applying RL on it. This demonstrates that the reasoning patterns discovered by larger base models are crucial for improving reasoning capabilities. We open-source the distilled Qwen and Llama (Dubey et al., 2024) series. Notably, our distilled 14B model outperforms state-of-the-art open-source QwQ-32B-Preview (Qwen, 2024a) by a large margin, and the distilled 32B and 70B models set a new record on the reasoning benchmarks among dense models.

近年来，大型语言模型（LLMs）经历了由Anthropic (2024)、Google (2024) 和 OpenAI (2024a) 等机构推动的快速迭代和发展，逐渐缩小了与人工通用智能（AGI）之间的差距。最近，后训练已成为完整训练流程中的一个重要组成部分，已被证明可以在相对较少的计算资源下提高推理任务的准确性，符合社会价值观，并适应用户偏好。

最近，后训练已成为完整训练流程中的一个重要组成部分。它被证明能够增强推理任务的准确性、与社会价值观保持一致并适应用户偏好，而且相对于预训练，所需的计算资源相对较少。在推理能力方面，OpenAI的o1系列模型（OpenAI, 2024b）首次引入了通过增加思维链（Chain-of-Thought）推理过程长度的推断时扩展方法。这种方法在各种推理任务中，如数学、编程和科学推理，取得了显著的进步。然而，有效的测试时扩展仍然是研究界面临的一个开放问题。先前的一些工作已经探索了不同的方法，包括基于过程的奖励模型（Lightman et al., 2023; Uesato et al., 2022; Wang et al., 2023）、强化学习（Kumar et al., 2024），以及搜索算法如蒙特卡洛树搜索和束搜索（Feng et al., 2024; Trinh et al., 2024; Xin et al., 2024）。然而，这些方法中没有一种能达到与OpenAI的o1系列模型相当的通用推理性能。

在这篇论文中，我们尝试使用纯强化学习（RL）来改进语言模型的推理能力。我们的目标是探索LLMs在没有任何监督数据的情况下发展推理能力的可能性，专注于它们通过纯RL过程自我进化的能力。具体来说，我们以DeepSeek-V3-Base作为基础模型，并采用GRPO(Shao et al., 2024)作为RL框架来提高模型在推理方面的表现。在训练过程中，DeepSeek-R1-Zero自然出现了许多强大的推理行为。经过数千个RL步骤后，DeepSeek-R1-Zero在推理基准测试上表现出卓越性能。例如，在AIME 2024上的pass@1得分从15.6%提高到了71.0%，并且通过多数投票，这一分数进一步提升到了86.7%，达到了与OpenAI-o1-0912相当的水平。

然而，DeepSeek-R1-Zero遇到了诸如可读性差和语言混合的问题。为了解决这些问题并进一步提升推理性能，我们引入了DeepSeek-R1，它结合了少量的冷启动数据和一个多阶段训练管道。具体来说，我们首先收集了数千个冷启动数据对DeepSeek-V3-Base模型进行了微调。随后，像DeepSeek-R1-Zero一样执行了面向推理的RL。在接近RL过程收敛时，我们通过拒绝采样在RL检查点（checkpoint：这里检查点就是权重之意）上创建了新的SFT数据，并结合来自DeepSeek-V3领域的监督数据，如写作、事实问答和自我认知，然后重新训练DeepSeek-V3-Base模型。经过新数据的微调后，检查点又经历了一轮考虑所有场景提示的RL过程。通过这些步骤，我们获得了名为DeepSeek-R1的检查点，其性能与OpenAI-o1-1217相当。

我们进一步探索了从DeepSeek-R1到较小密集型模型的知识蒸馏。以Qwen2.5-32B (Qwen, 2024b) 作为基础模型，直接从DeepSeek-R1进行知识蒸馏的表现优于在其上应用RL。这表明由较大基础模型发现的推理模式对于提升推理能力至关重要。我们开源了基于Qwen和Llama (Dubey et al., 2024) 系列的知识蒸馏模型。值得注意的是，我们开源的14B模型大幅超越了最先进的开源模型QwQ-32B-Preview (Qwen, 2024a)，并且32B和70B的蒸馏模型在密集型模型的推理基准测试中设立了新纪录。

三、贡献

1. 贡献

后训练：基础模型的大规模强化学习

Post-Training: Large-Scale Reinforcement Learning on the Base Model
• We directly apply RL to the base model without relying on supervised fine-tuning (SFT) as a preliminary step. This approach allows the model to explore chain-of-thought (CoT) for solving complex problems, resulting in the development of DeepSeek-R1-Zero. DeepSeekR1-Zero demonstrates capabilities such as self-verification, reflection, and generating long CoTs, marking a significant milestone for the research community. Notably, it is the first open research to validate that reasoning capabilities of LLMs can be incentivized purely through RL, without the need for SFT. This breakthrough paves the way for future advancements in this area.
• We introduce our pipeline to develop DeepSeek-R1. The pipeline incorporates two RL stages aimed at discovering improved reasoning patterns and aligning with human preferences, as well as two SFT stages that serve as the seed for the model’s reasoning and non-reasoning capabilities. We believe the pipeline will benefit the industry by creating better models.

我们直接在基础模型上应用强化学习（RL），而不依赖监督微调（SFT）作为初步步骤。这种方法允许模型探索链式思维（CoT）以解决复杂问题，从而开发了DeepSeek-R1-Zero。DeepSeek-R1-Zero展示了自我验证、反思和生成长链式思维的能力，为研究界树立了一个重要的里程碑。值得注意的是，这是首个公开的研究，证明了LLM的推理能力可以通过纯RL激励，而无需SFT。这一突破为此领域的未来进步铺平了道路。
我们介绍了开发DeepSeek-R1的管道。该管道包括两个旨在发现改进的推理模式并符合人类偏好的RL阶段，以及两个作为模型推理和非推理能力种子的SFT阶段。我们相信这个管道将通过创建更好的模型来造福行业。

蒸馏：较小的模型也可以很强大

Distillation: Smaller Models Can Be Powerful Too

• We demonstrate that the reasoning patterns of larger models can be distilled into smaller models, resulting in better performance compared to the reasoning patterns discovered through RL on small models. The open source DeepSeek-R1, as well as its API, will benefit the research community to distill better smaller models in the future.

• Using the reasoning data generated by DeepSeek-R1, we fine-tuned several dense models that are widely used in the research community. The evaluation results demonstrate that the distilled smaller dense models perform exceptionally well on benchmarks. DeepSeekR1-Distill-Qwen-7B achieves 55.5% on AIME 2024, surpassing QwQ-32B-Preview. Additionally, DeepSeek-R1-Distill-Qwen-32B scores 72.6% on AIME 2024, 94.3% on MATH-500, and 57.2% on LiveCodeBench. These results significantly outperform previous opensource models and are comparable to o1-mini. We open-source distilled 1.5B, 7B, 8B, 14B, 32B, and 70B checkpoints based on Qwen2.5 and Llama3 series to the community.

我们证明了较大模型的推理模式可以被蒸馏到较小的模型中，相比在小型模型上通过RL发现的推理模式，这带来了更好的性能。开源的DeepSeek-R1及其API将有利于研究社区在未来蒸馏出更好的小型模型。
使用由DeepSeek-R1生成的推理数据，我们对研究界广泛使用的多个密集型模型进行了微调。评估结果显示，蒸馏后的较小密集型模型在基准测试中表现出色。DeepSeek-R1-Distill-Qwen-7B在AIME 2024上达到了55.5%，超过了QwQ-32B-Preview。此外，DeepSeek-R1-Distill-Qwen-32B在AIME 2024上得分72.6%，在MATH-500上得分94.3%，在LiveCodeBench上得分57.2%。这些结果显著超越了之前的开源模型，并且与o1-mini相当。我们将基于Qwen2.5和Llama3系列的1.5B、7B、8B、14B、32B和70B蒸馏检查点开源给社区。

2. 评估结果概览

1.2. Summary of Evaluation Results

reasoning tasks

• Reasoning tasks: (1) DeepSeek-R1 achieves a score of 79.8% Pass@1 on AIME 2024, slightly surpassing OpenAI-o1-1217. On MATH-500, it attains an impressive score of 97.3%, performing on par with OpenAI-o1-1217 and

男士护肤品哪个牌子好？十大男士护肤品排行榜高省APP珊珊
很多男生意识到护肤的必要性，开始着手护肤，但不知道该选哪个男士护肤品品牌使用好。目前市面上很多男士护肤品品牌，可谓琳琅满目，让人眼花缭乱。男士挑选护肤品时，根据自己皮肤需求去正规渠道挑选合适的知名护肤品比较放心靠谱。高省APP，是2021年推出的平台，0投资，0风险、高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，也期待你的加入
《玉骨遥》：大司命为什么不杀朱颜？原因没那么简单 windy天意晚晴
《玉骨遥》里，朱颜就是时影的命劫之人。重明与时影早就知道，他们一直瞒着大司命，如今大司命也知道了真相。可是大司命却没有杀朱颜，而是给朱颜下了诛心咒，还说时影的命劫已经破了，真的如此吗？1、计划总是赶不上变化的大司命从目前剧情来说，大司命还不如时影，他信心十足的事情总会有纰漏。他不让时影见命劫之女，结果时影还是遇上了。他想让时影走火入魔，一心复仇，结果时影在朱颜的劝说下放下了仇恨。大司命让时影开山收
【C++算法】76.优先级队列_前 K 个高频单词流星白龙优选算法C++c++算法开发语言
文章目录题目链接：题目描述：解法C++算法代码：题目链接：692.前K个高频单词题目描述：解法利用堆来解决TopK问题预处理一下原始的字符串数组，用一个哈希表统计一下每一个单词出现的频次。创建一个大小为k的堆频次：小根堆字典序（频次相同的时候）：大根堆循环让元素依次进堆判断提取结果C++算法代码：classSolution{//定义类型别名，PSI表示对typedefpairPSI;//自定义比较
Flowable 实战落地核心：选型决策与坑点破解练习时长两年半的程序员小胡 Flowable 流程引擎实战指南低代码 BPMN 流程引擎 flowable 后端 java
在企业级流程引擎的落地过程中，选型的准确性和坑点的预见性直接决定项目成败。本文聚焦Flowable实战中最关键的“选型决策”与“常见坑点”，结合真实项目经验，提供可落地的解决方案。一、流程引擎选型：从业务本质出发1.1选型的三大核心维度企业在选择流程引擎时，需避免陷入“技术崇拜”，应回归业务本质。评估Flowable是否适用，可从三个维度判断：业务复杂度若流程涉及动态审批链（如按金额自动升级审批）
Aop +反射实现方法版本动态切换
需求分析在做技术选型的时候一直存在着两个声音，mongo作为数据库比较mysql好，mysql做为该数据比mongo好。当然不同数据库都有有着自己的优势，我们在做技术选型的时候无非就是做到对数据库的扬长避短。mysql最大的优势就是支持事务，事务的五大特性保证的业务可靠性，随之而来的就是事务会产生的问题：脏读、幻读、不可重复度，当然我们也会使用不同的隔离级别来解决。（最典型的业务问题：银行存取钱）
今晚吃太饱了爱伤心的蚂蚁
今晚吃太饱了，两碗干饭，两碗肉汤，一碗牛奶银耳汤，感觉肚子都顶出来了，圆滚滚的！明早要早起，出发去小蚂蚁家！看着剩下的肉汤，倒掉多可惜，干掉了！看着小蚂蚁熬的银耳汤，倒掉多可惜，于是热了一下，顺便热袋牛奶倒进去，大娃喝点，小蚂蚁喝点，还剩下一大碗，继续干掉！吃的太饱，人也懒洋洋的，躺床上不想动，感受的肚子撑撑的感觉，好久没吃这么饱了！这一晚灌的都是汤汤水水的，天冷的晚上，半夜要睡不安稳咯！哈哈！小
你对待万事万物的态度行靜
昨晚爸爸把洒水壶灌满水，对我说：你也该去浇浇你阳台上的花咯。这么大的天气，几天没浇水都快死了。我才意识到自己容易突然间忽视一些事情。尤其是身旁的一些事，可能它们呆久了，反而习以为常。想想每天的生活状态就是在不断的重复着一些事，有点固定模式。没有什么特别发生。记录我的一天：上班，挤公交，用手机或电脑，吃饭，上课。没有
承德十大亲子鉴定医院名单(附2024年10所正规医院) 国医基因陈主任
承德哪家医院可以做亲子鉴定？承德市中心医院、中国人民解放军第二六六医院、承德医学院附属医院等都可以做常规亲子鉴定采样采集，一般的医院并不可以为你提供常规亲子鉴定检测的服务。承德亲子鉴定中心地址：承德市西大街路北11号（承德国医基因）。一般只有少数三甲医院可以做亲子鉴定采样，或者当地亲子鉴定中心可以做亲子鉴定。如果想做亲子鉴定，最好直接到亲子鉴定中心内或亲子鉴定医院采样点内进行双方抽血鉴定，这样会更
践行8.0~第六周11.25-12.02 初队长
突破后的喜悦最可怕的不是自己不清楚，而是自己清楚了，却依然不心动，我想这就是我们每个人的惰性存在，在这一周的践行，我发现自己依然是停留在自己的模式当中，不断的恶性的轮回，虽然的话，那再晨间日记方面是纸质的填写，但是对一天的工作没有起到应有的计划和推动的作用而我自己呢，也有些时候的话会处于一个相对来讲放松的一个状态，时间的把控的话也有一些点的消极，所以在这周的间隙，重点是关注自己的三大目标为目标来进
5G基站信号加速器！AD8021ARZ-REEL7亚德诺超低噪声高速电压放大器专利失真消除技术! 深圳市尚想信息技术有限公司 5G通信高速运放 ADI黑科技 8K视频医疗超声
AD8021ARZ-REEL7ADI：重新定义高速放大器的性能极限！一、产品简介AD8021ARZ-REEL7是ADI（亚德诺半导体）推出的超低噪声高速电压反馈放大器，采用XFCB工艺和专利失真消除技术，专为4K/8K视频处理、医疗成像、5G通信等超高频应用设计。以1.8GHz带宽和0.1nV/√Hz超低噪声，成为高速信号调理的终极解决方案！二、五大颠覆性优势军工级信号保真度1.8GHz-3dB带
打造自己的梦想生态系统轻风style
今天听了第5周5.1的梦想系统和随堂练习：梦想仓库与八大关注表。参照老师给出的例子，列出了八大关注对应的自己的梦想。有些写的时候内心都在怀疑，但因为老师有说到，要没有分别心的去列出，不管是近的，远的，小的，大的，自己觉得可以实现的，或者觉得根本不可能实现的，都统统的列出来。就像音频中提到的，林语堂说过的话，梦想无论怎样模糊，总潜伏在我们心底，使我们的心境永远得不到宁静，直到这些梦想成为事实才止；像
我是孩子妈妈，我会让孩子饿着吗？松玲子
回老家过年，就是一场在关于喂养孩子问题上与老人的巅峰对决。前天我们回老家了，他爷爷奶奶就说孩子瘦了，就说我喂的不好，不按时喂，第一天夜里孩子总是睡一会就哭，睡一会就哭，夜里不知醒了多少次，弄得我真是几乎彻夜未眠。一大早，我还没起，我就听见他爷爷奶奶在外边说，今黑夜阳阳怎么老哭，是不是饿的，然后又延伸到我喂养的问题上，说不吃盐不行，不吃盐孩子没劲，吃蛋光吃个蛋黄，吃不饱，给他吃全蛋就行，哎呀我去，我
心力践行营十二期一阶学习打卡 LX_王彤彤
姓名：王彤彤时间：2021年4月24日一：朗读师父的十大人生哲学二：师父的早安分享感悟很喜欢这句话：所有的行动都是基于目标的尝试，没有所谓的失败，只是不同尝试后得到的不同结果，让我们更好地调整下一次的行动。三：感恩日记1.我太幸福了，我很感恩姑姑，因为姑姑放假又投喂了我，还给我带了饺子回家，这让我感觉很幸福。谢谢，谢谢，谢谢。2.我太幸福了，我很感恩师父晚上的直播，因为听他的分享我知道怎么更好的去
人不能两次踏进同一条河流就是源
这是古希腊学家赫拉克利特的名言，在我原先看来就是万事万物都在不断的变化，强调事物的运动性。可后来了解到他还有个徒弟更深的进行了解读，人哪怕一次也不能踏进同一条河流，因为当你踏进的时候，已经不是你最初想的那天河流了。这确实也说明了事物无时无刻不在运动，可感觉毫无意义，如果一切都这样去算，那么每一秒甚至每一个更加微小的时间上都会有一个不同的结论，这根本无法指明生活的方向和解决困顿，只会让人更加困顿。这
京东中秋节会打折吗？京东中秋节活动力度大吗？高省APP珊珊
京东中秋节会打折，并且活动力度通常是比较大的。以下是具体分析：京东中秋节打折情况降价促销：京东在中秋节期间会推出大规模的降价促销活动，涵盖食品、家居、家电等多个品类，以及众多热门品牌。消费者可以在此期间享受到实实在在的降价优惠。多种优惠形式：除了直接的降价促销，京东还会通过满减优惠、折扣促销、限时秒杀等多种形式的优惠活动来吸引消费者。这些优惠活动通常具有较高的吸引力，能够激发消费者的购买欲望。目前
全面解读设备状态监测 xiatianxy 设备状态监测设备状态监测
长期以来，基于巡检和定期维护维修保养的方式，对电机\泵类\风机等旋转类设备的故障维修，大多都是在设备问题出现之后的事后维护或者定期的预防性维护，前者无法减少或避免设备故障的发生，后者则存在维修不足或维修过剩等问题。另外，日常维护工作严重依赖于人的责任心和经验，一旦出现人员更替，设备的运营管理压力加大，并且现场丰富的维护保养经验也很难传承到新人手中。维护利器——设备状态监测设备状态监测，即对运行中的
农场种蔬菜赚钱小游戏有哪些五大可以赚钱的小游戏APP 氧惠帮朋友一起省
喜欢种菜吗？我特意带来农场种蔬菜赚钱小游戏排行榜2022，线上汇集了超多模拟种菜玩法，玩家可以免费种植赚钱哦！每天都有大量的种植任务，线上完成就能赚钱哦！快来下载吧！1.氧惠APP购物、看电影、点外卖、用氧惠APP！更优惠！氧惠（全网优惠上氧惠）——是与以往完全不同的抖客+淘客app！2023全新模式，我的直推也会放到你下面，送1:1超级补贴(邀请好友自购多少，你就推广得多少，非常厉害)，欢迎各位
严重的DDoS 攻击澳大利亚主要宽带提供商 Fancy1816575412
本周早些时候，澳大利亚最大的固定无线宽带运营商CirrusCommunications遭受了一次重大的DDoS攻击，导致其一半以上的网络瘫痪。该公司在其网站上声称：“强大的架构、数百个传输站点以及光纤和微波回程的使用使其能够以非常高的正常运行时间提供高速”。CirrusCommunications表示，它覆盖了澳大利亚十大人口中心以及几个主要的区域中心，主要为企业和政府客户提供服务。然而，据The
3次创业身价百亿，2年前却被大众判“死刑”，李想如今怎样了？职心眼儿
他，19岁放弃高考去创业；25岁，成为亿万富豪，被央视评为“80后创业”领军人物；39岁，身价再次暴涨，一夜间闯过200亿大关。他，在3个领域连续创业20年，一家公司市值700亿，一家公司市值2000亿。而他的最高学历，却只有高中。这个人，就是理想汽车的创始人——李想。纵观李想的创业史，可谓是颇为传奇：一个既没背景，又没资金高中毕业生，怎么就让3位互联网巨头（张一鸣、王兴、程维）同时为自己站台？更
《倾“庙”之恋》里的诗意道之可道
这是毕飞宇老师《小说课》的最后一课。同前些课一样，他的每节课带给我的全新的解读视角都令我目眩神迷。汪曾祺老师的《受戒》正是我前段时间读过的，读后只觉得很有意思，两个单纯的可爱的少男少女之间的感情非常令人心动，而那个小和尚的身份又让这个故事有些传奇色彩，然而清新又是主调，还有一种淡淡的悲悯，为着他们未来未知的可能是悲剧的命运。毕老师的解读简直让我瞠目结舌，原来这个小说里藏着那么多唯美的诗意，那么多生
【备孕故事】她一直想做个大差不离的人，没想到在这件事上拔了尖儿宜嘉阿姨
图片发自App杨婷说从小到大自己就是个中规中矩的人，不出格，不落单，一直随着大流。学业上从未出类拔萃，却也跟着大部队一起考上了一本；做事从不冒尖，搞个大差不离就行，因此，这么多年以来，差不多就行成了她对自己人生的要求。22岁大学毕业进了一家国企，外型不出挑但文静可人的她也遇上了两位追求者，简单的观察和交往后，她从中选了李广作为自己的婚恋对象。25岁那年，在父母亲朋的祝福声中杨婷和李广步入了婚姻。婚
黛玉葬花是一种什么心情爱的生命力
图片发自App小区里的花终于开了，带着孩子在小区散步的时候，无意间我注意到了玉兰，第一次我发现原来它是先开花后长叶子的，洁白如玉的花高耸入云，那种洁白，让人敬畏。因为有风，所以带孩子在楼遮挡的草坪上玩，发现紫叶李的花也开了，并且随着风的吹动，落了满地，孩子捡起一朵花，拿到我面前，细声细气的说“花”，我的大脑细胞瞬间激活，为什么不和孩子一起捡花呢！这可是一项好玩的游戏，于是我给孩子拿了一个大的挖土用
《家庭教育促进法》解读（14）落到实处方是真愿我们顺利平安
点击上方蓝字，关注我们吧！坚持写作第七十七天今天继续为大家解读和普及我国首部家庭类法律——《家庭教育促进法》的第四章“社会协同”。这一章是上一章“国家支持”的落脚点。第三十八条居民委员会、村民委员会可以依托城乡社区公共服务设施，设立社区家长学校等家庭教育指导服务站点，配合家庭教育指导机构组织面向居民、村民的家庭教育知识宣传，为未成年人的父母或者其他监护人提供家庭教育指导服务。个人认为这一点非常必要
Deepseek技术深化：驱动大数据时代颠覆性变革的未来引擎荣华富贵8 spring boot 搜索引擎后端缓存 redis
在大数据时代，信息爆炸和数据驱动的决策逐渐重塑各行各业。作为一项前沿技术，Deepseek正在引领新一轮技术革新，颠覆传统数据处理与分析方式。本文将从理论原理、应用场景和前沿代码实践三个层面，深入剖析Deepseek技术如何为大数据时代提供颠覆性变革的解决方案。一、技术背景与核心思想1.1大数据挑战与机遇在数据量呈指数级增长的背景下，传统数据处理方法面临数据存储、计算效率和信息提取精度的诸多挑战。
今天的彭格列依然被世界游戏吓得瑟瑟发抖呢云染舒倦
前言有一天，有一个白兰的大魔王想要毁灭世界，创世者非常不高兴，于是，创始者用吞噬一切，包容一切的大空（泽田纲吉）、捉摸不定的雾（六道骸）、孤高的浮云（云雀恭弥）、愤怒的忠岚（狱寺隼人）、晕染一切的雨（山本武）、守护之雷（蓝波）、热血之晴（晴川了平）创造了七位拯救世界的勇士（用属性制造勇士），让他们跟白兰对抗。。。［白兰的力量是游戏，于是要打败他，只要同样在世界布置的游戏中，赢过白兰就行了~］图片发
Qwen3 大模型实战：使用 vLLM 部署与函数调用（Function Call）全攻略曦紫沐大模型大模型部署 Qwen3 vLLM 函数调用
文章摘要本文将带你从零开始，深入掌握如何使用Qwen3-8B大语言模型，结合vLLM进行高性能部署，并通过函数调用（FunctionCall）实现模型与外部工具的智能联动。我们将详细讲解部署命令、调用方式、代码示例及实际应用场景，帮助你快速构建基于Qwen3的智能应用。一、Qwen3简介与部署环境准备Qwen3是通义千问系列的最新一代大语言模型，具备强大的自然语言理解和生成能力，尤其在函数调用、工
大模型量化终极对决：FP8 vs AWQ INT4，谁才是性能与精度的王者？曦紫沐大模型人工智能大模型量化 FP8 AWQ_INT4
摘要在大模型部署与优化中，量化技术是突破性能瓶颈的关键。FP8量化与AWQINT4量化作为当前主流方案，分别以“高精度”和“极致压缩”为核心优势。本文通过表格对比二者的数据格式、精度损失、硬件依赖及适用场景，助您在不同需求下精准选择最优方案。一、数据格式：浮点与整数的底层差异FP8量化采用浮点数（FP8），包含E4M3（4位阶码+3位尾数）和E5M2（5位阶码+2位尾数）两种格式，保留动态范围；而
学C++的五大惊人好处
为什么要学c++学c++有什么用学习c++的好处有1.中考可以加分2.高考可能直接录取3.就业广且工资高4.在未来30--50年c++一定是一个很受欢迎的职业5.c++成功的例子deepsick等AI智能C++语言兼备编程效率和编译运行效率的语言C++语言是C语言功能增强版,在c语言的基础上添加了面向对象编程和泛型编程的支持既继承了C语言高效，简洁，快速和可移植的传统,又具备类似Java、Go等其
面试必考题：Android Binder 机制详解大模型大数据攻城狮 android binder 面试 react native kotlin dalvik retrofit
目录第一章：Binder的基本概念什么是Binder？多角度解读Binder第二章：Binder的工作机制Binder的整体流程服务注册：从零到有的第一步服务查询：找到目标的“地图”服务调用：请求与响应的旅程Binder驱动的幕后功劳为什么Binder这么快？第三章：Binder在系统架构中的角色Activity：界面背后的通信枢纽Binder的角色实例分析Service：后台任务的跨进程支柱Bi
2019-04-05 诚信装饰祝希信
2019年4月5日星期五天气晴(451)六年级七班祝全文今天是清明节，都放假了，好多人外出游玩踏青。一大早醒来去提水浇菜园子，全文还在呼呼睡大觉，浇完菜园子，简单吃了点饭就去干活了。中午回到家，厨房里乱七八糟，全文自己的脏衣服也没有洗，心里感觉真不是滋味，怎么会这样？优秀的孩子不是这样的，是我不该发脾气吗？还是回家继续忙碌，他人爱怎么怎么？家庭是共同的家庭，应该都有责任去承担，不要整天说来说去。全
JAVA中的Enum 周凡杨 java enum 枚举
Enum是计算机编程语言中的一种数据类型---枚举类型。在实际问题中，有些变量的取值被限定在一个有限的范围内。例如，一个星期内只有七天我们通常这样实现上面的定义： public String monday; public String tuesday; public String wensday; public String thursday
赶集网mysql开发36条军规 Bill_chen mysql 业务架构设计 mysql调优 mysql性能优化
(一)核心军规 (1)不在数据库做运算 cpu计算务必移至业务层； (2)控制单表数据量 int型不超过1000w，含char则不超过500w；合理分表；限制单库表数量在300以内； (3)控制列数量字段少而精，字段数建议在20以内
Shell test命令 daizj shell 字符串 test 数字文件比较
Shell test命令 Shell中的 test 命令用于检查某个条件是否成立，它可以进行数值、字符和文件三个方面的测试。数值测试参数说明 -eq 等于则为真 -ne 不等于则为真 -gt 大于则为真 -ge 大于等于则为真 -lt 小于则为真 -le 小于等于则为真实例演示： num1=100 num2=100if test $[num1]
XFire框架实现WebService(二) 周凡杨 java webservice
有了XFire框架实现WebService(一)，就可以继续开发WebService的简单应用。 Webservice的服务端(WEB工程)：两个java bean类： Course.java package cn.com.bean; public class Course { private
重绘之画图板朱辉辉33 画图板
上次博客讲的五子棋重绘比较简单，因为只要在重写系统重绘方法paint（）时加入棋盘和棋子的绘制。这次我想说说画图板的重绘。画图板重绘难在需要重绘的类型很多，比如说里面有矩形，园，直线之类的，所以我们要想办法将里面的图形加入一个队列中，这样在重绘时就
Java的IO流西蜀石兰 java
刚学Java的IO流时，被各种inputStream流弄的很迷糊，看老罗视频时说想象成插在文件上的一根管道，当初听时觉得自己很明白，可到自己用时，有不知道怎么代码了。。。每当遇到这种问题时，我习惯性的从头开始理逻辑，会问自己一些很简单的问题，把这些简单的问题想明白了，再看代码时才不会迷糊。 IO流作用是什么？答：实现对文件的读写，这里的文件是广义的； Java如何实现程序到文件
No matching PlatformTransactionManager bean found for qualifier 'add' - neither 林鹤霄
java.lang.IllegalStateException: No matching PlatformTransactionManager bean found for qualifier 'add' - neither qualifier match nor bean name match! 网上找了好多的资料没能解决，后来发现：项目中使用的是xml配置的方式配置事务，但是
Row size too large (> 8126). Changing some columns to TEXT or BLOB aigo column
原文：http://stackoverflow.com/questions/15585602/change-limit-for-mysql-row-size-too-large 异常信息： Row size too large (> 8126). Changing some columns to TEXT or BLOB or using ROW_FORMAT=DYNAM
JS 格式化时间 alxw4616 JavaScript
/** * 格式化时间 2013/6/13 by 半仙 [email protected] * 需要 pad 函数 * 接收可用的时间值. * 返回替换时间占位符后的字符串 * * 时间占位符:年 Y 月 M 日 D 小时 h 分 m 秒 s 重复次数表示占位数 * 如 YYYY 4占4位 YY 占2位<p></p> * MM DD hh mm
队列中数据的移除问题百合不是茶队列移除
队列的移除一般都是使用的remov();都可以移除的,但是在昨天做线程移除的时候出现了点问题,没有将遍历出来的全部移除, 代码如下; // package com.Thread0715.com; import java.util.ArrayList; public class Threa
Runnable接口使用实例 bijian1013 java thread Runnable java多线程
Runnable接口 a. 该接口只有一个方法：public void run(); b. 实现该接口的类必须覆盖该run方法 c. 实现了Runnable接口的类并不具有任何天
oracle里的extend详解 bijian1013 oracle 数据库 extend
扩展已知的数组空间，例： DECLARE TYPE CourseList IS TABLE OF VARCHAR2(10); courses CourseList; BEGIN -- 初始化数组元素，大小为3 courses := CourseList('Biol 4412 ', 'Psyc 3112 ', 'Anth 3001 '); --
【httpclient】httpclient发送表单POST请求 bit1129 httpclient
浏览器Form Post请求浏览器可以通过提交表单的方式向服务器发起POST请求，这种形式的POST请求不同于一般的POST请求 1. 一般的POST请求，将请求数据放置于请求体中，服务器端以二进制流的方式读取数据，HttpServletRequest.getInputStream()。这种方式的请求可以处理任意数据形式的POST请求，比如请求数据是字符串或者是二进制数据 2. Form
【Hive十三】Hive读写Avro格式的数据 bit1129 hive
1. 原始数据 hive> select * from word; OK 1 MSN 10 QQ 100 Gtalk 1000 Skype 2. 创建avro格式的数据表 hive> CREATE TABLE avro_table(age INT, name STRING)STORE
nginx+lua+redis自动识别封解禁频繁访问IP ronin47
在站点遇到攻击且无明显攻击特征，造成站点访问慢，nginx不断返回502等错误时，可利用nginx+lua+redis实现在指定的时间段内，若单IP的请求量达到指定的数量后对该IP进行封禁，nginx返回403禁止访问。利用redis的expire命令设置封禁IP的过期时间达到在指定的封禁时间后实行自动解封的目的。一、安装环境： CentOS x64 release 6.4(Fin
java-二叉树的遍历-先序、中序、后序（递归和非递归）、层次遍历 bylijinnan java
import java.util.LinkedList; import java.util.List; import java.util.Stack; public class BinTreeTraverse { //private int[] array={ 1, 2, 3, 4, 5, 6, 7, 8, 9 }; private int[] array={ 10,6,
Spring源码学习-XML 配置方式的IoC容器启动过程分析 bylijinnan java spring IOC
以FileSystemXmlApplicationContext为例，把Spring IoC容器的初始化流程走一遍： ApplicationContext context = new FileSystemXmlApplicationContext ("C:/Users/ZARA/workspace/HelloSpring/src/Beans.xml&q
[科研与项目]民营企业请慎重参与军事科技工程 comsci 企业
军事科研工程和项目并非要用最先进，最时髦的技术，而是要做到“万无一失” 而民营科技企业在搞科技创新工程的时候，往往考虑的是技术的先进性，而对先进技术带来的风险考虑得不够，在今天提倡军民融合发展的大环境下，这种“万无一失”和“时髦性”的矛盾会日益凸显。。。。。。所以请大家在参与任何重大的军事和政府项目之前，对
spring 定时器-两种方式 cuityang spring quartz 定时器
方式一：间隔一定时间运行 <bean id="updateSessionIdTask" class="com.yang.iprms.common.UpdateSessionTask" autowire="byName" /> <bean id="updateSessionIdSchedule
简述一下关于BroadView站点的相关设计 damoqiongqiu view
终于弄上线了，累趴，戳这里http://www.broadview.com.cn 简述一下相关的技术点前端：jQuery+BootStrap3.2+HandleBars，全站Ajax（貌似对SEO的影响很大啊！怎么破？），用Grunt对全部JS做了压缩处理，对部分JS和CSS做了合并（模块间存在很多依赖，全部合并比较繁琐，待完善）。后端：U
运维 PHP问题汇总 dcj3sjt126com windows2003
1、Dede(织梦)发表文章时,内容自动添加关键字显示空白页解决方法：后台>系统>系统基本参数>核心设置>关键字替换（是/否），这里选择“是”。后台>系统>系统基本参数>其他选项>自动提取关键字，这里选择“是”。 2、解决PHP168超级管理员上传图片提示你的空间不足网站是用PHP168做的，反映使用管理员在后台无法
mac 下安装php扩展 - mcrypt dcj3sjt126com PHP
MCrypt是一个功能强大的加密算法扩展库，它包括有22种算法，phpMyAdmin依赖这个PHP扩展，具体如下：下载并解压libmcrypt-2.5.8.tar.gz。在终端执行如下命令： tar zxvf libmcrypt-2.5.8.tar.gz cd libmcrypt-2.5.8/ ./configure --disable-posix-threads --
MongoDB更新文档 [四] eksliang mongodb Mongodb更新文档
MongoDB更新文档转载请出自出处：http://eksliang.iteye.com/blog/2174104 MongoDB对文档的CURD，前面的博客简单介绍了，但是对文档更新篇幅比较大，所以这里单独拿出来。语法结构如下： db.collection.update( criteria, objNew, upsert, multi) 参数含义参数
Linux下的解压，移除，复制，查看tomcat命令 y806839048 tomcat
重复myeclipse生成webservice有问题删除以前的，干净 1、先切换到：cd usr/local/tomcat5/logs 2、tail -f catalina.out 3、这样运行时就可以实时查看运行日志了 Ctrl+c 是退出tail命令。有问题不明的先注掉 cp /opt/tomcat-6.0.44/webapps/g
Spring之使用事务缘由(3-XML实现) ihuning spring
用事务通知声明式地管理事务事务管理是一种横切关注点。为了在 Spring 2.x 中启用声明式事务管理，可以通过 tx Schema 中定义的 <tx:advice> 元素声明事务通知，为此必须事先将这个 Schema 定义添加到 <beans> 根元素中去。声明了事务通知后，就需要将它与切入点关联起来。由于事务通知是在 <aop:
GCD使用经验与技巧浅谈啸笑天 GC
前言 GCD(Grand Central Dispatch)可以说是Mac、iOS开发中的一大“利器”，本文就总结一些有关使用GCD的经验与技巧。 dispatch_once_t必须是全局或static变量这一条算是“老生常谈”了，但我认为还是有必要强调一次，毕竟非全局或非static的dispatch_once_t变量在使用时会导致非常不好排查的bug，正确的如下： 1
linux（Ubuntu）下常用命令备忘录1 macroli linux 工作 ubuntu
在使用下面的命令是可以通过--help来获取更多的信息1,查询当前目录文件列表：ls ls命令默认状态下将按首字母升序列出你当前文件夹下面的所有内容，但这样直接运行所得到的信息也是比较少的，通常它可以结合以下这些参数运行以查询更多的信息： ls / 显示/.下的所有文件和目录 ls -l 给出文件或者文件夹的详细信息 ls -a 显示所有文件，包括隐藏文
nodejs同步操作mysql qiaolevip 学习永无止境每天进步一点点 mysql nodejs
// db-util.js var mysql = require('mysql'); var pool = mysql.createPool({ connectionLimit : 10, host: 'localhost', user: 'root', password: '', database: 'test', port: 3306 });
一起学Hive系列文章 superlxw1234 hive Hive入门
[一起学Hive]系列文章目录贴，入门Hive，持续更新中。 [一起学Hive]之一—Hive概述，Hive是什么 [一起学Hive]之二—Hive函数大全-完整版 [一起学Hive]之三—Hive中的数据库(Database)和表(Table) [一起学Hive]之四-Hive的安装配置 [一起学Hive]之五-Hive的视图和分区 [一起学Hive
Spring开发利器：Spring Tool Suite 3.7.0 发布 wiselyman spring
Spring Tool Suite(简称STS)是基于Eclipse，专门针对Spring开发者提供大量的便捷功能的优秀开发工具。在3.7.0版本主要做了如下的更新：将eclipse版本更新至Eclipse Mars 4.5 GA Spring Boot(JavaEE开发的颠覆者集大成者，推荐大家学习)的配置语言YAML编辑器的支持(包含自动提示，