wwlsm_zql

RLHF与LLM训练的碰撞：寻找最佳实践之路！

了解更多公众号：芝士AI吃鱼

在讨论大型语言模型（LLM）时，无论是在研究新闻还是教程中，经常提到一个称为“带有人类反馈的强化学习”（RLHF）的过程。由于RLHF能够将人类偏好纳入优化过程，从而提高模型的有用性和安全性，它已成为现代LLM训练流程的一个重要部分。在本文中，将逐步分解RLHF，以提供对其核心理念和重要性的理解参考。

典型的LLM训练流程

现代基于transformer的LLM，如ChatGPT或Llama 2，经历了三个步骤的训练程序：

预训练
有监督微调
对齐

最初，在预训练阶段，模型从庞大的无标签文本数据集中吸收知识。随后的有监督微调使这些模型更好地遵循特定指令。最后，对齐阶段使LLM更有帮助和安全地响应用户提示。
请注意，这个训练流程基于OpenAI的InstructGPT论文，该论文详细描述了GPT-3的过程。这个过程被广泛认为是ChatGPT背后的方法。稍后，我们还将比较这种方法与Meta AI最新的Llama 2模型。
让我们从下面描述的初始步骤，预训练开始。

预训练通常在包含数十亿至数万亿个标记的庞大文本语料库上进行。在这个过程中，我们采用了一个简单的下一个词预测任务，其中模型从提供的文本中预测下一个单词（或标记）。

值得强调的一点是，这种类型的预训练允许我们利用大型的、未标记的数据集。只要我们可以在不侵犯版权或忽视创作者偏好的情况下使用数据，我们就可以访问大型数据集，而无需手动标记。实际上，在这个预训练步骤中，“标签”是文本中的后续单词，它已经是数据集本身的一部分（因此，这种预训练方法通常被称为自监督学习）。

接下来是有监督微调，如下图所示。

有监督微调阶段涉及另一轮下一个标记预测。然而，与前面的预训练阶段不同，我们现在使用指令-输出对，如上图所示。在这种情况下，指令是给模型的输入（有时还附加一个可选的输入文本，取决于任务）。输出代表我们期望模型产生的类似响应。

为了提供一个具体的例子，让我们考虑以下指令-输出对：

指令：“写一首关于鹈鹕的打油诗。”
输出：“有一个鹈鹕非常好...”

模型将指令文本（“写一首关于鹈鹕的打油诗”）作为输入，并对输出文本（“有一个鹈鹕非常好...”）进行下一个标记预测。

虽然两者都采用类似的下一个标记训练目标，但有监督微调通常使用的数据集比预训练小得多。这是因为它需要指令-输出对，而不仅仅是原始文本。为了编译这样的数据集，需要一个人（或另一个高质量的LLM）根据特定指令编写期望的输出——创建这样的数据集需要大量工作。

在这个有监督微调阶段之后，还有另一个通常被认为是“对齐”步骤的微调阶段，其主要目标是使LLM与人类偏好对齐。这就是RLHF发挥作用的地方。

在接下来的部分中，我们将深入了解基于RLHF的对齐步骤。然而，对于那些好奇它与第2步中预训练的基础模型和经过监督微调的模型的比较情况的人，我引用了InstructGPT论文中的一个图表（上图）。

上图比较了经过监督微调的175B GPT-3模型（淡点线）与其他方法。我们可以在图表底部看到基础GPT-3模型。
如果我们考虑一种提示方法，其中我们多次查询并每次选择最佳响应（“GPT-3 + 提示”），我们可以看到与基础模型（“GPT-3”）相比有所改善的表现，这是可以预期的。
将监督微调添加到GPT-3基础模型中，使性能（“GPT-3 + 监督微调”）比“GPT-3 + 提示”更好。然而，最佳性能可以从经过监督微调和RLHF的GPT-3模型中获得（“GPT-3 + 监督微调 + RLHF”）——图表顶部的两条图。（请注意，图表顶部有两条线，因为研究人员尝试了两种不同的采样程序。）下一节将更详细地描述这个RLHF步骤。

带有人类反馈的强化学习（RLHF）

前一节讨论了像ChatGPT和Llama-2-chat这样的现代LLM背后的3步训练程序。在这一节中，我们将更详细地看看微调阶段，重点是RLHF部分。
RLHF流程采用一个预训练模型，并以监督方式微调它（前一节的第2步），然后进一步通过近似策略优化（前一节的第3步）与之对齐。
为简单起见，我们将RLHF流程分为三个单独的步骤：

RLHF第1步：对预训练模型进行监督微调
RLHF第2步：创建奖励模型
RLHF第3步：通过近似策略优化进行微调

RLHF第1步，如下图所示，是一个监督微调步骤，用于创建进一步RLHF微调的基础模型。

在RLHF第1步中，我们创建或从数据库中抽取提示，并请人类编写高质量的响应。然后，我们使用这个数据集以监督方式微调预训练的基础模型。
请注意，这个RLHF第1步与上一节“典型的LLM训练流程”中的第2步类似。我在这里再次列出它，因为它是RLHF不可或缺的一部分。

在RLHF第2步中，我们使用监督微调后的模型来创建一个奖励模型，如下图所示。

如上图所示，对于每个提示，我们从先前步骤创建的微调LLM生成四到九个响应。然后，个人根据他们的偏好对这些响应进行排序。尽管这个排序过程耗时，但可能比为监督微调创建数据集的工作量稍低。这是因为对响应进行排名可能比编写它们更简单。
在编制了这些排名的数据集之后，我们可以设计一个奖励模型，用于RLHF第3步中的后续优化阶段输出奖励分数。这个奖励模型通常来源于先前监督微调步骤中创建的LLM。我们将奖励模型称为RM，将监督微调步骤中的LLM称为SFT。要将RLHF第1步中的模型转换为奖励模型，其输出层（下一个标记分类层）被替换为一个回归层，该层具有单个输出节点。

RLHF流程的第三步是使用奖励（RM）模型来微调先前监督微调（SFT）模型，如下图所示。

在RLHF第3步的最后阶段，我们现在正在使用近似策略优化（PPO）基于我们在RLHF第2步中创建的奖励模型的奖励分数更新SFT模型。

Llama 2中的RLHF

在上一节中，我们了解了OpenAI的InstructGPT论文中描述的RLHF程序。这种方法通常被引用为开发ChatGPT所采用的方法。但是，它与Meta AI最近的Llama 2模型相比如何呢？

Meta AI在创建Llama-2-chat模型时也使用了RLHF。然而，两种方法之间存在一些区别，我在下面的注释图中进行了突出显示。

总的来说，Llama-2-chat在RLHF第1步中遵循与InstructGPT相同的指令数据上的监督微调步骤。然而，在RLHF第2步中，创建了两个奖励模型而不是一个。此外，Llama-2-chat模型通过多个阶段发展，奖励模型根据Llama-2-chat模型中出现的错误进行更新。还增加了一个拒绝采样步骤。

边际损失（Margin Loss）
上述注释图中未描述的另一个区别涉及如何对模型响应进行排名以生成奖励模型。在先前讨论的标准InstructGPT方法中，研究人员收集排名为4-9的输出响应，从中创建“k选2”比较。

例如，如果一个人类标注者对四个响应（A-D）进行排名，如A < C < D < B，这将产生“4选2”= 6个比较：

A < C
A < D
A < B
C < D
C < B
D < B

类似地，Llama 2的数据集基于响应的二元比较，如A < B。然而，看起来每个人类标注者在每轮标注中只被呈现2个响应（而不是4-9个响应）。

此外，新颖之处在于，每个二元排名旁边收集了一个“边际”标签（从“显著更好”到“微不足道更好”），可以选择性地用于二元排名损失中，通过附加的边际参数来计算两个响应之间的差距。

尽管InstructGPT使用了以下基于交叉熵的排名损失来训练奖励模型：

Llama 2 添加了边际“m(r)”作为偏好评级的离散函数，如下所示：

其中：

r_θ(x,y) 是针对提示 x 和生成的响应 y 的标量分数输出；
θ 是模型权重；
σ 是将层输出转换为0到1范围内的分数的逻辑S型函数；
y_c 是人类注释者选择的首选响应；
y_r 是人类注释者选择的被拒绝的响应。

例如，通过“m(r)”返回更高的边际会使首选响应和被拒绝响应的奖励之间的差异变小，从而导致更大的损失，进而在策略梯度更新期间产生更大的梯度，最终导致模型变化。

两个奖励模型
如前所述，Llama 2中有两个奖励模型而不是一个。一个奖励模型基于帮助性，另一个基于安全性。然后用于模型优化的最终奖励函数是这两个分数的线性组合。

拒绝采样（Rejection sampling）
此外，Llama 2的作者采用了一个迭代产生多个RLHF模型（从RLHF-V1到RLHF-V5）的训练流程。他们不仅依赖于我们之前讨论的带PPO的RLHF方法，而且还采用了两种算法进行RLHF微调：PPO和拒绝采样。
在拒绝采样中，绘制出K个输出，并在优化步骤中选择奖励最高的一个进行梯度更新，如下图所示。

拒绝采样用于在每次迭代中选择具有高奖励分数的样本。因此，与基于每次仅更新一个样本的PPO相比，模型经历了具有更高奖励的样本的微调。

在监督微调的初始阶段之后，模型仅使用拒绝采样进行训练，然后将拒绝采样和PPO结合起来。

研究人员绘制了模型在RLHF阶段的性能，表明RLHF微调的模型在无害性和有用性轴上都有所改善。

值得注意的是，研究人员在最后阶段使用了PPO，接着之前仅通过拒绝采样更新的模型。如上图所示的“RLHF-v5（带PPO）”与“RLHF-v5（无PPO）”比较表明，最后阶段使用PPO训练的模型比仅使用拒绝采样训练的模型更好。

RLHF的替代方案

现在我们已经讨论并定义了RLHF过程，这是一个相当复杂的程序，人们可能会想知道它是否值得这样的麻烦。之前从InstructGPT和Llama 2论文中展示的图表（如下所示）提供了证据，表明RLHF是值得的。

然而，许多正在进行的研究侧重于开发更高效的替代方案。下面总结了最有趣的方法。

Constitutional AI: Harmlessness from AI Feedback (Dec 2022, https://arxiv.org/abs/2212.08073)

在这篇论文中，研究人员提出了一种基于人类提供的规则列表的自我训练机制。类似于之前提到的InstructGPT论文，提出的方法使用强化学习方法。

上图中研究人员使用的“红队行动”这一术语，起源于冷战时期的军事演习。在那时，“红队行动”指的是扮演苏联角色的一组人员，他们的任务是测试和挑战美国的战略及防御体系。如今，在人工智能研究的网络安全领域，这一术语被用来描述一种特殊的过程：通过模拟现实世界攻击者的战术、技术和程序，外部或内部专家扮演潜在对手的角色，挑战和测试相关系统，以此来提升这些系统的性能和安全性。

The Wisdom of Hindsight Makes Language Models Better Instruction Followers (Feb 2023, https://arxiv.org/abs/2302.05206)

这篇论文表明，对LLM进行有监督的微调确实可以很好地工作。研究人员提出了一种基于重新标记的有监督方法进行微调，该方法在12个BigBench任务上胜过了RLHF。

那么，这个所提出的后见之明指令标记（HIR）是如何工作的呢？简而言之，HIR方法包括两个步骤：采样和训练。在采样步骤中，指令和提示被输入到LLM中以收集响应。在训练阶段，根据一种对齐分数，将指令在适当的情况下进行重新标记。然后，使用这些重新标记的指令和原始提示来对LLM进行微调。通过这种重新标记的方法，研究人员有效地将失败案例（即LLM产生的输出与原始指令不符的情况）转化为有监督学习的有用训练数据。

请注意，这项研究与InstructGPT中的RLHF（基于强化学习的微调）工作并不直接可比，原因在于它似乎使用了启发式方法（“然而，由于大多数基于人类反馈的数据难以收集，我们采用了一种脚本化的反馈函数...”）。尽管如此，后见之明指令标记（HIR）方法的结果仍然非常引人注目。

Direct Preference Optimization: Your Language Model is Secretly a Reward Model (https://arxiv.org/abs/2305.18290, May 2023)

直接偏好优化（DPO）是RLHF和PPO的一个替代方案，研究人员表明，用于拟合RLHF中的奖励模型的交叉熵损失可以直接用于微调LLM。根据他们的基准测试，使用DPO通常比使用RLHF/PPO更高效，并且在响应质量方面也常常更受欢迎。

Contrastive Preference Learning: Learning from Human Feedback without RL (Oct 2023, https://arxiv.org/abs/2310.13639)

类似于直接偏好优化（DPO），对比性偏好学习（CPL）是简化RLHF的一种方法，通过消除奖励模型学习。与DPO一样，CPL使用一种有监督的学习目标，特别是对比性损失。（在论文的附录中，作者表明DPO是CPL的一个特例。）尽管实验是基于机器人环境进行的，CPL也可以应用于LLM微调。

Reinforced Self-Training (ReST) for Language Modeling (Aug 2023, https://arxiv.org/abs/2308.08998)

ReST是一种与人类反馈的强化学习（RLHF）相对的方法，用于使LLM与人类偏好对齐。ReST采用抽样方法创建改进的数据集，通过迭代训练更高质量的子集来细化其奖励函数。根据作者的说法，ReST通过离线生成其训练数据集，比标准在线RLHF方法（如带近似策略优化的RLHF，PPO）实现了更高的效率，但尚缺乏与InstructGPT或Llama 2中使用的标准RLHF PPO方法的全面比较。

RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback (Sep 2023, https://arxiv.org/abs/2309.00267)

最近的一项名为人工智能反馈强化学习（RLAIF）的研究表明，在强化学习中基于人类反馈的奖励模型训练（RLHF）并不一定需要由人类提供评分，而可以由大型语言模型（例如：PaLM 2）生成。人类评估者在RLAIF模型与传统RLHF模型之间的选择几乎各占一半，这意味着他们实际上并不偏好其中任何一个模型。

另一个有趣的附加观点是，无论是RLHF还是RLAIF，它们的性能都远远超过了那些仅通过有监督指令微调训练的模型。

这项研究的结果非常有用且引人注目，因为它基本上意味着我们可能能够使基于RLHF的训练更加高效和易于获取。然而，这些RLAIF模型在关注安全性和信息内容真实性的定性研究中的表现如何，仍有待观察，这些是仅通过人类偏好研究部分能够捕捉到的。

结论

这些替代方案是否在实践中值得采用，目前还有待观察，因为目前还没有真正能与Llama 2和未经RLHF训练的Code Llama规模模型相匹敌的竞争者。

为了在未来的人工智能世界中取得成功，学生们必须学习人类写作的优点睿邸管家
澳大利亚各地的学生在新学年开始使用铅笔、钢笔和键盘学习写字。在工作场所，机器也在学习写作，如此有效，几年之内，它们可能会写得比人类更好。有时它们已经做到了，就像Grammarly这样的应用程序所展示的那样。当然，人类现在的日常写作可能很快就会由具有人工智能(AI)的机器来完成。手机和电子邮件软件常用的预测文本是无数人每天都在使用的一种人工智能写作形式。据AI行业研究机构称，到2022年，人工智能及
人工智能应用研究快讯 2021-11-30 峰谷皆平
[HTML]ArtificialIntelligenceforSkinCancerDetection:ScopingReviewATakiddin,JSchneider,YYang,AAbd-Alrazaq...JournalofMedicalInternet...,2021ABSTACT:Background:Skincanceristhemostcommoncancertypeaffectin
从振动信号到精准预警：AI 如何重塑工业设备健康管理？缘华工业智维人工智能计算机视觉边缘计算信息与通信
在智能制造浪潮席卷全球的当下，工业生产正经历着从传统模式向智能化、数字化转型的深刻变革。在这场变革中，AI驱动的振动分析技术犹如一颗璀璨新星，成为工业设备可靠运行的“健康卫士”。它通过在设备关键部位部署振动传感器，如同医生为患者听诊般实时采集设备运行时的振动信号，再借助强大的人工智能算法对这些“工业脉搏”进行深度解析，从而实现对工业设备从故障预警到寿命预测的全周期精准守护。一、AI振动分析：设备状
AI 生成虚拟宠物：24 小时陪你聊天解闷大力出奇迹985 人工智能宠物
本文围绕AI生成虚拟宠物展开，介绍这类依托人工智能技术诞生的虚拟伙伴，能实现24小时不间断陪伴聊天，为人们解闷。文中详细阐述其技术基础，包括自然语言处理、机器学习等；分析多样功能，如个性化互动、情绪回应等；探讨在独居人群、压力大者等不同群体中的应用场景，最后总结其为人们生活带来的积极影响及未来发展潜力，展现AI虚拟宠物在陪伴领域的独特价值。一、AI生成虚拟宠物的诞生背景与技术基石在快节奏的现代社会
GPT-4 在 AIGC 中的微调技巧：让模型更懂你的需求 AIGC应用创新大全 AI人工智能与大数据应用开发 MCP&Agent 云算力网络 AIGC ai
GPT-4在AIGC中的微调技巧：让模型更懂你的需求关键词：GPT-4、AIGC、模型微调、监督学习、指令优化、过拟合预防、个性化生成摘要：AIGC（人工智能生成内容）正在重塑内容创作行业，但通用的GPT-4模型可能无法精准匹配你的垂直需求——比如写电商爆款文案时总“跑题”，或生成技术文档时专业术语不够。本文将用“教小朋友学画画”的通俗类比，从微调的底层逻辑讲到实战技巧，带你掌握让GPT-4“更懂
AIGC内容生成实战：如何用ChatGPT+DALL·E打造高转化内容 AI大模型应用工坊 AI大模型开发实战 AIGC chatgpt ai
AIGC内容生成实战：如何用ChatGPT+DALL·E打造高转化内容关键词：AIGC、ChatGPT、DALL·E、内容生成、高转化营销、多模态协同、提示词工程摘要：随着AIGC（人工智能生成内容）技术的爆发式发展，ChatGPT（文本生成）与DALL·E（图像生成）的组合已成为内容创作领域的“黄金搭档”。本文将深度解析二者的协同原理，结合实战案例演示从需求分析到内容落地的全流程，并揭示提升内容
数据分析领域中AI人工智能的发展前景展望 AI大模型应用工坊 AI大模型开发实战数据分析人工智能数据挖掘 ai
数据分析领域中AI人工智能的发展前景展望关键词：数据分析、人工智能、机器学习、深度学习、数据挖掘、预测分析、自动化摘要：本文深入探讨了人工智能在数据分析领域的发展现状和未来趋势。我们将从核心技术原理出发，分析AI如何改变传统数据分析范式，详细讲解机器学习算法在数据分析中的应用，并通过实际案例展示AI驱动的数据分析解决方案。文章还将探讨行业应用场景、工具生态以及未来发展面临的挑战和机遇，为数据分析师
AI人工智能中的数据挖掘：提升智能决策能力
AI人工智能中的数据挖掘：提升智能决策能力关键词：数据挖掘、人工智能、机器学习、智能决策、数据分析、特征工程、模型优化摘要：本文深入探讨了数据挖掘在人工智能领域中的核心作用，重点分析了如何通过数据挖掘技术提升智能决策能力。文章从基础概念出发，详细介绍了数据挖掘的关键算法、数学模型和实际应用场景，并通过Python代码示例展示了数据挖掘的全流程。最后，文章展望了数据挖掘技术的未来发展趋势和面临的挑战
【三桥君】MCP中台，究竟如何实现多模型、多渠道、多环境的统一管控？如何以MCP为核心设计AI应用架构？三桥君《三桥君 MCP落地方法论》《三桥君 AI大模型落地方法论》#《三桥君 AI产品方法论》人工智能 AI产品经理 MCP API 三桥君系统架构 llama
你好，我是✨三桥君✨本文介绍>>一、引言随着人工智能技术的快速发展，越来越多的企业开始引入大语言模型（LLM）以提升用户体验和运营效率。然而，如何高效、稳定地将这些AI能力落地到生产环境呢？传统的系统架构往往难以应对AI应用的高并发、低延迟和灵活扩展需求，因此，从整体架构角度设计AI应用架构显得尤为重要。本文三桥君将深入探讨以MCP为核心的AI应用架构，并分析多种部署方式的优劣势，为企业在AI落地
深入理解卷积神经网络（CNN）与循环神经网络（RNN） CodeJourney. cnn rnn 人工智能
在当今的人工智能领域，神经网络无疑是最为璀璨的明珠之一。而卷积神经网络（ConvolutionalNeuralNetworks，CNN）和循环神经网络（RecurrentNeuralNetworks，RNN）作为神经网络家族中的重要成员，各自有着独特的架构和强大的功能，广泛应用于众多领域。本文将深入探讨这两种神经网络的原理、特点以及应用场景，为对深度学习感兴趣的读者提供全面的知识讲解。一、卷积神经
今年校招竞争真激烈 12_05
程序员满大街，都要找不到工作了。即使人工智能满大街，我也后悔当初没学机器学习，后悔当初没学Java。C++真难找工作。难道毕了业就失业吗？好担心！
如何运用深度学习打造高效AI人工智能系统 AI智能探索者 AI Agent 智能体开发实战人工智能深度学习 ai
如何运用深度学习打造高效AI人工智能系统关键词：深度学习、AI系统、神经网络、模型优化、实战开发摘要：本文将从深度学习的核心概念出发，结合生活实例和代码实战，系统讲解如何构建高效AI系统。我们会拆解数据准备、模型设计、训练优化、部署落地的全流程，揭秘“数据-模型-训练-推理”的协同机制，并通过具体案例演示从0到1开发AI系统的关键技巧，帮助开发者掌握打造高效AI系统的底层逻辑。背景介绍目的和范围在
非欧空间计算加速：图神经网络与微分几何计算的GPU优化（流形数据的内存布局优化策略）九章云极AladdinEdu 空间计算神经网络人工智能 gpu算力算法 java 开发语言
一、非欧空间计算的革命性意义与核心挑战在三维形状分析、社交网络建模、分子动力学模拟等领域，非欧几里得空间数据（流形数据）的处理正推动人工智能技术向更复杂的几何结构迈进。传统欧式空间优化方法在处理流形数据时面临根本性局限：黎曼度量导致距离计算失效、局部坐标系动态变化引发内存访问模式混乱、曲率变化影响并行计算效率。本文提出基于分块流形存储（BlockedManifoldStorage,BMS）与层次化
ChatGPT还不能写小说吗？刘若愚
最近，ChatGPT大热，据说可以写论文，编故事，好像无所不能。于是，我给它出了个题目：写一篇5万字的科幻小说。人物：刘若愚，化学家；刘子琪，大律师；仔仔，刘子琪的宠物猫；周金凝，医生；刘泽余，大侦探；赵政淇，程序猿；杰夫（Jeff）机器人它给我的回答是：我很抱歉，我是一个AI语言模型，无法写出如此长篇的小说。但我可以为您提供一些写作灵感和指导：确定故事背景和时间线：在科幻小说中，背景和时间线非常
响应式编程实践：Spring Boot WebFlux构建高性能非阻塞服务 fanxbl957 Web spring boot 后端 java
博主介绍：Java、Python、js全栈开发“多面手”，精通多种编程语言和技术，痴迷于人工智能领域。秉持着对技术的热爱与执着，持续探索创新，愿在此分享交流和学习，与大家共进步。全栈开发环境搭建运行攻略：多语言一站式指南(环境搭建+运行+调试+发布+保姆级详解)感兴趣的可以先收藏起来，希望帮助更多的人响应式编程实践：SpringBootWebFlux构建高性能非阻塞服务一、引言在当今数字化时代，互
企业级RAG的数据方案选择 - 向量数据库、图数据库和知识图谱南七小僧 AI技术产品经理网站开发人工智能数据库知识图谱人工智能
如何为企业RAG选择合适的数据存储方式摘要:本文讨论了矢量数据库、图数据库和知识图谱在解决信息检索挑战方面的重要性，特别是针对企业规模的检索增强生成（RAG）。看看海外人工智能企业Writer是如何利用知识图谱增强企业级RAG。要点概要：矢量数据库高效存储数据，但缺乏上下文和关联信息。图数据库优先考虑数据点之间的关系，受益于关系结构。知识图谱在语义存储方面表现出色，由于其能够编码丰富的上下文信息，
【人工智能入门必看的最全Python编程实战（1）】 DFCED 人工智能 python 开发语言深度学习找工作就业
--------------------------------------------------------------------------------------------------------------------1.AIGC未来发展前景未完持续…1.1人工智能相关科研重要性拥有一篇人工智能科研论文及专利软著竞赛是保研考研留学深造以及找工作的关键门票！！！拥有一篇人工智能科研论文
2025毫米波雷达技术白皮书：智能汽车与物联网的感知核心
随着人工智能、物联网（IoT）和智能汽车产业的迅猛发展，毫米波雷达技术正成为感知领域的核心驱动力。毫米波雷达凭借其高精度、全天候和强抗干扰能力，广泛应用于智能汽车的自动驾驶、物联网的环境感知以及工业自动化。2025年，毫米波雷达技术在性能、应用场景和市场规模上都达到了一个全新的高度。本白皮书将深入探讨毫米波雷达技术的核心优势、发展趋势及其在智能汽车与物联网中的应用前景，同时推荐各大品牌的领先产品方
从零开始构建深度学习环境：基于Pytorch、CUDA与cuDNN的虚拟环境搭建与实践（适合初学者）荣华富贵8 程序员的知识储备2 程序员的知识储备3 深度学习 pytorch 人工智能
摘要：深度学习正在引领人工智能技术的革新，而对于初学者来说，正确搭建深度学习环境是迈向AI研究与应用的第一步。本文将为读者提供一套详尽的教程，指导如何在本地环境中搭建Pytorch、CUDA与cuDNN，以及如何利用Anaconda和PyCharm进行高效开发。内容涵盖从环境配置、常见错误修正，到基础的深度学习模型构建及训练。我们旨在为深度学习零基础的入门者提供一个全面且易于理解的“保姆级”教程，
人工智能概念之九：深度学习概述
文章目录相关文章一、深度学习的定位：AI时代的基石技术1.1技术生态全景图1.2技术革命的催化剂二、深度学习的双面性：性能优势与技术挑战2.1技术优势全景扫描2.2技术挑战深度剖析三、技术演进时间轴：70年的厚积薄发四、主流框架生态对比五、未来演进方向相关文章人工智能概念之二：人工智能核心概念：网页链接一、深度学习的定位：AI时代的基石技术1.1技术生态全景图深度学习处于人工智能（AI）技术金字塔
H800核心技术突破与行业应用实战智能计算研究中心其他
内容概要在人工智能技术持续迭代的背景下，H800芯片凭借自主架构优化与算力跃升，成为推动行业场景化落地的关键驱动力。本文将从技术路径、性能突破与行业应用三个维度，系统解析H800如何在高并发计算与低延时响应领域实现底层架构创新。首先聚焦其自主架构优化的核心技术路径，包括动态资源调度算法与异构计算单元的深度协同设计，揭示其在能效比与计算密度上的突破逻辑；进一步结合算力跃升的具体表现，探讨该芯片如何通
智慧建筑：科技引领房地产与建筑业的未来 RedPhoenix45
最新接入DeepSeek-V3模型，点击下载最新版本InsCodeAIIDE智慧建筑：科技引领房地产与建筑业的未来随着科技的飞速发展，人工智能（AI）和智能化工具正以前所未有的速度改变着各行各业。在房地产与建筑领域，这种变革尤为显著。从建筑设计到施工管理，再到物业管理，智能化技术正在重塑行业的每一个环节。本文将探讨如何利用先进的智能化工具提升房地产与建筑行业的效率，并介绍一款革命性的开发工具——它
智慧施工：AI技术赋能建筑安全监测新纪元
开发AI智能应用，就下载InsCodeAIIDE，一键接入DeepSeek-R1满血版大模型！智慧施工：AI技术赋能建筑安全监测新纪元在现代建筑行业中，施工安全始终是核心关注点之一。随着科技的飞速发展，人工智能（AI）和大数据分析逐渐成为提升施工安全的重要工具。本文将探讨如何利用智能化软件和大模型API来构建高效的施工安全监测系统，并介绍一款强大的开发工具——InsCodeAIIDE的应用场景及其
智慧工地系统：建筑行业数字化变革的引领者青云智慧园区 java
在建筑行业积极迈向数字化转型的浪潮中，智慧工地系统凭借“数据驱动、智能管控、协同增效”的核心优势，深度融合物联网、大数据、人工智能等前沿技术，构建起覆盖工程项目全生命周期的精细化管理体系。以下将从系统架构、核心功能模块、应用价值以及未来展望等方面，全方位剖析智慧工地系统如何实现施工全过程的智能化、高效化管理。一、系统架构：打造一体化协同管理平台智慧工地系统采用先进的分层架构设计，以底层的数据采集层
AGI和AIGC傻傻分不清楚，一篇文章告诉你如何分辨！
Look！我们的大模型商业化落地产品更多AI资讯请关注Free三天集训营助教在线为您火热答疑‍什么是AGI(人工通用智能)?AGI是ArtificialGeneralIntelligence的缩写，中文翻译为“通用人工智能”，该术语指的是机器能够完成人类能够完成的任何智力任务的能力。与狭义的人工智能(ANI)不同，狭义的人工智能是为特定领域或问题而设计的，而AGI旨在实现一般的认知能力，能够适应任
新一代数据库：融合多模智能，重塑数据价值
一、场景重塑产业格局：数据库“融合进化”AI浪潮奔涌而至，数字产业格局加速重构。云计算、移动互联、万物互联（IoT）、人工智能（AI）等技术的深度融合与快速落地，正以前所未有的速度重塑着企业的应用形态。新业务场景层出不穷——从高并发的在线交易、实时精准的分析决策，到海量物联网设备监控、基于图关系的风控反欺诈，再到AI驱动的智能推荐与内容生成，应用场景的多样性与复杂性已突破传统数据库的能力边界。这对
基于知识图谱技术增强大模型RAG知识库应用效果罗伯特之技术屋知识图谱人工智能
【摘要】本文是AI落地实践的优秀案例，利用RAG技术（Retrieval-AugmentedGeneration，检索增强生成）的知识库实践为背景，介绍了RAG技术的发展及存在的不足，以及知识图谱相关的知识，利用RAG技术去完善和智能化知识图谱。在AI技术大量涌现，但应用不足的情况下，指明了现有应用场景、技术与AI结合的具体做法。1.引言随着人工智能技术的加速演进，AI大模型如雨后春笋般纷纷涌现，
BGE-M3模型结合Milvus向量数据库强强联合实现混合检索
在基于生成式人工智能的应用开发中，通过关键词或语义匹配的方式对用户提问意图进行识别是一个很重要的步骤，因为识别的精准与否会影响后续大语言模型能否检索出合适的内容作为推理的上下文信息（或选择合适的工具）以给出用户最符合预期的回答。在本篇文章中，我将尽可能详细地介绍想达成准确识别用户提问意图的解决方案之一，即基于功能强大的BGE-M3模型和Milvus向量数据库实现混合检索（稠密向量densevect
朋友圈发的原力元宇宙项目到底能不能挣钱口碑信息传播者
原力元宇宙项目正如其名，是一场前所未有的数字化革命，融合了虚拟现实（VR）、人工智能（AI）、区块链（Blockchain）等前沿技术，开辟了全新的商业模式和赚钱机会。在朋友圈中频繁看到对该项目的推广宣传，确实反映了其在赚钱方面的潜力。本文将从多个角度解析原力元宇宙项目的盈利机制，揭示其中的商机所在。13分钟视频内容讲明白原力元宇宙创富项目，中国区运营服务对接微信：ForceZen激发兴趣的独特魅
构建高效 RAG 流程的七个关键点及其落地实践 charles666666 搜索引擎大数据需求分析交互笔记数据库
人工智能应用浪潮中，检索增强生成（RAG）技术凭借着结合大型语言模型（LLMs）的生成能力和信息检索系统的独特优势，成为了各企业挖掘数据价值、提升业务智能化水平的关键手段之一。然而，构建一个高效且精准的RAG流程并非易事，其中存在着诸多关键点和挑战。作为一名非资深IT技术顾问，我将基于丰富的实战经验，为大家深入剖析构建高效RAG流程的七个关键点及其落地实践。一、文档解析：混合格式的“第一道坎”在企
数据采集高并发的架构应用 3golden .net
问题的出发点：最近公司为了发展需要，要扩大对用户的信息采集，每个用户的采集量估计约2W。如果用户量增加的话，将会大量照成采集量成3W倍的增长，但是又要满足日常业务需要，特别是指令要及时得到响应的频率次数远大于预期。 &n
不停止 MySQL 服务增加从库的两种方式 brotherlamp linux linux视频 linux资料 linux教程 linux自学
现在生产环境MySQL数据库是一主一从，由于业务量访问不断增大，故再增加一台从库。前提是不能影响线上业务使用，也就是说不能重启MySQL服务，为了避免出现其他情况，选择在网站访问量低峰期时间段操作。一般在线增加从库有两种方式，一种是通过mysqldump备份主库，恢复到从库，mysqldump是逻辑备份，数据量大时，备份速度会很慢，锁表的时间也会很长。另一种是通过xtrabacku
Quartz——SimpleTrigger触发器 eksliang SimpleTrigger TriggerUtils quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208166 一.概述 SimpleTrigger触发器，当且仅需触发一次或者以固定时间间隔周期触发执行；二.SimpleTrigger的构造函数 SimpleTrigger(String name, String group)：通过该构造函数指定Trigger所属组和名称； Simpl
Informatica应用（1） 18289753290 sql workflow lookup 组件 Informatica
1.如果要在workflow中调用shell脚本有一个command组件，在里面设置shell的路径；调度wf可以右键出现schedule，现在用的是HP的tidal调度wf的执行。 2.designer里面的router类似于SSIS中的broadcast（多播组件）;Reset_Workflow_Var：参数重置（比如说我这个参数初始是1在workflow跑得过程中变成了3我要在结束时还要
python 获取图片验证码中文字酷的飞上天空 python
根据现成的开源项目 http://code.google.com/p/pytesser/改写在window上用easy_install安装不上看了下源码发现代码很少于是就想自己改写一下添加支持网络图片的直接解析 #coding:utf-8 #import sys #reload(sys) #sys.s
AJAX 永夜-极光 Ajax
1.AJAX功能:动态更新页面,减少流量消耗,减轻服务器负担 2.代码结构: <html> <head> <script type="text/javascript"> function loadXMLDoc() { .... AJAX script goes here ...
创业OR读研随便小屋创业
现在研一，有种想创业的想法，不知道该不该去实施。因为对于的我情况这两者是矛盾的，可能就是鱼与熊掌不能兼得。研一的生活刚刚过去两个月，我们学校主要的是
需求做得好与坏直接关系着程序员生活质量 aijuans IT 生活
这个故事还得从去年换工作的事情说起，由于自己不太喜欢第一家公司的环境我选择了换一份工作。去年九月份我入职现在的这家公司，专门从事金融业内软件的开发。十一月份我们整个项目组前往北京做现场开发，从此苦逼的日子开始了。系统背景：五月份就有同事前往甲方了解需求一直到6月份，后续几个月也完
如何定义和区分高级软件开发工程师 aoyouzi
在软件开发领域，高级开发工程师通常是指那些编写代码超过 3 年的人。这些人可能会被放到领导的位置，但经常会产生非常糟糕的结果。Matt Briggs 是一名高级开发工程师兼 Scrum 管理员。他认为，单纯使用年限来划分开发人员存在问题，两个同样具有 10 年开发经验的开发人员可能大不相同。近日，他发表了一篇博文，根据开发者所能发挥的作用划分软件开发工程师的成长阶段。　　初
Servlet的请求与响应百合不是茶 servlet get提交 java处理post提交
Servlet是tomcat中的一个重要组成,也是负责客户端和服务端的中介 1,Http的请求方式(get ,post); 客户端的请求一般都会都是Servlet来接受的,在接收之前怎么来确定是那种方式提交的,以及如何反馈,Servlet中有相应的方法, http的get方式 servlet就是都doGet(
web.xml配置详解之listener bijian1013 java web.xml listener
一.定义 <listener> <listen-class>com.myapp.MyListener</listen-class> </listener> 二.作用该元素用来注册一个监听器类。可以收到事件什么时候发生以及用什么作为响
Web页面性能优化（yahoo技术） Bill_chen JavaScript Ajax Web css Yahoo
1.尽可能的减少HTTP请求数 content 2.使用CDN server 3.添加Expires头(或者 Cache-control) server 4.Gzip 组件 server 5.把CSS样式放在页面的上方。 css 6.将脚本放在底部(包括内联的) javascript 7.避免在CSS中使用Expressions css 8.将javascript和css独立成外部文
【MongoDB学习笔记八】MongoDB游标、分页查询、查询结果排序 bit1129 mongodb
游标游标，简单的说就是一个查询结果的指针。游标作为数据库的一个对象，使用它是包括声明打开循环抓去一定数目的文档直到结果集中的所有文档已经抓取完关闭游标游标的基本用法，类似于JDBC的ResultSet(hasNext判断是否抓去完,next移动游标到下一条文档)，在获取一个文档集时，可以提供一个类似JDBC的FetchSize
ORA-12514 TNS 监听程序当前无法识别连接描述符中请求服务的解决方法白糖_ ORA-12514
今天通过Oracle SQL*Plus连接远端服务器的时候提示“监听程序当前无法识别连接描述符中请求服务”，遂在网上找到了解决方案： ①打开Oracle服务器安装目录\NETWORK\ADMIN\listener.ora文件，你会看到如下信息： # listener.ora Network Configuration File: D:\database\Oracle\net
Eclipse 问题 A resource exists with a different case bozch eclipse
在使用Eclipse进行开发的时候，出现了如下的问题： Description Resource Path Location TypeThe project was not built due to "A resource exists with a different case: '/SeenTaoImp_zhV2/bin/seentao'.&
编程之美-小飞的电梯调度算法 bylijinnan 编程之美
public class AptElevator { /** * 编程之美小飞电梯调度算法 * 在繁忙的时间，每次电梯从一层往上走时，我们只允许电梯停在其中的某一层。 * 所有乘客都从一楼上电梯，到达某层楼后，电梯听下来，所有乘客再从这里爬楼梯到自己的目的层。 * 在一楼时，每个乘客选择自己的目的层，电梯则自动计算出应停的楼层。 * 问：电梯停在哪
SQL注入相关概念 chenbowen00 sql Web 安全
SQL Injection：就是通过把SQL命令插入到Web表单递交或输入域名或页面请求的查询字符串，最终达到欺骗服务器执行恶意的SQL命令。具体来说，它是利用现有应用程序，将（恶意）的SQL命令注入到后台数据库引擎执行的能力，它可以通过在Web表单中输入（恶意）SQL语句得到一个存在安全漏洞的网站上的数据库，而不是按照设计者意图去执行SQL语句。首先让我们了解什么时候可能发生SQ
[光与电]光子信号战防御原理 comsci 原理
无论是在战场上,还是在后方,敌人都有可能用光子信号对人体进行控制和攻击,那么采取什么样的防御方法,最简单,最有效呢? 我们这里有几个山寨的办法,可能有些作用,大家如果有兴趣可以去实验一下根据光
oracle 11g新特性:Pending Statistics daizj oracle dbms_stats
oracle 11g新特性:Pending Statistics 转从11g开始，表与索引的统计信息收集完毕后，可以选择收集的统信息立即发布，也可以选择使新收集的统计信息处于pending状态，待确定处于pending状态的统计信息是安全的，再使处于pending状态的统计信息发布，这样就会避免一些因为收集统计信息立即发布而导致SQL执行计划走错的灾难。在 11g 之前的版本中，D
快速理解RequireJs dengkane jquery requirejs
RequireJs已经流行很久了，我们在项目中也打算使用它。它提供了以下功能：声明不同js文件之间的依赖可以按需、并行、延时载入js库可以让我们的代码以模块化的方式组织初看起来并不复杂。在html中引入requirejs 在HTML中，添加这样的 <script> 标签： <script src="/path/to
C语言学习四流程控制if条件选择、for循环和强制类型转换 dcj3sjt126com c
# include <stdio.h> int main(void) { int i, j; scanf("%d %d", &i, &j); if (i > j) printf("i大于j\n"); else printf("i小于j\n"); retu
dictionary的使用要注意 dcj3sjt126com IO
NSDictionary *dict = [NSDictionary dictionaryWithObjectsAndKeys: user.user_id , @"id", user.username , @"username",
Android 中的资源访问(Resource) finally_m xml android String drawable color
简单的说，Android中的资源是指非代码部分。例如，在我们的Android程序中要使用一些图片来设置界面，要使用一些音频文件来设置铃声，要使用一些动画来显示特效，要使用一些字符串来显示提示信息。那么，这些图片、音频、动画和字符串等叫做Android中的资源文件。在Eclipse创建的工程中，我们可以看到res和assets两个文件夹，是用来保存资源文件的，在assets中保存的一般是原生
Spring使用Cache、整合Ehcache 234390216 spring cache ehcache @Cacheable
Spring使用Cache 从3.1开始，Spring引入了对Cache的支持。其使用方法和原理都类似于Spring对事务管理的支持。Spring Cache是作用在方法上的，其核心思想是这样的：当我们在调用一个缓存方法时会把该方法参数和返回结果作为一个键值对存放在缓存中，等到下次利用同样的
当druid遇上oracle blob(clob) jackyrong oracle
http://blog.csdn.net/renfufei/article/details/44887371 众所周知，Oracle有很多坑, 所以才有了去IOE。在使用Druid做数据库连接池后，其实偶尔也会碰到小坑，这就是使用开源项目所必须去填平的。【如果使用不开源的产品，那就不是坑，而是陷阱了，你都不知道怎么去填坑】用Druid连接池，通过JDBC往Oracle数据库的
easyui datagrid pagination获得分页页码、总页数等信息 ldzyz007
var grid = $('#datagrid'); var options = grid.datagrid('getPager').data("pagination").options; var curr = options.pageNumber; var total = options.total; var max =
浅析awk里的数组 nigelzeng 二维数组 array 数组 awk
awk绝对是文本处理中的神器，它本身也是一门编程语言，还有许多功能本人没有使用到。这篇文章就单单针对awk里的数组来进行讨论，如何利用数组来帮助完成文本分析。有这么一组数据： abcd,91#31#2012-12-31 11:24:00 case_a,136#19#2012-12-31 11:24:00 case_a,136#23#2012-12-31 1
搭建 CentOS 6 服务器(6) - TigerVNC rensanning centos
安装GNOME桌面环境 # yum groupinstall "X Window System" "Desktop" 安装TigerVNC # yum -y install tigervnc-server tigervnc 启动VNC服务 # /etc/init.d/vncserver restart # vncser
Spring 数据库连接整理 tomcat_oracle spring bean jdbc
1、数据库连接jdbc.properties配置详解　　jdbc.url=jdbc:hsqldb:hsql://localhost/xdb 　　jdbc.username=sa 　　jdbc.password= 　　jdbc.driver=不同的数据库厂商驱动，此处不一一列举　　接下来，详细配置代码如下：　　 Spring连接池
Dom4J解析使用xpath java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常 xp9802
用Dom4J解析xml,以前没注意,今天使用dom4j包解析xml时在xpath使用处报错异常栈：java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常导入包 jaxen-1.1-beta-6.jar 解决; &nb

RLHF与LLM训练的碰撞：寻找最佳实践之路！

典型的LLM训练流程

带有人类反馈的强化学习（RLHF）

Llama 2中的RLHF

RLHF的替代方案

结论

你可能感兴趣的:(chatgpt,人工智能)