qq_16740151

译文《Learning to Drive in a Day》

摘要——我们展示了深度强化学习在自动驾驶中的首次应用。从随机初始化的参数中，我们的模型能够使用单个单眼图像作为输入，在少数训练集中学习车道跟随策略。我们提供一个通用且易于获得的奖励：车辆在没有安全驾驶员控制的情况下行驶的距离。我们使用一种连续的、无模型的深度强化学习算法，所有的探索和优化都在车辆上进行。这证明了自动驾驶的一个新框架，它摆脱了对定义的逻辑规则、映射和直接监督的依赖。我们讨论了将这种方法扩展到更广泛的自动驾驶任务的挑战和机遇。

一、简介

自动驾驶是一个吸引了研究界和公司大量关注的话题，因为它有可能从根本上改变移动性和交通。从广义上讲，迄今为止，大多数方法都侧重于在标注的3D几何地图中定义驾驶行为的形式逻辑。这可能很难扩展，因为它严重依赖外部映射基础设施，而不是主要使用对本地场景的理解。

为了使自动驾驶成为一种真正普遍的技术，我们提倡机器人系统，该系统能够解决在没有地图和明确规则的情况下驾驶和导航的能力，就像人类一样，依靠对直接环境的全面理解[1]，同时遵循简单的更高级别的方向（例如，转弯路线命令）。该领域的最新工作表明，使用GPS进行粗略定位和LIDAR了解当地场景，这在农村乡村道路上是可行的[2]。

近年来，强化学习（RL）——一个专注于解决马尔可夫决策问题（MDP）[3]的机器学习子领域，其中智能体学习在环境中选择动作以试图最大化某些奖励函数——已经显示出在围棋[4]或国际象棋[5]等游戏中实现超人结果的能力，在计算机游戏[6]等模拟环境中具有巨大的潜力，以及使用机器人操纵器的简单任务 [7]。我们认为，强化学习的普遍性使其成为应用于自动驾驶的有用框架。最重要的是，它提供了一种纠正机制来改善习得的自动驾驶行为。为此，在本文中，我们：

1）将自动驾驶作为MDP，解释如何设计这个问题的各种元素，使其更容易解决，同时保持其通用性和可扩展性，

2）表明规范RL算法（深度确定性策略梯度[8]）可以在仿真环境中快速学习简单的自动驾驶任务，

3）讨论在真实车辆上学习高效和安全驾驶所需的系统设置，

4）在几集中学习驾驶现实世界的自动驾驶汽车，使用连续的深度强化学习算法，仅使用车载计算。

因此，我们首次展示了驱动真实汽车的深度强化学习代理。

二、相关工作

我们相信这是第一项证明深度强化学习是自动驾驶可行方法的工作。我们被它超越模仿学习的潜力所激励，并希望研究界从强化学习的角度更仔细地研究自动驾驶。当前文献中最接近的工作主要可以归类为模仿学习或依赖映射的经典方法。

a）映射方法：自早期示例[9]、[10]以来，自动驾驶汽车系统已被设计为使用先进的传感和控制算法[11]、[12]、[13]在复杂环境中安全导航。这些系统传统上由许多特定的独立工程组件组成，如感知、状态估计、映射、规划和控制[14]。然而，由于每个组件都需要单独指定和调整，因此由于复杂的相互依赖性，这很难扩展到更困难的驾驶场景。

为实现这一模块化方法，已将大量精力集中在计算机视觉组件上。诸如[15]的定位有助于在映射环境中控制车辆[16]，而诸如语义分割[1]的感知方法使机器人能够解释场景。这些模块化任务得到了[17]和[18]等基准的支持。

这些模块化映射方法在很大程度上是开发自动驾驶系统的商业努力的重点；然而，它们提出了一个极其复杂的系统工程挑战，这一挑战尚未解决。

b）模仿学习：一些驾驶任务的最新方法是模仿学习[19]，[20]，其目的是通过观察专家演示来学习控制策略。这种方法的一个重要优点是，它可以使用端到端深度学习，针对最终目标联合优化模型的所有参数，从而减少每个组件的调整工作量。然而，模仿学习在规模上也具有挑战性。对于代理可能遇到的每个潜在场景，不可能获得专家示例来模拟，而且处理已演示策略的分布（例如，在每条车道上行驶）是一项挑战。

c）强化学习：强化学习是一类用于解决马尔可夫决策问题（MDP）的宽泛算法 [21]。MDP 包括：

• 一组状态 S，

• 一组 A 动作，

• 转移概率函数 p：S × A → P（S），它为每对（s，a） ∈ S × A 分配一个概率分布 p(·|s,a)表示概率使用操作 A 从状态 S 进入状态，

• 奖励函数 R：S ×S ×A → R，它描述了与使用操作从状态 st 进入状态 st+1 相关的奖励 R(st+1，st，at)，

• 未来折扣系数γ ∈ [0，1] 表示我们对未来奖励的关心程度。

MDP的解决方案是一个策列π: S→ A对每一个s0 ∈ S 最大化：

$\text{[math]}$ （1）

式中根据 p(st+1|st,π(st))对st+1采样计算期望值。

在我们的设置中，我们使用有限时间范围T代替上述公式中的无穷大。这相当于其中一个状态是终端，即它不能被转义，并且在该状态下的任何操作都不会给出任何奖励。

将上述方程重新排列为递归形式，我们得到两个Bellman方程之一：

$\text{[math]}$ (2)

这里期望根据 p(s1|s0,π(s0))对s1进行采样计算。作为参考，让我们给出另一个Bellman方程：

$\text{[math]}$ (3)

其中 Qπ(s0,a0)是从状态 s0 开始，遵循策略 π，执行操作 a0 开始收到的预期累积折扣奖励。再次根据 p(s1|s0,a0) 对s1 进行采样计算期望值。

换句话说，强化学习算法旨在学习获得高累积奖励的策略 π。它们通常分为两类：基于模型的强化学习和无模型的强化学习。在前一种方法中，学习转换和奖励函数的显式模型，然后用于查找在这些估计函数下最大化累积奖励的策略。在后者中，我们直接估计在状态 s 中执行操作 a 的值 Q(s,a)，然后遵循选择每个状态中估计值最高的操作的策略。

无模型强化学习非常普遍。使用它，我们可以（理论上）学习我们可以想象的任何任务，而基于模型的算法只能像学习的模型一样好。另一方面，基于模型的方法往往比无模型的方法更有数据效率。有关进一步讨论，请参见[22]。

在自动驾驶中，深度学习已用于使用离线数据学习基于模型的强化学习的动力学模型[23]。强化学习也被用于学习视频游戏中的自动驾驶代理。然而，这可能只是一个问题，因为可以获得真实世界中无法获得的地面真实奖励信号，例如汽车与车道的角度[8]。

与本文最接近的工作来自Riedmiller等人[24]，他们训练了一个强化学习代理，该代理在无障碍环境中驾驶车辆遵循GPS轨迹。他们演示了使用基于GPS阈值跟踪误差的密集奖励函数在车上学习。我们在这项工作的基础上采取了多种方式；我们通过基于图像的输入，使用稀疏奖励函数进行车道跟踪，演示了如何通过深度学习学习驾驶。

三、系统体系结构

A.作为马尔可夫决策过程的驾驶

本文的一个重点是将驾驶作为MDP进行设置。我们的目标是自动驾驶，状态空间S、动作空间A和奖励函数R的精确定义由我们自由定义。一旦状态和动作表示被固定，过渡模型就被隐式固定，剩余的自由度——过渡本身——由所使用的模拟器/车辆的力学决定。

a）状态空间：定义状态空间的关键是算法在每个时间步接收的观察值 Ot 的定义。为了为驾驶算法提供复杂的观察，已经开发了许多传感器，不仅限于激光雷达、IMU、GPS 单元和红外深度传感器;无穷无尽的预算可以花在先进的传感技术上。在本文中，我们表明，对于简单的驾驶任务，使用单眼摄像头图像以及观察到的车速和转向角就足够了。从理论上讲，状态st是所有先前观测值的马尔可夫表示。固定长度近似马尔可夫状态可以通过例如使用递归神经网络递归组合观测值来获得。但是，对于我们考虑的任务，观察本身可以作为状态的足够好的近似。

第二个考虑因素是如何对待图像本身：原始图像可以通过一系列卷积直接输入强化学习算法[25];或者，可以使用图像的小压缩表示，例如使用变分自动编码器（VAE）[26] [27]。我们在第四节中使用这两种方法比较了强化学习的性能。在我们的实验中，我们使用KL损失和L2重建损失从五个纯随机探索事件中在线训练VAE [27]。

b）动作空间：驾驶本身有一组人们可能认为是自然的动作：油门、刹车、信号等。但是强化学习算法的输出应该是什么领域？节气门本身可以被描述为在与[0，1]等距的范围内的离散、开或关或连续。另一种方法是根据速度设定点重新调整节气门的参数，通过经典控制器的节气门输出来匹配设定点。总之，在一个简单的模拟器上进行的实验（第IV-a节）表明，连续的动作虽然有些难以学习，但提供了一个更平滑的控制器。我们使用二维动作空间；转向角在[-1，1]范围内，速度设定值以km/h为单位。

c）奖励功能：奖励功能的设计可以接近监督学习–给定车道分类系统，可以根据最小化距车道中心的预测距离来设置学习车道跟随的奖励，即[8]中的方法。这种方法在规模上是有限的：系统只能像手工制作的奖励背后的人类直觉一样好。我们不采取这种做法。相反，我们将奖励定义为前进速度，并在违反交通规则时终止事件——因此，给定状态V（st）的值对应于违反交通规则前的平均行驶距离。可以识别的一个故障是，代理人可能选择避免更困难的操作，例如在英国右转（在美国左转）。在未来的工作中可以使用命令条件奖励来避免这种情况。

B. 强化学习算法——深度确定性策略梯度

我们选择了一个简单的连续动作域无模型强化学习算法：深度确定性策略梯度（DDPG）[8]，以表明没有特定于任务的适应的现成强化学习算法能够解决III-A节中提出的MDP。

DDPG 由两个函数逼近器组成：一个评论家 Q：S × A → R，它估计在状态 s 中使用动作 a 时预期累积折扣奖励的值 Q（s，a），经过训练以满足贝尔曼方程

$\text{[math]}$

通过演员给出的策略π:S->A，该策略尝试预估一个Q优化的策略 $\text{[math]}$ ；这里(st,at,rt+1,dt+1,st+1)是一个经验元组，从过去经验中选择一个从使用动作at状态st到st+1并获得奖励rt+1和“done”标志dt+1的转移格式。评论家试图最小化的Belllman等式中的误差，被称为时差（TD）误差。存在许多演员-评论家方法的变体，参见[28]，[29]。

DDPG训练在线完成。除了在真实车辆上设置这样的缓冲区的基础设施之外（这要求它能够容忍缺失/故障事件，并且可以随时停止），通过从回放缓冲区中选择最“信息丰富”的示例，可以加快强化学习。我们使用一种通常建立的称为优先体验回放的方法[30]来实现这一点：我们对经验元组进行采样，其概率与评论家的TD误差成比例。用于此采样的权重在每个优化步骤时以最小开销进行更新；新的样本被赋予无限的权重，以确保所有样本至少被看到一次。

DDPG 是一种非策略学习算法，这意味着在训练期间执行的操作来自与参与者的学习最优策略不同的策略。这样做是为了在最优策略看到的狭隘分布之外获得不同的状态操作数据，从而提高稳健性。我们在连续强化学习方法的背景下使用标准方法来实现这一目标：我们的勘探策略是通过将离散的Ornstein-Uhlenbeck过程噪声[31]添加到最佳策略中形成的。因此，在每一步中，我们都会添加最佳动作噪声xt，如下所示：

$\text{[math]}$ (4)

其中 θ，μ，σ 是超参数， $\text{[math]}$ 是从正态分布 N(0,1) 采样的 i.i.d. 随机变量。这些参数需要仔细调整，因为在噪音效用和安全驾驶员的舒适性之间需要直接权衡。强烈均值还原噪声具有较低的方差更容易预测，而方差较高的噪声提供更好的状态-动作空间覆盖范围。

while True do
    Request task
    Waiting for environment reset
    if task is train then
        Run episode with noisy policy
        if exploration time is over then
            Optimize model
        end if
    else if task is test then
        Run episode with optimal policy
    else if task is undo then
        Revert previous train/test task
    else if task is done then
        Exit experiment
    end if
end while

(a) 基于任务的车载训练或测试工作流

C.基于任务的培训架构

在真实世界环境中运行的全尺寸机器人车辆上部署强化学习算法需要调整常见的训练程序，以考虑驾驶员干预和影响训练的外部变量。

我们将算法的架构构建为一个简单的状态机，如图 2a 所示，其中安全驾驶员控制不同的任务。我们定义了四个任务：训练、测试、撤消和完成。这些任务的定义允许系统既是交互式的，又是有状态的，有利于按需执行剧集，而不是先验的固定时间表。

训练和测试任务允许我们在自主模式下与车辆交互，执行当前策略。这两个任务之间的区别在于将噪声添加到模型输出中，并在训练任务中优化模型，而测试任务直接运行模型输出操作。在早期的剧集中，我们跳过了优化，转而探索状态空间。我们继续实验，直到测试奖励停止增加。

每一集都会被执行，直到系统检测到自动化丢失（即驾驶员进行了干预）。在真实环境中，系统无法在剧集之间自动重置，这与模拟或受限环境中的代理不同。我们需要人类驾驶员将车辆重置为有效的启动状态。剧集终止后，当安全驾驶员执行此重置时，模型正在优化，从而最大限度地减少剧集之间的时间。

撤消和已完成任务描述了体系结构中的主要差异。系统可能会因各种正当原因终止发作，而不是无法正确驾驶：这些发作不能用于培训目的。因此引入了撤消任务，因为它允许我们撤消剧集并将模型恢复到运行该剧集之前的状态。在我们的实验中，一个常见的例子是遇到其他司机试图将道路用作环境。完成任务允许我们在任何给定时刻优雅地退出实验，并且很有帮助，因为该过程是交互式的，并且不会运行固定数量的集数。

四、实验

我们用来展示车辆的主要任务是车道跟随;这与[8]中提到的任务相同，但是在真实车辆和仿真中完成，并且通过图像输入完成，而无需了解车道位置。它是驾驶的任务核心，也是开创性ALVINN的基石[19]。我们首先在IV-A节的仿真中完成这项任务，然后利用这些结果和适当超参数的知识在IV-B节中演示真实车辆的解决方案。

对于模拟和真实世界的实验，我们使用一个小的卷积神经网络。我们的模型有四个卷积层，有 3 × 3 个内核，跨度为 2 和 16 个特征维度，在演员和评论家模型之间共享。然后，我们将编码状态展平，并将向量与Actor的标量状态连接起来，另外连接批评者网络的动作。对于这两个网络，我们在回归到输出之前应用一个特征大小为 8 的全连接层。在VAE实验中，使用与编码器相同尺寸的解码器，用转置卷积代替跨步卷积，对特征进行上采样。图形描述如图 1 所示。

A. 模拟

为了在图像输入的车道跟随环境中测试强化学习算法，我们使用虚幻引擎4开发了一个3D驾驶模拟器。它包含乡村道路的生成模型，支持各种天气条件和道路纹理，并且将来将支持更复杂的环境（游戏屏幕截图见图 3）。

事实证明，模拟器对于调整强化学习参数至关重要，包括：学习率、每次训练后要采取的梯度步骤数以及正确的终止程序——保守终止会导致更好的策略。它确认了连续动作空间是可取的 - 离散导致生涩的策略 - 并且DDPG是一种合适的强化学习算法。如第 III-A 节中的环境设置中所述，模拟器中授予的奖励对应于离开车道前行驶的距离，新情节将汽车重置到车道中央。

我们发现，我们可以在 10 个训练集中可靠地学习从原始图像中学习模拟中的跟随。此外，我们发现使用压缩状态表示（由变分自动编码器提供）几乎没有优势。我们发现以下超参数是最有效的，我们将其用于现实世界的实验：未来折扣因子为0.9，噪声半衰期为250集，噪声参数θ为0.6，σ为0.4，批次大小为64的剧集之间的250个优化步骤和0.005的梯度裁剪。

B. 真实世界的驾驶

我们现实世界的驾驶实验在许多方面都模仿了模拟实验。然而，在现实世界中执行这个实验更具挑战性。许多环境因素无法控制，必须实施实时安全和控制系统。对于这些实验，我们使用250米的道路。汽车从道路的起点开始训练。当汽车偏离车道并进入不可恢复的位置时，安全驾驶员将控制车辆结束这一集。然后车辆返回车道中央开始下一集。我们使用在仿真中发现有效的相同超参数，调整噪声模型，使车辆行为类似于车辆本身动力学下的仿真。

我们使用改装的雷诺 Twizy 车辆进行实验，这是一款双座电动汽车，如图 1 所示。该车重500kg，最高时速80km/h，单次充电续航里程100km。我们使用安装在车辆前部车顶中央的单目前置摄像机。我们使用改装的电动机来驱动制动和转向，并以电子方式模拟节气门位置以调节车轮的扭矩。所有计算均使用一台 NVIDIA Drive PX2 计算机在板上完成。如果安全驾驶员通过使用车辆控制（制动、油门或转向）、切换自动化模式或按下紧急停止进行干预，车辆的线控驱动自动化会自动脱离。当速度超过 10 公里/小时或线控自动化脱离时，事件将终止，表明安全驾驶员已进行干预。然后，安全驾驶员会将汽车重置到道路中央，并继续下一集。

表I显示了这些实验的结果。在这里，主要发现是强化学习可以在少数试验中解决这个问题。使用 250 个优化步骤（批量大小为 64）大约需要 25 秒，这使得实验非常易于管理，考虑到将汽车操纵到车道中央开始下一集无论如何都需要大约 10 秒。我们还观察到，在现实世界中，视觉复杂性比模拟困难得多，由在线训练的变分自动编码器提供的压缩状态表示与策略一起大大提高了算法的可靠性。我们将我们的方法与零策略（以恒定速度直行）和随机探索噪声进行比较，以确认试验确实需要一个非平凡的策略。

五、讨论

这项工作首次将深度强化学习应用于全尺寸自动驾驶汽车。实验表明，我们能够在不到三十分钟的训练中学会跟随车道——所有这些都是在车载计算机上完成的。

为了调整超参数，我们构建了一个简单的模拟驾驶环境，在那里我们尝试了强化学习算法，使用 DDPG 作为规范算法在交通违规之前最大化距离。发现的参数友好地转移到现实世界中，在那里我们迅速训练了一个策略，在私人道路上驾驶真实车辆，奖励信号仅包括速度和控制驾驶员控制时的终止信号。值得注意的是，此奖励不需要进一步的环境信息或地图。有了更多的数据、车辆和更大的模型，这个框架足够通用，可以扩展到更复杂的驾驶任务。

为了在未来的人工智能世界中取得成功，学生们必须学习人类写作的优点睿邸管家
澳大利亚各地的学生在新学年开始使用铅笔、钢笔和键盘学习写字。在工作场所，机器也在学习写作，如此有效，几年之内，它们可能会写得比人类更好。有时它们已经做到了，就像Grammarly这样的应用程序所展示的那样。当然，人类现在的日常写作可能很快就会由具有人工智能(AI)的机器来完成。手机和电子邮件软件常用的预测文本是无数人每天都在使用的一种人工智能写作形式。据AI行业研究机构称，到2022年，人工智能及
人工智能应用研究快讯 2021-11-30 峰谷皆平
[HTML]ArtificialIntelligenceforSkinCancerDetection:ScopingReviewATakiddin,JSchneider,YYang,AAbd-Alrazaq...JournalofMedicalInternet...,2021ABSTACT:Background:Skincanceristhemostcommoncancertypeaffectin
从振动信号到精准预警：AI 如何重塑工业设备健康管理？缘华工业智维人工智能计算机视觉边缘计算信息与通信
在智能制造浪潮席卷全球的当下，工业生产正经历着从传统模式向智能化、数字化转型的深刻变革。在这场变革中，AI驱动的振动分析技术犹如一颗璀璨新星，成为工业设备可靠运行的“健康卫士”。它通过在设备关键部位部署振动传感器，如同医生为患者听诊般实时采集设备运行时的振动信号，再借助强大的人工智能算法对这些“工业脉搏”进行深度解析，从而实现对工业设备从故障预警到寿命预测的全周期精准守护。一、AI振动分析：设备状
AI 生成虚拟宠物：24 小时陪你聊天解闷大力出奇迹985 人工智能宠物
本文围绕AI生成虚拟宠物展开，介绍这类依托人工智能技术诞生的虚拟伙伴，能实现24小时不间断陪伴聊天，为人们解闷。文中详细阐述其技术基础，包括自然语言处理、机器学习等；分析多样功能，如个性化互动、情绪回应等；探讨在独居人群、压力大者等不同群体中的应用场景，最后总结其为人们生活带来的积极影响及未来发展潜力，展现AI虚拟宠物在陪伴领域的独特价值。一、AI生成虚拟宠物的诞生背景与技术基石在快节奏的现代社会
GPT-4 在 AIGC 中的微调技巧：让模型更懂你的需求 AIGC应用创新大全 AI人工智能与大数据应用开发 MCP&Agent 云算力网络 AIGC ai
GPT-4在AIGC中的微调技巧：让模型更懂你的需求关键词：GPT-4、AIGC、模型微调、监督学习、指令优化、过拟合预防、个性化生成摘要：AIGC（人工智能生成内容）正在重塑内容创作行业，但通用的GPT-4模型可能无法精准匹配你的垂直需求——比如写电商爆款文案时总“跑题”，或生成技术文档时专业术语不够。本文将用“教小朋友学画画”的通俗类比，从微调的底层逻辑讲到实战技巧，带你掌握让GPT-4“更懂
AIGC内容生成实战：如何用ChatGPT+DALL·E打造高转化内容 AI大模型应用工坊 AI大模型开发实战 AIGC chatgpt ai
AIGC内容生成实战：如何用ChatGPT+DALL·E打造高转化内容关键词：AIGC、ChatGPT、DALL·E、内容生成、高转化营销、多模态协同、提示词工程摘要：随着AIGC（人工智能生成内容）技术的爆发式发展，ChatGPT（文本生成）与DALL·E（图像生成）的组合已成为内容创作领域的“黄金搭档”。本文将深度解析二者的协同原理，结合实战案例演示从需求分析到内容落地的全流程，并揭示提升内容
数据分析领域中AI人工智能的发展前景展望 AI大模型应用工坊 AI大模型开发实战数据分析人工智能数据挖掘 ai
数据分析领域中AI人工智能的发展前景展望关键词：数据分析、人工智能、机器学习、深度学习、数据挖掘、预测分析、自动化摘要：本文深入探讨了人工智能在数据分析领域的发展现状和未来趋势。我们将从核心技术原理出发，分析AI如何改变传统数据分析范式，详细讲解机器学习算法在数据分析中的应用，并通过实际案例展示AI驱动的数据分析解决方案。文章还将探讨行业应用场景、工具生态以及未来发展面临的挑战和机遇，为数据分析师
AI人工智能中的数据挖掘：提升智能决策能力
AI人工智能中的数据挖掘：提升智能决策能力关键词：数据挖掘、人工智能、机器学习、智能决策、数据分析、特征工程、模型优化摘要：本文深入探讨了数据挖掘在人工智能领域中的核心作用，重点分析了如何通过数据挖掘技术提升智能决策能力。文章从基础概念出发，详细介绍了数据挖掘的关键算法、数学模型和实际应用场景，并通过Python代码示例展示了数据挖掘的全流程。最后，文章展望了数据挖掘技术的未来发展趋势和面临的挑战
【三桥君】MCP中台，究竟如何实现多模型、多渠道、多环境的统一管控？如何以MCP为核心设计AI应用架构？三桥君《三桥君 MCP落地方法论》《三桥君 AI大模型落地方法论》#《三桥君 AI产品方法论》人工智能 AI产品经理 MCP API 三桥君系统架构 llama
你好，我是✨三桥君✨本文介绍>>一、引言随着人工智能技术的快速发展，越来越多的企业开始引入大语言模型（LLM）以提升用户体验和运营效率。然而，如何高效、稳定地将这些AI能力落地到生产环境呢？传统的系统架构往往难以应对AI应用的高并发、低延迟和灵活扩展需求，因此，从整体架构角度设计AI应用架构显得尤为重要。本文三桥君将深入探讨以MCP为核心的AI应用架构，并分析多种部署方式的优劣势，为企业在AI落地
深入理解卷积神经网络（CNN）与循环神经网络（RNN） CodeJourney. cnn rnn 人工智能
在当今的人工智能领域，神经网络无疑是最为璀璨的明珠之一。而卷积神经网络（ConvolutionalNeuralNetworks，CNN）和循环神经网络（RecurrentNeuralNetworks，RNN）作为神经网络家族中的重要成员，各自有着独特的架构和强大的功能，广泛应用于众多领域。本文将深入探讨这两种神经网络的原理、特点以及应用场景，为对深度学习感兴趣的读者提供全面的知识讲解。一、卷积神经
今年校招竞争真激烈 12_05
程序员满大街，都要找不到工作了。即使人工智能满大街，我也后悔当初没学机器学习，后悔当初没学Java。C++真难找工作。难道毕了业就失业吗？好担心！
时序预测 | MATLAB实现贝叶斯优化CNN-GRU时间序列预测(股票价格预测) Matlab机器学习之心 matlab cnn gru
✅作者简介：热爱数据处理、数学建模、仿真设计、论文复现、算法创新的Matlab仿真开发者。更多Matlab代码及仿真咨询内容点击主页：Matlab科研工作室个人信条：格物致知，期刊达人。内容介绍股票价格预测一直是金融领域一个极具挑战性的课题。其内在的非线性、随机性和复杂性使得传统的预测方法难以取得令人满意的效果。近年来，深度学习技术，特别是卷积神经网络(CNN)和门控循环单元(GRU)的结合，为时
时序预测 | MATLAB实现BO-CNN-GRU贝叶斯优化卷积门控循环单元时间序列预测 Matlab算法改进和仿真定制工程师 matlab cnn gru
✅作者简介：热爱数据处理、数学建模、算法创新的Matlab仿真开发者。更多Matlab代码及仿真咨询内容点击：Matlab科研工作室个人信条：格物致知。内容介绍时间序列预测在各个领域都具有重要的应用价值，例如金融市场预测、气象预报、交通流量预测等。准确地预测未来趋势对于决策制定至关重要。近年来，深度学习技术在时间序列预测领域取得了显著进展，其中卷积神经网络(CNN)和门控循环单元(GRU)由于其强
Python Gradio：实现交互式图像编辑 PythonAI编程架构实战家 Python编程之道 python 开发语言 ai
PythonGradio：实现交互式图像编辑关键词：Python,Gradio,交互式图像编辑,计算机视觉,深度学习,图像处理,Web应用摘要：本文将深入探讨如何使用Python的Gradio库构建交互式图像编辑应用。我们将从基础概念开始，逐步介绍Gradio的核心功能，并通过实际代码示例展示如何实现各种图像处理功能。文章将涵盖图像滤镜应用、对象检测、风格迁移等高级功能，同时提供完整的项目实战案例
如何运用深度学习打造高效AI人工智能系统 AI智能探索者 AI Agent 智能体开发实战人工智能深度学习 ai
如何运用深度学习打造高效AI人工智能系统关键词：深度学习、AI系统、神经网络、模型优化、实战开发摘要：本文将从深度学习的核心概念出发，结合生活实例和代码实战，系统讲解如何构建高效AI系统。我们会拆解数据准备、模型设计、训练优化、部署落地的全流程，揭秘“数据-模型-训练-推理”的协同机制，并通过具体案例演示从0到1开发AI系统的关键技巧，帮助开发者掌握打造高效AI系统的底层逻辑。背景介绍目的和范围在
非欧空间计算加速：图神经网络与微分几何计算的GPU优化（流形数据的内存布局优化策略）九章云极AladdinEdu 空间计算神经网络人工智能 gpu算力算法 java 开发语言
一、非欧空间计算的革命性意义与核心挑战在三维形状分析、社交网络建模、分子动力学模拟等领域，非欧几里得空间数据（流形数据）的处理正推动人工智能技术向更复杂的几何结构迈进。传统欧式空间优化方法在处理流形数据时面临根本性局限：黎曼度量导致距离计算失效、局部坐标系动态变化引发内存访问模式混乱、曲率变化影响并行计算效率。本文提出基于分块流形存储（BlockedManifoldStorage,BMS）与层次化
响应式编程实践：Spring Boot WebFlux构建高性能非阻塞服务 fanxbl957 Web spring boot 后端 java
博主介绍：Java、Python、js全栈开发“多面手”，精通多种编程语言和技术，痴迷于人工智能领域。秉持着对技术的热爱与执着，持续探索创新，愿在此分享交流和学习，与大家共进步。全栈开发环境搭建运行攻略：多语言一站式指南(环境搭建+运行+调试+发布+保姆级详解)感兴趣的可以先收藏起来，希望帮助更多的人响应式编程实践：SpringBootWebFlux构建高性能非阻塞服务一、引言在当今数字化时代，互
企业级RAG的数据方案选择 - 向量数据库、图数据库和知识图谱南七小僧 AI技术产品经理网站开发人工智能数据库知识图谱人工智能
如何为企业RAG选择合适的数据存储方式摘要:本文讨论了矢量数据库、图数据库和知识图谱在解决信息检索挑战方面的重要性，特别是针对企业规模的检索增强生成（RAG）。看看海外人工智能企业Writer是如何利用知识图谱增强企业级RAG。要点概要：矢量数据库高效存储数据，但缺乏上下文和关联信息。图数据库优先考虑数据点之间的关系，受益于关系结构。知识图谱在语义存储方面表现出色，由于其能够编码丰富的上下文信息，
【人工智能入门必看的最全Python编程实战（1）】 DFCED 人工智能 python 开发语言深度学习找工作就业
--------------------------------------------------------------------------------------------------------------------1.AIGC未来发展前景未完持续…1.1人工智能相关科研重要性拥有一篇人工智能科研论文及专利软著竞赛是保研考研留学深造以及找工作的关键门票！！！拥有一篇人工智能科研论文
基于深度学习的目标检测算法综述：从RCNN到YOLOv13，一文看懂十年演进！人工智能教程深度学习目标检测算法人工智能自动驾驶 YOLO 机器学习
一、引言：目标检测的十年巨变2012年AlexNet拉开深度学习序幕，2014年RCNN横空出世，目标检测从此进入“深度时代”。十年间，算法从两阶段到单阶段，从Anchor-base到Anchor-free，从CNN到Transformer，从2D到3D，从监督学习到自监督学习，迭代速度之快令人目不暇接。本文将系统梳理基于深度学习的目标检测算法，带你全面了解技术演进、核心思想、代表算法、工业落地与
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现不同水果的检测识别（C#代码，UI界面版）
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现不同水果的检测识别（C#代码，UI界面版））工业相机使用YoloV8模型实现不同水果的检测识别工业相机通过YoloV8模型实现不同水果的检测识别的技术背景在相机SDK中获取图像转换图像的代码分析工业相机图像转换Bitmap图像格式和Mat图像重要核心代码本地文件图像转换Bitmap图像格式和Mat图像重要核心代码Mat图像导入Yo
2025毫米波雷达技术白皮书：智能汽车与物联网的感知核心
随着人工智能、物联网（IoT）和智能汽车产业的迅猛发展，毫米波雷达技术正成为感知领域的核心驱动力。毫米波雷达凭借其高精度、全天候和强抗干扰能力，广泛应用于智能汽车的自动驾驶、物联网的环境感知以及工业自动化。2025年，毫米波雷达技术在性能、应用场景和市场规模上都达到了一个全新的高度。本白皮书将深入探讨毫米波雷达技术的核心优势、发展趋势及其在智能汽车与物联网中的应用前景，同时推荐各大品牌的领先产品方
从零开始构建深度学习环境：基于Pytorch、CUDA与cuDNN的虚拟环境搭建与实践（适合初学者）荣华富贵8 程序员的知识储备2 程序员的知识储备3 深度学习 pytorch 人工智能
摘要：深度学习正在引领人工智能技术的革新，而对于初学者来说，正确搭建深度学习环境是迈向AI研究与应用的第一步。本文将为读者提供一套详尽的教程，指导如何在本地环境中搭建Pytorch、CUDA与cuDNN，以及如何利用Anaconda和PyCharm进行高效开发。内容涵盖从环境配置、常见错误修正，到基础的深度学习模型构建及训练。我们旨在为深度学习零基础的入门者提供一个全面且易于理解的“保姆级”教程，
人工智能概念之九：深度学习概述
文章目录相关文章一、深度学习的定位：AI时代的基石技术1.1技术生态全景图1.2技术革命的催化剂二、深度学习的双面性：性能优势与技术挑战2.1技术优势全景扫描2.2技术挑战深度剖析三、技术演进时间轴：70年的厚积薄发四、主流框架生态对比五、未来演进方向相关文章人工智能概念之二：人工智能核心概念：网页链接一、深度学习的定位：AI时代的基石技术1.1技术生态全景图深度学习处于人工智能（AI）技术金字塔
H800核心技术突破与行业应用实战智能计算研究中心其他
内容概要在人工智能技术持续迭代的背景下，H800芯片凭借自主架构优化与算力跃升，成为推动行业场景化落地的关键驱动力。本文将从技术路径、性能突破与行业应用三个维度，系统解析H800如何在高并发计算与低延时响应领域实现底层架构创新。首先聚焦其自主架构优化的核心技术路径，包括动态资源调度算法与异构计算单元的深度协同设计，揭示其在能效比与计算密度上的突破逻辑；进一步结合算力跃升的具体表现，探讨该芯片如何通
智慧建筑：科技引领房地产与建筑业的未来 RedPhoenix45
最新接入DeepSeek-V3模型，点击下载最新版本InsCodeAIIDE智慧建筑：科技引领房地产与建筑业的未来随着科技的飞速发展，人工智能（AI）和智能化工具正以前所未有的速度改变着各行各业。在房地产与建筑领域，这种变革尤为显著。从建筑设计到施工管理，再到物业管理，智能化技术正在重塑行业的每一个环节。本文将探讨如何利用先进的智能化工具提升房地产与建筑行业的效率，并介绍一款革命性的开发工具——它
学苑教育杂志《学苑教育》杂志社学苑教育编辑部2025年第21期目录 QQ296078736 人工智能
专题研究推进“教-学-评”一体化，打造小学语文高效课堂刘月兰;4-6教育管理新高考制度下普通高中生涯教育课程设计的研究霍亚贞;马玲;7-9课堂教学核心素养下小学数学深度学习课堂的构建策略康贵景;10-12“双减”背景下初中英语教学的课堂模式高燕;13-15小学低年级数学说理课堂构建策略玉洁;16-18基于法治观念培育的道法课项目式教学策略许静;19-21“双师课堂”在初中语文写作教学中的实践孙巧玲
智慧施工：AI技术赋能建筑安全监测新纪元
开发AI智能应用，就下载InsCodeAIIDE，一键接入DeepSeek-R1满血版大模型！智慧施工：AI技术赋能建筑安全监测新纪元在现代建筑行业中，施工安全始终是核心关注点之一。随着科技的飞速发展，人工智能（AI）和大数据分析逐渐成为提升施工安全的重要工具。本文将探讨如何利用智能化软件和大模型API来构建高效的施工安全监测系统，并介绍一款强大的开发工具——InsCodeAIIDE的应用场景及其
智慧工地系统：建筑行业数字化变革的引领者青云智慧园区 java
在建筑行业积极迈向数字化转型的浪潮中，智慧工地系统凭借“数据驱动、智能管控、协同增效”的核心优势，深度融合物联网、大数据、人工智能等前沿技术，构建起覆盖工程项目全生命周期的精细化管理体系。以下将从系统架构、核心功能模块、应用价值以及未来展望等方面，全方位剖析智慧工地系统如何实现施工全过程的智能化、高效化管理。一、系统架构：打造一体化协同管理平台智慧工地系统采用先进的分层架构设计，以底层的数据采集层
AGI和AIGC傻傻分不清楚，一篇文章告诉你如何分辨！
Look！我们的大模型商业化落地产品更多AI资讯请关注Free三天集训营助教在线为您火热答疑‍什么是AGI(人工通用智能)?AGI是ArtificialGeneralIntelligence的缩写，中文翻译为“通用人工智能”，该术语指的是机器能够完成人类能够完成的任何智力任务的能力。与狭义的人工智能(ANI)不同，狭义的人工智能是为特定领域或问题而设计的，而AGI旨在实现一般的认知能力，能够适应任
遍历dom 并且存储（将每一层的DOM元素存在数组中）换个号韩国红果果 JavaScript html
数组从0开始！！ var a=[],i=0; for(var j=0;j<30;j++){ a[j]=[];//数组里套数组，且第i层存储在第a[i]中 } function walkDOM(n){ do{ if(n.nodeType!==3)//筛选去除#text类型 a[i].push(n); //con
Android+Jquery Mobile学习系列(9)-总结和代码分享白糖_ JQuery Mobile
目录导航经过一个多月的边学习边练手，学会了Android基于Web开发的毛皮，其实开发过程中用Android原生API不是很多，更多的是HTML/Javascript/Css。个人觉得基于WebView的Jquery Mobile开发有以下优点： 1、对于刚从Java Web转型过来的同学非常适合，只要懂得HTML开发就可以上手做事。 2、jquerym
impala参考资料 dayutianfei impala
记录一些有用的Impala资料 1. 入门资料 >>官网翻译： http://my.oschina.net/weiqingbin/blog?catalog=423691 2. 实用进阶 >>代码&架构分析： Impala/Hive现状分析与前景展望：http
JAVA 静态变量与非静态变量初始化顺序之新解周凡杨 java 静态非静态顺序
今天和同事争论一问题，关于静态变量与非静态变量的初始化顺序，谁先谁后，最终想整理出来！测试代码： import java.util.Map; public class T { public static T t = new T(); private Map map = new HashMap(); public T(){ System.out.println(&quo
跳出iframe返回外层页面 g21121 iframe
在web开发过程中难免要用到iframe，但当连接超时或跳转到公共页面时就会出现超时页面显示在iframe中，这时我们就需要跳出这个iframe到达一个公共页面去。首先跳转到一个中间页，这个页面用于判断是否在iframe中，在页面加载的过程中调用如下代码： <script type="text/javascript"> //<!-- function
JAVA多线程监听JMS、MQ队列 510888780 java多线程
背景：消息队列中有非常多的消息需要处理，并且监听器onMessage（）方法中的业务逻辑也相对比较复杂，为了加快队列消息的读取、处理速度。可以通过加快读取速度和加快处理速度来考虑。因此从这两个方面都使用多线程来处理。对于消息处理的业务处理逻辑用线程池来做。对于加快消息监听读取速度可以使用1.使用多个监听器监听一个队列；2.使用一个监听器开启多线程监听。对于上面提到的方法2使用一个监听器开启多线
第一个SpringMvc例子布衣凌宇 spring mvc
第一步：导入需要的包；第二步：配置web.xml文件 <?xml version="1.0" encoding="UTF-8"?> <web-app version="2.5" xmlns="http://java.sun.com/xml/ns/javaee" xmlns:xsi=
我的spring学习笔记15-容器扩展点之PropertyOverrideConfigurer aijuans Spring3
PropertyOverrideConfigurer类似于PropertyPlaceholderConfigurer，但是与后者相比，前者对于bean属性可以有缺省值或者根本没有值。也就是说如果properties文件中没有某个bean属性的内容，那么将使用上下文（配置的xml文件）中相应定义的值。如果properties文件中有bean属性的内容，那么就用properties文件中的值来代替上下
通过XSD验证XML antlove xml schema xsd validation SchemaFactory
1. XmlValidation.java package xml.validation; import java.io.InputStream; import javax.xml.XMLConstants; import javax.xml.transform.stream.StreamSource; import javax.xml.validation.Schem
文本流与字符集百合不是茶 PrintWrite()的使用字符集名字别名获取
文本数据的输入输出; 输入;数据流,缓冲流输出;介绍向文本打印格式化的输出PrintWrite(); package 文本流; import java.io.FileNotFound
ibatis模糊查询sqlmap-mapping-**.xml配置 bijian1013 ibatis
正常我们写ibatis的sqlmap-mapping-*.xml文件时，传入的参数都用##标识，如下所示： <resultMap id="personInfo" class="com.bijian.study.dto.PersonDTO"> <res
java jvm常用命令工具——jdb命令(The Java Debugger) bijian1013 java jvm jdb
用来对core文件和正在运行的Java进程进行实时地调试，里面包含了丰富的命令帮助您进行调试，它的功能和Sun studio里面所带的dbx非常相似，但 jdb是专门用来针对Java应用程序的。现在应该说日常的开发中很少用到JDB了，因为现在的IDE已经帮我们封装好了，如使用ECLI
【Spring框架二】Spring常用注解之Component、Repository、Service和Controller注解 bit1129 controller
在Spring常用注解第一步部分【Spring框架一】Spring常用注解之Autowired和Resource注解（http://bit1129.iteye.com/blog/2114084）中介绍了Autowired和Resource两个注解的功能，它们用于将依赖根据名称或者类型进行自动的注入，这简化了在XML中，依赖注入部分的XML的编写，但是UserDao和UserService两个bea
cxf wsdl2java生成代码super出错,构造函数不匹配 bitray super
由于过去对于soap协议的cxf接触的不是很多,所以遇到了也是迷糊了一会.后来经过查找资料才得以解决. 初始原因一般是由于jaxws2.2规范和jdk6及以上不兼容导致的.所以要强制降为jaxws2.1进行编译生成.我们需要少量的修改: 我们原来的代码 wsdl2java com.test.xxx -client http://..... 修改后的代
动态页面正文部分中文乱码排障一例 ronin47
公司网站一部分动态页面，早先使用apache+resin的架构运行，考虑到高并发访问下的响应性能问题，在前不久逐步开始用nginx替换掉了apache。不过随后发现了一个问题，随意进入某一有分页的网页，第一页是正常的（因为静态化过了）；点“下一页”，出来的页面两边正常，中间部分的标题、关键字等也正常，唯独每个标题下的正文无法正常显示。因为有做过系统调整，所以第一反应就是新上
java-54- 调整数组顺序使奇数位于偶数前面 bylijinnan java
import java.util.Arrays; import java.util.Random; import ljn.help.Helper; public class OddBeforeEven { /** * Q 54 调整数组顺序使奇数位于偶数前面 * 输入一个整数数组，调整数组中数字的顺序，使得所有奇数位于数组的前半部分，所有偶数位于数组的后半
从100PV到1亿级PV网站架构演变 cfyme 网站架构
一个网站就像一个人，存在一个从小到大的过程。养一个网站和养一个人一样，不同时期需要不同的方法，不同的方法下有共同的原则。本文结合我自已14年网站人的经历记录一些架构演变中的体会。 1：积累是必不可少的架构师不是一天练成的。 1999年，我作了一个个人主页，在学校内的虚拟空间，参加了一次主页大赛，几个DREAMWEAVER的页面，几个TABLE作布局，一个DB连接，几行PHP的代码嵌入在HTM
[宇宙时代]宇宙时代的GIS是什么？ comsci Gis
我们都知道一个事实，在行星内部的时候，因为地理信息的坐标都是相对固定的，所以我们获取一组GIS数据之后，就可以存储到硬盘中，长久使用。。。但是，请注意，这种经验在宇宙时代是不能够被继续使用的宇宙是一个高维时空
详解create database命令 czmmiao database
完整命令 CREATE DATABASE mynewdb USER SYS IDENTIFIED BY sys_password USER SYSTEM IDENTIFIED BY system_password LOGFILE GROUP 1 ('/u01/logs/my/redo01a.log','/u02/logs/m
几句不中听却不得不认可的话 datageek
1、人丑就该多读书。 2、你不快乐是因为：你可以像猪一样懒，却无法像只猪一样懒得心安理得。 3、如果你太在意别人的看法，那么你的生活将变成一件裤衩，别人放什么屁，你都得接着。 4、你的问题主要在于：读书不多而买书太多，读书太少又特爱思考，还他妈话痨。 5、与禽兽搏斗的三种结局：(1)、赢了，比禽兽还禽兽。(2)、输了，禽兽不如。(3)、平了，跟禽兽没两样。结论：选择正确的对手很重要。 6
1 14:00 PHP中的“syntax error, unexpected T_PAAMAYIM_NEKUDOTAYIM”错误 dcj3sjt126com PHP
原文地址：http://www.kafka0102.com/2010/08/281.html 因为需要，今天晚些在本机使用PHP做些测试，PHP脚本依赖了一堆我也不清楚做什么用的库。结果一跑起来，就报出类似下面的错误：“Parse error: syntax error, unexpected T_PAAMAYIM_NEKUDOTAYIM in /home/kafka/test/
xcode6 Auto layout and size classes dcj3sjt126com ios
官方GUI https://developer.apple.com/library/ios/documentation/UserExperience/Conceptual/AutolayoutPG/Introduction/Introduction.html iOS中使用自动布局（一） http://www.cocoachina.com/ind
通过PreparedStatement批量执行sql语句【sql语句相同，值不同】梦见x光 sql 事务批量执行
比如说：我有一个List需要添加到数据库中，那么我该如何通过PreparedStatement来操作呢？ public void addCustomerByCommit(Connection conn , List<Customer> customerList) { String sql = "inseret into customer(id
程序员必知必会----linux常用命令之十【系统相关】 hanqunfeng Linux常用命令
一.linux快捷键 Ctrl+C : 终止当前命令 Ctrl+S : 暂停屏幕输出 Ctrl+Q : 恢复屏幕输出 Ctrl+U : 删除当前行光标前的所有字符 Ctrl+Z : 挂起当前正在执行的进程 Ctrl+L : 清除终端屏幕，相当于clear 二.终端命令 clear : 清除终端屏幕 reset : 重置视窗，当屏幕编码混乱时使用 time com
NGINX IXHONG nginx
pcre 编译安装 nginx conf/vhost/test.conf upstream admin { server 127.0.0.1:8080; } server { listen 80; &
设计模式--工厂模式 kerryg 设计模式
工厂方式模式分为三种： 1、普通工厂模式：建立一个工厂类，对实现了同一个接口的一些类进行实例的创建。 2、多个工厂方法的模式：就是对普通工厂方法模式的改进，在普通工厂方法模式中，如果传递的字符串出错，则不能正确创建对象，而多个工厂方法模式就是提供多个工厂方法，分别创建对象。 3、静态工厂方法模式：就是将上面的多个工厂方法模式里的方法置为静态，
Spring InitializingBean/init-method和DisposableBean/destroy-method mx_xiehd java spring bean xml
1.initializingBean/init-method 实现org.springframework.beans.factory.InitializingBean接口允许一个bean在它的所有必须属性被BeanFactory设置后，来执行初始化的工作，InitialzingBean仅仅指定了一个方法。通常InitializingBean接口的使用是能够被避免的，（不鼓励使用，因为没有必要
解决Centos下vim粘贴内容格式混乱问题 qindongliang1922 centos vim
有时候，我们在向vim打开的一个xml，或者任意文件中，拷贝粘贴的代码时，格式莫名其毛的就混乱了，然后自己一个个再重新，把格式排列好，非常耗时，而且很不爽，那么有没有办法避免呢？答案是肯定的，设置下缩进格式就可以了，非常简单：在用户的根目录下直接vi ~/.vimrc文件然后将set pastetoggle=<F9> 写入这个文件中，保存退出，重新登录，
netty大并发请求问题 tianzhihehe netty
多线程并发使用同一个channel java.nio.BufferOverflowException: null at java.nio.HeapByteBuffer.put(HeapByteBuffer.java:183) ~[na:1.7.0_60-ea] at java.nio.ByteBuffer.put(ByteBuffer.java:832) ~[na:1.7.0_60-ea]
Hadoop NameNode单点问题解决方案之一 AvatarNode wyz2009107220 NameNode
我们遇到的情况 Hadoop NameNode存在单点问题。这个问题会影响分布式平台24*7运行。先说说我们的情况吧。我们的团队负责管理一个1200节点的集群(总大小12PB)，目前是运行版本为Hadoop 0.20，transaction logs写入一个共享的NFS filer(注：NetApp NFS Filer)。经常遇到需要中断服务的问题是给hadoop打补丁。 DataNod

译文《Learning to Drive in a Day》

你可能感兴趣的:(深度强化学习,深度学习,人工智能)