RavenRaaven

《Grokking Deep Reinforcement Learning》笔记（Chapter 8-10）

《Grokking DRL》笔记（Chapter 8-10）

第8-10章重点讲解了基于值的RL算法。

Chapter 8

本书依然聚焦于强化学习问题中智能体与环境交互之后得到的feedback signal的形式，前7章包含了sequential and evaluative feedback，而DRL的目标是构建一个能够从sequential, evaluative and sampled feedback中学习的智能体. 深度强化学习是关于complex sequential decision-making problems under uncertainty的，其中complex对应着sampled feedback，sequential decision making对应sequential feedback, problems under uncertainty对应着evaluative feedback.

基础知识回顾

DRL智能体处理sequential feedback：

这类反馈信号的特点对应的问题就是temporal credit assignment问题，即动作的影响是有延迟的。

例子如下：

与其对立的一种情况是immediate feedback, or one-shot feedback. 对应的问题类型有supervised learning（例如分类问题）, multi-armed bandits。在图像分类问题中，下一批要被分类的图片不会因为上一批输入给模型的图片是否被正确分类而变化。在bandit问题中也没有遇到sequential feedback。但在DRL中，这些问题存在（数据和模型之间是存在相关性的）。

DRL智能体处理evaluative feedback：

evaluative feedback的问题在于智能体在交互过程中得到的feedback是relative的，因为环境是不确定的，智能体也不知道真实的environment dynamics (transition function and reward function)。对应的问题是exploration-exploitation trade-off。

evaluative feedback对立的是supervised feedback. 仍然以classification problem为例。

Bandit problem要从evaluative feedback中学习（chapter 4给出了该问题下的探索-利用平衡）。该问题缺少supervision

DRL智能体处理sampled feedback：

DRL与tabular RL的区别在于问题的复杂度。DRL中智能体不可能exhaustively采样所有feedback，智能体需要有泛化能力，并基于此收集反馈并做出智能决策。

Supervised learning的核心问题处理sampled feedback，并能够泛化到新的样本。

sampled feedback的对立面是exhaustive feedback。tabular RL中面对的是exhaustive feedback，智能体只需要足够长的时间就可以采集所有的信息，因此Optimal convergence是存在的。

DRL解决的问题就是高维动作空间或状态空间。

Function Approximation for RL

使用函数近似的motivation是什么？强化学习问题可能会遇到高维状态或动作空间（例如Atari game中的pixel数量为210*160*3, 每一个像素的值有256个），或是连续的状态或动作空间（每一个状态的值都可以是无穷多个）。

本章所使用的环境：CartPole

使用function approximation的优势：能够使算法变得更有效，泛化能力相比表格式RL更强，并且能够发掘更复杂的关系，在function approximation的帮助下，智能体可以借助更少的数据学习和利用模式。Q-learning这些基于表格式的强化学习算法缺少泛化的能力。例如要拟合的是state-value function，那么在使用function approximation进行更新的时候，不仅仅是更新某个状态所对应的状态值，而是更新更多状态对应的值，如下图：

Neural Fitted Q（NFQ）Iteration 算法的7个元素以及该算法存在的问题

value-based 算法的七个要素（也可以特指NFQ算法的七个元素）：

选择要估计哪种值函数：状态值函数不能单独解决control problem，需要MDP的帮助（即引入决策）。第二种方法是估算action value function，该值可以解决control problem. 第三种是action-advantage function a(s,a)。本书大部分时候使用的是对action value function进行近似，记为 $Q(s,a;\theta)$
选取神经网络架构：第一种是将状态和动作作为神经网络的输入，但这种方法比较低效，更高效的方式是将状态作为神经网络的输入，一次性输出所有动作对应的Q值
选择要优化的对象：最理想情况下的优化目标是最优Q值与估计得到的Q值之间的差值平方和，但是该目标是无法获取的，因为optimal policy是未知的，所以算法会在Policy evaluation（通过从中采样actions）和policy improvement（使用探索策略）之间迭代，直到找到更好的策略。
选择targets for policy evaluation, 有以下几种targets可以选择，MC target，TD target, n-step target, lambda target. TD target中又分为SARSA target和Q-learning target。

将第三步中的optimal action-value function替换为TD target.

实现的过程中需要注意两个问题：第一个问题是只对Predicted values进行反向传播。RL中所谓的true values也来自Learned model (bootstrapping)，上文中的targets中的第一项reward是常数，但第二项是由model计算得出的，会导致一系列问题。在实现的时候将targets都设置为常数，在Pytorch中要使用detach method。第二个问题是如何处理terminal states. openAI GYM环境会手动终止环境条件，防止智能体花费太多timesteps完成一个任务。但问题在于如果规定范围内最后一个Timestep的本应该是获取奖赏值的state-action pair，由于该状态被人为设置为了结束，那么值函数就无法基于此更新。对于OpenAI gym可以找到“TimeLimit.truncated” in the info dictionary

选择探索策略。注意On-policy和off-policy的区别。
选择损失函数。MSE (mean squared error, or L2 loss)，损失函数中的true values是TD targets, 而Predicted values是action-value function.

选择一个优化方法。机器学习中常用的优化算法是gradient desecnt，如果要其稳定的话，需要以下几个假设：数据IID (independent and identically distributed)，targets必须是stationary. DL中较为流行的一个方法有以下几种：

其局限性在于batch gradient descent每次使用整个数据集。第二种方法式mini-batch gradient descent。

mini-batch gradient descent，一次只用一部分数据。如果将Mini-batch的batch-size设置为1，即得到了stochastic gradient descent. mini-batch size的大小一般在32~1024之间。

momentum方法朝着gradients的moving average更新网络参数，而不是gradient本身。momentum的代替算法是root mean square propagation (RMSprop)。

RMSprop采用更平稳的方法，按梯度幅度的移动平均值按比例缩放梯度。（RMSprop takes the safer bet of scaling the gradient in proportion to a moving average of the magnitude of gradients. 更准确的是 square root of the moving average of the square of the gradients均方根）

另一种方法Adam is a combination of RMSprop and momentum。Adam比RMSprop更激进。

RMSprop相比于Adam在基于值的方法中更稳定，对超参数不敏感。

完整的NFQ算法：

NFQ算法的问题：

第一个问题在于神经网络会一次性更新所有相似状态的值函数。因此所使用的targets是不稳定的。（non-stationary targets），因此训练也变得不稳定。

第二个问题在于使用的mini-batch数据相互之间是Correlated，因为大部分数据是来自于同一个trajectory和策略。这就意味着深度强化学习问题中IID假设是不成立的，与优化算法的假设相违背。下一个状态depend on the current state. 而策略的分布也是不断变化的，导致样本不是identically distributed。

Chapter 9

NFQ解决上述两个问题（非IID分布和Non-stationary targets）的思路是使用mini-batching and trianing one mini-batch for multiple epochs.

但也存在更好的解决技术。

Non-stationarity的问题：

DQN算法

使用target networks：目的是让targets的值更加稳定。用一个单独的网络计算targets.

target network的参数更新频率取决于要解决的问题，例如如果使用卷积神经网络解决Atari games, 则网络的尺寸选为10000为标准。使用target network的缺点在于我们放慢了Learning的速度。

使用更大规模的网络. 使用规模更大的网路的优势在于不同states之间的微小差异可以被检测出来。这一方法可以减少consecutive samples之间的相关性。

使用experience replay：解决的是数据不符合IID分布的问题，从buffer中采样更像深度学习中的supervised learning。

使用其他的探索策略：decaying epsilon-greedy, softmax strategy.

整个DQN的算法框图和总结：

Double DQN

DQN存在的问题是：overestimation，存在问题的原因在于DQN的targets中采用了Max运算符。

相比于DQN所做的改进措施：将action selection和action evaluation分开。在具体实现中，首先是将max进行unwrapping，max的过程就是先进行argmax, 之后利用argmax获取得到的动作对Q值进行选择，最后等效得到argmax.

如果直接将chapter 6中的double Q learning扩展到function approximation会带来不必要的内存负担(overhead)，训练需要两个网络，还有其分别对应的target networks，总共4个网络。一个更符合实际的解决方案是：直接将target network作为第二个网络，训练只训练一个Online model，而不训练target network, 类似于监督学习中的交叉验证。具体顺序是让Online model选择best action, 再让target network评估动作的好坏。

对于损失函数的选择：不仅仅可以选择MSE，也可以选择其他损失函数，MSE的缺点在于其相对于small errors，它惩罚large errors. 解决这个问题的另外一种奖赏函数是L1 loss （mean absolute error）。但MAE不足的地方在于梯度不会随着Loss趋于0而减少，因为梯度的减少说明函数值越来越接近最优解。Huber loss是这两个函数的混合。该函数由二次型函数和线性函数组成，在阈值范围（threshold $\delta$ ）之上是线性函数，在临近0附近是二次函数。损失函数、优化方式、学习率之间都是相互影响的。huber loss的实现方式包括两种，一种是直接对该函数的表达式进行实现，第二种是选择MSE作为损失函数，并对超过某个阈值的梯度设置为固定值，即clip the magnitude of the gradients.

Chapter 10

本章的目的是为了提升DQN算法的sample efficiency, 第一种方法是dueling DDQN, 将Q function切换成两个stream, 第一个近似计算V-function, 第二个近似计算A-function. 第二种方法是prioritizing replay。

Dueling DDQN

dueling netwrok architecture是加在网络结构上的改进。

Dueling DQN提出的motivation: 非dueling结构每次只能更新一个action. dueling结构每次都能够更新对于actions来说是全局的信息 $V (s)$ ，该信息对于所有状态都是可获取的，因此更新效率会更高。

使用advantages的优势：advantage function可以捕获动作的‘favorability’，可以轻易地看出动作值的大小并判断做出什么样的动作。

在构建网络结构的时候，对于 $V (s)$ 和 $A (s, a)$ ，在输出层的前一层要共享网络层和参数。如下图所示：

如何reconstruct the action-value function? 由于给定V,A不能重构出唯一的Q值，并且Advantage需要满足期望值为0的约束条件，所以在重建Q值的时候需要减去一个A的平均值。这样做的好处是可以稳定优化过程。

接下来是target network参数更新的问题，问题之一是使用的数据都是旧（stale）的，这些数据可能对网络的训练没有益处。问题之二是每隔一段时间都要对网络做一次很大的更新。这些问题都会造成训练的不稳定。

解决办法之一是Polyak Averaing, 每一步都保留大部分的网络参数，并对一小部分网络参数进行更新。

Dueling network的优势：能够快速并准确地对比值相近的动作，并且减少了function error and error variance，提升了policy evaluation的准确度。

如何直观理解哪一个算法更擅长对similarly valued action进行分辨？更好的算法得到的range更小，状态值的分布在中心范围附近。

Dueling DDQN相比于DDQN更加的sample efficient。

PER: Prioritizing the replay of meaningful experiences

一个反直觉的事实：一味地从replay buffer中给智能体more rewarding experiences并不能让智能体变得更好，反而会适得其反。在训练的过程中也是需要负样本的。那么该如何定义什么是‘重要的’样本呢？

直觉上应该是哪些能够让人‘意外的’样本，即期望和真实值（expectation and reality）相差较大的样本。强化学习中衡量该值的是absolute TD error。

选择TD error的优势在于计算方式已经给定了，而其他方法例如每一步计算replay buffer中数据的梯度是不现实的。

只使用Greedy prioritization by TD error会给算法带来哪些问题（即只根据TD error的大小来判断对应样本的重要程度会带来哪些问题）？

TD error计算了两次，第一次在将其加入replay buffer中，第二次在用TD error对网络进行训练的时候；解决方法是只更新用于训练网络的experiences的TD errors，并将其存入buffer并按照值的大小进行排序。但是又会出现其他问题，为0的TD error的数据不会被采样获取。第二，由于使用的是神经网络近似，损失会下降地非常快，说明更新只会发生在buffer中的一小部分中。除此之外，TD errors包含噪声，如果只是贪婪地采样，结果会严重被这些噪声所影响。

采样随机方式基于TD errors对replay buffer进行采样。为什么需要stochastic prioritization？随机场景和神经网络的使用都会造成TD errors方差较大。

思路就是先利用TD errors计算Priorities，再通过Priorities进行sample probability。

有以下2种根据TD errors对样本进行采样的方式：

**Proportional prioritization：**加入epsilon的目的是保证0 TD errors的样本也有几率被采样到。之后根据该值进行类似softmax的计算。

当 $\alpha$ 为0 时，采样的方式就是均匀采样，当 $\alpha=1$ 的时候，就是greedy prioritization.

Rank-based prioritization：proportional prioritization方法的缺点在于对outliers敏感，即较大TD error对应的样本（可能受噪声的影响）会有更大概率被采样。一种解决方法是通过rank来采样样本。rank指的是通过按TD error降序排列后所对应样本的位置（the position of the sample when sorted in descending order by the absolute TD error，for instance, highest absolute TD error rank 1, the second rank 2）。priority为rank的倒数，之后继续对priorities进行类softmax处理。

Prioritization bias

bias的问题出现在：使用一个分布去估算另一个分布会带来estimate bias. 我们的采样是基于通过priorities计算得来的概率分布，因此用这些从上述概率分布采样出来的数据进行更新与之前的公式中（之前的公式中数据的采样满足均匀分布 $\mathcal{U}$ ）期望的分布相同。下面的公式为之前的DDQN的损失函数公式。其中期望的分布是均匀分布。

更新的过程中使用到了reward，reward是均匀从replay buffer中采样获得的，而prioritization的问题在于它并不是均匀分布。

解决办法：利用重要度采样weighted importance sampling，目的是修改updates的大小，使其类似于均匀分布。

这里的期望遵循的分布是 $\mathcal{U}(\cdot)$ ，而prioritization的分布是 $P(\cdot)$ 。重要性采样的公式是： $E_{x\sim \mathcal{U}}[f(x)]=E_{x\sim P}[\frac{\mathcal{U}}{P}f(x)]$ ，公式如下

这里的weight为： $\mathcal{U}/P$ ，可以理解为： $w_i=(NP(i))^{-\beta}=\frac{(\frac{1}{N})^{\beta}}{P(i)^{\beta}}$
这里的超参数 $\beta$ 只是为了更好地调参，从而更好地优化算法效果。 当该值为0，则完全没有weighted importance sampling，这时bias最大；如果该值为1，则对于的是full correction of the bias。

这里期望的分布遵从prioritized sampling distribution，因此相比于原先的公式（DDQN的损失函数公式是按照均匀分布来计算的），需要在期望内的函数中增加一个权重项，权重见上述公式。

为了在未来的人工智能世界中取得成功，学生们必须学习人类写作的优点睿邸管家
澳大利亚各地的学生在新学年开始使用铅笔、钢笔和键盘学习写字。在工作场所，机器也在学习写作，如此有效，几年之内，它们可能会写得比人类更好。有时它们已经做到了，就像Grammarly这样的应用程序所展示的那样。当然，人类现在的日常写作可能很快就会由具有人工智能(AI)的机器来完成。手机和电子邮件软件常用的预测文本是无数人每天都在使用的一种人工智能写作形式。据AI行业研究机构称，到2022年，人工智能及
Anaconda 和 Miniconda：功能详解与选择建议古月฿ python入门 python conda
Anaconda和Miniconda详细介绍一、Anaconda的详细介绍1.什么是Anaconda？Anaconda是一个开源的包管理和环境管理工具，在数据科学、机器学习以及科学计算领域发挥着关键作用。它以Python和R语言为基础，为用户精心准备了大量预装库和工具，极大地缩短了搭建数据科学环境的时间。对于那些想要快速开展数据分析、模型训练等工作的人员来说，Anaconda就像是一个一站式的“数
人工智能应用研究快讯 2021-11-30 峰谷皆平
[HTML]ArtificialIntelligenceforSkinCancerDetection:ScopingReviewATakiddin,JSchneider,YYang,AAbd-Alrazaq...JournalofMedicalInternet...,2021ABSTACT:Background:Skincanceristhemostcommoncancertypeaffectin
机器学习必备数学与编程指南：从入门到精通 a小胡哦机器学习基础机器学习人工智能
一、机器学习核心数学基础1.线性代数（神经网络的基础）必须掌握：矩阵运算（乘法、转置、逆）向量空间与线性变换特征值分解与奇异值分解(SVD)为什么重要：神经网络本质就是矩阵运算学习技巧：用NumPy实际操作矩阵运算2.概率与统计（模型评估的关键）核心概念：条件概率与贝叶斯定理概率分布（正态、泊松、伯努利）假设检验与p值应用场景：朴素贝叶斯、A/B测试3.微积分（优化算法的基础）重点掌握：导数与偏导
从振动信号到精准预警：AI 如何重塑工业设备健康管理？缘华工业智维人工智能计算机视觉边缘计算信息与通信
在智能制造浪潮席卷全球的当下，工业生产正经历着从传统模式向智能化、数字化转型的深刻变革。在这场变革中，AI驱动的振动分析技术犹如一颗璀璨新星，成为工业设备可靠运行的“健康卫士”。它通过在设备关键部位部署振动传感器，如同医生为患者听诊般实时采集设备运行时的振动信号，再借助强大的人工智能算法对这些“工业脉搏”进行深度解析，从而实现对工业设备从故障预警到寿命预测的全周期精准守护。一、AI振动分析：设备状
AI 生成虚拟宠物：24 小时陪你聊天解闷大力出奇迹985 人工智能宠物
本文围绕AI生成虚拟宠物展开，介绍这类依托人工智能技术诞生的虚拟伙伴，能实现24小时不间断陪伴聊天，为人们解闷。文中详细阐述其技术基础，包括自然语言处理、机器学习等；分析多样功能，如个性化互动、情绪回应等；探讨在独居人群、压力大者等不同群体中的应用场景，最后总结其为人们生活带来的积极影响及未来发展潜力，展现AI虚拟宠物在陪伴领域的独特价值。一、AI生成虚拟宠物的诞生背景与技术基石在快节奏的现代社会
基于Python的AI健康助手：开发与部署全攻略 AI算力网络与通信 AI算力网络与通信原理 AI人工智能大数据架构 python 人工智能开发语言 ai
基于Python的AI健康助手：开发与部署全攻略关键词：Python、AI健康助手、机器学习、自然语言处理、Flask、部署、健康管理摘要：本文将详细介绍如何使用Python开发一个AI健康助手，从需求分析、技术选型到核心功能实现，再到最终部署上线的完整过程。我们将使用自然语言处理技术理解用户健康咨询，通过机器学习模型提供个性化建议，并展示如何用Flask框架构建Web应用接口。文章包含大量实际代
GPT-4 在 AIGC 中的微调技巧：让模型更懂你的需求 AIGC应用创新大全 AI人工智能与大数据应用开发 MCP&Agent 云算力网络 AIGC ai
GPT-4在AIGC中的微调技巧：让模型更懂你的需求关键词：GPT-4、AIGC、模型微调、监督学习、指令优化、过拟合预防、个性化生成摘要：AIGC（人工智能生成内容）正在重塑内容创作行业，但通用的GPT-4模型可能无法精准匹配你的垂直需求——比如写电商爆款文案时总“跑题”，或生成技术文档时专业术语不够。本文将用“教小朋友学画画”的通俗类比，从微调的底层逻辑讲到实战技巧，带你掌握让GPT-4“更懂
AIGC内容生成实战：如何用ChatGPT+DALL·E打造高转化内容 AI大模型应用工坊 AI大模型开发实战 AIGC chatgpt ai
AIGC内容生成实战：如何用ChatGPT+DALL·E打造高转化内容关键词：AIGC、ChatGPT、DALL·E、内容生成、高转化营销、多模态协同、提示词工程摘要：随着AIGC（人工智能生成内容）技术的爆发式发展，ChatGPT（文本生成）与DALL·E（图像生成）的组合已成为内容创作领域的“黄金搭档”。本文将深度解析二者的协同原理，结合实战案例演示从需求分析到内容落地的全流程，并揭示提升内容
数据分析领域中AI人工智能的发展前景展望 AI大模型应用工坊 AI大模型开发实战数据分析人工智能数据挖掘 ai
数据分析领域中AI人工智能的发展前景展望关键词：数据分析、人工智能、机器学习、深度学习、数据挖掘、预测分析、自动化摘要：本文深入探讨了人工智能在数据分析领域的发展现状和未来趋势。我们将从核心技术原理出发，分析AI如何改变传统数据分析范式，详细讲解机器学习算法在数据分析中的应用，并通过实际案例展示AI驱动的数据分析解决方案。文章还将探讨行业应用场景、工具生态以及未来发展面临的挑战和机遇，为数据分析师
AI人工智能中的数据挖掘：提升智能决策能力
AI人工智能中的数据挖掘：提升智能决策能力关键词：数据挖掘、人工智能、机器学习、智能决策、数据分析、特征工程、模型优化摘要：本文深入探讨了数据挖掘在人工智能领域中的核心作用，重点分析了如何通过数据挖掘技术提升智能决策能力。文章从基础概念出发，详细介绍了数据挖掘的关键算法、数学模型和实际应用场景，并通过Python代码示例展示了数据挖掘的全流程。最后，文章展望了数据挖掘技术的未来发展趋势和面临的挑战
数据中台中的数据科学工作台：Jupyter集成方案 AI大数据智能洞察大数据与AI人工智能 jupyter 信息可视化 ide ai
数据中台中的数据科学工作台：Jupyter集成方案关键词：数据中台、数据科学工作台、JupyterNotebook、数据科学、机器学习、数据可视化、协作开发摘要：本文深入探讨了在数据中台架构中集成JupyterNotebook作为数据科学工作台的完整解决方案。我们将从数据中台的基本概念出发，详细分析Jupyter在数据科学工作流中的核心作用，介绍多种集成方案和技术实现细节，并通过实际案例展示如何构
2018年中南大学中英翻译某翁
参考：20180827235856533.jpg【1】机器学习理论表明，机器学习算法能从有限个训练集样本上得到较好的泛化【1】Machinelearningtheoryshowsthatmachinelearningalgorithmcangeneralizewellfromfinitetrainingsetsampleslimited有限的infinite无限的【2】这似乎违背了一些基本的逻辑准
【三桥君】MCP中台，究竟如何实现多模型、多渠道、多环境的统一管控？如何以MCP为核心设计AI应用架构？三桥君《三桥君 MCP落地方法论》《三桥君 AI大模型落地方法论》#《三桥君 AI产品方法论》人工智能 AI产品经理 MCP API 三桥君系统架构 llama
你好，我是✨三桥君✨本文介绍>>一、引言随着人工智能技术的快速发展，越来越多的企业开始引入大语言模型（LLM）以提升用户体验和运营效率。然而，如何高效、稳定地将这些AI能力落地到生产环境呢？传统的系统架构往往难以应对AI应用的高并发、低延迟和灵活扩展需求，因此，从整体架构角度设计AI应用架构显得尤为重要。本文三桥君将深入探讨以MCP为核心的AI应用架构，并分析多种部署方式的优劣势，为企业在AI落地
深入理解卷积神经网络（CNN）与循环神经网络（RNN） CodeJourney. cnn rnn 人工智能
在当今的人工智能领域，神经网络无疑是最为璀璨的明珠之一。而卷积神经网络（ConvolutionalNeuralNetworks，CNN）和循环神经网络（RecurrentNeuralNetworks，RNN）作为神经网络家族中的重要成员，各自有着独特的架构和强大的功能，广泛应用于众多领域。本文将深入探讨这两种神经网络的原理、特点以及应用场景，为对深度学习感兴趣的读者提供全面的知识讲解。一、卷积神经
今年校招竞争真激烈 12_05
程序员满大街，都要找不到工作了。即使人工智能满大街，我也后悔当初没学机器学习，后悔当初没学Java。C++真难找工作。难道毕了业就失业吗？好担心！
时序预测 | MATLAB实现贝叶斯优化CNN-GRU时间序列预测(股票价格预测) Matlab机器学习之心 matlab cnn gru
✅作者简介：热爱数据处理、数学建模、仿真设计、论文复现、算法创新的Matlab仿真开发者。更多Matlab代码及仿真咨询内容点击主页：Matlab科研工作室个人信条：格物致知，期刊达人。内容介绍股票价格预测一直是金融领域一个极具挑战性的课题。其内在的非线性、随机性和复杂性使得传统的预测方法难以取得令人满意的效果。近年来，深度学习技术，特别是卷积神经网络(CNN)和门控循环单元(GRU)的结合，为时
时序预测 | MATLAB实现BO-CNN-GRU贝叶斯优化卷积门控循环单元时间序列预测 Matlab算法改进和仿真定制工程师 matlab cnn gru
✅作者简介：热爱数据处理、数学建模、算法创新的Matlab仿真开发者。更多Matlab代码及仿真咨询内容点击：Matlab科研工作室个人信条：格物致知。内容介绍时间序列预测在各个领域都具有重要的应用价值，例如金融市场预测、气象预报、交通流量预测等。准确地预测未来趋势对于决策制定至关重要。近年来，深度学习技术在时间序列预测领域取得了显著进展，其中卷积神经网络(CNN)和门控循环单元(GRU)由于其强
Python Gradio：实现交互式图像编辑 PythonAI编程架构实战家 Python编程之道 python 开发语言 ai
PythonGradio：实现交互式图像编辑关键词：Python,Gradio,交互式图像编辑,计算机视觉,深度学习,图像处理,Web应用摘要：本文将深入探讨如何使用Python的Gradio库构建交互式图像编辑应用。我们将从基础概念开始，逐步介绍Gradio的核心功能，并通过实际代码示例展示如何实现各种图像处理功能。文章将涵盖图像滤镜应用、对象检测、风格迁移等高级功能，同时提供完整的项目实战案例
基于随机森林的白酒风味智能分类系统：从数据到洞察的完整实践笙囧同学 python
作者：笙囧同学|中科院计算机大模型方向硕士|全栈开发爱好者座右铭：偷懒是人生进步的阶梯联系方式：[email protected]各大平台账号/公众号：笙囧同学前言大家好，我是笙囧同学！今天给大家分享一个超级有趣且技术含量爆表的项目——白酒风味智能分类系统。作为一个既爱技术又爱美酒的程序员，我花了大量时间研究如何用机器学习的方法来"品酒"，让AI帮我们识别白酒的风味特征。这个项目融合了机器学习、数
如何运用深度学习打造高效AI人工智能系统 AI智能探索者 AI Agent 智能体开发实战人工智能深度学习 ai
如何运用深度学习打造高效AI人工智能系统关键词：深度学习、AI系统、神经网络、模型优化、实战开发摘要：本文将从深度学习的核心概念出发，结合生活实例和代码实战，系统讲解如何构建高效AI系统。我们会拆解数据准备、模型设计、训练优化、部署落地的全流程，揭秘“数据-模型-训练-推理”的协同机制，并通过具体案例演示从0到1开发AI系统的关键技巧，帮助开发者掌握打造高效AI系统的底层逻辑。背景介绍目的和范围在
非欧空间计算加速：图神经网络与微分几何计算的GPU优化（流形数据的内存布局优化策略）九章云极AladdinEdu 空间计算神经网络人工智能 gpu算力算法 java 开发语言
一、非欧空间计算的革命性意义与核心挑战在三维形状分析、社交网络建模、分子动力学模拟等领域，非欧几里得空间数据（流形数据）的处理正推动人工智能技术向更复杂的几何结构迈进。传统欧式空间优化方法在处理流形数据时面临根本性局限：黎曼度量导致距离计算失效、局部坐标系动态变化引发内存访问模式混乱、曲率变化影响并行计算效率。本文提出基于分块流形存储（BlockedManifoldStorage,BMS）与层次化
Spring AI与机器学习：智能应用开发新范式 tmjpz04412 人工智能 spring 机器学习
SpringAI与机器学习的整合SpringAI是一个基于Spring生态的AI开发框架，旨在简化智能应用的开发流程。通过SpringAI，开发者可以快速集成机器学习模型，构建高效的智能应用。SpringAI支持多种机器学习库和框架，如TensorFlow、PyTorch和Scikit-learn，提供统一的API接口。SpringAI的核心优势在于其模块化设计和自动化配置。开发者无需关心复杂的依
响应式编程实践：Spring Boot WebFlux构建高性能非阻塞服务 fanxbl957 Web spring boot 后端 java
博主介绍：Java、Python、js全栈开发“多面手”，精通多种编程语言和技术，痴迷于人工智能领域。秉持着对技术的热爱与执着，持续探索创新，愿在此分享交流和学习，与大家共进步。全栈开发环境搭建运行攻略：多语言一站式指南(环境搭建+运行+调试+发布+保姆级详解)感兴趣的可以先收藏起来，希望帮助更多的人响应式编程实践：SpringBootWebFlux构建高性能非阻塞服务一、引言在当今数字化时代，互
企业级RAG的数据方案选择 - 向量数据库、图数据库和知识图谱南七小僧 AI技术产品经理网站开发人工智能数据库知识图谱人工智能
如何为企业RAG选择合适的数据存储方式摘要:本文讨论了矢量数据库、图数据库和知识图谱在解决信息检索挑战方面的重要性，特别是针对企业规模的检索增强生成（RAG）。看看海外人工智能企业Writer是如何利用知识图谱增强企业级RAG。要点概要：矢量数据库高效存储数据，但缺乏上下文和关联信息。图数据库优先考虑数据点之间的关系，受益于关系结构。知识图谱在语义存储方面表现出色，由于其能够编码丰富的上下文信息，
【人工智能入门必看的最全Python编程实战（1）】 DFCED 人工智能 python 开发语言深度学习找工作就业
--------------------------------------------------------------------------------------------------------------------1.AIGC未来发展前景未完持续…1.1人工智能相关科研重要性拥有一篇人工智能科研论文及专利软著竞赛是保研考研留学深造以及找工作的关键门票！！！拥有一篇人工智能科研论文
基于深度学习的目标检测算法综述：从RCNN到YOLOv13，一文看懂十年演进！人工智能教程深度学习目标检测算法人工智能自动驾驶 YOLO 机器学习
一、引言：目标检测的十年巨变2012年AlexNet拉开深度学习序幕，2014年RCNN横空出世，目标检测从此进入“深度时代”。十年间，算法从两阶段到单阶段，从Anchor-base到Anchor-free，从CNN到Transformer，从2D到3D，从监督学习到自监督学习，迭代速度之快令人目不暇接。本文将系统梳理基于深度学习的目标检测算法，带你全面了解技术演进、核心思想、代表算法、工业落地与
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现不同水果的检测识别（C#代码，UI界面版）
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现不同水果的检测识别（C#代码，UI界面版））工业相机使用YoloV8模型实现不同水果的检测识别工业相机通过YoloV8模型实现不同水果的检测识别的技术背景在相机SDK中获取图像转换图像的代码分析工业相机图像转换Bitmap图像格式和Mat图像重要核心代码本地文件图像转换Bitmap图像格式和Mat图像重要核心代码Mat图像导入Yo
2025毫米波雷达技术白皮书：智能汽车与物联网的感知核心
随着人工智能、物联网（IoT）和智能汽车产业的迅猛发展，毫米波雷达技术正成为感知领域的核心驱动力。毫米波雷达凭借其高精度、全天候和强抗干扰能力，广泛应用于智能汽车的自动驾驶、物联网的环境感知以及工业自动化。2025年，毫米波雷达技术在性能、应用场景和市场规模上都达到了一个全新的高度。本白皮书将深入探讨毫米波雷达技术的核心优势、发展趋势及其在智能汽车与物联网中的应用前景，同时推荐各大品牌的领先产品方
从零开始构建深度学习环境：基于Pytorch、CUDA与cuDNN的虚拟环境搭建与实践（适合初学者）荣华富贵8 程序员的知识储备2 程序员的知识储备3 深度学习 pytorch 人工智能
摘要：深度学习正在引领人工智能技术的革新，而对于初学者来说，正确搭建深度学习环境是迈向AI研究与应用的第一步。本文将为读者提供一套详尽的教程，指导如何在本地环境中搭建Pytorch、CUDA与cuDNN，以及如何利用Anaconda和PyCharm进行高效开发。内容涵盖从环境配置、常见错误修正，到基础的深度学习模型构建及训练。我们旨在为深度学习零基础的入门者提供一个全面且易于理解的“保姆级”教程，
Spring的注解积累 yijiesuifeng spring 注解
用注解来向Spring容器注册Bean。需要在applicationContext.xml中注册： <context:component-scan base-package=”pagkage1[,pagkage2,…,pagkageN]”/>。如：在base-package指明一个包 <context:component-sc
传感器百合不是茶 android 传感器
android传感器的作用主要就是来获取数据,根据得到的数据来触发某种事件下面就以重力传感器为例; 1,在onCreate中获得传感器服务 private SensorManager sm;// 获得系统的服务 private Sensor sensor;// 创建传感器实例 @Override protected void
[光磁与探测]金吕玉衣的意义 comsci
这是一个古代人的秘密:现在告诉大家信不信由你们: 穿上金律玉衣的人,如果处于灵魂出窍的状态,可以飞到宇宙中去看星星这就是为什么古代
精简的反序打印某个数沐刃青蛟打印
以前看到一些让求反序打印某个数的程序。比如：输入123，输出321。记得以前是告诉你是几位数的，当时就抓耳挠腮，完全没有思路。似乎最后是用到%和/方法解决的。而今突然想到一个简短的方法，就可以实现任意位数的反序打印（但是如果是首位数或者尾位数为0时就没有打印出来了）代码如下： long num, num1=0;
PHP：6种方法获取文件的扩展名 IT独行者 PHP 扩展名
PHP：6种方法获取文件的扩展名 1、字符串查找和截取的方法 1 $extension = substr ( strrchr ( $file , '.' ), 1); 2、字符串查找和截取的方法二 1 $extension = substr
面试111 文强chu 面试
1事务隔离级别有那些，事务特性是什么（问到一次） 2 spring aop 如何管理事务的，如何实现的。动态代理如何实现，jdk怎么实现动态代理的，ioc是怎么实现的，spring是单例还是多例，有那些初始化bean的方式，各有什么区别（经常问） 3 struts默认提供了那些拦截器（一次） 4 过滤器和拦截器的区别（频率也挺高） 5 final，finally final
XML的四种解析方式小桔子 dom jdom dom4j sax
在平时工作中，难免会遇到把 XML 作为数据存储格式。面对目前种类繁多的解决方案，哪个最适合我们呢？在这篇文章中，我对这四种主流方案做一个不完全评测，仅仅针对遍历 XML 这块来测试，因为遍历 XML 是工作中使用最多的（至少我认为）。　　预备　　测试环境：　　AMD 毒龙1.4G OC 1.5G、256M DDR333、Windows2000 Server
wordpress中常见的操作 aichenglong 中文注册 wordpress 移除菜单
1 wordpress中使用中文名注册解决办法 1)使用插件 2)修改wp源代码进入到wp-include/formatting.php文件中找到 function sanitize_user( $username, $strict = false
小飞飞学管理-1 alafqq 管理
项目管理的下午题，其实就在提出问题（挑刺），分析问题，解决问题。今天我随意看下10年上半年的第一题。主要就是项目经理的提拨和培养。结合我自己经历写下心得对于公司选拔和培养项目经理的制度有什么毛病呢？ 1，公司考察，选拔项目经理，只关注技术能力，而很少或没有关注管理方面的经验，能力。 2，公司对项目经理缺乏必要的项目管理知识和技能方面的培训。 3，公司对项目经理的工作缺乏进行指
IO输入输出部分探讨百合不是茶 IO
//文件处理在处理文件输入输出时要引入java.IO这个包； /* 1，运用File类对文件目录和属性进行操作 2，理解流，理解输入输出流的概念 3，使用字节/符流对文件进行读/写操作 4，了解标准的I/O 5，了解对象序列化 */ //1，运用File类对文件目录和属性进行操作 //在工程中线创建一个text.txt
getElementById的用法 bijian1013 element
getElementById是通过Id来设置/返回HTML标签的属性及调用其事件与方法。用这个方法基本上可以控制页面所有标签，条件很简单，就是给每个标签分配一个ID号。返回具有指定ID属性值的第一个对象的一个引用。语法： &n
励志经典语录 bijian1013 励志人生
经典语录1: 哈佛有一个著名的理论：人的差别在于业余时间，而一个人的命运决定于晚上8点到10点之间。每晚抽出2个小时的时间用来阅读、进修、思考或参加有意的演讲、讨论，你会发现，你的人生正在发生改变，坚持数年之后，成功会向你招手。不要每天抱着QQ/MSN/游戏/电影/肥皂剧……奋斗到12点都舍不得休息，看就看一些励志的影视或者文章，不要当作消遣；学会思考人生，学会感悟人生
[MongoDB学习笔记三]MongoDB分片 bit1129 mongodb
MongoDB的副本集(Replica Set)一方面解决了数据的备份和数据的可靠性问题，另一方面也提升了数据的读写性能。MongoDB分片(Sharding)则解决了数据的扩容问题，MongoDB作为云计算时代的分布式数据库，大容量数据存储，高效并发的数据存取，自动容错等是MongoDB的关键指标。本篇介绍MongoDB的切片(Sharding) 1.何时需要分片 &nbs
【Spark八十三】BlockManager在Spark中的使用场景 bit1129 manager
1. Broadcast变量的存储，在HttpBroadcast类中可以知道 2. RDD通过CacheManager存储RDD中的数据，CacheManager也是通过BlockManager进行存储的 3. ShuffleMapTask得到的结果数据，是通过FileShuffleBlockManager进行管理的，而FileShuffleBlockManager最终也是使用BlockMan
yum方式部署zabbix ronin47 yum方式部署zabbix
安装网络yum库#rpm -ivh http://repo.zabbix.com/zabbix/2.4/rhel/6/x86_64/zabbix-release-2.4-1.el6.noarch.rpm 通过yum装mysql和zabbix调用的插件还有agent代理#yum install zabbix-server-mysql zabbix-web-mysql mysql-
Hibernate4和MySQL5.5自动创建表失败问题解决方法 byalias J2EE Hibernate4
今天初学Hibernate4，了解了使用Hibernate的过程。大体分为4个步骤： ①创建hibernate.cfg.xml文件 ②创建持久化对象 ③创建*.hbm.xml映射文件 ④编写hibernate相应代码在第四步中，进行了单元测试，测试预期结果是hibernate自动帮助在数据库中创建数据表，结果JUnit单元测试没有问题，在控制台打印了创建数据表的SQL语句，但在数据库中
Netty源码学习-FrameDecoder bylijinnan java netty
Netty 3.x的user guide里FrameDecoder的例子，有几个疑问： 1.文档说：FrameDecoder calls decode method with an internally maintained cumulative buffer whenever new data is received. 为什么每次有新数据到达时，都会调用decode方法？ 2.Dec
SQL行列转换方法 chicony 行列转换
create table tb(终端名称 varchar(10) , CEI分值 varchar(10) , 终端数量 int) insert into tb values('三星' , '0-5' , 74) insert into tb values('三星' , '10-15' , 83) insert into tb values('苹果' , '0-5' , 93)
中文编码测试 ctrain 编码
循环打印转换编码 String[] codes = { "iso-8859-1", "utf-8", "gbk", "unicode" }; for (int i = 0; i < codes.length; i++) { for (int j
hive 客户端查询报堆内存溢出解决方法 daizj hive 堆内存溢出
hive> select * from t_test where ds=20150323 limit 2; OK Exception in thread "main" java.lang.OutOfMemoryError: Java heap space 问题原因： hive堆内存默认为256M 这个问题的解决方法为：修改/us
人有多大懒，才有多大闲 (评论『卓有成效的程序员』) dcj3sjt126com 程序员
卓有成效的程序员给我的震撼很大，程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可以那么勤奋，每天都孜孜不倦得做着重复单调的工作。在看这本书之前，我属于勤奋的人，而看完这本书以后，我要努力变成懒惰的人。不要在去庞大的开始菜单里面一项一项搜索自己的应用程序，也不要在自己的桌面上放置眼花缭乱的快捷图标
Eclipse简单有用的配置 dcj3sjt126com eclipse
1、显示行号 Window -- Prefences -- General -- Editors -- Text Editors -- show line numbers 2、代码提示字符 Window ->Perferences，并依次展开 Java -> Editor -> Content Assist，最下面一栏 auto-Activation
在tomcat上面安装solr4.8.0全过程 eksliang Solr solr4.0后的版本安装 solr4.8.0安装
转载请出自出处： http://eksliang.iteye.com/blog/2096478 首先solr是一个基于java的web的应用，所以安装solr之前必须先安装JDK和tomcat，我这里就先省略安装tomcat和jdk了第一步：当然是下载去官网上下载最新的solr版本，下载地址
Android APP通用型拒绝服务、漏洞分析报告 gg163 漏洞 android APP 分析
点评：记得曾经有段时间很多SRC平台被刷了大量APP本地拒绝服务漏洞，移动安全团队爱内测（ineice.com）发现了一个安卓客户端的通用型拒绝服务漏洞，来看看他们的详细分析吧。 0xr0ot和Xbalien交流所有可能导致应用拒绝服务的异常类型时，发现了一处通用的本地拒绝服务漏洞。该通用型本地拒绝服务可以造成大面积的app拒绝服务。针对序列化对象而出现的拒绝服务主要
HoverTree项目已经实现分层 hvt 编程 .net Web C#ASP.ENT
HoverTree项目已经初步实现分层，源代码已经上传到 http://hovertree.codeplex.com请到SOURCE CODE查看。在本地用SQL Server 2008 数据库测试成功。数据库和表请参考：http://keleyi.com/a/bjae/ue6stb42.htmHoverTree是一个ASP.NET 开源项目，希望对你学习ASP.NET或者C#语言有帮助，如果你对
Google Maps API v3: Remove Markers 移除标记天梯梦 google maps api
Simply do the following: I. Declare a global variable: var markersArray = []; II. Define a function: function clearOverlays() { for (var i = 0; i < markersArray.length; i++ )
jQuery选择器总结 lq38366 jquery 选择器
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
基础数据结构和算法六：Quick sort sunwinner Algorithm Quicksort
Quick sort is probably used more widely than any other. It is popular because it is not difficult to implement, works well for a variety of different kinds of input data, and is substantially faster t
如何让Flash不遮挡HTML div元素的技巧_HTML/Xhtml_网页制作刘星宇 html Web
今天在写一个flash广告代码的时候，因为flash自带的链接，容易被当成弹出广告，所以做了一个div层放到flash上面，这样链接都是a触发的不会被拦截，但发现flash一直处于div层上面，原来flash需要加个参数才可以。让flash置于DIV层之下的方法，让flash不挡住飘浮层或下拉菜单，让Flash不档住浮动对象或层的关键参数：wmode=opaque。方法如下：
Mybatis实用Mapper SQL汇总示例 wdmcygah sql mysql mybatis 实用
Mybatis作为一个非常好用的持久层框架，相关资料真的是少得可怜，所幸的是官方文档还算详细。本博文主要列举一些个人感觉比较常用的场景及相应的Mapper SQL写法，希望能够对大家有所帮助。不少持久层框架对动态SQL的支持不足，在SQL需要动态拼接时非常苦恼，而Mybatis很好地解决了这个问题，算是框架的一大亮点。对于常见的场景，例如：批量插入/更新/删除，模糊查询，多条件查询，联表查询，