E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
深度强化学习
中科院自动化所:基于关系图
深度强化学习
的机器人多目标包围问题新算法
摘要:中科院自动化所蒲志强教授团队,提出一种基于关系图的
深度强化学习
方法,应用于多目标避碰包围(MECA)问题,使用NOKOV度量动作捕捉系统获取多机器人位置信息,验证了方法的有效性和适应性。
MocapLeader
·
2024-01-17 20:31
动作捕捉
机器人
算法
MECA
深度强化学习
关系图
多目标包围
中科院
2024年1月16日Arxiv热门
深度强化学习
论文:IDENTIFYING POLICY GRADIENT SUBSPACES
引言:
深度强化学习
中的梯度子空间探索
深度强化学习
(DeepReinforcementLearning,DRL)在解决复杂的连续控制任务中取得了显著成就,从Atari游戏到各种真实的机器人挑战,DRL的成功案例不胜枚举
夕小瑶
·
2024-01-17 10:16
人工智能
深度学习
强化学习
机器学习
深度强化学习
算法PPO训练CartPole
PPO代码部分,训练离散动作1.导入必须要的包importtorchimporttorch.nnasnnimporttorch.nn.functionalasfimporttorch.optimasoptimfromtorch.distributionsimportCategoricalfromcollectionsimportdequeimportrandomimportmatplotlib.p
槑槑紫
·
2024-01-17 06:27
强化学习
算法
人工智能
python
pytorch
深度学习
深度学习机器臂控制_基于
深度强化学习
的机器人手臂控制
基于
深度强化学习
的机器人手臂控制杨淑珍;韩建宇;梁盼;古彭;杨发展;吕萍丽【期刊名称】《福建电脑》【年(卷),期】2019(035)001【摘要】基于
深度强化学习
策略,研究了机器人手臂控制问题.以两节机器人手臂为对象
觉主小VV
·
2024-01-16 22:54
深度学习机器臂控制
【强化学习与机器人控制论文 1】基于
深度强化学习
的机械臂避障
基于
深度强化学习
的机械臂避障1.引言2.论文解读2.1背景2.2将NAF算法用在机器人避障中3.总结1.引言本文介绍一篇2018年发表在EuropeanControlConference的文章,虽然不是顶会
ReEchooo
·
2024-01-16 22:24
强化学习与机器人控制论文解读
算法
人工智能
机器学习
NLP论文阅读记录 - 2021 | WOS 使用
深度强化学习
及其他技术进行自动文本摘要
文章目录前言0、论文摘要一、Introduction1.1目标问题1.2相关的尝试1.3本文贡献二.相关工作2.1.Seq2seq模型2.2.强化学习和序列生成2.3.自动文本摘要三.本文方法四实验效果4.1数据集4.2对比模型4.3实施细节4.4评估指标4.5实验结果4.6细粒度分析五总结思考前言AutomaticTextSummarizationUsingDeepReinforcementLe
yuyuyu_xxx
·
2024-01-15 02:57
NLP
自然语言处理
论文阅读
人工智能
深度强化学习
Actor-Critic的更新逻辑梳理笔记
深度强化学习
Actor-Critic的更新逻辑梳理笔记文章目录
深度强化学习
Actor-Critic的更新逻辑梳理笔记前言:Actor-Critic架构简介:critic的更新逻辑actor的更新逻辑:前言
hehedadaq
·
2024-01-14 22:32
DDPG
DRL
学习笔记
深度强化学习
DRL
强化学习
梯度上升
深度强化学习
——actor-critic算法(4)
一、本文概要:actor是策略网络,用来控制agent运动,你可以把他看作是运动员,critic是价值网络,用来给动作打分,你可以把critic看作是裁判,这节课的内容就是构造这两个神经网络,然后通过环境给的奖励来学习这两个网络1、首先看一下如何构造价值网络valuenetwork:Π和QΠ这两个函数我们都不知道,应该怎么办呢?》可以用两个神经网络分别近似这两个函数,然后用actor-critic
Tandy12356_
·
2024-01-14 22:01
深度强化学习
python
人工智能
神经网络
深度学习
机器学习
Proximal Policy Optimization
-李宏毅老师的视频地址:李宏毅
深度强化学习
(国语)课程(2018)_哔哩哔哩_bilibiliPPO算法是PolicyGradient方法的一种改进版本PolicyGradient算法回顾在PG算法中,
神奇的托尔巴拉德
·
2024-01-11 12:33
模型预测控制MPC
而在
深度强化学习
领域,基于模型的方法通常用神经网络学习一个环境模型,然后利用该环境模型来帮助智能体训练和决策。利用环境模型帮助智能体训练和决策的方法有很多种,例如可以利用与之前的Dyna类似的
oceancoco
·
2024-01-11 08:27
python
pytorch
人工智能
机器学习周刊 第4期:动手实战人工智能、计算机科学热门论文、免费的基于ChatGPT API的安卓端语音助手、每日数学、检索增强 (RAG) 生成技术综述
目录:1、动手实战人工智能Hands-onAl2、huggingface的NLP、
深度强化学习
、语音课3、AwesomeJupyter4、计算机科学热门论文5、LLM开发者必读论文:检索增强(RAG)生成技术综述
机器学习算法与Python实战
·
2024-01-08 13:50
人工智能
机器学习
chatgpt
论文阅读-基于
深度强化学习
的方法解决多智能体防御和攻击问题
论文原题目:Adeepreinforcementlearning-basedmethodappliedforsolvingmulti-agentdefenseandattackproblems论文链接:https://www.sciencedirect.com/science/article/pii/S0957417421003377论文信息:目录1引言2问题制定与环境建模2.1多智能体防御与攻击
天寒心亦热
·
2024-01-08 08:54
强化学习
多智能体强化学习
攻击和防御
论文阅读
多智能体强化学习
MADDPG
DDPG
攻击和防御
深度强化学习
落地方法论(2)—— 需求分析篇
前言弘扬中华传统美德,丑话要说在前面。任何机器学习方法都不是包治百病的灵丹妙药,它们也有各自的“舒适圈”,有时候还相当挑剔。强化学习,无论前面带不带“深度”二字,也同样有其鲜明的优势和局限性,务必要具体问题具体分析。不管公众号吹嘘得多么厉害,我们自己要摆正心态,不是所有需求都适合用DRL做,适合用DRL做的需求也未必能超越传统方法。在我看来,算法工程师的核心能力可以总结成以下三点:1.对各种算法本
WYJJYN
·
2024-01-08 04:12
Deep Q-Network (DQN)理解
DQN(DeepQ-Network)是
深度强化学习
(DeepReinforcementLearning)的开山之作,将深度学习引入强化学习中,构建了Perception到Decision的End-to-end
兔兔爱学习兔兔爱学习
·
2024-01-03 20:59
python
机器学习
深度学习
学习
2024人工智能发展方向(机器人领域)
尽管离完全实现还尚有距离,但新年伊始,也是一个新的台阶,结合2023年的成果,在此基础上,2024年在算法架构上会倾向于,让机器人具有不断进化的能力,这一点李飞飞早在2021年便提出了
深度强化学习
进化策略
笑傲江湖2023
·
2024-01-03 11:21
机器人
用一个小游戏入门
深度强化学习
今天我们来用
深度强化学习
算法deepQ-learning玩CartPole游戏。
不会停的蜗牛
·
2024-01-01 13:54
机器学习,深度学习,神经网络,深度神经网络
深度学习的算法又分很多种,比较典型的四种:卷积神经网络—CNN,循环神经网络—RNN,生成对抗网络—GANs,
深度强化学习
—RL。机器学习和深度学习的
向着光噜噜
·
2023-12-31 06:53
基于
深度强化学习
算法的仿真到实践教程
基于
深度强化学习
算法的仿真到实践教程遇到问题先看这篇文章,我收集了许多群友遇到的问题。我的毕业论文主要是使用DQN,PPO,SAC仿真,然后放到车上跑(效果不太好)。
方小生–
·
2023-12-30 07:43
ROS
深度强化学习
算法
Pytorch
深度强化学习
2-1:基于价值的强化学习——DQN算法
详情:《Pytorch
深度强化学习
》1基于价值的强化学习根据不动点定理,最优策略和最优价值函数是唯一
Mr.Winter`
·
2023-12-26 14:40
pytorch
人工智能
深度学习
自动驾驶
神经网络
机器学习
强化学习
边缘服务器
提出了一种基于人工智能
深度强化学习
算法的扩展性及智能性较高的智能选择模式。
Mindtechnist
·
2023-12-25 13:08
前沿技术文献与图书推荐
人工智能
Pytorch
深度强化学习
案例:基于Q-Learning的机器人走迷宫
目录0专栏介绍1Q-Learning算法原理2强化学习基本框架3机器人走迷宫算法3.1迷宫环境3.2状态、动作和奖励3.3Q-Learning算法实现3.4完成训练4算法分析4.1Q-Table4.2奖励曲线0专栏介绍本专栏重点介绍强化学习技术的数学原理,并且采用Pytorch框架对常见的强化学习算法、案例进行实现,帮助读者理解并快速上手开发。同时,辅以各种机器学习、数据处理技术,扩充人工智能的底
Mr.Winter`
·
2023-12-20 12:43
Pytorch深度学习实战
pytorch
人工智能
python
机器人
深度学习
强化学习
机器学习
深度强化学习
之:PPO训练红白机1942
本篇是
深度强化学习
动手系列文章,自MyEncyclopedia公众号文章
深度强化学习
之:DQN训练超级玛丽闯关发布后收到不少关注和反馈,这一期,让我们实现目前主流
深度强化学习
算法PPO来打另一个红白机经典游戏
人工智能与算法学习
·
2023-12-18 12:19
游戏
人工智能
强化学习
深度学习
openssh
如何选择
深度强化学习
算法:MuZero/SAC/PPO/TD3/DDPG/DQN/等算法
离散动作空间推荐:DuelingDoubleDQN(D3QN)连续动作空间推荐:擅长调参就用TD3,不擅长调参就用PPO或SAC,如果训练环境Rewardfunction都是初学者写的,那就用PPO没入门
深度强化学习
的人请按顺序学
汀、人工智能
·
2023-12-18 12:18
#
#
强化学习相关技巧(调参
画图等)
人工智能
深度学习
强化学习
深度强化学习
DDPG
SAC
PPO
【李宏毅
深度强化学习
笔记】2、Proximal Policy Optimization算法(PPO)
【李宏毅
深度强化学习
笔记】1、策略梯度方法(PolicyGradient)【李宏毅
深度强化学习
笔记】2、ProximalPolicyOptimization(PPO)算法(本文)【李宏毅
深度强化学习
笔记
qqqeeevvv
·
2023-12-18 12:15
#
理论知识
强化学习
深度强化学习
PPO
深度强化学习
:(七)PPO
一、TRPOTRPO算法是Shulman博士为了解决普通的策略梯度算法无法保证性能单调非递减而提出来的方法。也就是说,普通的策略梯度算法无法解决更新步长的问题,对于普通的策略梯度方法,如果更新步长太大,则容易发散;如果更新步长太小,即使收敛,收敛速度也很慢。Shulman并不从策略梯度的更新步长下手,而是换了一个思路:更换优化函数。通过理论推导和分析,Shulman找到一个替代损失函数(Surro
Warship_
·
2023-12-18 12:44
深度强化学习
深度强化学习
(DRL)简介与常见算法(DQN,DDPG,PPO,TRPO,SAC)分类
简单介绍
深度强化学习
的基本概念,常见算法、流程及其分类(持续更新中),方便大家更好的理解、应用强化学习算法,更好地解决各自领域面临的前沿问题。欢迎大家留言讨论,共同进步。
行至为成
·
2023-12-18 12:44
算法
分类
深度学习
人工智能
【
深度强化学习
】TRPO、PPO
策略梯度的缺点步长难以确定,一旦步长选的不好,就导致恶性循环步长不合适→策略变差→采集的数据变差→(回报/梯度导致的)步长不合适步长不合适\to策略变差\to采集的数据变差\to(回报/梯度导致的)步长不合适步长不合适→策略变差→采集的数据变差→(回报/梯度导致的)步长不合适一阶信息不限制步长容易越过局部最优,而且很难回来TRPO置信域策略优化思想:步子不要太大,应该保证更新在某个邻域内∣∣θ−θ
x66ccff
·
2023-12-18 12:13
强化学习
强化学习
人工智能
【深度学习】强化学习(七)基于策略函数的学习方法
文章目录一、强化学习问题1、交互的对象2、强化学习的基本要素3、策略(Policy)4、马尔可夫决策过程5、强化学习的目标函数6、值函数7、
深度强化学习
二、基于值函数的学习方法三、基于策略函数的学习方法一
QomolangmaH
·
2023-12-18 02:10
深度学习
基于人工智能 RL 算法的边缘服务器智能选择 模式研究
提出了一种基于人工智能
深度强化学习
算法的扩展性及智能性较高的智能选择模式。
Mindtechnist
·
2023-12-17 23:32
人工智能
算法
服务器
王树森
深度强化学习
笔记
本笔记基于王树森的
深度强化学习
课程文章目录王树森
深度强化学习
笔记一、基础1.概率论2.名词3.ReturnUtU_tUt4.Action-ValueFunctionQπ(s,a)Q_\pi(s,a)Qπ
开longlong了吗?
·
2023-12-17 21:30
笔记
深度学习
【
深度强化学习
】DQN, Double DQN, Dueling DQN
DQN更新方程Qθ(st,at)←Qθ(st,at)+α(rt+γmaxa′Qθ(st+1,a′)−Qθ(st,at))Q_\theta(s_t,a_t)\leftarrowQ_\theta(s_t,a_t)+\alpha\left(r_t+\gamma\red{\max_{a'}Q_\theta(s_{t+1},a')}-Q_{\theta}(s_t,a_t)\right)Qθ(st,at)←
x66ccff
·
2023-12-17 09:36
强化学习
机器学习
人工智能
文章解读与仿真程序复现思路——电网技术EI\CSCD\北大核心《基于乐观行动-评判
深度强化学习
的含氢综合能源系统低碳经济调度》
这个标题涉及到基于乐观行动的
深度强化学习
在含氢综合能源系统低碳经济调度方面的评判。
电网论文源程序
·
2023-12-16 12:56
文章解读
能源
综合能源系统
低碳经济调度
深度强化学习
学习
深度强化学习
---第1部分----RL介绍、基本模型、Gym介绍
文章目录1.1节强化学习简介1.2节强化学习的模型1.3节Gym介绍视频所在地址:
深度强化学习
的理论与实践经典的强化学习有三种:1、基于动态规划的强化学习、2、基于蒙特卡洛算法的强化学习、3、基于时序差分的强化学习
饿了就干饭
·
2023-12-16 00:41
强化学习
强化学习
学习
深度强化学习
---第3部分----RL蒙特卡罗相关算法
文章目录3.1节蒙特卡罗法简介3.2节蒙特卡罗策略评估3.3节蒙特卡罗强化学习3.4节异策略蒙特卡罗法本部分视频所在地址:
深度强化学习
的理论与实践3.1节蒙特卡罗法简介在其他学科中的蒙特卡罗法是一种抽样的方法
饿了就干饭
·
2023-12-16 00:11
强化学习
强化学习
学习
深度强化学习
---第2部分----RL动态规划相关算法
文章目录2.1节动态规划简介2.2节值函数与贝尔曼方程2.3节策略评估2.4节策略改进2.5节最优值函数与最优策略2.6节值迭代与策略迭代2.7节动态规划求解最优策略本部分视频所在地址:
深度强化学习
的理论与实践
饿了就干饭
·
2023-12-16 00:06
强化学习
算法
动态规划
论文精读与思考:
深度强化学习
的组合优化研究进展
论文基本信息作者:李凯文、张涛、王锐等作者单位:国防科技大学期刊:自动化学报时间:2021年11月组合优化问题链接:基于
深度强化学习
的组合优化研究进展(aas.net.cn)1组合优化问题概述1.1定义一类在离散状态下求极值的最优化问题
灰灰嗷
·
2023-12-14 23:47
人工智能算法
典型算法:监督学习:线性回归、决策树、支持向量机(SVM)、神经网络无监督学习:K均值聚类、层次聚类、主成分分析(PCA)强化学习:Q-learning、
深度强化学习
(如深度Q网络)代码示例(Python
不爱吃香菇的干饭少年
·
2023-12-05 06:16
cuda
人工智能
算法
Pytorch
深度强化学习
1-5:详解蒙特卡洛强化学习原理
详情:《Pytorch
深度强化学习
》1蒙特卡洛强化学习在Pytorch
深度强化学习
1-4
Mr.Winter`
·
2023-12-04 15:54
Pytorch深度学习实战
pytorch
人工智能
python
机器学习
深度学习
机器人
【 ChatGPT作者LilianWeng博客总结】智能体=LLM(大语言模型)+记忆+规划技巧+工具使用...
来源:
深度强化学习
实验室 Lii’Log的博客https://lilianweng.github.io/posts/2023-06-23-agent/本文约7500字,建议阅读15分钟LLM的潜力不仅仅限于生成写得好的副本
数据派THU
·
2023-12-04 07:21
chatgpt
语言模型
python
人工智能
自然语言处理
【论文阅读】1 SkyChain:一个
深度强化学习
的动态区块链分片系统
SkyChain一、文献简介二、引言及重要信息2.1研究背景2.2研究目的和意义2.3文献的创新点三、研究内容3.1模型3.2自适应分类账协议3.2.1状态块创建3.2.2合并过程3.2.3拆分过程3.3评价框架3.3.1性能3.3.1.1共识延迟3.3.1.2重新分片延迟3.3.1.3处理事务数3.3.1.4约束3.3.2安全性3.3.3问题介绍四、基于DRL的动态分片框架4.1模型设计4.2训
Camina hacia ti
·
2023-12-01 20:17
论文阅读
区块链
文章解读与仿真程序复现思路——电力系统保护与控制EI\CSCD\北大核心《基于
深度强化学习
的城市配电网多级动态重构优化运行方法》
这个标题涉及到城市配电网(UrbanPowerDistributionNetwork)的优化运行方法,其中使用了
深度强化学习
(DeepReinforcementLearning)技术,并且特别强调了多级动态重构
电网论文源程序
·
2023-12-01 09:47
文章解读
重构
电网
能源
规划
配电网重构
深度强化学习
-策略梯度算法深入理解
1引言在
深度强化学习
-策略梯度算法推导博文中,采用了两种方法推导策略梯度算法,并给出了Reinforce算法的伪代码。
indigo love
·
2023-12-01 01:40
深度强化学习
算法
机器学习
强化学习
人工智能
<
深度强化学习
落地方法论> 笔记
Part1.需求分析DRL的过拟合天性DRL解决的是从过去经验中学习有用知识,并用于后续决策的问题。比起视觉方面的检测、识别等,决策是一个更高层的行为,所以对环境要求更为严苛,导致DRL十分依赖过拟合,并且泛化能力非常差(唯一被允许在训练集上测试的算法的称号不是盖的)。此外,由于训练过程中缺乏直接监督的信号,DRL对数据量的要求也非常巨大。所以在DRL训练中,Value函数去过拟合环境转移特性与r
什么都不太行的syq
·
2023-11-27 01:04
深度强化学习
落地方法论(4)——动作空间篇
目录前言对动作空间的三个要求完备性高效性合法性结语前言在将DRL应用于实际项目时,可能最轻松愉快的部分就是动作空间定义了。倒不是因为这项工作简单,而是agent的控制方式往往早就定死了,留给我们发挥的空间很小,就好像我们无法决定DOTA里允许多少种操作,也无法改变一台机器人的关节数量和各自的角度范围,Gym用户甚至从来都不用为这个问题操心,action空间有多少维,连续还是离散,各种domain早
wyjjyn
·
2023-11-27 01:34
深度强化学习落地方法论
人工智能
深度强化学习
AI落地
《
深度强化学习
落地指南》读书笔记2--动作空间设计
动作空间设计大有可为动作空间设计:这里大有可为动作空间设计三原则动作空间设计:这里大有可为你好!这是你第一次使用Markdown编辑器所展示的欢迎页。如果你想学习如何使用Markdown编辑器,可以仔细阅读这篇文章,了解一下Markdown的基本语法知识。概要:对于特定任务而言,动作空间在事实上决定了任何算法所能达到的性能上限;action、state、reward三者之间常常需要一定的协同设计。
第一剑柄
·
2023-11-27 01:03
人工智能
机器学习
深度强化学习
中的动作屏蔽(Action Masking)
RLlib中的example有一个代码是action_masking,很感兴趣,所以学习了一下主要功能是:“动作屏蔽”允许代理根据当前观察选择动作。这在许多实际场景中非常有用,在这些场景中,不同的时间步长可以执行不同的操作。解释动作屏蔽的博客文章:https://boring-guy.sh/posts/masking-rl/RLlib支持动作屏蔽,即通过稍微调整环境和模型来禁止这些动作,如本示例所
星行夜空
·
2023-11-27 01:58
python
深度学习
pytorch
文档资料
机器学习
基于通用学习环境和多智能体
深度强化学习
的列车运行图
2.摘要针对不同铁路系统的列车运行图问题,本文提出了一种多智能体
深度强化学习
方法。建立了一个通用的列车运行图学习环境,将
当交通遇上机器学习
·
2023-11-26 02:44
大数据
算法
python
机器学习
人工智能
Gym迎来首个完整环境文档,强化学习入门更加简单!
深度强化学习
实验室官网:http://www.neurondance.com/论坛:http://deeprl.neurondance.com/编辑:OpenDeepRLOpenAIGym是一款用于研发和比较强化学习算法的环境工具包
Datawhale
·
2023-11-25 21:56
算法
python
java
人工智能
深度学习
【重磅】ICLR2020 || 106篇
深度强化学习
顶会论文汇总
关注:决策智能与机器学习,深耕AI脱水干货来源|EndtoEnd.ai作者|DeepRL报道|
深度强化学习
实验室编辑|九三山人【导读】今年的ICLR大会转到了线上举行,DeepMind和哈佛的研究人员投稿了一篇神经网络控制虚拟小白鼠模的论文十分亮眼
九三智能控v
·
2023-11-23 00:27
Talk | CoRL‘23 最佳系统论文奖入围,庄子文:用
深度强化学习
让机器狗学会跑酷
他与大家分享的主题是:“用
深度强化学习
让机器狗学会跑酷”,系统地介绍了他的团队在基于强化学习算法和软动力学约束让四足机器人的运动能力远超传统移动机器人的算法所做的一系列研究成果。
TechBeat人工智能社区
·
2023-11-22 13:56
每周Talk上架
机器人
机器人极限运动
深度强化学习
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他