《强化学习周刊》第58期:RFQI、DRL-DBSCAN&广义强化学习

No.58

智源社区

强化学习组

 习

《强化学习周刊》第58期:RFQI、DRL-DBSCAN&广义强化学习_第1张图片

研究

观点

资源

活动

周刊订阅

告诉大家一个好消息,《强化学习周刊》已经开启“订阅功能”,以后我们会向您自动推送最新版的《强化学习周刊》。订阅方法:

方式1:扫描下面二维码,进入《强化学习周刊》主页,选择“关注TA”。

《强化学习周刊》第58期:RFQI、DRL-DBSCAN&广义强化学习_第2张图片

方式2:点击本文下方的“阅读原文”,进入《强化学习周刊》Hub社区版,根据内附的详细订阅步骤,完成订阅。

《强化学习周刊》第58期:RFQI、DRL-DBSCAN&广义强化学习_第3张图片

《强化学习周刊》第58期:RFQI、DRL-DBSCAN&广义强化学习_第4张图片

《强化学习周刊》第58期:RFQI、DRL-DBSCAN&广义强化学习_第5张图片

《强化学习周刊》第58期:RFQI、DRL-DBSCAN&广义强化学习_第6张图片

《强化学习周刊》第58期:RFQI、DRL-DBSCAN&广义强化学习_第7张图片

关于周刊

强化学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注。为帮助研究与工程人员了解该领域的相关进展和资讯,智源社区结合领域内容,撰写为第58期《强化学习周刊》。本期周刊整理了强化学习领域相关的最新论文推荐、研究综述及新书籍以飨诸位。

周刊采用社区协作的模式产生,欢迎感兴趣的朋友们参与我们的工作,一起来推动强化学习社群的分享、学习和交流活动。可以扫描文末的二维码加入强化学习社区群。

本期贡献者:李明、刘青、小胖

《强化学习周刊》第58期:RFQI、DRL-DBSCAN&广义强化学习_第8张图片

《强化学习周刊》第58期:RFQI、DRL-DBSCAN&广义强化学习_第9张图片

《强化学习周刊》第58期:RFQI、DRL-DBSCAN&广义强化学习_第10张图片

《强化学习周刊》第58期:RFQI、DRL-DBSCAN&广义强化学习_第11张图片

《强化学习周刊》第58期:RFQI、DRL-DBSCAN&广义强化学习_第12张图片

论文推荐

强化学习近年来取得了令人瞩目的成就,其应用于各个领域的研究也取得较大的进步,比如批量强化学习应用于推荐系统、数字孪生驱动的深度强化学习 、基于深度强化学习的机器人领域应用相关的理论及其最新应用等。

标题:Distributionally Robust Model-Based Offline Reinforcement Learning with Near-Optimal Sample Complexity(卡内基梅隆大学:Yuejie Chi | 具有样本复杂度接近最优的基于分布式鲁棒模型的离线强化学习)了解详情

简介:本文关注离线强化学习 (RL) 中模型鲁棒性和样本效率的核心问题,其旨在学习在不主动探索的情况下从历史数据中执行决策。通过考虑离线 RL 的分布式鲁棒公式,重点关注具有由 Kullback-Leibler 散度指定的不确定性集的表格非平稳有限范围鲁棒马尔可夫决策过程。为应对样本稀缺,提出基于模型的算法将分布鲁棒的值迭代与面对不确定性的悲观原则相结合,通过精心设计的数据驱动的惩罚项来惩罚鲁棒的值估计。在不需要完全覆盖状态-动作空间的情况下测量分布变化的历史数据集的温和和量身定制的假设下,建立了所提出算法的有限样本复杂度,并表明它几乎是不可改进的将信息论下界匹配到水平长度的多项式因子。这提供了首个可证明接近最优的鲁棒离线 RL 算法,该算法在模型不确定性和部分覆盖下进行学习。

论文链接:https://arxiv.org/pdf/2208.05767.pdf

标题:Multi-Task Fusion via Reinforcement Learning for Long-Term User Satisfaction in Recommender Systems(腾讯:Yiyan Qi | 推荐系统中基于强化学习的长期用户满意度多任务融合)了解详情

简介:推荐系统 (RS) 是一个重要的在线应用程序,每天影响着数十亿用户。主流的 RS 排名框架由两部分组成:预测各种用户反馈的多任务学习模型(MTL),即点击、喜欢、分享,以及结合多任务的多任务融合模型(MTF)。为了优化长期的用户满意度,而不是贪婪地获得即时奖励,在推荐会话中将 MTF 任务制定为马尔可夫决策过程 (MDP),并提出了基于批量强化学习 (RL) 的多任务融合框架 (BatchRL-MTF),包括批量 RL 框架和在线探索。前者利用 Batch RL 从固定批次数据离线学习最优推荐策略以获得长期用户满意度,而后者在线探索潜在的高价值动作以突破局部最优困境。在十亿样本级别的真实世界数据集上进行了广泛的实验,以展示该模型的有效性。并提出了保守的离线策略估计器(Conservative-OPEstimator)来离线测试模型。最后在真实的推荐环境中进行在线实验作为少数成功应用于 MTF 任务的 Batch RL 研究之一,该模型也已部署在大型工业短视频平台上,为数亿用户提供服务。

论文链接:https://arxiv.org/pdf/2208.04560v2.pdf

标题:Deep Reinforcement Learning for Orchestrating Cost-Aware Reconfigurations of vRANs(University of Oulu :Fahri Wisnu Murti | 基于编排VRAN成本感知重构的深度强化学习)了解详情

简介:虚拟化无线电接入网络 (vRAN) 是完全可配置的,并且可以在提供前所未有的网络管理灵活性的商品平台上以低成本实施。本文提出了新颖的基于深度强化学习 (RL) 的框架,其联合重构基站 (BS) 的功能拆分、虚拟化中央单元 (vCU) 和分布式单元 (vDU) 的资源和位置,以及每个 BS 数据流的路由。该解决方案框架是使用无模型多智能体 RL 开发,其中每个智能体控制每个 BS 的配置。然而,由于 BS 的联合配置决策,每个智能体都具有多维离散动作空间。为克服维度灾难,在每个智能体上应用了带有动作分支的 Dueling 双 Q 网络。此外,代理学习其最佳策略以选择独立重新配置 BS 的操作。使用符合 O-RAN 的模型执行模拟。研究结果表明,该框架成功地学习了最优策略,可通过转移学习轻松地应用于不同的vRAN系统,并显著节省了基准测试的成本。

论文链接:https://arxiv.org/pdf/2208.05282.pdf

标题:Fairness Based Energy-Efficient 3D Path Planning of a Portable Access Point: A Deep Reinforcement Learning Approach(The American College of Greece:Nithin Babu | 基于公平的便携式接入点节能3D路径规划:一种深度强化学习方法)了解详情

简介:本文优化了基于无人机 (UAV) 的便携式接入点 (PAP) 的 3D 轨迹,该接入点为一组地面节点 (GN) 提供无线服务。根据 Peukert 效应,考虑了无人机电池的实用非线性电池放电。提出公平能源效率(FEE)。考虑到解决方案空间的复杂性,并使用双延迟深度确定性策略梯度 (TD3) 演员-评论家深度强化学习 (DRL) 框架来学习最大化系统 FEE 的策略。通过执行两种类型的 RL 训练来展示该方法的有效性:第一种(离线)方法在整个训练阶段保持 GN 的位置相同;第二种方法通过在每次训练后改变 GN 的位置,将学习到的策略推广到任何 GN 排列。数值评估表明,忽略 Peukert 效应会高估 PAP 的飞行时间,可以通过优化选择 PAP 的飞行速度来解决。此外,注意到郊区、城市和密集城市环境的 FEE 比基线情景分别提高了 88.31%、272.34% 和 318.13%。

论文链接:https://arxiv.org/pdf/2208.05265.pdf

标题:Robust Reinforcement Learning using Offline Data(德克萨斯A&M大学(TAMU): Kishan Panaganti | 基于离线数据的鲁棒强化学习)了解详情

简介:鲁棒强化学习(RL)的目标是学习对模型参数的不确定性具有鲁棒性的策略。由于模拟器建模误差、真实系统动态随时间的变化以及对抗性干扰,参数不确定性通常出现在许多真实RL应用中。鲁棒RL通常表示为最大-最小问题,其目标是学习针对不确定性集中最差可能模型的最大值策略。本文提出了鲁棒拟合Q迭代(RFQI)的鲁棒RL算法,该算法仅使用离线数据集来学习最优鲁棒策略。由于鲁棒Bellman算子中存在的所有模型的最小化,因此具有离线数据的鲁棒RL比其非鲁棒对手具有更大的挑战性。这给离线数据收集、模型优化和无偏估计带来了挑战。为此,其提出了一种系统的方法来克服这些挑战,从而产生了RFQI算法。研究证明了RFQI在标准假设下学习一个接近最优的鲁棒策略,并在标准基准问题上证明了其优越的性能。

论文链接:https://arxiv.org/pdf/2208.05129.pdf

标题:Automating DBSCAN via Deep Reinforcement Learning(伊利诺伊大学芝加哥分校: Yingtong Dou | 通过深度强化学习实现DBSCAN自动化)了解详情

简介:DBSCAN因其简单实用而被广泛应用于许多科学和工程领域。然而,由于其高灵敏度参数,聚类结果的准确性在很大程度上取决于实践经验。本文首先提出了新颖的深度强化学习引导的自动 DBSCAN 参数搜索框架,即 DRL-DBSCAN。该框架通过将聚类环境感知为马尔可夫决策过程来模拟调整参数搜索方向的过程,其目的是在没有人工帮助的情况下找到最佳的聚类参数。DRL-DBSCAN 使用弱监督奖励训练策略网络通过与集群交互来学习不同特征分布的最优聚类参数搜索策略。此外,还提出了由数据规模驱动的递归搜索机制,以有效且可控地处理大参数空间。基于提出的四种工作模式,对五个人工和真实世界的数据集进行了广泛的实验。离线和在线任务的结果表明,DRL-DBSCAN不仅能持续将DBSCAN的聚类准确率分别提高26%和25%,而且可以稳定地找到优势参数,计算效率高。

论文链接:https://arxiv.org/pdf/2208.04537.pdf

标题:Generalized Reinforcement Learning: Experience Particles, Action Operator, Reinforcement Field, Memory Association, and Decision Concepts(德克萨斯大学阿灵顿分校:Po-Hsiang Chiu | 广义强化学习:经验粒子、动作算子、强化场、记忆关联和决策概念)了解详情

简介:学习涉及时变和演化系统动力学的控制策略通常对主流强化学习算法构成巨大挑战。在大多数标准方法中,动作通常被假定为一组刚性、固定的选择,以预定义的方式顺序应用于状态空间。标准动作表示和动作诱导的状态转换机制固有地限制了强化学习在复杂的现实应用中的应用,这主要是因为产生的大状态空间很难处理,并且缺乏将学习策略推广到状态空间未知部分的能力。本文提出了贝叶斯风格的广义强化学习框架,首先建立参数化动作模型的概念,以更好地处理不确定性和流体动作行为,然后引入强化场的概念,作为物理启发的构造,通过学习代理的工作记忆中保持的“极化经验粒子”建立。在强化领域的基础上,本文进一步推广策略学习过程,通过将过去记忆视为具有隐式图结构来纳入高层决策概念,其中过去记忆实例(或粒子)与定义的决策之间的相似性相互关联,从而,“联想记忆”原理可用于增强学习代理的世界模型。

论文链接:https://arxiv.org/pdf/2208.04822.pdf

标题:Versatile Control of Fluid-Directed Solid Objects Using Multi-Task Reinforcement Learning(南开大学: Bo Ren|使用多任务强化学习多功能控制流体定向固体对象)了解详情

简介:本文提出了基于学习的控制器,用于具有耦合流体和固体对象的高维动态系统。此类系统的动态行为可能因不同的模拟器和受用户不断变化的要求而变化的控制任务而异。此控制器具有高度通用性,无需重新训练即可适应不断变化的动态行为和多项任务,这是通过结合两种训练策略来实现的。本文使用元强化学习来通知控制器模拟参数的变化。并进一步设计了新颖的任务表示,它允许控制器通过经验回放来适应不断变化的任务。本文强调了此控制器在一系列动态丰富的任务中的鲁棒性和通用性,包括从水池中舀出实心球,使用流体喷口的空中球杂技,以及零射击转移到看不见的模拟器和本构模型。在所有实验场景中,该控制器始终优于普通的多任务强化学习基线。

论文链接:https://dl.acm.org/doi/pdf/10.1145/3554731

标题:Digital twin-driven deep reinforcement learning for adaptive task allocation in robotic construction(韩国中央大学: Dongmin Lee|数字孪生驱动深度强化学习在机器人工程中的自适应任务分配)了解详情

简介:最近,深度强化学习 (DRL) 方法已显示出解决自适应任务分配的潜力。然而,DRL 是否可以解决动态机器人构建环境中的自适应任务分配问题仍然没有答案。本文开发并测试了数字孪生驱动的 DRL 学习方法,以探索 DRL 在机器人施工环境中自适应任务分配的潜力。通过数字孪生合成感官数据,并用于模拟 DRL 智能体可以交互的各种动态机器人建筑工地条件。因此,智能体可以学习提高项目绩效的自适应任务分配策略。实验结果表明,与基于规则的命令式模型相比,DRL 模型的任务分配方法在三个动态测试环境中将构建时间减少了 36%。该方法有望成为动态机器人构建环境中自适应任务分配的有效工具。并可以帮助建筑机器人应对不确定性,并通过有效地优先分配任务来最终提高建筑项目的绩效。

论文链接:https://www.sciencedirect.com/science/article/pii/S1474034622001689#!

标题:Reinforcement learning-based optimal operation of ash deposit removal system to improve recycling efficiency of biomass for CO2 reduction(韩国工业技术研究院: Jonghun Lim|基于强化学习的除灰系统优化运行提高生物质循环利用效率以减少二氧化碳排放)了解详情

简介:二氧化碳回收的生物质燃烧会产生大量灰烬沉积物,从而降低整体工艺效率。回收锅炉一般采用除灰系统(ADRS),但ADRS运行效率低,生物质的回收效率降低,导致二氧化碳排放量增加。本文提出了基于强化学习优化的 ADRS 操作,以提高生物质对二氧化碳的回收效率。1)收集实时过程运行数据(即烟气、水和蒸汽的温度),并开发了计算流体动力学模型来预测过热器段的烟气温度。2) 使用收集到的数据计算传热率的降低,以定义奖励更新矩阵。3)基于定义的奖励更新矩阵开发了一种改进的Q-learning算法,并使用该算法推导出Q矩阵,预测在给定状态(即每个吹灰位置)执行给定动作(即吹灰)的预期动态回报(即清除灰沉积物的优先级)的函数。4) 使用得到的 Q 矩阵,得出了最优的操作顺序。

论文链接:https://www.sciencedirect.com/science/article/pii/S0959652622031845

标题:Offline Reinforcement Learning with Representations for Actions(中国科学院自动化研究所: Xingzhou Lou|具有行动表示的离线强化学习)了解详情

简介:普遍应用的离线强化学习(RL)方法将策略限制在离线数据集支持的区域内,以避免分布偏移问题。其忽略了数据集分布之外的潜在高奖励行为。为此,本文提出了从离线数据集推广到分布外(OOD)动作。其设计了新颖的动作嵌入模型来帮助推断动作的效果。结果表明,此价值函数在动作空间上达到了更好的泛化,并进一步缓解了高估 OOD 动作引起的分布偏移。本文对价值函数在动作空间上的泛化能力的改进给出了信息论的解释。在 D4RL 上的实验表明,与以前的离线 RL 方法相比,该模型提高了性能,尤其是当离线数据集的体验良好时。并进一步的研究并验证了价值函数对 OOD 动作的泛化得到了改进,这增强了本文提出的动作嵌入模型的有效性。

论文链接:https://www.sciencedirect.com/science/article/pii/S0020025522009033#!

标题:Opportunistic maintenance scheduling with deep reinforcement learning(英飞凌: Alexander Valet|具有深度强化学习的机会性维护调度)了解详情

简介:先进制造工艺的高度复杂性以及制造设备的高投资成本使得维护调度的集成成为一项具有挑战性但同样至关重要的任务。通过考虑维护措施的机会成本,机会性维护调度具有提高运营绩效的潜力。同时,强化学习(RL)已被证明能够处理复杂的调度任务。因此,应用RL建立一个集成的维护调度模型,以在单个决策支持系统中考虑订单调度和维护调度。通过使用离散事件仿真模拟了半导体前端晶圆制造的真实用例。在模拟场景中,集成调度和维护调度的性能受适用于机会维护和强化学习的复杂新颖启发式算法的调节。结果表明,RL 策略能够通过包含内部和外部机会主义机会来学习有竞争力的联合调度策略。

论文链接:https://www.sciencedirect.com/science/article/pii/S0278612522001285

标题:GPDS: A multi-agent deep reinforcement learning game for anti-jamming secure computing in MEC network(中南大学: Miaojiang Chen|GPDS:用于 MEC 网络中抗干扰安全计算的多智能体深度强化学习游戏)了解详情

简介:移动边缘计算(MEC)网络的开放性使其容易受到恶意干扰器的干扰攻击,从而危及移动用户的通信质量。本文考虑了基于时变信道的新型防御策略,并将恶意干扰对抗过程描述为多用户智能博弈模型。由于干扰模型和干扰策略未知,提出了深度强化学习多用户随机博弈与后决策状态(命名为GPDS)来智能抵抗智能攻击者。移动用户需要从阻塞信道的状态中获取通信质量、频谱可用性和干扰策略。最优决策策略的奖励定义为最大通道吞吐量的期望值,通过纳什均衡得到潜在的最优通道选择策略。GPDS训练后,移动用户可以学习多步训练后的最优频道切换策略。实验结果表明,与 SOTA 算法相比,GPDS 具有更好的抗干扰性能。通过纳什均衡得到潜在的最优渠道选择策略。GPDS训练后,移动用户可以学习多步训练后的最优频道切换策略。

论文链接:https://www.sciencedirect.com/science/article/pii/S0957417422015044#

标题:Q-learning-based model predictive variable impedance control for physical human-robot collaboration(提契诺大学: Loris Roveda|用于物理人机协作的基于 Q 学习的模型预测可变阻抗控制)了解详情

简介:在许多情况下越来越需要物理人机协作。其能够识别人类的意图,并保证沿预期运动方向的安全和自适应行为。为此,本文提出了基于 Q-Learning 的模型预测可变阻抗控制 (Q-LMPVIC) 来协助操作员完成物理人机协作 (pHRC) 任务。笛卡尔阻抗控制回路旨在实现解耦的顺应机器人动力学。阻抗控制参数(即,设定点和阻尼参数)然后在线优化,以最大限度地提高 pHRC 的性能。为此,本文设计了一组神经网络来学习人机交互动力学的建模,同时捕捉相关的不确定性。然后,模型预测控制器 (MPC) 使用派生的建模,并通过 Lyapunov 约束增强稳定性保证。MPC 是通过使用 Q-Learning 方法来解决的,该方法在其在线实现中使用 actor-critic 算法来近似精确的解决方案。事实上,Q-learning 方法提供了一个准确且高效的解决方案(在计算时间和资源方面)。

论文链接:https://www.sciencedirect.com/science/article/pii/S0004370222001114

标题:Lifelong reinforcement learning with temporal logic formulas and reward machines(中山大学: Xuejing Zheng|使用时序逻辑公式和奖励机器进行终身强化学习)了解详情

简介:使用高级思想或知识不断学习新任务是人类的一项关键能力。本文提出了使用顺序线性时间逻辑公式和奖励机(LSRM) 的终身强化学习,这使智能体能够利用先前学习的知识来加速逻辑指定任务的学习。为了更灵活地规范任务,首先引入顺序线性时序逻辑(SLTL),它是对现有线性时序逻辑(LTL)形式语言的补充。再应用奖励机器(RMs) 为使用高级事件编码的任务利用结构奖励功能,并提出 RMs 的自动扩展和对任务的有效知识转移,以实现持续的终身学习。实验结果表明,LSRM 通过利用 SLTL 的任务分解和终身学习过程中 RM 上的知识转移,优于从头开始学习目标任务的方法。

论文链接:https://www.sciencedirect.com/science/article/pii/S0950705122008358

标题:Graph and Dynamics Interpretation in Robotic Reinforcement Learning Task(杭州电子科技大学: Zonggui Yao|机器人强化学习任务中的图形和动力学解释)了解详情

简介:机器人控制任务通常通过强化学习方法以循环试验和学习的方式解决。典型问题之一是通过机器人不同部位的力传递,机器人动力学量的计算容易被忽略。为此,本文建议使用力传递图来解释机器人运动遵循的力传递机制,并用二次模型估计机器人运动的动力学量。故本文提出了基于模型的机器人控制强化学习框架,其中动态模型包括两个组件,即图卷积网络(GCN)和两层感知(TLP)网络。GCN 用作力传递图的参数估计器和结构特征提取器。TLP 网络近似于应该能够估计机器人运动的动力学量的二次模型。并将所提出的框架命名为强化学习方法中动态估计的GCN(简称GDRL)。该方法解释了通过机器人肢体传递机器人力的内在机制,因此该模型具有高度的可解释性。

论文链接:https://www.sciencedirect.com/science/article/pii/S0020025522009276

《强化学习周刊》第58期:RFQI、DRL-DBSCAN&广义强化学习_第13张图片

如果你正在从事或关注 强化学习研究、实现与应用,欢迎加入“智源社区-强化学习-交流群”。在这里,你可以:

  • 学习前沿知识、求解疑难困惑

  • 分享经验心得、展示风貌才华

  • 参与专属活动、结识研究伙伴

扫描下方二维码,加入强化学习兴趣群。

《强化学习周刊》第58期:RFQI、DRL-DBSCAN&广义强化学习_第14张图片

你可能感兴趣的:(算法,大数据,编程语言,python,机器学习)