闲人编程

强化学习（Q-learning、DQN） —— 理论、案例与交互式 GUI 实现

强化学习（Q-learning、DQN） —— 理论、案例与交互式 GUI 实现
- 一、引言
- 二、强化学习基本原理
- - 2.1 强化学习框架
  - 2.2 Q值函数
- 三、Q-learning 算法
- - 3.1 算法原理
  - 3.2 算法流程
- 四、深度 Q 网络（DQN）
- - 4.1 DQN 算法背景
  - 4.2 DQN 的核心技术
  - 4.3 DQN 算法流程
- 五、典型案例分析
- - 5.1 案例一：迷宫导航
  - - 5.1.1 案例描述
    - 5.1.2 分析结论
  - 5.2 案例二：股票交易策略
  - - 5.2.1 案例描述
    - 5.2.2 分析结论
  - 5.3 案例三：机器人控制
  - - 5.3.1 案例描述
    - 5.3.2 分析结论
- 六、基于 Python 与 PyQt6 的交互式 GUI 实现
- - 6.1 系统架构
  - 6.2 Python 代码实现
- 七、结语

强化学习（Q-learning、DQN） —— 理论、案例与交互式 GUI 实现

一、引言

强化学习作为机器学习的重要分支，在游戏、机器人控制、推荐系统和资源分配等众多领域都取得了突破性成果。其基本思想是通过智能体与环境的交互，不断试错，学习如何采取最优行动以最大化累积回报。Q-learning 是一种基于值函数的经典强化学习算法，而深度 Q 网络（DQN）则将深度学习与 Q-learning 相结合，从而可以处理高维状态空间和复杂环境问题。

本文将系统地介绍强化学习的基本理论，详细讲解 Q-learning 和 DQN 算法的原理、数学推导与实现步骤，并结合典型案例展示其在实际任务中的应用。为了帮助工程师和研究者更直观地理解算法求解过程，我们还设计了一套基于 Python 与 PyQt6 的交互式 GUI 演示系统，用户可以通过图形界面实时调节参数、观察 Q 值函数更新及策略演化情况，从而更深入地掌握强化学习的核心技术。

二、强化学习基本原理

2.1 强化学习框架

强化学习（Reinforcement Learning, RL）是一种基于试错机制的学习方法，其基本流程可描述为一个马尔可夫决策过程（Markov Decision Process, MDP），包含以下元素：

状态空间 $S$ ：环境中所有可能的状态集合。
动作空间 $A$ ：智能体在各状态下可选择的动作集合。
转移概率 $P (s^{'} ∣ s, a)$ ：在状态 $s$ 下采取动作 $a$ 后转移到状态 $s^{'}$ 的概率。
奖励函数 $R (s, a)$ ：在状态 $s$ 下采取动作 $a$ 后获得的即时奖励。
策略 $\pi(a|s)$ ：在状态 $s$ 下选择动作 $a$ 的概率分布。

智能体的目标是学得一个最优策略 $\pi^*$ ，使得在初始状态下获得的累积回报最大化，通常定义累积回报为：
$G_t = \sum_{k=0}^{\infty} \gamma^k R(s_{t+k}, a_{t+k}),$
其中 $\gamma \in [0,1)$ 为折扣因子。

2.2 Q值函数

在基于值函数的方法中，状态-动作值函数（或 Q 值函数） $Q (s, a)$ 表示从状态 $s$ 开始，采取动作 $a$ 后，按照某一策略 $\pi$ 能获得的期望累积回报：
$Q^\pi(s,a) = \mathbb{E}_\pi \left[ \sum_{k=0}^{\infty} \gamma^k R(s_{t+k}, a_{t+k}) \Big| s_t = s, a_t = a \right].$
最优 Q 值函数满足 Bellman 最优性方程：
$Q^*(s,a) = R(s,a) + \gamma \sum_{s'} P(s'|s,a) \max_{a'} Q^*(s',a').$

三、Q-learning 算法

3.1 算法原理

Q-learning 是一种离线学习（off-policy）的强化学习算法，其目标是直接学习最优 Q 值函数 $Q^*(s,a)$ 。该算法通过不断更新 Q 值的估计，实现对 Bellman 最优性方程的逼近。更新公式为：
$\leftarrow Q(s,a) + \alpha \left[ R(s,a) + \gamma \max_{a'} Q(s',a') - Q(s,a) \right],$
其中 $\alpha \in (0,1]$ 为学习率。通过不断与环境交互、观察奖励和状态转移，Q-learning 能够逐步收敛到最优 Q 值函数，从而得到最优策略：
$\pi^*(s)=\arg\max_{a} Q^*(s,a).$

3.2 算法流程

初始化：对所有状态 $s$ 和动作 $a$ ，初始化 Q 值 $Q (s, a)$ （例如设为 0）。
循环更新：
- 在当前状态 $s$ 下，根据 ε-贪婪策略选择动作 $a$ 。
- 执行动作 $a$ ，获得奖励 $R (s, a)$ 并观察下一个状态 $s^{'}$ 。
- 更新 Q 值：
  $\leftarrow Q(s,a) + \alpha \left[ R(s,a) + \gamma \max_{a'} Q(s',a') - Q(s,a) \right].$
- 更新状态 $\leftarrow s'$ 。
终止条件：达到最大迭代次数或收敛条件，输出 Q 值函数和最优策略。

四、深度 Q 网络（DQN）

4.1 DQN 算法背景

当状态空间或动作空间维度较高时，传统的 Q-learning 需要存储庞大的 Q 值表，难以推广。DQN 利用深度神经网络作为函数逼近器，来估计 Q 值函数，即构建网络 $Q(s,a;\theta)$ ，其中 $\theta$ 为网络参数。DQN 通过对网络参数进行训练，实现对最优 Q 值函数的逼近。

4.2 DQN 的核心技术

经验回放：将智能体与环境交互产生的 $(s, a, r, s^{'})$ 样本存入缓冲区，随机抽样用于训练，打破数据间的相关性，提高训练稳定性。
固定目标网络：引入目标网络 $Q(s,a;\theta^-)$ ，在一定步数后将当前网络参数 $\theta$ 复制给目标网络 $\theta^-$ ，降低训练过程中的不稳定性。
损失函数：训练过程中，利用均方误差（MSE）作为损失函数：
$L(\theta) = \mathbb{E}_{(s,a,r,s')\sim D} \left[ \left( r + \gamma \max_{a'} Q(s',a';\theta^-) - Q(s,a;\theta) \right)^2 \right].$

4.3 DQN 算法流程

初始化：随机初始化 Q 网络参数 $\theta$ ，复制至目标网络 $\theta^-$ ；初始化经验回放缓冲区 $D$ 。
循环：
- 在当前状态 $s$ 下，根据 ε-贪婪策略选择动作 $a$ 。
- 执行动作 $a$ ，观察奖励 $r$ 和下一个状态 $s^{'}$ ，将 $(s, a, r, s^{'})$ 存入经验回放缓冲区 $D$ 。
- 从 $D$ 中随机抽样一批数据，计算目标值：
  $\gamma \max_{a'} Q(s',a';\theta^-)$
- 更新网络参数 $\theta$ 以最小化损失函数 $L(\theta)$ 。
- 每隔一定步数，将 $\theta$ 更新至目标网络 $\theta^-$ 。
终止条件：达到预定训练步数或收敛，输出 Q 网络作为最优策略。

五、典型案例分析

5.1 案例一：迷宫导航

5.1.1 案例描述

在迷宫导航问题中，智能体需要学会在复杂环境中找到最短路径到达目标位置。利用 Q-learning 算法，智能体在不断试错中更新 Q 值函数，逐步学得最优策略；而在高维或视觉输入的情况下，DQN 能够利用卷积神经网络处理图像信息，实现高效导航。

5.1.2 分析结论

Q-learning 和 DQN 均能有效解决迷宫导航问题，前者适用于离散状态和动作，后者则适合处理高维感知数据。

5.2 案例二：股票交易策略

5.2.1 案例描述

在股票交易策略优化问题中，强化学习智能体通过与市场环境交互，学习在不同市场状态下的最优交易决策。利用 Q-learning 或 DQN，可以实现对历史价格、技术指标等高维数据的处理，进而得到最优买卖策略。

5.2.2 分析结论

强化学习在股票交易中的应用展示了其对非线性、时变环境的适应性，DQN 尤其在处理复杂市场信号方面表现突出。

5.3 案例三：机器人控制

5.3.1 案例描述

机器人控制问题常涉及连续状态空间和离散动作空间。利用 DQN，机器人可以从图像或传感器数据中提取特征，学习如何在复杂环境中避障、规划路径。Q-learning 则适用于状态较为离散的控制任务。

5.3.2 分析结论

强化学习算法能够显著提高机器人控制的自适应性和灵活性，DQN 在处理高维输入时表现优异，为智能机器人系统的自主决策提供了有力支持。

六、基于 Python 与 PyQt6 的交互式 GUI 实现

为了直观展示 Q-learning 与 DQN 的学习过程，我们设计了一套基于 Python 与 PyQt6 的交互式 GUI 演示系统。该系统主要功能包括：

参数输入：用户可通过输入框设置学习率、折扣因子、ε 值、训练步数等参数；对于 DQN，还可设置网络结构、经验回放缓冲区大小等。
实时展示：利用 Matplotlib 绘制 Q 值或网络损失随时间变化的曲线，以及智能体在环境中的轨迹变化。
交互控制：提供开始、暂停、重置按钮，允许用户灵活控制训练过程。
帮助说明：内置帮助信息，详细解释 Q-learning、DQN 的原理和参数设置方法。

6.1 系统架构

系统主要分为以下模块：

参数输入模块：获取强化学习算法的基本参数和网络参数（针对 DQN）。
算法模块：实现 Q-learning 或 DQN 算法的训练过程，更新 Q 值或神经网络参数。
绘图模块：利用 Matplotlib 嵌入 PyQt6 窗口，实时绘制损失曲线、Q 值变化曲线和智能体轨迹。
控制模块：实现开始、暂停、重置等操作，便于用户交互。

6.2 Python 代码实现

下面给出完整的 Python 代码示例，该代码以 Q-learning 为例实现了一个简单的迷宫导航演示系统。代码中包含详细注释，确保逻辑清晰、可读性强，并经过初步自查以减少 BUG。

"""
强化学习（Q-learning、DQN）交互式演示系统 —— Q-learning 示例
本程序基于 PyQt6 实现了一个简单的 Q-learning 演示系统，
用于解决迷宫导航问题。智能体在离散状态下选择动作，
通过不断更新 Q 值学习最优策略。用户可以设置学习率、折扣因子、ε-贪婪参数等，
并实时观察 Q 值和智能体路径变化。
作者：控制与优化算法100讲
日期：2025-04-02
"""

import sys
import numpy as np
import matplotlib.pyplot as plt
from matplotlib.backends.backend_qt5agg import FigureCanvasQTAgg as FigureCanvas
from PyQt6.QtWidgets import (
    QApplication, QMainWindow, QWidget, QVBoxLayout, QHBoxLayout,
    QLabel, QPushButton, QLineEdit, QMessageBox, QFormLayout
)
from PyQt6.QtCore import QTimer

# ------------------------- Q-learning 算法核心实现 -------------------------

class QLearningAgent:
    def __init__(self, n_states, n_actions, alpha=0.1, gamma=0.9, epsilon=0.1):
        """
        初始化 Q-learning 智能体
        n_states: 状态数量
        n_actions: 动作数量
        alpha: 学习率
        gamma: 折扣因子
        epsilon: ε-贪婪策略中的探索率
        """
        self.n_states = n_states
        self.n_actions = n_actions
        self.alpha = alpha
        self.gamma = gamma
        self.epsilon = epsilon
        self.Q = np.zeros((n_states, n_actions))
    
    def choose_action(self, state):
        if np.random.rand() < self.epsilon:
            return np.random.randint(0, self.n_actions)
        else:
            return np.argmax(self.Q[state])
    
    def update(self, state, action, reward, next_state):
        best_next = np.max(self.Q[next_state])
        self.Q[state, action] += self.alpha * (reward + self.gamma * best_next - self.Q[state, action])

# ------------------------- 环境定义（简单迷宫示例） -------------------------

class MazeEnv:
    def __init__(self):
        # 状态编号：0 ~ 5，共 6 个状态
        # 状态转移和奖励根据简单迷宫设计
        # 状态 5 为目标状态
        self.n_states = 6
        self.n_actions = 2  # 0: 向左，1: 向右
        self.reset()
    
    def reset(self):
        self.state = 0
        return self.state
    
    def step(self, action):
        # 简单转移规则：如果动作 1（向右），状态 +1；动作 0（向左），状态 -1
        if action == 1:
            next_state = min(self.state + 1, self.n_states - 1)
        else:
            next_state = max(self.state - 1, 0)
        reward = 1 if next_state == self.n_states - 1 else -0.1
        done = next_state == self.n_states - 1
        self.state = next_state
        return next_state, reward, done

# ------------------------- Q-learning 训练过程 -------------------------

class QLearningDemo:
    def __init__(self, agent, env, max_episodes=100):
        self.agent = agent
        self.env = env
        self.max_episodes = max_episodes
        self.episode_rewards = []
        self.episodes = 0
    
    def run_episode(self):
        state = self.env.reset()
        total_reward = 0
        done = False
        while not done:
            action = self.agent.choose_action(state)
            next_state, reward, done = self.env.step(action)
            self.agent.update(state, action, reward, next_state)
            state = next_state
            total_reward += reward
        self.episode_rewards.append(total_reward)
        self.episodes += 1

# ------------------------- GUI 交互界面实现 -------------------------

class QLearningWidget(QWidget):
    """
    Q-learning 强化学习交互系统界面
    用户可设置学习率、折扣因子、ε 值、训练迭代次数等参数，
    实时观察 Q 值收敛曲线和累计奖励变化。
    """
    def __init__(self):
        super().__init__()
        self.initUI()
        self.timer = QTimer(self)
        self.timer.timeout.connect(self.run_training)
        self.simulation_running = False

    def initUI(self):
        layout = QVBoxLayout()
        title = QLabel("强化学习 Q-learning 演示系统
")
        layout.addWidget(title)
        
        # 参数输入区域
        form_layout = QFormLayout()
        self.alpha_edit = QLineEdit("0.1")
        self.gamma_edit = QLineEdit("0.9")
        self.epsilon_edit = QLineEdit("0.1")
        self.episodes_edit = QLineEdit("100")
        form_layout.addRow("学习率 α:", self.alpha_edit)
        form_layout.addRow("折扣因子 γ:", self.gamma_edit)
        form_layout.addRow("探索率 ε:", self.epsilon_edit)
        form_layout.addRow("训练迭代次数:", self.episodes_edit)
        layout.addLayout(form_layout)
        
        # 按钮区域
        btn_layout = QHBoxLayout()
        self.start_btn = QPushButton("开始训练")
        self.start_btn.clicked.connect(self.start_training)
        self.pause_btn = QPushButton("暂停")
        self.pause_btn.clicked.connect(self.pause_training)
        self.reset_btn = QPushButton("重置")
        self.reset_btn.clicked.connect(self.reset_training)
        self.help_btn = QPushButton("帮助")
        self.help_btn.clicked.connect(self.show_help)
        btn_layout.addWidget(self.start_btn)
        btn_layout.addWidget(self.pause_btn)
        btn_layout.addWidget(self.reset_btn)
        btn_layout.addWidget(self.help_btn)
        layout.addLayout(btn_layout)
        
        # 信息显示区域
        self.info_label = QLabel("当前训练迭代：0")
        layout.addWidget(self.info_label)
        
        # 绘图区域：展示累计奖励收敛曲线
        self.figure, self.ax = plt.subplots(figsize=(8, 4))
        self.canvas = FigureCanvas(self.figure)
        layout.addWidget(self.canvas)
        
        self.setLayout(layout)
        self.setStyleSheet("""
            QLabel { font-size: 14px; }
            QLineEdit { padding: 4px; border: 1px solid #ccc; }
            QPushButton { background-color: #007acc; color: white; padding: 5px 10px; border-radius: 4px; }
            QPushButton:hover { background-color: #3399ff; }
        """)
    
    def show_help(self):
        help_text = (
            "【帮助说明】\n\n"
            "1. 在参数输入区域设置 Q-learning 的学习率（α）、折扣因子（γ）、探索率（ε）及训练迭代次数。\n"
            "2. 本示例中采用简单的迷宫导航问题作为环境，状态数量为 6，动作为向左和向右。\n"
            "3. 点击“开始训练”后，智能体将通过不断试错更新 Q 值，系统实时显示累计奖励的收敛情况。\n"
            "4. 点击“暂停”可暂停训练，“重置”则重新初始化智能体和环境。"
        )
        QMessageBox.information(self, "帮助", help_text)
    
    def start_training(self):
        try:
            alpha = float(self.alpha_edit.text())
            gamma = float(self.gamma_edit.text())
            epsilon = float(self.epsilon_edit.text())
            max_episodes = int(self.episodes_edit.text())
        except Exception as e:
            QMessageBox.warning(self, "输入错误", f"参数输入错误：{e}")
            return
        
        self.agent = QLearningAgent(n_states=6, n_actions=2, alpha=alpha, gamma=gamma, epsilon=epsilon)
        self.env = MazeEnv()
        self.demo = QLearningDemo(agent=self.agent, env=self.env, max_episodes=max_episodes)
        self.episode_history = []
        self.iter_count = 0
        self.info_label.setText("当前训练迭代：0")
        self.update_plot()
        if not self.simulation_running:
            self.simulation_running = True
            self.timer.start(500)  # 每 500ms 进行一次训练迭代
    
    def run_training(self):
        if self.iter_count < self.demo.max_episodes:
            self.demo.run_episode()
            self.iter_count += 1
            self.episode_history.append(self.demo.episode_rewards[-1])
            self.info_label.setText(f"当前训练迭代：{self.iter_count}")
            self.update_plot()
        else:
            self.pause_training()
    
    def update_plot(self):
        self.ax.clear()
        self.ax.plot(self.episode_history, marker='o', linestyle='-')
        self.ax.set_xlabel("迭代次数")
        self.ax.set_ylabel("累计奖励")
        self.ax.set_title("累计奖励收敛曲线")
        self.ax.grid(True)
        self.canvas.draw()
    
    def pause_training(self):
        self.simulation_running = False
        self.timer.stop()
    
    def reset_training(self):
        self.pause_training()
        self.episode_history = []
        self.iter_count = 0
        self.info_label.setText("当前训练迭代：0")
        self.ax.clear()
        self.canvas.draw()

# ------------------------- 主窗口 -------------------------

class RLMainWindow(QMainWindow):
    def __init__(self):
        super().__init__()
        self.setWindowTitle("强化学习（Q-learning、DQN）交互系统")
        self.setGeometry(100, 100, 1000, 700)
        self.initUI()
    
    def initUI(self):
        self.rl_widget = QLearningWidget()
        self.setCentralWidget(self.rl_widget)

# ------------------------- 主函数 -------------------------

def main():
    app = QApplication(sys.argv)
    window = RLMainWindow()
    window.show()
    sys.exit(app.exec())

if __name__ == "__main__":
    main()

七、结语

本文详细介绍了强化学习中基于值函数的 Q-learning 算法及深度强化学习的 DQN 方法，从基本理论、数学模型到算法流程均进行了全面阐述。通过迷宫导航、股票交易策略和机器人控制等典型案例，展示了强化学习在处理高维、非线性和时变问题中的强大适应性。为了帮助工程师和研究者更直观地理解强化学习的训练过程，本文还提供了一份基于 Python 与 PyQt6 实现的交互式 GUI 演示系统代码示例，用户可以在线调整参数，实时观察累计奖励和 Q 值的变化，从而更深入地理解算法收敛和策略演化的过程。

随着人工智能和自动控制技术的不断发展，强化学习在各领域中的应用将更加广泛。希望本文能为广大工程师、自动化专家及科研工作者提供宝贵的理论指导和实践参考，激发更多对 Q-learning、DQN 以及其他强化学习算法在实际问题中应用的研究与探索。

温馨提示：

本文中采用的环境和示例均为简化模型，实际应用中可能需要针对具体问题进行环境建模和参数调整。

提供的 GUI 演示代码经过初步自查，如在运行过程中遇到问题，请检查 Python 与 PyQt6 环境配置和依赖库版本。

欢迎广大读者结合实际工程需求对本文内容进行扩展与优化，共同推动强化学习技术在各领域中的深入应用与创新。

以上即为本篇关于 强化学习（Q-learning、DQN） 的完整博客文章。希望本文能够帮助您深入理解强化学习的基本原理、Q-learning 与 DQN 算法的实现流程，以及它们在实际问题中的应用，并为您的工程项目和研究工作提供有益启示。

python 读excel每行替换_Python脚本操作Excel实现批量替换功能 weixin_39646695 python 读excel每行替换
Python脚本操作Excel实现批量替换功能大家好，给大家分享下如何使用Python脚本操作Excel实现批量替换。使用的工具Openpyxl，一个处理excel的python库，处理excel，其实针对的就是WorkBook，Sheet，Cell这三个最根本的元素~明确需求原始excel如下我们的目标是把下面excel工作表的sheet1表页A列的内容“替换我吧”批量替换为B列的“我用来替换的
day15｜前端框架学习和算法 universe_01 前端算法笔记
T22括号生成先把所有情况都画出来，然后（在满足什么情况下）把不符合条件的删除。T78子集要画树状图，把思路清晰。可以用暴力法、回溯法和DFS做这个题DFS深度搜索：每个边都走完，再回溯应用：二叉树搜索，图搜索回溯算法=DFS+剪枝T200岛屿数量（非常经典BFS宽度把树状转化成队列形式，lambda匿名函数“一次性的小函数，没有名字”setup语法糖：让代码更简洁好写的语法ref创建：基本类型的
C++ 计数排序、归并排序、快速排序每天搬一点点砖 c++数据结构算法
计数排序：是一种基于哈希的排序算法。他的基本思想是通过统计每个元素的出现次数，然后根据统计结果将元素依次放入排序后的序列中。这种排序算法适用于范围较小的情况，例如整数范围在0到k之间计数排序步骤：1初始化一个长度为最大元素值加1的计数数组，所有元素初始化为02遍历原始数组，将每个元素值作为索引，在计数数组中对应位置加13将数组清空4遍历计数器数组，按照数组中的元素个数放回到元数组中计数排序的优点和
Flowable 高级扩展：自定义元素与性能优化实战练习时长两年半的程序员小胡 Flowable 流程引擎实战指南流程图 flowable BPMN 流程引擎 java
在前五篇文章中，我们从基础概念、流程设计、API实战、SpringBoot集成，到外部系统协同，逐步构建了Flowable的应用体系。但企业级复杂场景中，原生功能往往难以满足定制化需求——比如需要特殊的审批规则网关、与决策引擎联动实现动态路由，或是在高并发场景下优化流程引擎性能。本文将聚焦Flowable的高级扩展能力，详解如何自定义流程元素、集成规则引擎，并掌握大型系统中的性能调优策略。一、自定
什么是缓存雪崩？缓存击穿？缓存穿透？分别如何解决？什么是缓存预热？ daixin8848 缓存 redis java 开发语言
缓存雪崩：在一个时间段内，有大量的key过期，或者Redis服务宕机，导致大量的请求到达数据库,带来巨大压力-给key设置不同的TTL、利用Redis集群提高服务的高可用性、添加多级缓存、添加降级流策略缓存击穿：给某一个key设置了过期时间，当key过期的时间，恰好这个时间点有大量的并发请求访问这个key，可能会瞬间把数据库压垮-互斥锁：缓存失败时，只允许一个请求去加载数据并更新缓存，其他请求阻塞
Java | 多线程经典问题 - 售票 Ada54
一、售票需求1）同一个票池2）多个窗口卖票，不能出售同一张票二、售票问题代码实现（线程与进程小总结，请戳：Java|线程和进程，创建线程）step1：定义SaleWindow类实现Runnable接口，覆盖run方法step2：实例化SaleWindow对象，创建Thread对象，将SaleWindow作为参数传给Thread类的构造函数，然后通过Thread.start()方法启动线程step3
车载刷写架构 --- 整车刷写中为何增加了ECU 队列刷写策略？汽车电子实验室电子电器架构——刷写方案车载电子电气架构架构开发语言车载诊断进阶篇汽车中央控制单元HPC软件架构关于网关转发性能引起的思考
我是穿拖鞋的汉子，魔都中坚持长期主义的汽车电子工程师。老规矩，分享一段喜欢的文字，避免自己成为高知识低文化的工程师：周末洗了一个澡，换了一身衣服，出了门却不知道去哪儿，不知道去找谁，漫无目的走着，大概这就是成年人最深的孤独吧!旧人不知我近况，新人不知我过往，近况不该旧人知，过往不与新人讲。纵你阅人何其多，再无一人恰似我。时间不知不觉中，来到新的一年。2025开始新的忙碌。成年人的我也不知道去哪里渡
模拟退火(SA)：如何“故意走错路”，才能找到最优解？小瑞瑞acd 小瑞瑞学数模模拟退火算法 python 启发式算法算法
模拟退火(SA)：如何“故意走错路”，才能找到最优解？图示模拟退火算法如何通过接受较差解（橙色虚线标注）从局部最优（绿色点）逃逸，最终找到全局最优解（紫色点），展示其跳出局部极小值的能力。大家好，我是小瑞瑞！欢迎回到我的专栏！想象一下，你站在一座连绵不绝的山脉中，目标是找到海拔最低的那个山谷。你手上只有一个高度计，视野被浓雾笼罩，只能看清脚下的一小片区域。如果你是一个“贪心”的登山者，你的策略会非
深入理解汇编语言子程序设计与系统调用网安spinage 汇编语言开发语言汇编算法
本文将全面解析汇编语言中子程序设计的核心技术以及系统调用的实现方法，涵盖参数传递的多种方式、堆栈管理、API调用等关键知识点，并提供实际案例演示。一、子程序设计：参数传递的艺术1.寄存器传参：高效简洁.386.modelflat,stdcalloptioncasemap:none.dataxdd5;定义变量ydd6sumdd?.code;函数定义：addxy1addxy1procpushebpmo
CodeFoeces-450B ss5smi
题目原题链接：B.JzzhuandSequences题意根据公式公式计算对应fn的值。参考了其他作者的代码和思路。找循环点。负数取余需要加取余数到>0为止才可取余。代码#includeusingnamespacestd;constintmod=1e9+7;intmain(){longlongf[10],x,y,n;cin>>x>>y>>n;x=(x+mod)%mod;y=(y+mod)%mod;f
分支和循环（下） tryxr 服务器运维
写⼀个猜数字游戏游戏要求：1.电脑⾃动⽣成1~100的随机数2.玩家猜数字，猜数字的过程中，根据猜测数据的⼤⼩给出⼤了或⼩了的反馈，直到猜对，游戏结束1.随机数生成要想完成猜数字游戏，⾸先得产⽣随机数，那怎么产⽣随机数呢？randC语⾔提供了⼀个函数叫rand，这函数是可以⽣成随机数的，函数原型如下所⽰：intrand(void);rand函数会返回⼀个伪随机数，这个随机数的范围是在0~RAND_
JVM 内存分配与回收策略：从对象创建到内存释放的全流程
在JVM的运行机制中，内存分配与回收策略是连接对象生命周期与垃圾收集器的桥梁。它决定了对象在堆内存中的创建位置、存活过程中的区域迁移，以及最终被回收的时机。合理的内存分配策略能减少GC频率、降低停顿时间，是优化Java应用性能的核心环节。本文将系统解析JVM的内存分配规则、对象晋升机制，以及实战中的内存优化技巧。一、对象优先在Eden区分配：新生代的“临时缓冲区”大多数情况下，Java对象在新生代
js操作样式郝加升
DOM样式属性和方法：指定的元素，它的style有这么几个属性和方法：cssText：通过这个属性可以访问到元素的特性style设置的属性，并且可以直接赋值设置。removeProperty（属性名称）：从样式中删除给定属性。setProperty（属性名称，值，权重）：可以通过这个方法设置给定样式的同时设置其权重，可以传入”important”或者一个空字符串。获取计算后样式：window.ge
C++ ：vector的模拟诚自然成 c++开发语言
目录一、vector的迭代器二、vector的构造函数默认构造函数参数构造函数迭代器范围构造函数拷贝构造函数swap:交换vector重载赋值符析构函数reserve:扩容vectorresize:调整大小push_back:添加元素empty:判空pop_back:后删获取大小与容量：size(),capacity()重载operator[]：元素访问insert：插入元素erase:删除一个元
旧系统UI焕新陷阱：保留业务习惯与引入新交互的平衡点把控贝格前端工场 ui 交互
摘要**想给老旧系统换上“高颜值新衣”，却遭遇员工集体吐槽“不会用”？满心期待新交互能提升效率，结果用户操作频频出错，业务进度反而被拖慢？旧系统UI焕新本是优化体验的好机会，可在保留多年养成的业务操作习惯，与引入更先进便捷的新交互方式之间，却横亘着巨大鸿沟。稍有不慎，就会陷入“改了不如不改”的尴尬境地。这场关于“守旧”与“创新”的博弈，究竟该如何破局？一、旧系统UI焕新：一场甜蜜又棘手的改造工程旧
AI模型训练中过拟合和欠拟合的区别是什么？ workflower 人工智能算法人工智能数据分析
在AI模型训练中，过拟合和欠拟合是两种常见的模型性能问题，核心区别在于模型对数据的学习程度和泛化能力：欠拟合（Underfitting）-定义：模型未能充分学习到数据中的规律，对训练数据的拟合程度较差，在训练集和测试集上的表现都不好（如准确率低、损失值高）。-原因：-模型结构过于简单（如用线性模型解决非线性问题）；-训练数据量不足或特征信息不充分；-训练时间太短，模型尚未学到有效模式。-表现：训练
mysql复习立夏的李子 mysql 数据库 database
mysqlselect语法selectfromjoinwheregroupbyhavingorderbylimit联合查询innerjoin（）leftjoin（以左表为基准，匹配右表，不匹配的返回左表，右表以null值填充）rightjoind··(去除列重复的数据)索引类型主键索引(PrimaryKey)唯一索引(Unique)常规索引(Index)全文索引(FullText)索引准则索引不是
python笔记14介绍几个魔法方法抢公主的大魔王 python python
python笔记14介绍几个魔法方法先声明一下各位大佬，这是我的笔记。如有错误，恳请指正。另外，感谢您的观看，谢谢啦！(1).__doc__输出对应的函数，类的说明文档print(print.__doc__)print(value,...,sep='',end='\n',file=sys.stdout,flush=False)Printsthevaluestoastream,ortosys.std
Anaconda 和 Miniconda：功能详解与选择建议古月฿ python入门 python conda
Anaconda和Miniconda详细介绍一、Anaconda的详细介绍1.什么是Anaconda？Anaconda是一个开源的包管理和环境管理工具，在数据科学、机器学习以及科学计算领域发挥着关键作用。它以Python和R语言为基础，为用户精心准备了大量预装库和工具，极大地缩短了搭建数据科学环境的时间。对于那些想要快速开展数据分析、模型训练等工作的人员来说，Anaconda就像是一个一站式的“数
环境搭建 | Python + Anaconda / Miniconda + PyCharm 的安装、配置与使用
本文将分别介绍Python、Anaconda/Miniconda、PyCharm的安装、配置与使用，详细介绍Python环境搭建的全过程，涵盖Python、Pip、PythonLauncher、Anaconda、Miniconda、Pycharm等内容，以官方文档为参照，使用经验为补充，内容全面而详实。由于图片太多，就先贴一个无图简化版吧，详情请查看Python+Anaconda/Minicond
Qwen3 大模型实战：使用 vLLM 部署与函数调用（Function Call）全攻略曦紫沐大模型大模型部署 Qwen3 vLLM 函数调用
文章摘要本文将带你从零开始，深入掌握如何使用Qwen3-8B大语言模型，结合vLLM进行高性能部署，并通过函数调用（FunctionCall）实现模型与外部工具的智能联动。我们将详细讲解部署命令、调用方式、代码示例及实际应用场景，帮助你快速构建基于Qwen3的智能应用。一、Qwen3简介与部署环境准备Qwen3是通义千问系列的最新一代大语言模型，具备强大的自然语言理解和生成能力，尤其在函数调用、工
你竟然还在用克隆删除？Conda最新版rename命令全攻略！曦紫沐 Python基础知识 conda 虚拟环境管理
文章摘要Conda虚拟环境管理终于迎来革命性升级！本文揭秘Conda4.9+版本新增的rename黑科技，彻底告别传统“克隆+删除”的繁琐操作。从命令解析到实战案例，手把手教你如何安全高效地重命名Python虚拟环境，附带版本检测、环境迁移、故障排查等进阶技巧，助你提升开发效率10倍！一、颠覆认知：Conda居然自带重命名功能？很多开发者仍停留在“Conda无法直接重命名环境”的认知阶段，实际上自
[spring6: Mvc-网关]-源码解析
推荐阅读：[spring6:Mvc-函数式编程]-源码解析GatewayServerMvcAutoConfiguration@AutoConfiguration(after={HttpClientAutoConfiguration.class,RestTemplateAutoConfiguration.class,RestClientAutoConfiguration.class,FilterAu
centos7安装配置 Anaconda3
Anaconda是一个用于科学计算的Python发行版,Anaconda于Python，相当于centos于linux。下载[root@testsrc]#mwgethttps://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anaconda3-5.2.0-Linux-x86_64.shBegintodownload:Anaconda3-5.2.0-L
Pandas：数据科学的超级瑞士军刀科技林总 DeepSeek学AI 人工智能
**——从零基础到高效分析的进化指南**###**一、Pandas诞生：数据革命的救世主****2010年前的数据分析噩梦**：```python#传统Python处理表格数据data=[]forrowincsv_file:ifrow[3]>100androw[2]=="China":data.append(float(row[5])#代码冗长易错！```**核心痛点**：-Excel处理百万行崩
分布式链路追踪系统架构设计：从理论到企业级实践 ma451152002 java 分布式系统架构
分布式链路追踪系统架构设计：从理论到企业级实践本文深入探讨分布式链路追踪系统的架构设计原理、关键技术实现和企业级应用实践，为P7架构师提供完整的技术方案参考。目录引言：分布式链路追踪的重要性核心概念与技术原理系统架构设计数据模型与协议标准核心组件架构设计性能优化与扩展性设计企业级实施策略技术选型与对比分析监控与运维体系未来发展趋势P7架构师面试要点引言：分布式链路追踪的重要性微服务架构下的挑战在现
机器学习必备数学与编程指南：从入门到精通 a小胡哦机器学习基础机器学习人工智能
一、机器学习核心数学基础1.线性代数（神经网络的基础）必须掌握：矩阵运算（乘法、转置、逆）向量空间与线性变换特征值分解与奇异值分解(SVD)为什么重要：神经网络本质就是矩阵运算学习技巧：用NumPy实际操作矩阵运算2.概率与统计（模型评估的关键）核心概念：条件概率与贝叶斯定理概率分布（正态、泊松、伯努利）假设检验与p值应用场景：朴素贝叶斯、A/B测试3.微积分（优化算法的基础）重点掌握：导数与偏导
【Jupyter】个人开发常见命令 TIM老师 #Pycharm &VSCode python Jupyter
1.查看python版本importsysprint(sys.version)2.ipynb/py文件转换jupyternbconvert--topythonmy_file.ipynbipynb转换为mdjupyternbconvert--tomdmy_file.ipynbipynb转为htmljupyternbconvert--tohtmlmy_file.ipynbipython转换为pdfju
用 Python 开发小游戏：零基础也能做出《贪吃蛇》
本文专为零基础学习者打造，详细介绍如何用Python开发经典小游戏《贪吃蛇》。无需复杂编程知识，从环境搭建到代码编写、功能实现，逐步讲解核心逻辑与操作。涵盖Pygame库的基础运用、游戏界面设计、蛇的移动与食物生成规则等，让新手能按步骤完成开发，同时融入SEO优化要点，帮助读者轻松入门Python游戏开发，体验从0到1做出游戏的乐趣。一、为什么选择用Python开发《贪吃蛇》对于零基础学习者来说，
文科生转行编程：从月薪 3 千到 2 万的真实经历
在当下就业市场中，文科生往往面临诸多挑战，薪资水平也不尽如人意。然而，有不少勇敢的文科生成功实现了向编程领域的转行，薪资更是实现了从月薪3千到2万的飞跃。本文将深入剖析文科生转行编程的真实经历，从最初对现状的不满萌生出转行念头，到如何艰难地开启学习之旅，克服基础薄弱、思维转换难等重重困难，再到求职时凭借策略与努力获得宝贵机会，以及入职后持续学习保持竞争力。希望通过这些真实历程，为有志于转行编程的文
java的(PO,VO,TO,BO,DAO,POJO) Cb123456 VO TO BO POJO DAO
转: http://www.cnblogs.com/yxnchinahlj/archive/2012/02/24/2366110.html ------------------------------------------------------------------- O/R Mapping 是 Object Relational Mapping（对象关系映
spring ioc原理（看完后大家可以自己写一个spring） aijuans spring
最近，买了本Spring入门书：spring In Action 。大致浏览了下感觉还不错。就是入门了点。Manning的书还是不错的，我虽然不像哪些只看Manning书的人那样专注于Manning,但怀着崇敬的心情和激情通览了一遍。又一次接受了IOC 、DI、AOP等Spring核心概念。先就IOC和DI谈一点我的看法。IO
MyEclipse 2014中Customize Persperctive设置无效的解决方法 Kai_Ge MyEclipse2014
高高兴兴下载个MyEclipse2014，发现工具条上多了个手机开发的按钮，心生不爽就想弄掉他！结果发现Customize Persperctive失效！！有说更新下就好了，可是国内Myeclipse访问不了，何谈更新... so~这里提供了更新后的一下jar包，给大家使用！ 1、将9个jar复制到myeclipse安装目录\plugins中 2、删除和这9个jar同包名但是版本号较
SpringMvc上传 120153216 springMVC
@RequestMapping(value = WebUrlConstant.UPLOADFILE) @ResponseBody public Map<String, Object> uploadFile(HttpServletRequest request,HttpServletResponse httpresponse) { try { //
Javascript----HTML DOM 事件何必如此 JavaScript html Web
HTML DOM 事件允许Javascript在HTML文档元素中注册不同事件处理程序。事件通常与函数结合使用，函数不会在事件发生前被执行！注：DOM：指明使用的 DOM 属性级别。 1.鼠标事件属性
动态绑定和删除onclick事件 357029540 JavaScript jquery
因为对JQUERY和JS的动态绑定事件的不熟悉，今天花了好久的时间才把动态绑定和删除onclick事件搞定!现在分享下我的过程。在我的查询页面，我将我的onclick事件绑定到了tr标签上同时传入当前行(this值)参数，这样可以在点击行上的任意地方时可以选中checkbox，但是在我的某一列上也有一个onclick事件是用于下载附件的，当
HttpClient|HttpClient请求详解 7454103 apache 应用服务器网络协议网络应用 Security
HttpClient 是 Apache Jakarta Common 下的子项目，可以用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端编程工具包，并且它支持 HTTP 协议最新的版本和建议。本文首先介绍 HTTPClient，然后根据作者实际工作经验给出了一些常见问题的解决方法。HTTP 协议可能是现在 Internet 上使用得最多、最重要的协议了，越来越多的 Java 应用程序需
递归逐层统计树形结构数据 darkranger 数据结构
将集合递归获取树形结构: /** * * 递归获取数据 * @param alist:所有分类 * @param subjname:对应统计的项目名称 * @param pk:对应项目主键 * @param reportList: 最后统计的结果集 * @param count:项目级别 */ public void getReportVO(Arr
访问WEB-INF下使用frameset标签页面出错的原因 aijuans struts2
<frameset rows="61,*,24" cols="*" framespacing="0" frameborder="no" border="0">
MAVEN常用命令 avords
Maven库： http://repo2.maven.org/maven2/ Maven依赖查询： http://mvnrepository.com/ Maven常用命令： 1. 创建Maven的普通java项目： mvn archetype:create -DgroupId=packageName
PHP如果自带一个小型的web服务器就好了 houxinyou apache 应用服务器 Web PHP 脚本
最近单位用PHP做网站，感觉PHP挺好的，不过有一些地方不太习惯，比如，环境搭建。PHP本身就是一个网站后台脚本，但用PHP做程序时还要下载apache，配置起来也不太很方便，虽然有好多配置好的apache+php+mysq的环境，但用起来总是心里不太舒服，因为我要的只是一个开发环境，如果是真实的运行环境，下个apahe也无所谓，但只是一个开发环境，总有一种杀鸡用牛刀的感觉。如果php自己的程序中
NoSQL数据库之Redis数据库管理(list类型) bijian1013 redis 数据库 NoSQL
3.list类型及操作 List是一个链表结构，主要功能是push、pop、获取一个范围的所有值等等，操作key理解为链表的名字。Redis的list类型其实就是一个每个子元素都是string类型的双向链表。我们可以通过push、pop操作从链表的头部或者尾部添加删除元素，这样list既可以作为栈，又可以作为队列。 &nbs
谁在用Hadoop？ bingyingao hadoop 数据挖掘公司应用场景
Hadoop技术的应用已经十分广泛了，而我是最近才开始对它有所了解，它在大数据领域的出色表现也让我产生了兴趣。浏览了他的官网，其中有一个页面专门介绍目前世界上有哪些公司在用Hadoop，这些公司涵盖各行各业，不乏一些大公司如alibaba,ebay,amazon,google,facebook,adobe等，主要用于日志分析、数据挖掘、机器学习、构建索引、业务报表等场景,这更加激发了学习它的热情。
【Spark七十六】Spark计算结果存到MySQL bit1129 mysql
package spark.examples.db import java.sql.{PreparedStatement, Connection, DriverManager} import com.mysql.jdbc.Driver import org.apache.spark.{SparkContext, SparkConf} object SparkMySQLInteg
Scala: JVM上的函数编程 bookjovi scala erlang haskell
说Scala是JVM上的函数编程一点也不为过，Scala把面向对象和函数型编程这两种主流编程范式结合了起来，对于熟悉各种编程范式的人而言Scala并没有带来太多革新的编程思想，scala主要的有点在于Java庞大的package优势，这样也就弥补了JVM平台上函数型编程的缺失，MS家.net上已经有了F#，JVM怎么能不跟上呢？对本人而言
jar打成exe bro_feng java jar exe
今天要把jar包打成exe，jsmooth和exe4j都用了。遇见几个问题。记录一下。两个软件都很好使，网上都有图片教程，都挺不错。首先肯定是要用自己的jre的，不然不能通用，其次别忘了把需要的lib放到classPath中。困扰我很久的一个问题是，我自己打包成功后，在一个同事的没有装jdk的电脑上运行，就是不行，报错jvm.dll为无效的windows映像，如截图最后发现
读《研磨设计模式》-代码笔记-策略模式-Strategy bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* 策略模式定义了一系列的算法，并将每一个算法封装起来，而且使它们还可以相互替换。策略模式让算法独立于使用它的客户而独立变化简单理解： 1、将不同的策略提炼出一个共同接口。这是容易的，因为不同的策略，只是算法不同，需要传递的参数
cmd命令值cvfM命令 chenyu19891124 cmd
cmd命令还真是强大啊。今天发现jar -cvfM aa.rar @aaalist 就这行命令可以根据aaalist取出相应的文件例如：在d：\workspace\prpall\test.java 有这样一个文件，现在想要将这个文件打成一个包。运行如下命令即可比如在d：\wor
OpenJWeb(1.8) Java Web应用快速开发平台 comsci java 框架 Web 项目管理企业应用
OpenJWeb(1.8) Java Web应用快速开发平台的作者是我们技术联盟的成员，他最近推出了新版本的快速应用开发平台 OpenJWeb(1.8)，我帮他做做宣传 OpenJWeb快速开发平台以快速开发为核心，整合先进的java 开源框架，本着自主开发+应用集成相结合的原则，旨在为政府、企事业单位、软件公司等平台用户提供一个架构透
Python 报错：IndentationError: unexpected indent daizj python tab 空格缩进
IndentationError: unexpected indent 是缩进的问题，也有可能是tab和空格混用啦 Python开发者有意让违反了缩进规则的程序不能通过编译，以此来强制程序员养成良好的编程习惯。并且在Python语言里，缩进而非花括号或者某种关键字，被用于表示语句块的开始和退出。增加缩进表示语句块的开
HttpClient 超时设置 dongwei_6688 httpclient
HttpClient中的超时设置包含两个部分： 1. 建立连接超时，是指在httpclient客户端和服务器端建立连接过程中允许的最大等待时间 2. 读取数据超时，是指在建立连接后，等待读取服务器端的响应数据时允许的最大等待时间在HttpClient 4.x中如下设置： HttpClient httpclient = new DefaultHttpC
小鱼与波浪 dcj3sjt126com
一条小鱼游出水面看蓝天，偶然间遇到了波浪。　　小鱼便与波浪在海面上游戏，随着波浪上下起伏、汹涌前进。　　小鱼在波浪里兴奋得大叫：“你每天都过着这么刺激的生活吗？简直太棒了。”　　波浪说：“岂只每天过这样的生活，几乎每一刻都这么刺激！还有更刺激的，要有潮汐变化，或者狂风暴雨，那才是兴奋得心脏都会跳出来。”　　小鱼说：“真希望我也能变成一个波浪，每天随着风雨、潮汐流动，不知道有多么好！”　　很快，小鱼
Error Code: 1175 You are using safe update mode and you tried to update a table dcj3sjt126com mysql
快速高效用：SET SQL_SAFE_UPDATES = 0；下面的就不要看了！今日用MySQL Workbench进行数据库的管理更新时，执行一个更新的语句碰到以下错误提示： Error Code: 1175 You are using safe update mode and you tried to update a table without a WHERE that
枚举类型详细介绍及方法定义 gaomysion enum javaee
转发 http://developer.51cto.com/art/201107/275031.htm 枚举其实就是一种类型，跟int, char 这种差不多，就是定义变量时限制输入的，你只能够赋enum里面规定的值。建议大家可以看看，这两篇文章，《java枚举类型入门》和《C++的中的结构体和枚举》，供大家参考。枚举类型是JDK5.0的新特征。Sun引进了一个全新的关键字enum
Merge Sorted Array hcx2013 array
Given two sorted integer arrays nums1 and nums2, merge nums2 into nums1 as one sorted array. Note:You may assume that nums1 has enough space (size that is
Expression Language 3.0新特性 jinnianshilongnian el 3.0
Expression Language 3.0表达式语言规范最终版从2013-4-29发布到现在已经非常久的时间了；目前如Tomcat 8、Jetty 9、GlasshFish 4已经支持EL 3.0。新特性包括：如字符串拼接操作符、赋值、分号操作符、对象方法调用、Lambda表达式、静态字段/方法调用、构造器调用、Java8集合操作。目前Glassfish 4/Jetty实现最好，对大多数新特性
超越算法来看待个性化推荐 liyonghui160com 超越算法来看待个性化推荐
一提到个性化推荐，大家一般会想到协同过滤、文本相似等推荐算法，或是更高阶的模型推荐算法，百度的张栋说过，推荐40%取决于UI、30%取决于数据、20%取决于背景知识，虽然本人不是很认同这种比例，但推荐系统中，推荐算法起的作用起的作用是非常有限的。就像任何
写给Javascript初学者的小小建议 pda158 JavaScript
　　一般初学JavaScript的时候最头痛的就是浏览器兼容问题。在Firefox下面好好的代码放到IE就不能显示了，又或者是在IE能正常显示的代码在firefox又报错了。　　如果你正初学JavaScript并有着一样的处境的话建议你：初学JavaScript的时候无视DOM和BOM的兼容性，将更多的时间花在了解语言本身（ECMAScript）。只在特定浏览器编写代码（Chrome/Fi
Java 枚举 ShihLei java enum 枚举
注：文章内容大量借鉴使用网上的资料，可惜没有记录参考地址，只能再传对作者说声抱歉并表示感谢！一基础 1）语法枚举类型只能有私有构造器（这样做可以保证客户代码没有办法新建一个enum的实例）枚举实例必须最先定义 2）特性 &nb
Java SE 6 HotSpot虚拟机的垃圾回收机制 uuhorse java HotSpot GC 垃圾回收 VM
官方资料，关于Java SE 6 HotSpot虚拟机的garbage Collection，非常全，英文。 http://www.oracle.com/technetwork/java/javase/gc-tuning-6-140523.html Java SE 6 HotSpot[tm] Virtual Machine Garbage Collection Tuning &

强化学习（Q-learning、DQN） —— 理论、案例与交互式 GUI 实现

目录

强化学习（Q-learning、DQN） —— 理论、案例与交互式 GUI 实现

一、引言

二、强化学习基本原理

2.1 强化学习框架

2.2 Q值函数

三、Q-learning 算法

3.1 算法原理

3.2 算法流程

四、深度 Q 网络（DQN）

4.1 DQN 算法背景

4.2 DQN 的核心技术

4.3 DQN 算法流程

五、典型案例分析

5.1 案例一：迷宫导航

5.1.1 案例描述

5.1.2 分析结论

5.2 案例二：股票交易策略

5.2.1 案例描述

5.2.2 分析结论

5.3 案例三：机器人控制

5.3.1 案例描述

5.3.2 分析结论

六、基于 Python 与 PyQt6 的交互式 GUI 实现

6.1 系统架构

6.2 Python 代码实现

强化学习 Q-learning 演示系统

七、结语

你可能感兴趣的:(python,RL,策略演化,Q,值函数,Q-learning,DQN,强化学习,奖励函数)