全息架构师

Python强化学习实战：从游戏AI到工业控制的完整指南

Python人工智能模型训练实战(六)：强化学习从入门到工业级应用

核心价值

前情提要：我们已经完成了监督学习和AutoML的完整流程。本期将探索人工智能的另一个重要领域——让机器通过试错自主学习的强化学习技术！

本期亮点：

4大核心强化学习算法完整实现
从游戏AI到工业控制的实战案例
生产环境部署与性能优化技巧
分布式强化学习系统架构
完整的可运维代码实现

强化学习算法对比（表格呈现）

算法	类型	适用场景	优势	实现模块
Q-Learning	值迭代	离散动作空间	简单稳定	q_learning.py
Deep Q Network	值迭代	高维状态空间	处理复杂输入	dqn.py
Policy Gradients	策略迭代	连续动作空间	直接优化策略	policy_grad.py
Proximal Policy Optimization	策略迭代	复杂环境	训练稳定高效	ppo.py

代码实现（分模块）

1. Q-Learning实现 (q_learning.py)

"""
经典Q-Learning算法实现
适用于离散状态和动作空间的问题
"""

import numpy as np
import random
from collections import defaultdict
import logging
from typing import Dict, Tuple, Any
import pickle
import os
from config import MODEL_DIR

logger = logging.getLogger(__name__)

class QLearningAgent:
    def __init__(self,
                action_space: int,
                learning_rate: float = 0.1,
                discount_factor: float = 0.95,
                exploration_rate: float = 1.0,
                exploration_decay: float = 0.995,
                min_exploration: float = 0.01):
        """初始化Q-Learning智能体"""
        self.action_space = action_space
        self.lr = learning_rate
        self.gamma = discount_factor
        self.epsilon = exploration_rate
        self.epsilon_decay = exploration_decay
        self.epsilon_min = min_exploration
        self.q_table = defaultdict(lambda: np.zeros(action_space))
        
    def get_action(self, state: Tuple) -> int:
        """根据当前状态选择动作"""
        if random.random() < self.epsilon:
            return random.randint(0, self.action_space - 1)
        return np.argmax(self.q_table[state])
    
    def update(self,
              state: Tuple,
              action: int,
              reward: float,
              next_state: Tuple,
              done: bool):
        """更新Q表"""
        current_q = self.q_table[state][action]
        max_next_q = np.max(self.q_table[next_state]) if not done else 0
        new_q = current_q + self.lr * (reward + self.gamma * max_next_q - current_q)
        self.q_table[state][action] = new_q
        
        # 衰减探索率
        if done:
            self.epsilon = max(self.epsilon_min, self.epsilon * self.epsilon_decay)
    
    def save(self, filename: str = "q_learning_model.pkl"):
        """保存Q表"""
        os.makedirs(MODEL_DIR, exist_ok=True)
        with open(os.path.join(MODEL_DIR, filename), 'wb') as f:
            pickle.dump(dict(self.q_table), f)
        logger.info(f"模型已保存到 {filename}")
    
    def load(self, filename: str = "q_learning_model.pkl"):
        """加载Q表"""
        try:
            with open(os.path.join(MODEL_DIR, filename), 'rb') as f:
                self.q_table = defaultdict(lambda: np.zeros(self.action_space), pickle.load(f))
            logger.info(f"已从 {filename} 加载模型")
        except FileNotFoundError:
            logger.warning("未找到模型文件，初始化新Q表")

2. Deep Q Network实现 (dqn.py)

"""
深度Q网络(DQN)实现
包含经验回放和目标网络等改进
"""

import numpy as np
import random
from collections import deque
import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense
from tensorflow.keras.optimizers import Adam
import logging
from typing import List, Tuple, Any
import os
from config import MODEL_DIR

logger = logging.getLogger(__name__)

class DQNAgent:
    def __init__(self,
                state_shape: Tuple,
                action_space: int,
                memory_size: int = 10000,
                batch_size: int = 64,
                learning_rate: float = 0.001,
                discount_factor: float = 0.95,
                exploration_rate: float = 1.0,
                exploration_min: float = 0.01,
                exploration_decay: float = 0.995,
                target_update_freq: int = 100):
        """初始化DQN智能体"""
        self.state_shape = state_shape
        self.action_space = action_space
        self.memory = deque(maxlen=memory_size)
        self.batch_size = batch_size
        self.gamma = discount_factor
        self.epsilon = exploration_rate
        self.epsilon_min = exploration_min
        self.epsilon_decay = exploration_decay
        self.target_update_freq = target_update_freq
        self.train_step = 0
        
        # 创建主网络和目标网络
        self.model = self._build_model(learning_rate)
        self.target_model = self._build_model(learning_rate)
        self._update_target_model()
    
    def _build_model(self, learning_rate: float) -> Sequential:
        """构建深度Q网络"""
        model = Sequential([
            Dense(64, input_shape=self.state_shape, activation='relu'),
            Dense(64, activation='relu'),
            Dense(self.action_space, activation='linear')
        ])
        model.compile(loss='mse', optimizer=Adam(learning_rate=learning_rate))
        return model
    
    def _update_target_model(self):
        """更新目标网络权重"""
        self.target_model.set_weights(self.model.get_weights())
    
    def remember(self,
                state: np.ndarray,
                action: int,
                reward: float,
                next_state: np.ndarray,
                done: bool):
        """存储经验到记忆回放缓冲区"""
        self.memory.append((state, action, reward, next_state, done))
    
    def get_action(self, state: np.ndarray) -> int:
        """根据当前状态选择动作"""
        if np.random.rand() <= self.epsilon:
            return random.randrange(self.action_space)
        q_values = self.model.predict(state[np.newaxis], verbose=0)
        return np.argmax(q_values[0])
    
    def replay(self):
        """从记忆回放中学习"""
        if len(self.memory) < self.batch_size:
            return
        
        minibatch = random.sample(self.memory, self.batch_size)
        states = np.array([t[0] for t in minibatch])
        actions = np.array([t[1] for t in minibatch])
        rewards = np.array([t[2] for t in minibatch])
        next_states = np.array([t[3] for t in minibatch])
        dones = np.array([t[4] for t in minibatch])
        
        # 计算目标Q值
        targets = self.model.predict(states, verbose=0)
        next_q_values = self.target_model.predict(next_states, verbose=0)
        targets[range(self.batch_size), actions] = rewards + self.gamma * np.max(next_q_values, axis=1) * (1 - dones)
        
        # 训练主网络
        self.model.fit(states, targets, epochs=1, verbose=0)
        
        # 衰减探索率
        self.epsilon = max(self.epsilon_min, self.epsilon * self.epsilon_decay)
        
        # 定期更新目标网络
        self.train_step += 1
        if self.train_step % self.target_update_freq == 0:
            self._update_target_model()
    
    def save(self, filename: str = "dqn_model.h5"):
        """保存模型权重"""
        os.makedirs(MODEL_DIR, exist_ok=True)
        self.model.save(os.path.join(MODEL_DIR, filename))
        logger.info(f"模型已保存到 {filename}")
    
    def load(self, filename: str = "dqn_model.h5"):
        """加载模型权重"""
        try:
            self.model = tf.keras.models.load_model(os.path.join(MODEL_DIR, filename))
            self._update_target_model()
            logger.info(f"已从 {filename} 加载模型")
        except OSError:
            logger.warning("未找到模型文件，初始化新模型")

3. 策略梯度实现 (policy_grad.py)

"""
策略梯度(Policy Gradient)算法实现
适用于连续动作空间问题
"""

import numpy as np
import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense
from tensorflow.keras.optimizers import Adam
import logging
from typing import List, Tuple
import os
from config import MODEL_DIR

logger = logging.getLogger(__name__)

class PolicyGradientAgent:
    def __init__(self,
                state_shape: Tuple,
                action_space: int,
                learning_rate: float = 0.01,
                discount_factor: float = 0.95):
        """初始化策略梯度智能体"""
        self.state_shape = state_shape
        self.action_space = action_space
        self.gamma = discount_factor
        self.states = []
        self.actions = []
        self.rewards = []
        
        # 构建策略网络
        self.model = self._build_model(learning_rate)
    
    def _build_model(self, learning_rate: float) -> Sequential:
        """构建策略网络"""
        model = Sequential([
            Dense(64, input_shape=self.state_shape, activation='relu'),
            Dense(64, activation='relu'),
            Dense(self.action_space, activation='softmax')
        ])
        model.compile(loss='categorical_crossentropy', optimizer=Adam(learning_rate=learning_rate))
        return model
    
    def get_action(self, state: np.ndarray) -> int:
        """根据策略选择动作"""
        state = state[np.newaxis]
        probs = self.model.predict(state, verbose=0)[0]
        return np.random.choice(self.action_space, p=probs)
    
    def remember(self,
                state: np.ndarray,
                action: int,
                reward: float):
        """存储轨迹数据"""
        self.states.append(state)
        self.actions.append(action)
        self.rewards.append(reward)
    
    def train(self):
        """训练策略网络"""
        # 计算折扣回报
        discounted_rewards = []
        running_reward = 0
        for r in reversed(self.rewards):
            running_reward = r + self.gamma * running_reward
            discounted_rewards.insert(0, running_reward)
        
        # 标准化回报
        discounted_rewards = np.array(discounted_rewards)
        discounted_rewards = (discounted_rewards - np.mean(discounted_rewards)) / (np.std(discounted_rewards) + 1e-8)
        
        # 准备训练数据
        states = np.vstack(self.states)
        actions = np.array(self.actions)
        
        # 创建动作的one-hot编码
        actions_onehot = np.zeros((len(actions), self.action_space))
        actions_onehot[np.arange(len(actions)), actions] = 1
        
        # 训练模型
        self.model.train_on_batch(states, actions_onehot, sample_weight=discounted_rewards)
        
        # 清空轨迹
        self.states = []
        self.actions = []
        self.rewards = []
    
    def save(self, filename: str = "policy_grad_model.h5"):
        """保存模型"""
        os.makedirs(MODEL_DIR, exist_ok=True)
        self.model.save(os.path.join(MODEL_DIR, filename))
        logger.info(f"模型已保存到 {filename}")
    
    def load(self, filename: str = "policy_grad_model.h5"):
        """加载模型"""
        try:
            self.model = tf.keras.models.load_model(os.path.join(MODEL_DIR, filename))
            logger.info(f"已从 {filename} 加载模型")
        except OSError:
            logger.warning("未找到模型文件，初始化新模型")

4. PPO实现 (ppo.py)

"""
近端策略优化(PPO)算法实现
包含Clipped Surrogate Objective和GAE等改进
"""

import numpy as np
import tensorflow as tf
from tensorflow.keras.models import Model
from tensorflow.keras.layers import Dense, Input
from tensorflow.keras.optimizers import Adam
import tensorflow_probability as tfp
import logging
from typing import Tuple, List
import os
from config import MODEL_DIR

logger = logging.getLogger(__name__)

class PPOAgent:
    def __init__(self,
                state_shape: Tuple,
                action_space: int,
                policy_lr: float = 0.0003,
                value_lr: float = 0.001,
                gamma: float = 0.99,
                gae_lambda: float = 0.95,
                clip_ratio: float = 0.2,
                train_iters: int = 10,
                batch_size: int = 64):
        """初始化PPO智能体"""
        self.state_shape = state_shape
        self.action_space = action_space
        self.gamma = gamma
        self.gae_lambda = gae_lambda
        self.clip_ratio = clip_ratio
        self.train_iters = train_iters
        self.batch_size = batch_size
        
        # 创建策略网络和价值网络
        self.policy, self.value = self._build_networks(policy_lr, value_lr)
        self.policy_old = self._build_networks(policy_lr, value_lr)[0]
        self._update_old_policy()
    
    def _build_networks(self, policy_lr: float, value_lr: float) -> Tuple[Model, Model]:
        """构建策略网络和价值网络"""
        # 共享特征提取层
        inputs = Input(shape=self.state_shape)
        dense1 = Dense(64, activation='tanh')(inputs)
        dense2 = Dense(64, activation='tanh')(dense1)
        
        # 策略网络输出动作概率分布
        policy_dense = Dense(64, activation='tanh')(dense2)
        policy_output = Dense(self.action_space, activation='softmax')(policy_dense)
        policy = Model(inputs=inputs, outputs=policy_output)
        policy.compile(optimizer=Adam(learning_rate=policy_lr))
        
        # 价值网络输出状态价值
        value_dense = Dense(64, activation='tanh')(dense2)
        value_output = Dense(1)(value_dense)
        value = Model(inputs=inputs, outputs=value_output)
        value.compile(optimizer=Adam(learning_rate=value_lr), loss='mse')
        
        return policy, value
    
    def _update_old_policy(self):
        """更新旧策略网络"""
        self.policy_old.set_weights(self.policy.get_weights())
    
    def get_action(self, state: np.ndarray) -> Tuple[int, float]:
        """根据策略选择动作"""
        state = state[np.newaxis]
        probs = self.policy_old.predict(state, verbose=0)[0]
        dist = tfp.distributions.Categorical(probs=probs)
        action = dist.sample()
        log_prob = dist.log_prob(action)
        return int(action.numpy()), float(log_prob.numpy())
    
    def compute_gae(self,
                   rewards: np.ndarray,
                   values: np.ndarray,
                   dones: np.ndarray) -> np.ndarray:
        """计算广义优势估计(GAE)"""
        gae = 0
        advantages = np.zeros_like(rewards)
        for t in reversed(range(len(rewards) - 1)):
            delta = rewards[t] + self.gamma * values[t + 1] * (1 - dones[t]) - values[t]
            gae = delta + self.gamma * self.gae_lambda * (1 - dones[t]) * gae
            advantages[t] = gae
        return advantages
    
    def train(self,
              states: np.ndarray,
              actions: np.ndarray,
              log_probs: np.ndarray,
              rewards: np.ndarray,
              dones: np.ndarray,
              next_states: np.ndarray):
        """训练PPO网络"""
        # 计算价值估计和优势
        values = self.value.predict(states, verbose=0).flatten()
        next_values = self.value.predict(next_states, verbose=0).flatten()
        
        # 计算GAE
        advantages = self.compute_gae(rewards, np.append(values, next_values[-1]), dones)
        returns = advantages + values
        
        # 标准化优势
        advantages = (advantages - np.mean(advantages)) / (np.std(advantages) + 1e-8)
        
        # 转换为TensorFlow张量
        states_tf = tf.convert_to_tensor(states, dtype=tf.float32)
        actions_tf = tf.convert_to_tensor(actions, dtype=tf.int32)
        old_log_probs_tf = tf.convert_to_tensor(log_probs, dtype=tf.float32)
        advantages_tf = tf.convert_to_tensor(advantages, dtype=tf.float32)
        returns_tf = tf.convert_to_tensor(returns, dtype=tf.float32)
        
        # 多次训练迭代
        for _ in range(self.train_iters):
            # 随机打乱数据
           


---
剩余代码克制评论留意关注，提供完整代码

python 读excel每行替换_Python脚本操作Excel实现批量替换功能 weixin_39646695 python 读excel每行替换
Python脚本操作Excel实现批量替换功能大家好，给大家分享下如何使用Python脚本操作Excel实现批量替换。使用的工具Openpyxl，一个处理excel的python库，处理excel，其实针对的就是WorkBook，Sheet，Cell这三个最根本的元素~明确需求原始excel如下我们的目标是把下面excel工作表的sheet1表页A列的内容“替换我吧”批量替换为B列的“我用来替换的
x86-64汇编语言训练程序与实战十除以十等于一
本文还有配套的精品资源，点击获取简介：汇编语言是一种低级语言，与机器代码紧密相关，特别适用于编写系统级代码及性能要求高的应用。nasm编译器是针对x86和x86-64架构的汇编语言编译器，支持多种语法风格和指令集。项目Euler提供数学和计算机科学问题，鼓励编程技巧应用，前100个问题的答案可共享。x86-64架构扩展了寄存器数量并引入新指令，提升了数据处理效率。学习汇编语言能够深入理解计算机底层
男士护肤品哪个牌子好？十大男士护肤品排行榜高省APP珊珊
很多男生意识到护肤的必要性，开始着手护肤，但不知道该选哪个男士护肤品品牌使用好。目前市面上很多男士护肤品品牌，可谓琳琅满目，让人眼花缭乱。男士挑选护肤品时，根据自己皮肤需求去正规渠道挑选合适的知名护肤品比较放心靠谱。高省APP，是2021年推出的平台，0投资，0风险、高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，也期待你的加入
《玉骨遥》：大司命为什么不杀朱颜？原因没那么简单 windy天意晚晴
《玉骨遥》里，朱颜就是时影的命劫之人。重明与时影早就知道，他们一直瞒着大司命，如今大司命也知道了真相。可是大司命却没有杀朱颜，而是给朱颜下了诛心咒，还说时影的命劫已经破了，真的如此吗？1、计划总是赶不上变化的大司命从目前剧情来说，大司命还不如时影，他信心十足的事情总会有纰漏。他不让时影见命劫之女，结果时影还是遇上了。他想让时影走火入魔，一心复仇，结果时影在朱颜的劝说下放下了仇恨。大司命让时影开山收
英伟达靠什么支撑起了4万亿？AI泡沫还能撑多久？
英伟达市值突破4万亿美元，既是AI算力需求爆发的直接体现，也暗含市场对未来的狂热预期。其支撑逻辑与潜在风险并存，而AI泡沫的可持续性则取决于技术、商业与地缘政治的复杂博弈。⚙️一、英伟达4万亿市值的核心支撑因素技术垄断与生态壁垒硬件优势：英伟达GPU在AI训练市场占有率超87%，H100芯片的FP16算力达1979TFLOPS，领先竞品3-5倍。CUDA生态：400万开发者构建的软件护城河，成为A
Spring进阶 - SpringMVC实现原理之DispatcherServlet处理请求的过程倾听铃的声后端 spring java mvc 开发语言分布式
前文我们有了IOC的源码基础以及SpringMVC的基础，我们便可以进一步深入理解SpringMVC主要实现原理，包含DispatcherServlet的初始化过程和DispatcherServlet处理请求的过程的源码解析。本文是第二篇：DispatcherServlet处理请求的过程的源码解析。@pdaiSpring进阶-SpringMVC实现原理之DispatcherServlet处理请求的
【C++算法】76.优先级队列_前 K 个高频单词流星白龙优选算法C++c++算法开发语言
文章目录题目链接：题目描述：解法C++算法代码：题目链接：692.前K个高频单词题目描述：解法利用堆来解决TopK问题预处理一下原始的字符串数组，用一个哈希表统计一下每一个单词出现的频次。创建一个大小为k的堆频次：小根堆字典序（频次相同的时候）：大根堆循环让元素依次进堆判断提取结果C++算法代码：classSolution{//定义类型别名，PSI表示对typedefpairPSI;//自定义比较
Flowable 实战落地核心：选型决策与坑点破解练习时长两年半的程序员小胡 Flowable 流程引擎实战指南低代码 BPMN 流程引擎 flowable 后端 java
在企业级流程引擎的落地过程中，选型的准确性和坑点的预见性直接决定项目成败。本文聚焦Flowable实战中最关键的“选型决策”与“常见坑点”，结合真实项目经验，提供可落地的解决方案。一、流程引擎选型：从业务本质出发1.1选型的三大核心维度企业在选择流程引擎时，需避免陷入“技术崇拜”，应回归业务本质。评估Flowable是否适用，可从三个维度判断：业务复杂度若流程涉及动态审批链（如按金额自动升级审批）
Flowable 高级扩展：自定义元素与性能优化实战练习时长两年半的程序员小胡 Flowable 流程引擎实战指南流程图 flowable BPMN 流程引擎 java
在前五篇文章中，我们从基础概念、流程设计、API实战、SpringBoot集成，到外部系统协同，逐步构建了Flowable的应用体系。但企业级复杂场景中，原生功能往往难以满足定制化需求——比如需要特殊的审批规则网关、与决策引擎联动实现动态路由，或是在高并发场景下优化流程引擎性能。本文将聚焦Flowable的高级扩展能力，详解如何自定义流程元素、集成规则引擎，并掌握大型系统中的性能调优策略。一、自定
企业级区块链平台Hyperchain核心原理剖析 boyedu 区块链区块链企业级区块链平台 Hyperchain
Hyperchain作为国产自主可控的企业级联盟区块链平台，其核心原理围绕高性能共识、隐私保护、智能合约引擎及可扩展架构展开，通过多模块协同实现企业级区块链网络的高效部署与安全运行。以下从核心架构、关键技术、性能优化、安全机制、应用场景五个维度展开剖析：一、核心架构：分层解耦与模块化设计Hyperchain采用分层架构，将区块链功能解耦为独立模块，支持灵活组合与扩展：P2P网络层由验证节点（VP）
Aop +反射实现方法版本动态切换
需求分析在做技术选型的时候一直存在着两个声音，mongo作为数据库比较mysql好，mysql做为该数据比mongo好。当然不同数据库都有有着自己的优势，我们在做技术选型的时候无非就是做到对数据库的扬长避短。mysql最大的优势就是支持事务，事务的五大特性保证的业务可靠性，随之而来的就是事务会产生的问题：脏读、幻读、不可重复度，当然我们也会使用不同的隔离级别来解决。（最典型的业务问题：银行存取钱）
通义万相2.2：开启高清视频生成新纪元 Liudef06小白特殊专栏 AIGC 人工智能人工智能通义万相2.2 图生视频
通义万相2.2：开启高清视频生成新纪元2025年7月28日，中国AI领域迎来里程碑时刻——通义万相团队正式开源其革命性视频生成模型Wan2.2的核心权重，这标志着开源社区首次获得支持720P高清视频生成的先进模型架构。一、架构革新：混合专家系统1.1MoE视频扩散架构通义万相2.2首次将混合专家（MoE）架构引入视频扩散模型，通过双专家系统实现计算效率与模型容量的平衡：classMoEVideoD
2025年SDK游戏盾终极解析：重新定义手游安全的“隐形护甲” 上海云盾商务经理杨杨游戏安全
副标题：从客户端加密到AI反外挂，拆解全链路防护如何重塑游戏攻防天平引言：当传统高防在手游战场“失效”2025年全球手游市场规模突破$2000亿，黑客单次攻击成本却降至$30——某SLG游戏因协议层CC攻击单日流失37%玩家，某开放世界游戏遭低频DDoS瘫痪6小时损失千万。传统高防IP的致命短板暴露无遗：无法识别伪造客户端流量、难防协议篡改、误杀率超15%。而集成于游戏终端的SDK游戏盾，正以“源
LVS+Keepalived实现高可用和负载均衡 2401_84412895 程序员 lvs 负载均衡运维
2、开启网卡子接口配置VIP[root@a~]#cd/etc/sysconfig/network-scripts/[root@anetwork-scripts]#cp-aifcfg-ens32ifcfg-ens32:0[root@anetwork-scripts]#catifcfg-ens32:0BOOTPROTO=staticDEVICE=ens32:0ONBOOT=yesIPADDR=10.1
今晚吃太饱了爱伤心的蚂蚁
今晚吃太饱了，两碗干饭，两碗肉汤，一碗牛奶银耳汤，感觉肚子都顶出来了，圆滚滚的！明早要早起，出发去小蚂蚁家！看着剩下的肉汤，倒掉多可惜，干掉了！看着小蚂蚁熬的银耳汤，倒掉多可惜，于是热了一下，顺便热袋牛奶倒进去，大娃喝点，小蚂蚁喝点，还剩下一大碗，继续干掉！吃的太饱，人也懒洋洋的，躺床上不想动，感受的肚子撑撑的感觉，好久没吃这么饱了！这一晚灌的都是汤汤水水的，天冷的晚上，半夜要睡不安稳咯！哈哈！小
你对待万事万物的态度行靜
昨晚爸爸把洒水壶灌满水，对我说：你也该去浇浇你阳台上的花咯。这么大的天气，几天没浇水都快死了。我才意识到自己容易突然间忽视一些事情。尤其是身旁的一些事，可能它们呆久了，反而习以为常。想想每天的生活状态就是在不断的重复着一些事，有点固定模式。没有什么特别发生。记录我的一天：上班，挤公交，用手机或电脑，吃饭，上课。没有
CodeFoeces-450B ss5smi
题目原题链接：B.JzzhuandSequences题意根据公式公式计算对应fn的值。参考了其他作者的代码和思路。找循环点。负数取余需要加取余数到>0为止才可取余。代码#includeusingnamespacestd;constintmod=1e9+7;intmain(){longlongf[10],x,y,n;cin>>x>>y>>n;x=(x+mod)%mod;y=(y+mod)%mod;f
图论算法经典题目解析：DFS、BFS与拓扑排序实战周童學数据结构与算法深度优先算法图论
图论算法经典题目解析：DFS、BFS与拓扑排序实战图论问题是算法面试中的高频考点，本博客将通过四道LeetCode经典题目（均来自"Top100Liked"题库），深入讲解图论的核心算法思想和实现技巧。涵盖DFS、BFS、拓扑排序和前缀树等知识点，每道题配有Java实现和易错点分析。1.岛屿数量(DFS遍历)问题描述给定一个由'1'(陆地)和'0'(水)组成的二维网格，计算岛屿的数量。岛屿由水平或
【项目实战】容错机制与故障恢复：保障系统连续性的核心体系本本本添哥 004 -研效与DevOps运维工具链 002 -进阶开发能力分布式
在分布式系统中，硬件故障、网络波动、软件异常等问题难以避免。容错机制与故障恢复的核心目标是：通过主动检测故障、自动隔离风险、快速转移负载、重建数据一致性，最大限度减少故障对业务的影响，保障系统“持续可用”与“数据不丢失”。以下从核心机制、实现方式、典型案例等维度展开说明。一、故障检测：及时发现异常节点故障检测是容错的第一步，需通过多维度手段实时感知系统组件状态，确保故障被快速识别。1.健康检查与心
【异常】使用 LiteFlow 框架时，提示错误ChainDuplicateException: [chain name duplicate] chainName=categoryChallenge 本本本添哥 002 -进阶开发能力 java
一、报错内容Causedby:com.yomahub.liteflow.exception.ChainDuplicateException:[chainnameduplicate]chainName=categoryChallengeatcom.yomahub.liteflow.parser.helper.ParserHelper.lambda$null$0(ParserHelper.java:1
Java并发核心：线程池使用技巧与最佳实践！ | 多线程篇(五) bug菌¹ Java实战(进阶版)java Java零基础入门 Java并发线程池多线程篇
本文收录于「Java进阶实战」专栏，专业攻坚指数级提升，希望能够助你一臂之力，帮你早日登顶实现财富自由；同时，欢迎大家关注&&收藏&&订阅！持续更新中，up！up！up！！环境说明：Windows10+IntelliJIDEA2021.3.2+Jdk1.8本文目录前言摘要正文何为线程池？为什么需要线程池？线程池的好处线程池使用场景如何创建线程池？线程池的常见配置源码解析案例分享案例代码演示案例运行
承德十大亲子鉴定医院名单(附2024年10所正规医院) 国医基因陈主任
承德哪家医院可以做亲子鉴定？承德市中心医院、中国人民解放军第二六六医院、承德医学院附属医院等都可以做常规亲子鉴定采样采集，一般的医院并不可以为你提供常规亲子鉴定检测的服务。承德亲子鉴定中心地址：承德市西大街路北11号（承德国医基因）。一般只有少数三甲医院可以做亲子鉴定采样，或者当地亲子鉴定中心可以做亲子鉴定。如果想做亲子鉴定，最好直接到亲子鉴定中心内或亲子鉴定医院采样点内进行双方抽血鉴定，这样会更
践行8.0~第六周11.25-12.02 初队长
突破后的喜悦最可怕的不是自己不清楚，而是自己清楚了，却依然不心动，我想这就是我们每个人的惰性存在，在这一周的践行，我发现自己依然是停留在自己的模式当中，不断的恶性的轮回，虽然的话，那再晨间日记方面是纸质的填写，但是对一天的工作没有起到应有的计划和推动的作用而我自己呢，也有些时候的话会处于一个相对来讲放松的一个状态，时间的把控的话也有一些点的消极，所以在这周的间隙，重点是关注自己的三大目标为目标来进
分支和循环（下） tryxr 服务器运维
写⼀个猜数字游戏游戏要求：1.电脑⾃动⽣成1~100的随机数2.玩家猜数字，猜数字的过程中，根据猜测数据的⼤⼩给出⼤了或⼩了的反馈，直到猜对，游戏结束1.随机数生成要想完成猜数字游戏，⾸先得产⽣随机数，那怎么产⽣随机数呢？randC语⾔提供了⼀个函数叫rand，这函数是可以⽣成随机数的，函数原型如下所⽰：intrand(void);rand函数会返回⼀个伪随机数，这个随机数的范围是在0~RAND_
2023-07-19 桥东外甥
今天在游戏里卖了第一桶金，哈哈，不多，只有一百块。下班之余，没事在游戏里搬搬砖，一星期搞个一百块钱，少是少了点，毕竟哪怕是捡废品都比这个多，或者送外卖能更多，只不过比较简单，而且也很容易，呆在家里，玩着游戏挣两顿饭钱，总比一毛不挣的强吧？这也算是向前迈出一步吧，毕竟很少之前就有过搬砖挣钱的想法，只不过一开始没有渠道，而且也不想迈步，所以浪费了不少，一想之前浪费了几百块钱，就觉得有些心疼。哎，本来之
5G基站信号加速器！AD8021ARZ-REEL7亚德诺超低噪声高速电压放大器专利失真消除技术! 深圳市尚想信息技术有限公司 5G通信高速运放 ADI黑科技 8K视频医疗超声
AD8021ARZ-REEL7ADI：重新定义高速放大器的性能极限！一、产品简介AD8021ARZ-REEL7是ADI（亚德诺半导体）推出的超低噪声高速电压反馈放大器，采用XFCB工艺和专利失真消除技术，专为4K/8K视频处理、医疗成像、5G通信等超高频应用设计。以1.8GHz带宽和0.1nV/√Hz超低噪声，成为高速信号调理的终极解决方案！二、五大颠覆性优势军工级信号保真度1.8GHz-3dB带
打造自己的梦想生态系统轻风style
今天听了第5周5.1的梦想系统和随堂练习：梦想仓库与八大关注表。参照老师给出的例子，列出了八大关注对应的自己的梦想。有些写的时候内心都在怀疑，但因为老师有说到，要没有分别心的去列出，不管是近的，远的，小的，大的，自己觉得可以实现的，或者觉得根本不可能实现的，都统统的列出来。就像音频中提到的，林语堂说过的话，梦想无论怎样模糊，总潜伏在我们心底，使我们的心境永远得不到宁静，直到这些梦想成为事实才止；像
我是孩子妈妈，我会让孩子饿着吗？松玲子
回老家过年，就是一场在关于喂养孩子问题上与老人的巅峰对决。前天我们回老家了，他爷爷奶奶就说孩子瘦了，就说我喂的不好，不按时喂，第一天夜里孩子总是睡一会就哭，睡一会就哭，夜里不知醒了多少次，弄得我真是几乎彻夜未眠。一大早，我还没起，我就听见他爷爷奶奶在外边说，今黑夜阳阳怎么老哭，是不是饿的，然后又延伸到我喂养的问题上，说不吃盐不行，不吃盐孩子没劲，吃蛋光吃个蛋黄，吃不饱，给他吃全蛋就行，哎呀我去，我
JVM 内存分配与回收策略：从对象创建到内存释放的全流程
在JVM的运行机制中，内存分配与回收策略是连接对象生命周期与垃圾收集器的桥梁。它决定了对象在堆内存中的创建位置、存活过程中的区域迁移，以及最终被回收的时机。合理的内存分配策略能减少GC频率、降低停顿时间，是优化Java应用性能的核心环节。本文将系统解析JVM的内存分配规则、对象晋升机制，以及实战中的内存优化技巧。一、对象优先在Eden区分配：新生代的“临时缓冲区”大多数情况下，Java对象在新生代
代码随想录算法训练营第三十五天
01背包问题二维题目链接01背包问题二维题解importjava.util.Scanner;publicclassMain{publicstaticvoidmain(String[]args){Scannersc=newScanner(System.in);intM=sc.nextInt();intN=sc.nextInt();int[]space=newint[M];int[]value=new
异常的核心类Throwable 无量 java 源码异常处理 exception
java异常的核心是Throwable，其他的如Error和Exception都是继承的这个类里面有个核心参数是detailMessage，记录异常信息，getMessage核心方法，获取这个参数的值，我们可以自己定义自己的异常类，去继承这个Exception就可以了，方法基本上，用父类的构造方法就OK，所以这么看异常是不是很easy package com.natsu;
mongoDB 游标（cursor）实现分页迭代开窍的石头 mongodb
上篇中我们讲了mongoDB 中的查询函数，现在我们讲mongo中如何做分页查询如何声明一个游标 var mycursor = db.user.find({_id:{$lte:5}}); 迭代显示游标数
MySQL数据库INNODB 表损坏修复处理过程 0624chenhong tomcat mysql
最近mysql数据库经常死掉，用命令net stop mysql命令也无法停掉，关闭Tomcat的时候，出现Waiting for N instance(s) to be deallocated 信息。查了下，大概就是程序没有对数据库连接释放，导致Connection泄露了。因为用的是开元集成的平台，内部程序也不可能一下子给改掉的，就验证一下咯。启动Tomcat,用户登录系统，用netstat -
剖析如何与设计人员沟通不懂事的小屁孩工作
最近做图烦死了，不停的改图，改图……。烦，倒不是因为改，而是反反复复的改，人都会死。很多需求人员不知该如何与设计人员沟通，不明白如何使设计人员知道他所要的效果，结果只能是沟通变成了扯淡，改图变成了应付。那应该如何与设计人员沟通呢？我认为设计人员与需求人员先天就存在语言障碍。对一个合格的设计人员来说，整天玩的都是点、线、面、配色，哪种构图看起来协调；哪种配色看起来合理心里跟明镜似的，
qq空间刷评论工具换个号韩国红果果 JavaScript
var a=document.getElementsByClassName('textinput'); var b=[]; for(var m=0;m<a.length;m++){ if(a[m].getAttribute('placeholder')!=null) b.push(a[m]) } var l
S2SH整合之session 灵静志远 spring AOP struts session
错误信息： Caused by: org.springframework.beans.factory.BeanCreationException: Error creating bean with name 'cartService': Scope 'session' is not active for the current thread; consider defining a scoped
xmp标签 a-john 标签
今天在处理数据的显示上遇到一个问题： var html = '<li><div class="pl-nr"><span class="user-name">' + user + '</span>' + text + '</div></li>'; ulComme
Ajax的常用技巧（2）---实现Web页面中的级联菜单 aijuans Ajax
在网络上显示数据，往往只显示数据中的一部分信息，如文章标题，产品名称等。如果浏览器要查看所有信息，只需点击相关链接即可。在web技术中，可以采用级联菜单完成上述操作。根据用户的选择，动态展开，并显示出对应选项子菜单的内容。在传统的web实现方式中，一般是在页面初始化时动态获取到服务端数据库中对应的所有子菜单中的信息，放置到页面中对应的位置，然后再结合CSS层叠样式表动态控制对应子菜单的显示或者隐
天-安-门，好高 atongyeye 情感
我是85后，北漂一族，之前房租1100，因为租房合同到期，再续，房租就要涨150。最近网上新闻，地铁也要涨价。算了一下，涨价之后，每次坐地铁由原来2块变成6块。仅坐地铁费用，一个月就要涨200。内心苦痛。晚上躺在床上一个人想了很久，很久。我生在农
android 动画百合不是茶 android 透明度平移缩放旋转
android的动画有两种 tween动画和Frame动画 tween动画;,透明度,缩放,旋转,平移效果 Animation 动画 AlphaAnimation 渐变透明度 RotateAnimation 画面旋转 ScaleAnimation 渐变尺寸缩放 TranslateAnimation 位置移动 Animation
查看本机网络信息的cmd脚本 bijian1013 cmd
@echo 您的用户名是：%USERDOMAIN%\%username%>"%userprofile%\网络参数.txt" @echo 您的机器名是：%COMPUTERNAME%>>"%userprofile%\网络参数.txt" @echo ___________________>>"%userprofile%\
plsql 清除登录过的用户征客丶 plsql
tools---preferences----logon history---history 把你想要删除的删除 -------------------------------------------------------------------- 若有其他凝问或文中有错误，请及时向我指出，我好及时改正，同时也让我们一起进步。 email ： binary_spac
【Pig一】Pig入门 bit1129 pig
Pig安装 1.下载pig wget http://mirror.bit.edu.cn/apache/pig/pig-0.14.0/pig-0.14.0.tar.gz 2. 解压配置环境变量如果Pig使用Map/Reduce模式，那么需要在环境变量中，配置HADOOP_HOME环境变量 expor
Java 线程同步几种方式 BlueSkator volatile synchronized ThredLocal ReenTranLock Concurrent
为何要使用同步？ java允许多线程并发控制，当多个线程同时操作一个可共享的资源变量时（如数据的增删改查），将会导致数据不准确，相互之间产生冲突，因此加入同步锁以避免在该线程没有完成操作之前，被其他线程的调用，从而保证了该变量的唯一性和准确性。 1.同步方法&
StringUtils判断字符串是否为空的方法（转帖） BreakingBad null StringUtils “”
转帖地址：http://www.cnblogs.com/shangxiaofei/p/4313111.html public static boolean isEmpty(String str) 　　判断某字符串是否为空，为空的标准是 str== null 或 str.length()== 0
编程之美-分层遍历二叉树 bylijinnan java 数据结构算法编程之美
import java.util.ArrayList; import java.util.LinkedList; import java.util.List; public class LevelTraverseBinaryTree { /** * 编程之美分层遍历二叉树 * 之前已经用队列实现过二叉树的层次遍历，但这次要求输出换行，因此要
jquery取值和ajax提交复习记录 chengxuyuancsdn jquery取值 ajax提交
// 取值 // alert($("input[name='username']").val()); // alert($("input[name='password']").val()); // alert($("input[name='sex']:checked").val()); // alert($("
推荐国产工作流引擎嵌入式公式语法解析器-IK Expression comsci java 应用服务器工作 Excel 嵌入式
这个开源软件包是国内的一位高手自行研制开发的，正如他所说的一样，我觉得它可以使一个工作流引擎上一个台阶。。。。。。欢迎大家使用，并提出意见和建议。。。 ----------转帖--------------------------------------------------- IK Expression是一个开源的（OpenSource），可扩展的（Extensible），基于java语言
关于系统中使用多个PropertyPlaceholderConfigurer的配置及PropertyOverrideConfigurer daizj spring
1、PropertyPlaceholderConfigurer Spring中PropertyPlaceholderConfigurer这个类，它是用来解析Java Properties属性文件值，并提供在spring配置期间替换使用属性值。接下来让我们逐渐的深入其配置。基本的使用方法是：(1) <bean id="propertyConfigurerForWZ&q
二叉树:二叉搜索树 dieslrae 二叉树
所谓二叉树,就是一个节点最多只能有两个子节点,而二叉搜索树就是一个经典并简单的二叉树.规则是一个节点的左子节点一定比自己小,右子节点一定大于等于自己(当然也可以反过来).在树基本平衡的时候插入,搜索和删除速度都很快,时间复杂度为O(logN).但是,如果插入的是有序的数据,那效率就会变成O(N),在这个时候,树其实变成了一个链表. tree代码:
C语言字符串函数大全 dcj3sjt126com c function
C语言字符串函数大全函数名: stpcpy 功能: 拷贝一个字符串到另一个用法: char *stpcpy(char *destin, char *source); 程序例: #include <stdio.h> #include <string.h> int main
友盟统计页面技巧 dcj3sjt126com 技巧
在基类调用就可以了, 基类ViewController示例代码 -(void)viewWillAppear:(BOOL)animated { [super viewWillAppear:animated]; [MobClick beginLogPageView:[NSString stringWithFormat:@"%@",self.class]];
window下在同一台机器上安装多个版本jdk，修改环境变量不生效问题处理办法 flyvszhb java jdk
window下在同一台机器上安装多个版本jdk，修改环境变量不生效问题处理办法本机已经安装了jdk1.7，而比较早期的项目需要依赖jdk1.6，于是同时在本机安装了jdk1.6和jdk1.7. 安装jdk1.6前，执行java -version得到 C:\Users\liuxiang2>java -version java version "1.7.0_21&quo
Java在创建子类对象的同时会不会创建父类对象 happyqing java 创建子类对象父类对象
1.在thingking in java 的第四版第六章中明确的说了，子类对象中封装了父类对象， 2."When you create an object of the derived class, it contains within it a subobject of the base class. This subobject is the sam
跟我学spring3 目录贴及电子书下载 jinnianshilongnian spring
一、《跟我学spring3》电子书下载地址：《跟我学spring3》（1-7 和 8-13） http://jinnianshilongnian.iteye.com/blog/pdf 跟我学spring3系列 word原版下载二、源代码下载最新依
第12章 Ajax（上） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
BI and EIM 4.0 at a glance blueoxygen BO
http://www.sap.com/corporate-en/press.epx?PressID=14787 有机会研究下EIM家族的两个新产品~~~~ New features of the 4.0 releases of BI and EIM solutions include: Real-time in-memory computing –
Java线程中yield与join方法的区别 tomcat_oracle java
长期以来，多线程问题颇为受到面试官的青睐。虽然我个人认为我们当中很少有人能真正获得机会开发复杂的多线程应用(在过去的七年中，我得到了一个机会)，但是理解多线程对增加你的信心很有用。之前，我讨论了一个wait()和sleep()方法区别的问题，这一次，我将会讨论join()和yield()方法的区别。坦白的说，实际上我并没有用过其中任何一个方法，所以，如果你感觉有不恰当的地方，请提出讨论。 &nb
android Manifest.xml选项阿尔萨斯 Manifest
结构继承关系 public final class Manifest extends Objectjava.lang.Objectandroid.Manifest 内部类 class Manifest.permission权限 class Manifest.permission_group权限组构造函数 public Manifest () 详细 androi
Oracle实现类split函数的方 zhaoshijie oracle
关键字：Oracle实现类split函数的方项目里需要保存结构数据，批量传到后他进行保存，为了减小数据量，子集拼装的格式，使用存储过程进行保存。保存的过程中需要对数据解析。但是oracle没有Java中split类似的函数。从网上找了一个，也补全了一下。 CREATE OR REPLACE TYPE t_split_100 IS TABLE OF VARCHAR2(100); cr

Python强化学习实战：从游戏AI到工业控制的完整指南

Python人工智能模型训练实战(六)：强化学习从入门到工业级应用

核心价值

强化学习算法对比（表格呈现）

代码实现（分模块）

1. Q-Learning实现 (q_learning.py)

2. Deep Q Network实现 (dqn.py)

3. 策略梯度实现 (policy_grad.py)

4. PPO实现 (ppo.py)

你可能感兴趣的:(AI,行业应用实战先锋,Python,实战项目大揭秘,python,游戏,人工智能)