凡人的AI工具箱

Pytorch深度学习框架60天进阶学习计划 - 第43天：强化学习基础（一）

强化学习是机器学习的一个重要分支，也是近年来深度学习取得重大突破的领域之一，从围棋到机器人控制，都有它的身影。

今天我们将分为两个主要部分：

Q-learning和贝尔曼方程的理论推导
策略梯度算法及其方差优化策略

第一部分：Q-learning和贝尔曼方程的理论推导

1.1 强化学习基本概念

强化学习涉及一个智能体（agent）与环境（environment）交互，通过尝试和错误来学习最优策略。让我们先明确一些基本概念：

状态(State) $s$ : 环境的当前情况
动作(Action) $a$ : 智能体可以执行的操作
奖励(Reward) $r$ : 执行动作后环境给予的反馈
策略(Policy) $\pi$ : 决定在特定状态下应该采取什么动作的规则
状态转移(State Transition): 执行动作后环境从一个状态转变为另一个状态
回报(Return): 未来奖励的累积和
价值函数(Value Function): 评估状态或状态-动作对的"好坏"程度

1.2 马尔可夫决策过程(MDP)

强化学习问题通常被形式化为马尔可夫决策过程，它包含以下要素：

状态集合 $S$
动作集合 $A$
状态转移概率 $P (s^{'} ∣ s, a)$
奖励函数 $R (s, a, s^{'})$
折扣因子 $\gamma \in [0,1]$

在MDP中，当前状态和动作只取决于前一个状态，这就是"马尔可夫性质"。

1.3 价值函数和Q函数

有两种主要的价值函数：

状态价值函数 $V^\pi(s)$ : 在策略 $\pi$ 下，从状态 $s$ 开始的期望回报：

$V^\pi(s) = \mathbb{E}_\pi[\sum_{t=0}^{\infty}\gamma^t r_t | s_0=s]$
状态-动作价值函数 $Q^\pi(s,a)$ : 在策略 $\pi$ 下，从状态 $s$ 开始，执行动作 $a$ 后的期望回报：

$Q^\pi(s,a) = \mathbb{E}_\pi[\sum_{t=0}^{\infty}\gamma^t r_t | s_0=s, a_0=a]$

这两个函数之间的关系是：

$V^\pi(s) = \sum_{a \in A} \pi(a|s) Q^\pi(s,a)$

1.4 贝尔曼方程

贝尔曼方程是强化学习理论的核心，它表达了当前状态的价值与下一个状态价值之间的递归关系。

对于状态价值函数，贝尔曼方程为：

$V^\pi(s) = \sum_{a \in A} \pi(a|s) \sum_{s' \in S} P(s'|s,a) [R(s,a,s') + \gamma V^\pi(s')]$

对于状态-动作价值函数，贝尔曼方程为：

$Q^\pi(s,a) = \sum_{s' \in S} P(s'|s,a) [R(s,a,s') + \gamma \sum_{a' \in A} \pi(a'|s') Q^\pi(s',a')]$

1.5 最优价值函数和贝尔曼最优方程

如果我们知道最优策略 $\pi^*$ ，我们就可以定义最优价值函数：

$V^*(s) = \max_\pi V^\pi(s)$
$Q^*(s,a) = \max_\pi Q^\pi(s,a)$

对应的贝尔曼最优方程为：

$V^*(s) = \max_{a \in A} \sum_{s' \in S} P(s'|s,a) [R(s,a,s') + \gamma V^*(s')]$
$Q^*(s,a) = \sum_{s' \in S} P(s'|s,a) [R(s,a,s') + \gamma \max_{a' \in A} Q^*(s',a')]$

一旦我们知道了 $Q^*$ ，最优策略就很容易得到： $\pi^*(s) = \arg\max_{a \in A} Q^*(s,a)$

1.6 Q-learning算法的推导

Q-learning是一种时序差分学习方法，它直接学习最优的Q函数，而不需要知道环境的转移概率和奖励函数。

根据贝尔曼最优方程，我们有：

$Q^*(s,a) = \sum_{s' \in S} P(s'|s,a) [R(s,a,s') + \gamma \max_{a' \in A} Q^*(s',a')]$

由于我们不知道 $P (s^{'} ∣ s, a)$ 和 $R (s, a, s^{'})$ ，我们通过经验来采样这些值，并使用随机梯度下降来更新Q值：

$\leftarrow Q(s,a) + \alpha [r + \gamma \max_{a'} Q(s',a') - Q(s,a)]$

其中：

$\alpha$ 是学习率
$r$ 是立即奖励
$\gamma \max_{a'} Q(s',a')$ 是基于下一个状态的估计未来奖励
$\gamma \max_{a'} Q(s',a')$ 是目标Q值
$\gamma \max_{a'} Q(s',a') - Q(s,a)$ 是时序差分(TD)误差

这就是Q-learning的核心更新公式。

1.7 Q-learning算法流程

1.8 Q-learning的Python实现

下面让我们实现一个简单的Q-learning算法来解决OpenAI Gym中的出租车问题(Taxi-v3)：

import numpy as np
import gymnasium as gym
import matplotlib.pyplot as plt
import time
import seaborn as sns

# 创建出租车环境
env = gym.make("Taxi-v3")

# 初始化Q表
action_size = env.action_space.n
state_size = env.observation_space.n
q_table = np.zeros((state_size, action_size))

# 超参数
alpha = 0.1  # 学习率
gamma = 0.99  # 折扣因子
epsilon = 1.0  # 探索率
epsilon_min = 0.1  # 最小探索率
epsilon_decay = 0.995  # 探索率衰减
episodes = 1000  # 回合数

# 训练日志
rewards = []
epsilons = []

# 训练Q表
for episode in range(episodes):
    # 重置环境
    state, _ = env.reset()
    done = False
    total_reward = 0
    
    while not done:
        # 探索或利用
        if np.random.random() < epsilon:
            # 探索：随机选择动作
            action = env.action_space.sample()
        else:
            # 利用：选择当前Q值最大的动作（如果多个动作Q值相同，随机选择）
            max_q = np.max(q_table[state])
            action = np.random.choice([a for a in range(action_size) if q_table[state, a] == max_q])
        
        # 执行动作
        next_state, reward, terminated, truncated, _ = env.step(action)
        done = terminated or truncated
        
        # 更新Q表
        old_value = q_table[state, action]
        # 基于贝尔曼方程的Q-learning更新公式
        next_max = np.max(q_table[next_state])
        new_value = old_value + alpha * (reward + gamma * next_max - old_value)
        q_table[state, action] = new_value
        
        # 更新状态和奖励
        state = next_state
        total_reward += reward
    
    # 衰减探索率
    epsilon = max(epsilon_min, epsilon * epsilon_decay)
    
    # 记录数据
    rewards.append(total_reward)
    epsilons.append(epsilon)
    
    # 每100个回合打印一次信息
    if (episode + 1) % 100 == 0:
        avg_reward = np.mean(rewards[-100:])
        print(f"Episode: {episode + 1}, Average Reward: {avg_reward:.2f}, Epsilon: {epsilon:.2f}")

# 可视化训练过程
plt.figure(figsize=(12, 5))

plt.subplot(1, 2, 1)
plt.plot(rewards)
plt.title('Total Reward per Episode')
plt.xlabel('Episode')
plt.ylabel('Total Reward')

plt.subplot(1, 2, 2)
plt.plot(epsilons)
plt.title('Epsilon per Episode')
plt.xlabel('Episode')
plt.ylabel('Epsilon')

plt.tight_layout()
plt.savefig('q_learning_training.png')
plt.show()

# 评估训练好的智能体
def evaluate_agent(env, q_table, n_eval_episodes=100, max_steps=100):
    """评估Q-learning智能体"""
    eval_rewards = []
    
    for episode in range(n_eval_episodes):
        state, _ = env.reset()
        done = False
        total_reward = 0
        steps = 0
        
        while not done and steps < max_steps:
            # 选择Q值最大的动作（贪婪策略）
            action = np.argmax(q_table[state])
            next_state, reward, terminated, truncated, _ = env.step(action)
            done = terminated or truncated
            
            total_reward += reward
            state = next_state
            steps += 1
            
        eval_rewards.append(total_reward)
    
    return np.mean(eval_rewards), np.std(eval_rewards)

# 评估智能体
mean_reward, std_reward = evaluate_agent(env, q_table)
print(f"Mean reward: {mean_reward:.2f} +/- {std_reward:.2f}")

# 可视化Q表
def visualize_q_table(q_table, action_names=['South', 'North', 'East', 'West', 'Pickup', 'Dropoff']):
    """可视化Q表的一部分"""
    # 只取一部分状态进行可视化
    sample_states = np.random.choice(q_table.shape[0], size=min(10, q_table.shape[0]), replace=False)
    
    plt.figure(figsize=(12, 8))
    sns.heatmap(q_table[sample_states], annot=True, cmap="YlGnBu", yticklabels=sample_states, xticklabels=action_names)
    plt.title('Q-table Sample')
    plt.ylabel('State')
    plt.xlabel('Action')
    plt.savefig('q_table_sample.png')
    plt.show()

visualize_q_table(q_table)

# 演示智能体行为
def show_agent_behavior(env, q_table, max_steps=100, delay=0.5):
    """演示智能体的行为"""
    state, _ = env.reset()
    env.render()
    
    done = False
    steps = 0
    total_reward = 0
    
    while not done and steps < max_steps:
        time.sleep(delay)  # 添加延迟以便观察
        
        # 选择Q值最大的动作
        action = np.argmax(q_table[state])
        
        # 执行动作
        next_state, reward, terminated, truncated, _ = env.step(action)
        done = terminated or truncated
        
        # 更新状态和奖励
        state = next_state
        total_reward += reward
        steps += 1
        
        # 渲染环境
        env.render()
        
        print(f"Step: {steps}, Action: {action}, Reward: {reward}, Total Reward: {total_reward}")
    
    print("Episode finished!")
    print(f"Total steps: {steps}")
    print(f"Total reward: {total_reward}")

# 注意：直接在控制台运行此代码可能无法正确显示渲染结果
# 如需观察智能体行为，请在支持渲染的环境中运行此函数
# show_agent_behavior(env, q_table)

env.close()

1.9 深度Q网络(DQN)

当状态空间非常大或连续时，传统的Q表就不再适用了。深度Q网络(DQN)使用神经网络来近似Q函数，是Q-learning的深度学习扩展。

DQN的主要创新点：

经验回放(Experience Replay)：存储智能体的经验，随机抽样进行训练，减少样本相关性
目标网络(Target Network)：使用单独的网络计算目标Q值，提高训练稳定性

下面是DQN的基本实现：

import torch
import torch.nn as nn
import torch.optim as optim
import numpy as np
import random
from collections import deque
import gymnasium as gym

# 设置随机种子，确保结果可复现
seed = 42
torch.manual_seed(seed)
np.random.seed(seed)
random.seed(seed)

# 设备配置：使用GPU如果可用，否则使用CPU
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

# Q网络模型
class QNetwork(nn.Module):
    def __init__(self, state_size, action_size, hidden_size=64):
        super(QNetwork, self).__init__()
        self.fc1 = nn.Linear(state_size, hidden_size)
        self.fc2 = nn.Linear(hidden_size, hidden_size)
        self.fc3 = nn.Linear(hidden_size, action_size)
    
    def forward(self, x):
        x = torch.relu(self.fc1(x))
        x = torch.relu(self.fc2(x))
        return self.fc3(x)

# 经验回放缓冲区
class ReplayBuffer:
    def __init__(self, capacity):
        self.buffer = deque(maxlen=capacity)
    
    def add(self, state, action, reward, next_state, done):
        self.buffer.append((state, action, reward, next_state, done))
    
    def sample(self, batch_size):
        batch = random.sample(self.buffer, batch_size)
        states, actions, rewards, next_states, dones = zip(*batch)
        return states, actions, rewards, next_states, dones
    
    def __len__(self):
        return len(self.buffer)

# DQN智能体
class DQNAgent:
    def __init__(self, state_size, action_size, hidden_size=64, lr=1e-3, gamma=0.99,
                 buffer_size=10000, batch_size=64, update_every=4, tau=1e-3):
        self.state_size = state_size
        self.action_size = action_size
        self.gamma = gamma
        self.batch_size = batch_size
        self.update_every = update_every
        self.tau = tau
        
        # Q网络 - 当前网络和目标网络
        self.q_network = QNetwork(state_size, action_size, hidden_size).to(device)
        self.target_network = QNetwork(state_size, action_size, hidden_size).to(device)
        self.target_network.load_state_dict(self.q_network.state_dict())
        
        # 优化器
        self.optimizer = optim.Adam(self.q_network.parameters(), lr=lr)
        
        # 经验回放缓冲区
        self.memory = ReplayBuffer(buffer_size)
        
        # 用于更新目标网络的计数器
        self.t_step = 0
    
    def step(self, state, action, reward, next_state, done):
        # 将经验存储到回放缓冲区
        self.memory.add(state, action, reward, next_state, done)
        
        # 每update_every步学习一次
        self.t_step = (self.t_step + 1) % self.update_every
        if self.t_step == 0 and len(self.memory) > self.batch_size:
            self.learn()
    
    def act(self, state, epsilon=0.0):
        """根据当前策略选择动作"""
        state = torch.FloatTensor(state).unsqueeze(0).to(device)
        
        # 评估模式 - 不计算梯度
        self.q_network.eval()
        with torch.no_grad():
            action_values = self.q_network(state)
        self.q_network.train()
        
        # Epsilon-greedy策略
        if random.random() > epsilon:
            return np.argmax(action_values.cpu().data.numpy())
        else:
            return random.choice(np.arange(self.action_size))
    
    def learn(self):
        """从经验回放中更新值参数"""
        # 从内存中随机抽样批次
        states, actions, rewards, next_states, dones = self.memory.sample(self.batch_size)
        
        # 转换为tensor
        states = torch.FloatTensor(states).to(device)
        actions = torch.LongTensor(actions).unsqueeze(1).to(device)
        rewards = torch.FloatTensor(rewards).unsqueeze(1).to(device)
        next_states = torch.FloatTensor(next_states).to(device)
        dones = torch.FloatTensor(dones).unsqueeze(1).to(device)
        
        # 获取当前Q值估计
        q_values = self.q_network(states).gather(1, actions)
        
        # 计算目标Q值
        with torch.no_grad():
            next_q_values = self.target_network(next_states).max(1, keepdim=True)[0]
            target_q_values = rewards + self.gamma * next_q_values * (1 - dones)
        
        # 计算损失
        loss = nn.MSELoss()(q_values, target_q_values)
        
        # 优化模型
        self.optimizer.zero_grad()
        loss.backward()
        self.optimizer.step()
        
        # 软更新目标网络
        self.soft_update()
        
        return loss.item()
    
    def soft_update(self):
        """软更新目标网络参数：θ_target = τ*θ_local + (1-τ)*θ_target"""
        for target_param, local_param in zip(self.target_network.parameters(), self.q_network.parameters()):
            target_param.data.copy_(self.tau * local_param.data + (1.0 - self.tau) * target_param.data)

# 训练DQN智能体
def train_dqn(env_name="CartPole-v1", num_episodes=1000, 
              hidden_size=64, lr=1e-3, gamma=0.99, tau=1e-3,
              buffer_size=10000, batch_size=64, update_every=4):
    """训练DQN智能体"""
    # 创建环境
    env = gym.make(env_name)
    
    # 获取状态和动作空间大小
    if isinstance(env.observation_space, gym.spaces.Discrete):
        state_size = env.observation_space.n
    else:
        state_size = env.observation_space.shape[0]
    
    action_size = env.action_space.n
    
    # 创建智能体
    agent = DQNAgent(state_size, action_size, hidden_size, lr, gamma, 
                    buffer_size, batch_size, update_every, tau)
    
    # 初始化ε
    epsilon = 1.0
    epsilon_min = 0.01
    epsilon_decay = 0.995
    
    # 训练日志
    scores = []
    
    for i_episode in range(1, num_episodes+1):
        state, _ = env.reset()
        score = 0
        done = False
        
        while not done:
            action = agent.act(state, epsilon)
            next_state, reward, terminated, truncated, _ = env.step(action)
            done = terminated or truncated
            
            agent.step(state, action, reward, next_state, done)
            
            state = next_state
            score += reward
        
        # 衰减探索率
        epsilon = max(epsilon_min, epsilon * epsilon_decay)
        
        # 记录分数
        scores.append(score)
        
        # 打印训练进度
        if i_episode % 100 == 0:
            mean_score = np.mean(scores[-100:])
            print(f"Episode {i_episode}/{num_episodes} | Average Score: {mean_score:.2f} | Epsilon: {epsilon:.2f}")
    
    return agent, scores

# 评估智能体
def evaluate_dqn_agent(agent, env_name, num_episodes=10, render=False):
    """评估训练好的DQN智能体"""
    env = gym.make(env_name, render_mode='human' if render else None)
    scores = []
    
    for i in range(num_episodes):
        state, _ = env.reset()
        score = 0
        done = False
        
        while not done:
            action = agent.act(state)
            next_state, reward, terminated, truncated, _ = env.step(action)
            done = terminated or truncated
            
            state = next_state
            score += reward
            
            if render:
                env.render()
        
        scores.append(score)
    
    env.close()
    return np.mean(scores), np.std(scores)

# 示例用法
# 如果直接运行这个文件，将训练一个CartPole环境的DQN智能体
if __name__ == "__main__":
    agent, scores = train_dqn(env_name="CartPole-v1", num_episodes=500)
    
    # 绘制训练过程中的分数
    import matplotlib.pyplot as plt
    
    plt.figure(figsize=(10, 6))
    plt.plot(scores)
    plt.title('DQN Training - CartPole-v1')
    plt.xlabel('Episode')
    plt.ylabel('Score')
    plt.grid(True)
    plt.savefig('dqn_training.png')
    plt.show()
    
    # 评估智能体
    mean_score, std_score = evaluate_dqn_agent(agent, "CartPole-v1", num_episodes=10)
    print(f"Evaluation: Mean Score = {mean_score:.2f} ± {std_score:.2f}")
    
    # 可视化智能体行为（可选）
    # mean_score, std_score = evaluate_dqn_agent(agent, "CartPole-v1", num_episodes=3, render=True)

1.10 Q-learning和贝尔曼方程的深入理解

理解Q-learning和贝尔曼方程需要考虑以下几个关键点：

1.10.1 贝尔曼方程的直观理解

贝尔曼方程的核心思想是最优子结构，即一个问题的最优解包含其子问题的最优解。对于强化学习，这意味着最优策略下的状态价值可以通过下一个状态的价值递归定义。

想象一个简单的网格世界，智能体从起点移动到终点。贝尔曼方程告诉我们：当前位置的价值等于下一步可能到达的所有位置价值的加权平均，再加上即时奖励。

1.10.2 Q-learning与贝尔曼最优方程的关系

Q-learning直接近似贝尔曼最优方程，而不需要知道或学习环境模型（即状态转移概率和奖励函数）。这使它成为一种**无模型（model-free）**算法。

Q-learning更新公式可以看作是使用样本估计贝尔曼最优方程右侧的期望值：

贝尔曼最优方程： $Q^*(s,a) = \mathbb{E}_{s'}[r + \gamma \max_{a'} Q^*(s',a')]$
Q-learning更新： $\leftarrow Q(s,a) + \alpha [r + \gamma \max_{a'} Q(s',a') - Q(s,a)]$

1.10.3 Q-learning与SARSA的比较

算法	更新公式	特点	适用场景
Q-learning	$\leftarrow Q(s,a) + \alpha [r + \gamma \max_{a'} Q(s',a') - Q(s,a)]$	离线学习，直接学习最优策略	探索环境风险较低
SARSA	$\leftarrow Q(s,a) + \alpha [r + \gamma Q(s',a') - Q(s,a)]$	在线学习，考虑实际执行的策略	探索环境风险较高

Q-learning是"激进"的，它总是假设未来会选择最优动作，而SARSA是"保守"的，它考虑当前策略下实际选择的动作。

1.10.4 Q-learning的收敛性

Q-learning在以下条件下理论上可以收敛到最优Q值：

所有状态-动作对被无限次访问
学习率满足Robbins-Monro条件： $\sum_t \alpha_t = \infty$ 和 $\sum_t \alpha_t^2 < \infty$
奖励有界

在实践中，我们通常使用衰减的学习率或较小的恒定学习率，并确保足够的探索。

1.10.5 Q函数近似的挑战

在复杂问题中，状态空间可能非常大，甚至是连续的，这时表格形式的Q函数不再实用。我们需要使用函数近似（如神经网络）来估计Q值。

清华大学全五版的《DeepSeek教程》完整的文档需要的朋友，关注我私信：deepseek 即可获得。

怎么样今天的内容还满意吗？再次感谢朋友们的观看，关注GZH：凡人的AI工具箱，回复666，送您价值199的AI大礼包。最后，祝您早日实现财务自由，还请给个赞，谢谢！

python 读excel每行替换_Python脚本操作Excel实现批量替换功能 weixin_39646695 python 读excel每行替换
Python脚本操作Excel实现批量替换功能大家好，给大家分享下如何使用Python脚本操作Excel实现批量替换。使用的工具Openpyxl，一个处理excel的python库，处理excel，其实针对的就是WorkBook，Sheet，Cell这三个最根本的元素~明确需求原始excel如下我们的目标是把下面excel工作表的sheet1表页A列的内容“替换我吧”批量替换为B列的“我用来替换的
x86-64汇编语言训练程序与实战十除以十等于一
本文还有配套的精品资源，点击获取简介：汇编语言是一种低级语言，与机器代码紧密相关，特别适用于编写系统级代码及性能要求高的应用。nasm编译器是针对x86和x86-64架构的汇编语言编译器，支持多种语法风格和指令集。项目Euler提供数学和计算机科学问题，鼓励编程技巧应用，前100个问题的答案可共享。x86-64架构扩展了寄存器数量并引入新指令，提升了数据处理效率。学习汇编语言能够深入理解计算机底层
三菱PLC全套学习资料及应用手册 good2know
本文还有配套的精品资源，点击获取简介：三菱PLC作为工业自动化领域的核心设备，其系列产品的学习和应用需要全面深入的知识。本次资料包为学习者提供从基础到进阶的全方位学习资源，包括各种型号PLC的操作手册、编程指南、软件操作教程以及实际案例分析，旨在帮助用户系统掌握PLC的编程语言、指令系统及在各类工业应用中的实施。1.三菱PLC基础知识入门1.1PLC的基本概念可编程逻辑控制器（PLC）是工业自动化
日更006 终极训练营day3 懒cici
人生创业课（2）今天的主题：学习方法一：遇到有用的书，反复读，然后结合自身实际，列践行清单，不要再写读书笔记思考这本书与我有什么关系，我在哪些地方能用到，之后我该怎么用方法二：读完书没映像怎么办?训练你的大脑，方法：每读完一遍书，立马合上书，做一场分享，几分钟都行对自己的学习要求太低，要逼自己方法三：学习深度不够怎么办？找到细分领域的榜样，把他们的文章、书籍、产品都体验一遍，成为他们的超级用户，向
day15｜前端框架学习和算法 universe_01 前端算法笔记
T22括号生成先把所有情况都画出来，然后（在满足什么情况下）把不符合条件的删除。T78子集要画树状图，把思路清晰。可以用暴力法、回溯法和DFS做这个题DFS深度搜索：每个边都走完，再回溯应用：二叉树搜索，图搜索回溯算法=DFS+剪枝T200岛屿数量（非常经典BFS宽度把树状转化成队列形式，lambda匿名函数“一次性的小函数，没有名字”setup语法糖：让代码更简洁好写的语法ref创建：基本类型的
《极简思维》第三部分小洋苏兮
整理你的人际关系如何改善人际关系？摘录：因为人际关系问题是人们生活中不快乐的主要原因。感想：感觉这个说的挺对，之前我总是埋头学习，不管舍友不管自己的合作伙伴的一些事情，但实际上，这学期关注了之后好多了摘录：“亲密关系与社交会让你健康而快乐。这是基础。太过于关注成就或不太关心人际关系的人都不怎么快乐。基本上来说，人类就是建立在人脉关系上的。”感想：但是如果有时想的太多就不太好，要以一个开放的心态跟别
你要记住，最重要的是:随时做好准备，为了你可能成为更好的自己，放弃现在的自己。霖霖z
打卡人:周云日期:2018年11月09日【日精进打卡第180天】【知～学习】《六项精进》0遍共214遍《通篇》1遍共106遍《大学》2遍共347遍《坚强工作，温柔生活》ok《不抱怨的世界》104-108页《经典名句》你要记住，最重要的是:随时做好准备，为了你可能成为更好的自己，放弃现在的自己。【行～实践】一、修身：（对自己个人）1、坚持打卡二、齐家：（对家庭和家人）打扫卫生，接送孩子，洗衣做饭，陪
贫穷家庭的孩子考上985以后会怎样？ Mellisa蜜思言
我出生在一个贫穷的农村家庭，据我妈说，我出生的时候才4斤多，而她生完我以后月子里就瘦到70斤。家里一直很穷，父母都是在菜市场卖菜的，家里还有几亩地种庄稼的。我很小开始就要去帮忙，暑假的生活就是帮忙去卖菜和割稻谷，那时候自己对于割稻谷这种事情有着莫名的恐惧，生怕自己长大以后还是每年都要过着割稻谷这种日子。父母因为忙于生计无暇顾及我的学习，幸好我因为看到他们这样子的生活，内心里有深深的恐惧感，驱使着我
2019-06-05 第十七把巴鲁克
今天去实验田里实习，见到了福寿螺真的可怕且牛皮，六级也快来了，说实话还是害怕。我昨天考了环工原理，真的太难了，太烦了，理工科真的难，烦。实验报告还是没写，要抓紧速度抓紧时间，还是应该学会努力学习，远离一些不上进的事物。
为什么焦虑、抑郁、自残的青少年越来越多？精神健康
很多家长觉得没缺孩子吃的穿的，他们有安稳的生活，他们有什么可焦虑、抑郁的，但现在的孩子，学习压力越来越大，每天休息的时间越来越少，出现焦虑抑郁是很正常的。从发展的角度看，青少年时期，人的身体、情绪，智力、人格都急剧发展，正从未成熟走向成熟，情绪起伏不定，易冲动，再者，由于缺乏生活经验，以及来自于家长、学校、社会的各种要求和压力，从而不知所措，心中的焦虑、恐惧、彷徨得不到及时的排解，从而导致心理上的
读书打卡《别想太多啦》 chenchen_68ed
第一，世间之事，不去尝试永远不知道其中的奥秘，在尝试中有失败是必然的。如果担心失败，那什么都学不会。第二，经历的失败越多，越会对失败者抱有宽容的态度，“原来如此，我也经历过类似的失败啦，那只是暂时的”。经历越多失败的长者，越能包容别人，这也就是所谓的“越年长越宽容”。成熟的人，就是在众多失败经历中不断学习，并接纳别人的失败。对于他人的小小过失不吹毛求疵，自己的心态会更加平和。在不断失败中学习，让自
2023-01-26 胡喜平
我觉得《可见的学习》一书确实从底层逻辑说清楚了，教学的本质。可是太多术语和概念，一时间难以消化啊。而且知道和懂得有距离，运用就更不行了，需要高手和专家的指导。我需要多听听新课标的讲座了，来反复印证。读论文也有了一点点灵感，明天修改我的论文。
平静得接受自己的笨拙 20190118 晨间日记吴伯符
图片发自App最近做了一个关于微习惯的分享，这里有八个字：微量开始，超额完成。这里的言下之意其实是要你在一开始的时候，平静地接受自己的笨拙。接受自己的笨拙，理解自己的笨拙，放慢速度尝试，观察哪里可以改进，再反复练习，观察自己哪里可以再进一步改进，再反复…这是学习一切技能的必须的过程。这里的两个关键点是：1.尽快的开始这个过程，这就能够用到微习惯的微量开始。2.尽快的度过这个过程，这就需要用到超额完
二十四节气组诗谷雨离陌_6639
图片来源网络，若侵犯了你的权益，请联系我删除6.谷雨文/离陌背上行囊背上如行囊的我从此任行程马不停蹄今天家乡的田野春雨快马加鞭播下希望的种子观音不语目送着我和夏天一道在观音山出关图片来源网络，若侵犯了你的权益，请联系我删除你好啊，我是离陌，已然在懵懂中走过了16年的岁月，为了珍惜当下的每一秒，所以立志做一名终身学习者。文学对于我来说是一种信仰，诗歌是我的生命。人生之道，四通八达，即入文学，自当持之
你好，2020年瑄瑄妍妍的妈咪
早上好，今天是2020年的第一天，也就是元旦，新年新的一天开始了。新的开始，重新规划未来的一年。从今天开始，用了一个新的记账软件，之前的随手记软件，也没有删除，只是重新下载了一个别的软件，开始一个新的记账旅程，对于理财开支，有个新的规划。通过小红书视频软件，学习了不少育儿知识，和各种不同的美食，以后动手制作，给宝宝做健康美味的营养餐。学习方面，继续学英语吧！虽然是抽出时间学的，进度也比较慢，但是积
常规笔记本和加固笔记本的区别 luchengtech 电脑三防笔记本加固计算机加固笔记本
在现代科技产品中，笔记本电脑因其便携性和功能性被广泛应用。根据使用场景和需求的不同，笔记本可分为常规笔记本和加固笔记本，二者在多个方面存在显著区别。适用场景是区分二者的重要标志。常规笔记本主要面向普通消费者和办公人群，适用于家庭娱乐、日常办公、学生学习等相对稳定的室内环境。比如，人们在家用它追剧、处理文档，学生在教室用它完成作业。而加固笔记本则专为特殊行业设计，像军事、野外勘探、工业制造、交通运输
《云襄传》：云襄做的局是浑水摸鱼吗？书生号贺
云襄入南都是要浑水摸鱼吗？他是云台的高材生吗？他为啥笃定师父一定会让他留在南都？他为啥觉得他能够做局成功？他是在经商吗？还是在经营人心与欲望？云襄是云台弟子，云台属千门的一支，另一支叫凌渊，云台教人经商之道，重智慧，凌渊以武力取胜，但倍受打压。云襄学习十五年，下高山奔越州，途经南洋，因恩人闻聪被害，囚于白驹镇，念于情分，被卷入这样一个局面里，结识了舒亚南与金十两，于是，复仇小组成立，目标是南都漕帮
心力践行营十二期一阶学习打卡 LX_王彤彤
姓名：王彤彤时间：2021年4月24日一：朗读师父的十大人生哲学二：师父的早安分享感悟很喜欢这句话：所有的行动都是基于目标的尝试，没有所谓的失败，只是不同尝试后得到的不同结果，让我们更好地调整下一次的行动。三：感恩日记1.我太幸福了，我很感恩姑姑，因为姑姑放假又投喂了我，还给我带了饺子回家，这让我感觉很幸福。谢谢，谢谢，谢谢。2.我太幸福了，我很感恩师父晚上的直播，因为听他的分享我知道怎么更好的去
为了在未来的人工智能世界中取得成功，学生们必须学习人类写作的优点睿邸管家
澳大利亚各地的学生在新学年开始使用铅笔、钢笔和键盘学习写字。在工作场所，机器也在学习写作，如此有效，几年之内，它们可能会写得比人类更好。有时它们已经做到了，就像Grammarly这样的应用程序所展示的那样。当然，人类现在的日常写作可能很快就会由具有人工智能(AI)的机器来完成。手机和电子邮件软件常用的预测文本是无数人每天都在使用的一种人工智能写作形式。据AI行业研究机构称，到2022年，人工智能及
闭组进行时... 李亚青_强化班
今天是2019年12月1号距离开始三月学习的日子:2019年10月07,已经过去将近两个月，回顾这一阶段的学习，收获了什么?又学会了什么呢?图片发自App我想，收获最大的就是身边这一群人吧,有和蔼可亲的学姐，贴心的学长，嬉戏打闹，玩的不亦乐乎，但也同样认真踏实学习小伙伴图片发自App本以为在这样的时刻，有太多太多话，太多太多想法想要表达，可言到此处，又觉得似乎没有什么想要说的了还是那句话，幸运遇到
2021-10-23 赵甄文的幸福
秀荣感恩日记Day42[烟花]感恩语录感恩自己有能力有好身体，可以到处走动，做自己想做的事情10.23感恩日记今天做的事情瑜伽一小时户外散步一小时泡脚20分钟学习打卡和孩子沟通[爱心]感动的瞬间今天瑜伽回来，发现老公在厨房里做鱼。每次老公有时间休息的时候都会给我做硬菜。刘姐约我一起去公园散步晒太阳。虽然完美错过，但心里还是暖暖的。每天睁开眼打开手机，先去自己的群里逛一逛，每每发现有人点赞或者互动都
孤独的守候怒吼的生命
孤独了时光岁月了寂寞带来了惆怅那些孤独的日子里我们珍惜奋斗起来品味人生的真谛做到更好奋斗当中的你是那么努力格外自律学习起来五彩斑斓那些日子时光匆匆人生的机会很多需要把握痛苦的回忆记得住那些忧愁孤苦五一的日子寂寞当中的你时光荏苒独自带给我荒草学习起来努力奋斗可是我们做的还不够把握发展生活带给我们更多希望静静的述说你的故事你的精彩人生当中我们总是努力把握生活带给我们更多的学习生活当中我们奋斗可是做的还
AI模型训练中过拟合和欠拟合的区别是什么？ workflower 人工智能算法人工智能数据分析
在AI模型训练中，过拟合和欠拟合是两种常见的模型性能问题，核心区别在于模型对数据的学习程度和泛化能力：欠拟合（Underfitting）-定义：模型未能充分学习到数据中的规律，对训练数据的拟合程度较差，在训练集和测试集上的表现都不好（如准确率低、损失值高）。-原因：-模型结构过于简单（如用线性模型解决非线性问题）；-训练数据量不足或特征信息不充分；-训练时间太短，模型尚未学到有效模式。-表现：训练
2018-08-29精进打卡米兰王
姓名:王兰英【日精进打卡第25天】【知～学习】《六项精进》1遍共39遍《大学》1遍共50遍【经典名句分享】一切都是最好的安排。【行～实践】一、修身：（对自己个人）1，散步1小时。2，每天坚持读书。二、齐家：（对家庭和家人）1，指导孩子开车。2，和家人一起逛超市。三、建功：（对工作）用心做好每件事。｛积善｝：发愿从2018年8月5日起1年内365个善事。今日1善，累计27善。【省～觉悟】正人先正己。
python笔记14介绍几个魔法方法抢公主的大魔王 python python
python笔记14介绍几个魔法方法先声明一下各位大佬，这是我的笔记。如有错误，恳请指正。另外，感谢您的观看，谢谢啦！(1).__doc__输出对应的函数，类的说明文档print(print.__doc__)print(value,...,sep='',end='\n',file=sys.stdout,flush=False)Printsthevaluestoastream,ortosys.std
陶勇：要不要参加分班考试学习？看完再说。陶勇
每年到了升学季，有很多培训机构都特别忙，为什么呢？因为有成千上万的学生，会选择升学前的分班考试的培训。比如说，小升初的孩子，到了暑假，很多孩子都会去选择一个初中，初一的分班考试的培训，那考入高中的孩子也有很多孩子会选择这种新高一的分班考试的培训。当然了，我个人认为这种选择并不是孩子自身的选择，主要还是家长的选择。当然也有少数孩子会对自己有比较高的要求，他们也会主动的去选择。为什么要去上分班考试的这
Anaconda 和 Miniconda：功能详解与选择建议古月฿ python入门 python conda
Anaconda和Miniconda详细介绍一、Anaconda的详细介绍1.什么是Anaconda？Anaconda是一个开源的包管理和环境管理工具，在数据科学、机器学习以及科学计算领域发挥着关键作用。它以Python和R语言为基础，为用户精心准备了大量预装库和工具，极大地缩短了搭建数据科学环境的时间。对于那些想要快速开展数据分析、模型训练等工作的人员来说，Anaconda就像是一个一站式的“数
求解——妊娠纹霜哪个牌子好？皮肤专家推荐的热门秘诀！ zhangxing0100
妊娠纹会严重影响女性的美观，那孕期的女性朋友该如何避免减少妊娠纹的出现呢?下面美腹丽人小编为大家分享了预防妊娠纹的方法，赶紧一起来学习吧!一、预防妊娠纹的饮食习惯1、多食用对皮肤内胶原纤维有利的食品来增强皮肤的弹性。2、控制糖分摄入，少吃色素含量高的食物。3、早晚两杯脱脂牛奶，多食用维丰富的蔬菜、水果和富含维生素及矿物质的食物，增加细胞膜的通透性和皮肤的新陈代谢功能。4、正确的喝水习惯可以提速皮肤
环境搭建 | Python + Anaconda / Miniconda + PyCharm 的安装、配置与使用
本文将分别介绍Python、Anaconda/Miniconda、PyCharm的安装、配置与使用，详细介绍Python环境搭建的全过程，涵盖Python、Pip、PythonLauncher、Anaconda、Miniconda、Pycharm等内容，以官方文档为参照，使用经验为补充，内容全面而详实。由于图片太多，就先贴一个无图简化版吧，详情请查看Python+Anaconda/Minicond
你竟然还在用克隆删除？Conda最新版rename命令全攻略！曦紫沐 Python基础知识 conda 虚拟环境管理
文章摘要Conda虚拟环境管理终于迎来革命性升级！本文揭秘Conda4.9+版本新增的rename黑科技，彻底告别传统“克隆+删除”的繁琐操作。从命令解析到实战案例，手把手教你如何安全高效地重命名Python虚拟环境，附带版本检测、环境迁移、故障排查等进阶技巧，助你提升开发效率10倍！一、颠覆认知：Conda居然自带重命名功能？很多开发者仍停留在“Conda无法直接重命名环境”的认知阶段，实际上自
安装数据库首次应用 Array_06 java oracle sql
可是为什么再一次失败之后就变成直接跳过那个要求 enter full pathname of java.exe的界面这个java.exe是你的Oracle 11g安装目录中例如：【F:\app\chen\product\11.2.0\dbhome_1\jdk\jre\bin】下的java.exe 。不是你的电脑安装的java jdk下的java.exe！注意第一次，使用SQL D
Weblogic Server Console密码修改和遗忘解决方法 bijian1013 Welogic
在工作中一同事将Weblogic的console的密码忘记了，通过网上查询资料解决，实践整理了一下。一.修改Console密码打开weblogic控制台，安全领域 --> myrealm -->&n
IllegalStateException: Cannot forward a response that is already committed Cwind java Servlets
对于初学者来说，一个常见的误解是：当调用 forward() 或者 sendRedirect() 时控制流将会自动跳出原函数。标题所示错误通常是基于此误解而引起的。示例代码： protected void doPost() { if (someCondition) { sendRedirect(); } forward(); // Thi
基于流的装饰设计模式木zi_鸣设计模式
当想要对已有类的对象进行功能增强时，可以定义一个类，将已有对象传入，基于已有的功能，并提供加强功能。自定义的类成为装饰类模仿BufferedReader，对Reader进行包装，体现装饰设计模式装饰类通常会通过构造方法接受被装饰的对象，并基于被装饰的对象功能，提供更强的功能。装饰模式比继承灵活，避免继承臃肿，降低了类与类之间的关系装饰类因为增强已有对象，具备的功能该
Linux中的uniq命令被触发 linux
Linux命令uniq的作用是过滤重复部分显示文件内容，这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个及以后更多个重复行将被删去，行比较是根据所用字符集的排序序列进行的。该命令加工后的结果写到输出文件中。输入文件和输出文件必须不同。如果输入文件用“- ”表示，则从标准输入读取。 AD： uniq [选项] 文件说明：这个命令读取输入文件，并比较相邻的行。在正常情况下，第二个
正则表达式Pattern 肆无忌惮_ Pattern
正则表达式是符合一定规则的表达式，用来专门操作字符串，对字符创进行匹配，切割，替换，获取。例如，我们需要对QQ号码格式进行检验规则是长度6~12位不能0开头只能是数字，我们可以一位一位进行比较，利用parseLong进行判断，或者是用正则表达式来匹配[1-9][0-9]{4,14} 或者 [1-9]\d{4,14} &nbs
Oracle高级查询之OVER (PARTITION BY ..) 知了ing oracle sql
一、rank()/dense_rank() over(partition by ...order by ...) 现在客户有这样一个需求，查询每个部门工资最高的雇员的信息，相信有一定oracle应用知识的同学都能写出下面的SQL语句： select e.ename, e.job, e.sal, e.deptno from scott.emp e, (se
Python调试矮蛋蛋 python pdb
原文地址： http://blog.csdn.net/xuyuefei1988/article/details/19399137 1、下面网上收罗的资料初学者应该够用了，但对比IBM的Python 代码调试技巧： IBM：包括 pdb 模块、利用 PyDev 和 Eclipse 集成进行调试、PyCharm 以及 Debug 日志进行调试： http://www.ibm.com/d
webservice传递自定义对象时函数为空，以及boolean不对应的问题 alleni123 webservice
今天在客户端调用方法 NodeStatus status=iservice.getNodeStatus(). 结果NodeStatus的属性都是null。进行debug之后，发现服务器端返回的确实是有值的对象。后来发现原来是因为在客户端，NodeStatus的setter全部被我删除了。本来是因为逻辑上不需要在客户端使用setter，结果改了之后竟然不能获取带属性值的
java如何干掉指针，又如何巧妙的通过引用来操作指针————>说的就是java指针百合不是茶
C语言的强大在于可以直接操作指针的地址，通过改变指针的地址指向来达到更改地址的目的,又是由于c语言的指针过于强大，初学者很难掌握， java的出现解决了c，c++中指针的问题 java将指针封装在底层，开发人员是不能够去操作指针的地址，但是可以通过引用来间接的操作：定义一个指针p来指向a的地址（&是地址符号）：
Eclipse打不开，提示“An error has occurred.See the log file ***/.log” bijian1013 eclipse
打开eclipse工作目录的\.metadata\.log文件，发现如下错误： !ENTRY org.eclipse.osgi 4 0 2012-09-10 09:28:57.139 !MESSAGE Application error !STACK 1 java.lang.NoClassDefFoundError: org/eclipse/core/resources/IContai
spring aop实例annotation方法实现 bijian1013 java spring AOP annotation
在spring aop实例中我们通过配置xml文件来实现AOP，这里学习使用annotation来实现，使用annotation其实就是指明具体的aspect,pointcut和advice。1.申明一个切面(用一个类来实现)在这个切面里,包括了advice和pointcut AdviceMethods.jav
[Velocity一]Velocity语法基础入门 bit1129 velocity
用户和开发人员参考文档 http://velocity.apache.org/engine/releases/velocity-1.7/developer-guide.html 注释 1.行级注释## 2.多行注释#* *# 变量定义使用$开头的字符串是变量定义，例如$var1, $var2, 赋值使用#set为变量赋值，例
【Kafka十一】关于Kafka的副本管理 bit1129 kafka
1. 关于request.required.acks request.required.acks控制者Producer写请求的什么时候可以确认写成功，默认是0， 0表示即不进行确认即返回。 1表示Leader写成功即返回，此时还没有进行写数据同步到其它Follower Partition中 -1表示根据指定的最少Partition确认后才返回，这个在 Th
lua统计nginx内部变量数据 ronin47 lua nginx　统计
server { listen 80; server_name photo.domain.com; location /{set $str $uri; content_by_lua ' local url = ngx.var.uri local res = ngx.location.capture(
java-11.二叉树中节点的最大距离 bylijinnan java
import java.util.ArrayList; import java.util.List; public class MaxLenInBinTree { /* a. 1 / \ 2 3 / \ / \ 4 5 6 7 max=4 pass "root"
Netty源码学习-ReadTimeoutHandler bylijinnan java netty
ReadTimeoutHandler的实现思路：开启一个定时任务，如果在指定时间内没有接收到消息，则抛出ReadTimeoutException 这个异常的捕获，在开发中，交给跟在ReadTimeoutHandler后面的ChannelHandler，例如 private final ChannelHandler timeoutHandler = new ReadTim
jquery验证上传文件样式及大小(好用) cngolon 文件上传 jquery验证
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=utf-8" /> <script src="jquery1.8/jquery-1.8.0.
浏览器兼容【转】 cuishikuan css 浏览器 IE
浏览器兼容问题一：不同浏览器的标签默认的外补丁和内补丁不同问题症状：随便写几个标签，不加样式控制的情况下，各自的margin 和padding差异较大。碰到频率:100% 解决方案：CSS里 *{margin:0;padding:0;} 备注：这个是最常见的也是最易解决的一个浏览器兼容性问题，几乎所有的CSS文件开头都会用通配符*来设
Shell特殊变量：Shell $0, $#, $*, $@, $?, $$和命令行参数 daizj shell $#$?特殊变量
前面已经讲到，变量名只能包含数字、字母和下划线，因为某些包含其他字符的变量有特殊含义，这样的变量被称为特殊变量。例如，$ 表示当前Shell进程的ID，即pid，看下面的代码： $echo $$ 运行结果 29949 特殊变量列表变量含义 $0 当前脚本的文件名 $n 传递给脚本或函数的参数。n 是一个数字，表示第几个参数。例如，第一个
程序设计KISS 原则-------KEEP IT SIMPLE, STUPID! dcj3sjt126com unix
翻到一本书，讲到编程一般原则是kiss：Keep It Simple, Stupid.对这个原则深有体会，其实不仅编程如此，而且系统架构也是如此。 KEEP IT SIMPLE, STUPID! 编写只做一件事情，并且要做好的程序；编写可以在一起工作的程序，编写处理文本流的程序，因为这是通用的接口。这就是UNIX哲学.所有的哲学真正的浓缩为一个铁一样的定律，高明的工程师的神圣的“KISS 原
android Activity间List传值 dcj3sjt126com Activity
第一个Activity： import java.util.ArrayList;import java.util.HashMap;import java.util.List;import java.util.Map;import android.app.Activity;import android.content.Intent;import android.os.Bundle;import a
tomcat 设置java虚拟机内存 eksliang tomcat 内存设置
转载请出自出处：http://eksliang.iteye.com/blog/2117772 http://eksliang.iteye.com/ 常见的内存溢出有以下两种: java.lang.OutOfMemoryError: PermGen space java.lang.OutOfMemoryError: Java heap space ------------
Android 数据库事务处理 gqdy365 android
使用SQLiteDatabase的beginTransaction()方法可以开启一个事务，程序执行到endTransaction() 方法时会检查事务的标志是否为成功，如果程序执行到endTransaction()之前调用了setTransactionSuccessful() 方法设置事务的标志为成功则提交事务，如果没有调用setTransactionSuccessful() 方法则回滚事务。事
Java 打开浏览器 hw1287789687 打开网址 open浏览器 open browser 打开url 打开浏览器
使用java 语言如何打开浏览器呢? 我们先研究下在cmd窗口中,如何打开网址使用IE 打开 D:\software\bin>cmd /c start iexplore http://hw1287789687.iteye.com/blog/2153709 使用火狐打开 D:\software\bin>cmd /c start firefox http://hw1287789
ReplaceGoogleCDN：将 Google CDN 替换为国内的 Chrome 插件 justjavac chrome Google google api chrome插件
Chrome Web Store 安装地址： https://chrome.google.com/webstore/detail/replace-google-cdn/kpampjmfiopfpkkepbllemkibefkiice 由于众所周知的原因，只需替换一个域名就可以继续使用Google提供的前端公共库了。同样，通过script标记引用这些资源，让网站访问速度瞬间提速吧
进程VS.线程 m635674608 线程
资料来源： http://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000/001397567993007df355a3394da48f0bf14960f0c78753f000 1、Apache最早就是采用多进程模式 2、IIS服务器默认采用多线程模式 3、多进程优缺点优点：多进程模式最大
Linux下安装MemCached 字符串 memcached
前提准备：1. MemCached目前最新版本为：1.4.22，可以从官网下载到。2. MemCached依赖libevent，因此在安装MemCached之前需要先安装libevent。2.1 运行下面命令，查看系统是否已安装libevent。[root@SecurityCheck ~]# rpm -qa|grep libevent libevent-headers-1.4.13-4.el6.n
java设计模式之--jdk动态代理（实现aop编程） Supanccy2013 java DAO 设计模式 AOP
与静态代理类对照的是动态代理类，动态代理类的字节码在程序运行时由Java反射机制动态生成，无需程序员手工编写它的源代码。动态代理类不仅简化了编程工作，而且提高了软件系统的可扩展性，因为Java 反射机制可以生成任意类型的动态代理类。java.lang.reflect 包中的Proxy类和InvocationHandler 接口提供了生成动态代理类的能力。 &
Spring 4.2新特性-对java8默认方法(default method)定义Bean的支持 wiselyman spring 4
2.1 默认方法(default method) java8引入了一个default medthod; 用来扩展已有的接口,在对已有接口的使用不产生任何影响的情况下,添加扩展使用default关键字 Spring 4.2支持加载在默认方法里声明的bean 2.2 将要被声明成bean的类 public class DemoService {

Pytorch深度学习框架60天进阶学习计划 - 第43天：强化学习基础（一）