1989

【零基础学AI】第27讲：注意力机制（Attention） - 机器翻译实战

本节课你将学到

理解注意力机制的核心思想
掌握注意力计算的数学原理
实现基于注意力机制的Seq2Seq模型
构建英语到法语的神经翻译系统

开始之前

环境要求

Python 3.8+
需要安装的包：
- tensorflow==2.8.0
- numpy==1.21.0
- matplotlib==3.4.0
- pandas==1.3.0

前置知识

RNN/LSTM原理（第26讲）
序列数据处理（第26讲）
自然语言处理基础（第14讲）

核心概念

为什么需要注意力机制？

想象你在翻译长句子时的思考过程：

传统Seq2Seq模型的问题：

编码器将整个句子压缩为固定长度向量（信息瓶颈）
解码时无法区分不同单词的重要性
长句子翻译质量急剧下降

注意力机制的解决方案：

动态聚焦：解码每个词时关注源句子不同部分
软对齐：自动学习源词和目标词的对应关系
上下文向量：每个解码步骤生成独特的上下文

注意力机制工作原理

三步计算过程：

评分（Score）：计算解码器当前状态与所有编码器状态的相关性
- 常用方法：点积、加性、缩放点积
权重（Attention Weights）：通过softmax归一化得分
- 表示每个编码器状态的关注程度
上下文向量（Context Vector）：加权求和编码器状态
- 公式：context = ∑(attention_weights * encoder_states)

注意力机制类型

类型	公式	特点
加性Attention	`score = vᵀ tanh(W₁h + W₂s)`	计算量大但灵活
点积Attention	`score = hᵀs`	计算简单但需维度匹配
缩放点积Attention	`score = hᵀs/√dₖ`	Transformer使用，最佳实践

注意力机制的优势

可解释性：可视化注意力权重查看对齐情况
长序列处理：不受固定长度向量限制
性能提升：显著提高翻译质量（+5-10 BLEU）
通用性：适用于各种序列到序列任务

代码实战

1. 准备英法翻译数据集

import tensorflow as tf
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

# 下载数据集
path_to_file = tf.keras.utils.get_file(
    'fra-eng.zip',
    origin='http://storage.googleapis.com/download.tensorflow.org/data/fra-eng.zip',
    extract=True
)
path_to_file = path_to_file.replace('.zip', '.txt')

# 读取数据
def load_data(path):
    df = pd.read_csv(path, sep='\t', header=None, names=['en', 'fr'])
    # 添加开始和结束标记
    df['fr'] = ' ' + df['fr'] + ' '
    return df.sample(50000)  # 使用5万条数据

df = load_data(path_to_file)
print(df.head())

# 查看样本长度分布
df['en_len'] = df['en'].apply(lambda x: len(x.split()))
df['fr_len'] = df['fr'].apply(lambda x: len(x.split()))
print("\n英语平均长度:", df['en_len'].mean())
print("法语平均长度:", df['fr_len'].mean())

# 可视化长度分布
plt.figure(figsize=(10,4))
plt.subplot(1,2,1)
plt.hist(df['en_len'], bins=30)
plt.title('英语句子长度')
plt.subplot(1,2,2)
plt.hist(df['fr_len'], bins=30)
plt.title('法语句子长度')
plt.show()

2. 文本预处理与分词器

from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences

# 配置参数
MAX_LEN = 20
VOCAB_SIZE = 10000

# 英语分词器
en_tokenizer = Tokenizer(num_words=VOCAB_SIZE, filters='')
en_tokenizer.fit_on_texts(df['en'])
en_vocab_size = len(en_tokenizer.word_index) + 1

# 法语分词器
fr_tokenizer = Tokenizer(num_words=VOCAB_SIZE, filters='')
fr_tokenizer.fit_on_texts(df['fr'])
fr_vocab_size = len(fr_tokenizer.word_index) + 1

# 序列化和填充
def preprocess_sentences(sentences, tokenizer, max_len):
    seq = tokenizer.texts_to_sequences(sentences)
    padded = pad_sequences(seq, maxlen=max_len, padding='post')
    return padded

# 准备训练数据
input_data = preprocess_sentences(df['en'], en_tokenizer, MAX_LEN)
target_data = preprocess_sentences(df['fr'], fr_tokenizer, MAX_LEN)

# 数据集划分
from sklearn.model_selection import train_test_split
X_train, X_val, y_train, y_val = train_test_split(
    input_data, target_data, test_size=0.2, random_state=42)

print("\n英语词汇量:", en_vocab_size)
print("法语词汇量:", fr_vocab_size)
print("训练样本数:", len(X_train))
print("验证样本数:", len(X_val))

3. 构建带注意力机制的Seq2Seq模型

from tensorflow.keras.layers import Input, LSTM, Embedding, Dense
from tensorflow.keras.models import Model

# 编码器
encoder_inputs = Input(shape=(None,))
enc_emb = Embedding(en_vocab_size, 256)(encoder_inputs)
encoder_lstm = LSTM(256, return_sequences=True, return_state=True)
encoder_outputs, state_h, state_c = encoder_lstm(enc_emb)
encoder_states = [state_h, state_c]  # 保存最后状态

# 解码器
decoder_inputs = Input(shape=(None,))
dec_emb = Embedding(fr_vocab_size, 256)(decoder_inputs)
decoder_lstm = LSTM(256, return_sequences=True, return_state=True)
decoder_outputs, _, _ = decoder_lstm(dec_emb, initial_state=encoder_states)

# 注意力机制
attention = tf.keras.layers.Attention()([decoder_outputs, encoder_outputs])
decoder_concat = tf.keras.layers.Concatenate(axis=-1)([decoder_outputs, attention])

# 输出层
decoder_dense = Dense(fr_vocab_size, activation='softmax')
decoder_outputs = decoder_dense(decoder_concat)

# 定义训练模型
model = Model([encoder_inputs, decoder_inputs], decoder_outputs)
model.compile(optimizer='adam', loss='sparse_categorical_crossentropy')

model.summary()

4. 准备训练数据格式

# 解码器输入和目标数据准备
decoder_input_data = y_train[:, :-1]  # 去掉最后一个词
decoder_target_data = y_train[:, 1:]   # 去掉第一个词(start token)

# 验证数据
val_decoder_input = y_val[:, :-1]
val_decoder_target = y_val[:, 1:]

# 数据生成器（节省内存）
def data_generator(encoder_input, decoder_input, decoder_target, batch_size=64):
    num_samples = len(encoder_input)
    while True:
        for offset in range(0, num_samples, batch_size):
            batch_encoder_input = encoder_input[offset:offset+batch_size]
            batch_decoder_input = decoder_input[offset:offset+batch_size]
            batch_decoder_target = decoder_target[offset:offset+batch_size]
            
            yield [batch_encoder_input, batch_decoder_input], batch_decoder_target

# 创建生成器
train_gen = data_generator(X_train, decoder_input_data, decoder_target_data)
val_gen = data_generator(X_val, val_decoder_input, val_decoder_target)

5. 训练模型

# 训练配置
steps_per_epoch = len(X_train) // 64
validation_steps = len(X_val) // 64

# 添加模型保存回调
checkpoint = tf.keras.callbacks.ModelCheckpoint(
    'transformer_model.h5',
    save_best_only=True,
    monitor='val_loss',
    mode='min'
)

# 开始训练
history = model.fit(
    train_gen,
    steps_per_epoch=steps_per_epoch,
    epochs=10,
    validation_data=val_gen,
    validation_steps=validation_steps,
    callbacks=[checkpoint]
)

# 可视化训练过程
plt.plot(history.history['loss'], label='训练损失')
plt.plot(history.history['val_loss'], label='验证损失')
plt.legend()
plt.show()

6. 推理模型（预测阶段）

# 编码器推理模型
encoder_model = Model(encoder_inputs, [encoder_outputs, state_h, state_c])

# 解码器推理模型
decoder_state_input_h = Input(shape=(256,))
decoder_state_input_c = Input(shape=(256,))
decoder_states_inputs = [decoder_state_input_h, decoder_state_input_c]

dec_emb_inf = Embedding(fr_vocab_size, 256)(decoder_inputs)
decoder_outputs_inf, state_h_inf, state_c_inf = decoder_lstm(
    dec_emb_inf, initial_state=decoder_states_inputs)
decoder_states_inf = [state_h_inf, state_c_inf]

# 注意力层
attention_inf = tf.keras.layers.Attention()([decoder_outputs_inf, encoder_outputs])
decoder_concat_inf = tf.keras.layers.Concatenate(axis=-1)([decoder_outputs_inf, attention_inf])
decoder_outputs_inf = decoder_dense(decoder_concat_inf)

decoder_model = Model(
    [decoder_inputs] + [encoder_outputs] + decoder_states_inputs,
    [decoder_outputs_inf] + decoder_states_inf)

# 翻译函数
def translate(input_seq):
    # 编码输入句子
    enc_out, h, c = encoder_model.predict(input_seq)
    
    # 初始化解码器输入
    target_seq = np.zeros((1, 1))
    target_seq[0, 0] = fr_tokenizer.word_index['']
    
    stop_condition = False
    decoded_sentence = []
    
    while not stop_condition:
        output_tokens, h, c = decoder_model.predict([target_seq] + [enc_out] + [h, c])
        
        # 采样下一个词
        sampled_token_index = np.argmax(output_tokens[0, -1, :])
        sampled_word = fr_tokenizer.index_word.get(sampled_token_index, '')
        decoded_sentence.append(sampled_word)
        
        # 退出条件：达到最大长度或遇到结束标记
        if (sampled_word == '' or len(decoded_sentence) > MAX_LEN):
            stop_condition = True
            
        # 更新目标序列
        target_seq = np.zeros((1, 1))
        target_seq[0, 0] = sampled_token_index
    
    return ' '.join(decoded_sentence[:-1])  # 去掉

# 测试翻译
def test_translation(n=5):
    for i in range(n):
        idx = np.random.randint(0, len(X_val))
        input_seq = X_val[idx:idx+1]
        english = ' '.join([en_tokenizer.index_word.get(i, '') for i in input_seq[0] if i != 0])
        french = translate(input_seq)
        print(f"\n英语: {english}")
        print(f"翻译: {french}")

test_translation()

7. 注意力权重可视化

# 修改解码器模型以输出注意力权重
attention_layer = model.layers[-3]  # 根据模型结构调整索引
attention_model = Model(
    inputs=model.inputs,
    outputs=[model.outputs[0], attention_layer.output]
)

# 可视化函数
def plot_attention(input_seq, translated_words):
    # 获取注意力权重
    _, attention_weights = attention_model.predict(input_seq)
    
    # 准备输入和输出词
    input_text = [en_tokenizer.index_word.get(i, '') for i in input_seq[0] if i != 0]
    output_text = translated_words.split()
    
    # 绘制热力图
    plt.figure(figsize=(10,5))
    plt.imshow(attention_weights[0, :len(output_text), :len(input_text)], cmap='viridis')
    plt.xticks(range(len(input_text)), input_text, rotation=90)
    plt.yticks(range(len(output_text)), output_text)
    plt.xlabel('输入词')
    plt.ylabel('输出词')
    plt.title('注意力权重可视化')
    plt.colorbar()
    plt.show()

# 示例可视化
idx = np.random.randint(0, len(X_val))
input_seq = X_val[idx:idx+1]
translation = translate(input_seq)
plot_attention(input_seq, translation)

完整项目

项目结构

lesson_27_attention/
├── README.md
├── requirements.txt
├── attention_translation.py  # 主程序文件
├── utils/
│   ├── data_loader.py       # 数据加载工具
│   └── visualization.py     # 可视化工具
├── models/                  # 保存的模型
│   └── transformer_model.h5
└── output/                  # 输出结果
    ├── training_curve.png
    ├── attention_heatmap.png
    └── sample_translations.txt

requirements.txt

tensorflow==2.8.0
numpy==1.21.0
matplotlib==3.4.0
pandas==1.3.0

attention_translation.py

import tensorflow as tf
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from utils.data_loader import load_and_preprocess_data
from utils.visualization import plot_attention

class AttentionTranslator:
    def __init__(self, max_len=20, vocab_size=10000):
        self.max_len = max_len
        self.vocab_size = vocab_size
        self.en_tokenizer = None
        self.fr_tokenizer = None
        self.model = None
        self.encoder_model = None
        self.decoder_model = None
    
    def build_model(self, en_vocab_size, fr_vocab_size):
        # 编码器
        encoder_inputs = tf.keras.Input(shape=(None,))
        enc_emb = tf.keras.layers.Embedding(en_vocab_size, 256)(encoder_inputs)
        encoder_lstm = tf.keras.layers.LSTM(256, return_sequences=True, return_state=True)
        encoder_outputs, state_h, state_c = encoder_lstm(enc_emb)
        
        # 解码器
        decoder_inputs = tf.keras.Input(shape=(None,))
        dec_emb = tf.keras.layers.Embedding(fr_vocab_size, 256)(decoder_inputs)
        decoder_lstm = tf.keras.layers.LSTM(256, return_sequences=True, return_state=True)
        decoder_outputs, _, _ = decoder_lstm(dec_emb, initial_state=[state_h, state_c])
        
        # 注意力机制
        attention = tf.keras.layers.Attention()([decoder_outputs, encoder_outputs])
        decoder_concat = tf.keras.layers.Concatenate(axis=-1)([decoder_outputs, attention])
        
        # 输出层
        decoder_dense = tf.keras.layers.Dense(fr_vocab_size, activation='softmax')
        decoder_outputs = decoder_dense(decoder_concat)
        
        # 定义模型
        model = tf.keras.Model([encoder_inputs, decoder_inputs], decoder_outputs)
        model.compile(optimizer='adam', loss='sparse_categorical_crossentropy')
        
        return model
    
    def train(self, X_train, y_train, X_val, y_val, epochs=10):
        # 准备数据
        decoder_input_data = y_train[:, :-1]
        decoder_target_data = y_train[:, 1:]
        val_decoder_input = y_val[:, :-1]
        val_decoder_target = y_val[:, 1:]
        
        # 训练模型
        checkpoint = tf.keras.callbacks.ModelCheckpoint(
            'models/transformer_model.h5',
            save_best_only=True,
            monitor='val_loss'
        )
        
        history = self.model.fit(
            [X_train, decoder_input_data],
            decoder_target_data,
            batch_size=64,
            epochs=epochs,
            validation_data=([X_val, val_decoder_input], val_decoder_target),
            callbacks=[checkpoint]
        )
        
        # 保存训练曲线
        plt.plot(history.history['loss'], label='训练损失')
        plt.plot(history.history['val_loss'], label='验证损失')
        plt.legend()
        plt.savefig('output/training_curve.png')
        plt.close()
        
        return history
    
    def build_inference_models(self):
        # 编码器推理模型
        encoder_outputs = self.model.layers[4].output
        state_h = self.model.layers[4].output[1]
        state_c = self.model.layers[4].output[2]
        self.encoder_model = tf.keras.Model(
            self.model.input[0],
            [encoder_outputs, state_h, state_c]
        )
        
        # 解码器推理模型
        decoder_inputs = self.model.input[1]
        decoder_embedding = self.model.layers[5]
        decoder_lstm = self.model.layers[6]
        decoder_dense = self.model.layers[-1]
        
        # 推理模型输入
        decoder_state_input_h = tf.keras.Input(shape=(256,))
        decoder_state_input_c = tf.keras.Input(shape=(256,))
        encoder_outputs_input = tf.keras.Input(shape=(None, 256))
        
        # 推理模型计算
        dec_emb_inf = decoder_embedding(decoder_inputs)
        decoder_outputs_inf, state_h_inf, state_c_inf = decoder_lstm(
            dec_emb_inf, initial_state=[decoder_state_input_h, decoder_state_input_c])
        
        attention_inf = tf.keras.layers.Attention()([decoder_outputs_inf, encoder_outputs_input])
        decoder_concat_inf = tf.keras.layers.Concatenate(axis=-1)([decoder_outputs_inf, attention_inf])
        decoder_outputs_inf = decoder_dense(decoder_concat_inf)
        
        self.decoder_model = tf.keras.Model(
            [decoder_inputs, encoder_outputs_input, decoder_state_input_h, decoder_state_input_c],
            [decoder_outputs_inf, state_h_inf, state_c_inf]
        )
    
    def translate(self, input_seq):
        # 编码输入
        enc_out, h, c = self.encoder_model.predict(input_seq)
        
        # 初始化解码
        target_seq = np.zeros((1, 1))
        target_seq[0, 0] = self.fr_tokenizer.word_index['']
        
        decoded_sentence = []
        while True:
            output_tokens, h, c = self.decoder_model.predict(
                [target_seq, enc_out, h, c])
            
            sampled_token_index = np.argmax(output_tokens[0, -1, :])
            sampled_word = self.fr_tokenizer.index_word.get(sampled_token_index, '')
            
            if sampled_word == '' or len(decoded_sentence) > self.max_len:
                break
                
            decoded_sentence.append(sampled_word)
            target_seq = np.zeros((1, 1))
            target_seq[0, 0] = sampled_token_index
        
        return ' '.join(decoded_sentence)

def main():
    # 加载数据
    df, (X_train, X_val, y_train, y_val) = load_and_preprocess_data()
    
    # 初始化翻译器
    translator = AttentionTranslator()
    translator.en_tokenizer = en_tokenizer  # 假设已定义
    translator.fr_tokenizer = fr_tokenizer
    
    # 构建模型
    translator.model = translator.build_model(
        len(en_tokenizer.word_index)+1,
        len(fr_tokenizer.word_index)+1
    )
    
    # 训练
    translator.train(X_train, y_train, X_val, y_val, epochs=10)
    
    # 构建推理模型
    translator.build_inference_models()
    
    # 测试翻译
    test_idx = np.random.randint(0, len(X_val))
    input_seq = X_val[test_idx:test_idx+1]
    english = ' '.join([translator.en_tokenizer.index_word.get(i, '') 
                       for i in input_seq[0] if i != 0])
    french = translator.translate(input_seq)
    
    print(f"\n英语: {english}")
    print(f"翻译: {french}")
    
    # 保存示例
    with open('output/sample_translations.txt', 'w') as f:
        f.write(f"英语: {english}\n")
        f.write(f"翻译: {french}\n")
    
    # 可视化注意力
    plot_attention(translator.model, input_seq, french, 
                  translator.en_tokenizer, translator.fr_tokenizer,
                  save_path='output/attention_heatmap.png')

if __name__ == "__main__":
    main()

运行效果

控制台输出

Epoch 1/10
625/625 [==============================] - 45s 65ms/step - loss: 2.8543 - val_loss: 2.1234
Epoch 2/10
625/625 [==============================] - 40s 64ms/step - loss: 1.9821 - val_loss: 1.7652
...
Epoch 10/10
625/625 [==============================] - 40s 64ms/step - loss: 1.1234 - val_loss: 1.4567

英语: she is sleeping
翻译: elle dort

生成的文件

models/transformer_model.h5: 训练好的模型权重
output/training_curve.png: 训练损失曲线
output/attention_heatmap.png: 注意力权重热力图
output/sample_translations.txt: 翻译示例

预期结果说明

训练损失应稳定下降：表明模型在学习翻译模式
验证损失应低于训练损失：表明没有严重过拟合
注意力热力图应显示合理对齐：如"she"对应"elle"
简单句子翻译应准确：短句翻译质量较高

常见问题

Q1: 如何提高翻译质量？

改进方法：

增加训练数据量
使用更大的模型（更多LSTM单元/层）
尝试Transformer架构（第28讲）
使用预训练词嵌入

Q2: 为什么长句子翻译效果差？

可能原因：

LSTM处理长序列仍有局限
注意力机制对非常长序列效果下降
解决方案：使用Transformer或限制输入长度

Q3: 如何应用到其他语言对？

实现步骤：

准备新的平行语料
调整分词器（可能需要特殊分词）
可能需要调整模型参数（如词嵌入维度）

Q4: 训练速度太慢怎么办？

优化建议：

使用GPU加速
减小批处理大小
降低模型复杂度
使用混合精度训练

课后练习

基础练习

调整注意力层类型（如改为加性注意力）
修改MAX_LEN参数，观察对模型的影响
可视化不同层的注意力权重

进阶挑战

实现双向编码器增强上下文理解
添加Beam Search提高解码质量
实现多语言翻译系统

项目扩展

开发网页翻译接口
构建聊天机器人对话系统
实现实时语音翻译系统

技术总结

通过本讲我们掌握了：

注意力机制的原理和优势
Seq2Seq模型的基本架构
神经机器翻译的实现方法
注意力权重的可视化分析
实际翻译系统的构建流程

注意力机制是NLP领域的重大突破，这些知识将为你学习更先进的Transformer模型奠定坚实基础。

python 读excel每行替换_Python脚本操作Excel实现批量替换功能 weixin_39646695 python 读excel每行替换
Python脚本操作Excel实现批量替换功能大家好，给大家分享下如何使用Python脚本操作Excel实现批量替换。使用的工具Openpyxl，一个处理excel的python库，处理excel，其实针对的就是WorkBook，Sheet，Cell这三个最根本的元素~明确需求原始excel如下我们的目标是把下面excel工作表的sheet1表页A列的内容“替换我吧”批量替换为B列的“我用来替换的
英伟达靠什么支撑起了4万亿？AI泡沫还能撑多久？
英伟达市值突破4万亿美元，既是AI算力需求爆发的直接体现，也暗含市场对未来的狂热预期。其支撑逻辑与潜在风险并存，而AI泡沫的可持续性则取决于技术、商业与地缘政治的复杂博弈。⚙️一、英伟达4万亿市值的核心支撑因素技术垄断与生态壁垒硬件优势：英伟达GPU在AI训练市场占有率超87%，H100芯片的FP16算力达1979TFLOPS，领先竞品3-5倍。CUDA生态：400万开发者构建的软件护城河，成为A
Spring进阶 - SpringMVC实现原理之DispatcherServlet处理请求的过程倾听铃的声后端 spring java mvc 开发语言分布式
前文我们有了IOC的源码基础以及SpringMVC的基础，我们便可以进一步深入理解SpringMVC主要实现原理，包含DispatcherServlet的初始化过程和DispatcherServlet处理请求的过程的源码解析。本文是第二篇：DispatcherServlet处理请求的过程的源码解析。@pdaiSpring进阶-SpringMVC实现原理之DispatcherServlet处理请求的
【C++算法】76.优先级队列_前 K 个高频单词流星白龙优选算法C++c++算法开发语言
文章目录题目链接：题目描述：解法C++算法代码：题目链接：692.前K个高频单词题目描述：解法利用堆来解决TopK问题预处理一下原始的字符串数组，用一个哈希表统计一下每一个单词出现的频次。创建一个大小为k的堆频次：小根堆字典序（频次相同的时候）：大根堆循环让元素依次进堆判断提取结果C++算法代码：classSolution{//定义类型别名，PSI表示对typedefpairPSI;//自定义比较
企业级区块链平台Hyperchain核心原理剖析 boyedu 区块链区块链企业级区块链平台 Hyperchain
Hyperchain作为国产自主可控的企业级联盟区块链平台，其核心原理围绕高性能共识、隐私保护、智能合约引擎及可扩展架构展开，通过多模块协同实现企业级区块链网络的高效部署与安全运行。以下从核心架构、关键技术、性能优化、安全机制、应用场景五个维度展开剖析：一、核心架构：分层解耦与模块化设计Hyperchain采用分层架构，将区块链功能解耦为独立模块，支持灵活组合与扩展：P2P网络层由验证节点（VP）
通义万相2.2：开启高清视频生成新纪元 Liudef06小白特殊专栏 AIGC 人工智能人工智能通义万相2.2 图生视频
通义万相2.2：开启高清视频生成新纪元2025年7月28日，中国AI领域迎来里程碑时刻——通义万相团队正式开源其革命性视频生成模型Wan2.2的核心权重，这标志着开源社区首次获得支持720P高清视频生成的先进模型架构。一、架构革新：混合专家系统1.1MoE视频扩散架构通义万相2.2首次将混合专家（MoE）架构引入视频扩散模型，通过双专家系统实现计算效率与模型容量的平衡：classMoEVideoD
2025年SDK游戏盾终极解析：重新定义手游安全的“隐形护甲” 上海云盾商务经理杨杨游戏安全
副标题：从客户端加密到AI反外挂，拆解全链路防护如何重塑游戏攻防天平引言：当传统高防在手游战场“失效”2025年全球手游市场规模突破$2000亿，黑客单次攻击成本却降至$30——某SLG游戏因协议层CC攻击单日流失37%玩家，某开放世界游戏遭低频DDoS瘫痪6小时损失千万。传统高防IP的致命短板暴露无遗：无法识别伪造客户端流量、难防协议篡改、误杀率超15%。而集成于游戏终端的SDK游戏盾，正以“源
LVS+Keepalived实现高可用和负载均衡 2401_84412895 程序员 lvs 负载均衡运维
2、开启网卡子接口配置VIP[root@a~]#cd/etc/sysconfig/network-scripts/[root@anetwork-scripts]#cp-aifcfg-ens32ifcfg-ens32:0[root@anetwork-scripts]#catifcfg-ens32:0BOOTPROTO=staticDEVICE=ens32:0ONBOOT=yesIPADDR=10.1
CodeFoeces-450B ss5smi
题目原题链接：B.JzzhuandSequences题意根据公式公式计算对应fn的值。参考了其他作者的代码和思路。找循环点。负数取余需要加取余数到>0为止才可取余。代码#includeusingnamespacestd;constintmod=1e9+7;intmain(){longlongf[10],x,y,n;cin>>x>>y>>n;x=(x+mod)%mod;y=(y+mod)%mod;f
你好，2020年瑄瑄妍妍的妈咪
早上好，今天是2020年的第一天，也就是元旦，新年新的一天开始了。新的开始，重新规划未来的一年。从今天开始，用了一个新的记账软件，之前的随手记软件，也没有删除，只是重新下载了一个别的软件，开始一个新的记账旅程，对于理财开支，有个新的规划。通过小红书视频软件，学习了不少育儿知识，和各种不同的美食，以后动手制作，给宝宝做健康美味的营养餐。学习方面，继续学英语吧！虽然是抽出时间学的，进度也比较慢，但是积
【异常】使用 LiteFlow 框架时，提示错误ChainDuplicateException: [chain name duplicate] chainName=categoryChallenge 本本本添哥 002 -进阶开发能力 java
一、报错内容Causedby:com.yomahub.liteflow.exception.ChainDuplicateException:[chainnameduplicate]chainName=categoryChallengeatcom.yomahub.liteflow.parser.helper.ParserHelper.lambda$null$0(ParserHelper.java:1
代码随想录算法训练营第三十五天
01背包问题二维题目链接01背包问题二维题解importjava.util.Scanner;publicclassMain{publicstaticvoidmain(String[]args){Scannersc=newScanner(System.in);intM=sc.nextInt();intN=sc.nextInt();int[]space=newint[M];int[]value=new
为了在未来的人工智能世界中取得成功，学生们必须学习人类写作的优点睿邸管家
澳大利亚各地的学生在新学年开始使用铅笔、钢笔和键盘学习写字。在工作场所，机器也在学习写作，如此有效，几年之内，它们可能会写得比人类更好。有时它们已经做到了，就像Grammarly这样的应用程序所展示的那样。当然，人类现在的日常写作可能很快就会由具有人工智能(AI)的机器来完成。手机和电子邮件软件常用的预测文本是无数人每天都在使用的一种人工智能写作形式。据AI行业研究机构称，到2022年，人工智能及
漫步，跳出藩篱张巧金沙
最近的教学，倍感不爽。一为这国庆之假，把这课上得支离破碎的。放假前，上了四天课，但我却只上了三天，9月30日，我工作室在搞活动，全天的活动，课当然未能上。10月8日学生回校，上了两天课，学生又放回家了。就觉得学生刚有点状态，又回去逍遥去了。感觉吧，教学内容也不敢大胆甩开膀子去教学，所以呀，这教学内容还真上不走，而且学生学下来效果特差。这不，国庆放假前的一个周，测试了两次，均为第一单元，是自考试以来
AI模型训练中过拟合和欠拟合的区别是什么？ workflower 人工智能算法人工智能数据分析
在AI模型训练中，过拟合和欠拟合是两种常见的模型性能问题，核心区别在于模型对数据的学习程度和泛化能力：欠拟合（Underfitting）-定义：模型未能充分学习到数据中的规律，对训练数据的拟合程度较差，在训练集和测试集上的表现都不好（如准确率低、损失值高）。-原因：-模型结构过于简单（如用线性模型解决非线性问题）；-训练数据量不足或特征信息不充分；-训练时间太短，模型尚未学到有效模式。-表现：训练
Selenium 特殊控件操作与 ActionChains 实践详解小馋喵知识杂货铺 selenium 测试工具
1.下拉框单选操作(a)使用SeleniumSelect类（标准HTML标签）Selenium提供了内置的Select类用于操作标准下拉框，这种方式简单且直观。fromselenium.webdriver.support.uiimportSelect#定位下拉框dropdown=Select(driver.find_element("id","dropdown_id"))#通过以下三种方式选择单个
python笔记14介绍几个魔法方法抢公主的大魔王 python python
python笔记14介绍几个魔法方法先声明一下各位大佬，这是我的笔记。如有错误，恳请指正。另外，感谢您的观看，谢谢啦！(1).__doc__输出对应的函数，类的说明文档print(print.__doc__)print(value,...,sep='',end='\n',file=sys.stdout,flush=False)Printsthevaluestoastream,ortosys.std
Anaconda 和 Miniconda：功能详解与选择建议古月฿ python入门 python conda
Anaconda和Miniconda详细介绍一、Anaconda的详细介绍1.什么是Anaconda？Anaconda是一个开源的包管理和环境管理工具，在数据科学、机器学习以及科学计算领域发挥着关键作用。它以Python和R语言为基础，为用户精心准备了大量预装库和工具，极大地缩短了搭建数据科学环境的时间。对于那些想要快速开展数据分析、模型训练等工作的人员来说，Anaconda就像是一个一站式的“数
环境搭建 | Python + Anaconda / Miniconda + PyCharm 的安装、配置与使用
本文将分别介绍Python、Anaconda/Miniconda、PyCharm的安装、配置与使用，详细介绍Python环境搭建的全过程，涵盖Python、Pip、PythonLauncher、Anaconda、Miniconda、Pycharm等内容，以官方文档为参照，使用经验为补充，内容全面而详实。由于图片太多，就先贴一个无图简化版吧，详情请查看Python+Anaconda/Minicond
你竟然还在用克隆删除？Conda最新版rename命令全攻略！曦紫沐 Python基础知识 conda 虚拟环境管理
文章摘要Conda虚拟环境管理终于迎来革命性升级！本文揭秘Conda4.9+版本新增的rename黑科技，彻底告别传统“克隆+删除”的繁琐操作。从命令解析到实战案例，手把手教你如何安全高效地重命名Python虚拟环境，附带版本检测、环境迁移、故障排查等进阶技巧，助你提升开发效率10倍！一、颠覆认知：Conda居然自带重命名功能？很多开发者仍停留在“Conda无法直接重命名环境”的认知阶段，实际上自
centos7安装配置 Anaconda3
Anaconda是一个用于科学计算的Python发行版,Anaconda于Python，相当于centos于linux。下载[root@testsrc]#mwgethttps://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anaconda3-5.2.0-Linux-x86_64.shBegintodownload:Anaconda3-5.2.0-L
Pandas：数据科学的超级瑞士军刀科技林总 DeepSeek学AI 人工智能
**——从零基础到高效分析的进化指南**###**一、Pandas诞生：数据革命的救世主****2010年前的数据分析噩梦**：```python#传统Python处理表格数据data=[]forrowincsv_file:ifrow[3]>100androw[2]=="China":data.append(float(row[5])#代码冗长易错！```**核心痛点**：-Excel处理百万行崩
Zread.AI：一键将GitHub项目转化为结构化中文手册的AI代码维基工具
Zread.AI：一键将GitHub项目转化为结构化中文手册的AI代码维基工具文章来源：PoixeAI文章目录Zread.AI工具概述核心功能优势亮点典型应用场景上手指南注意事项官网地址Zread.AI由智谱Z.ai推出，是一款面向开发者的AI代码维基工具，可在几秒内把任何公开GitHub仓库转化为结构化中文手册，并通过独家Buzz面板聚合commits、issues与相关新闻，让项目脉搏一目了然
人工智能应用研究快讯 2021-11-30 峰谷皆平
[HTML]ArtificialIntelligenceforSkinCancerDetection:ScopingReviewATakiddin,JSchneider,YYang,AAbd-Alrazaq...JournalofMedicalInternet...,2021ABSTACT:Background:Skincanceristhemostcommoncancertypeaffectin
学C++的五大惊人好处
为什么要学c++学c++有什么用学习c++的好处有1.中考可以加分2.高考可能直接录取3.就业广且工资高4.在未来30--50年c++一定是一个很受欢迎的职业5.c++成功的例子deepsick等AI智能C++语言兼备编程效率和编译运行效率的语言C++语言是C语言功能增强版,在c语言的基础上添加了面向对象编程和泛型编程的支持既继承了C语言高效，简洁，快速和可移植的传统,又具备类似Java、Go等其
机器学习必备数学与编程指南：从入门到精通 a小胡哦机器学习基础机器学习人工智能
一、机器学习核心数学基础1.线性代数（神经网络的基础）必须掌握：矩阵运算（乘法、转置、逆）向量空间与线性变换特征值分解与奇异值分解(SVD)为什么重要：神经网络本质就是矩阵运算学习技巧：用NumPy实际操作矩阵运算2.概率与统计（模型评估的关键）核心概念：条件概率与贝叶斯定理概率分布（正态、泊松、伯努利）假设检验与p值应用场景：朴素贝叶斯、A/B测试3.微积分（优化算法的基础）重点掌握：导数与偏导
Android GreenDao介绍和Generator生成表对象代码
目录(?)[-]介绍创建工程转载请注明：http://blog.csdn.net/sinat_30276961/article/details/50052109最近无意中发现了GreenDao，然后查看了一些资料后，发现这个数据库框架很适合用，于是乎，查看了官网的api，并自己写了一个小应用总结一下它的使用方法。介绍按照国际惯例，在开篇，总要先介绍一下什么是GreenDao吧。首先需要说明的是Gr
从振动信号到精准预警：AI 如何重塑工业设备健康管理？缘华工业智维人工智能计算机视觉边缘计算信息与通信
在智能制造浪潮席卷全球的当下，工业生产正经历着从传统模式向智能化、数字化转型的深刻变革。在这场变革中，AI驱动的振动分析技术犹如一颗璀璨新星，成为工业设备可靠运行的“健康卫士”。它通过在设备关键部位部署振动传感器，如同医生为患者听诊般实时采集设备运行时的振动信号，再借助强大的人工智能算法对这些“工业脉搏”进行深度解析，从而实现对工业设备从故障预警到寿命预测的全周期精准守护。一、AI振动分析：设备状
基于DeepSeek的下一代大型游戏开发革命：架构、核心技术与项目管理实践 Liudef06小白特殊专栏人工智能 AIGC 架构人工智能 deepseek
基于DeepSeek的下一代大型游戏开发革命：架构、核心技术与项目管理实践DeepSeek大模型正重塑游戏开发范式，本文将深入解析如何利用这一革命性技术构建下一代大型游戏，涵盖从架构设计到项目管理的全流程实践。目录DeepSeek游戏引擎核心架构1.1神经符号系统融合架构1.2动态世界生成引擎智能NPC与剧情系统2.1角色人格建模技术2.2动态叙事生成算法大型项目管理体系3.1敏捷-AI混合开发流
魔搭平台实战：手把手教你训练SDXL模型，解锁AI绘画新纪元 Liudef06小白特殊专栏 AIGC 人工智能 AI作画人工智能 AIGC
魔搭平台实战：手把手教你训练SDXL模型，解锁AI绘画新纪元随着多模态AI技术的爆发式发展，StableDiffusionXL（SDXL）等文生图模型正在彻底重塑创意产业工作流。本文将深入解析如何在魔搭平台高效训练SDXL模型，并探讨AI绘画技术对设计行业的革命性影响。一、SDXL模型架构解析1.1双文本编码器设计SDXL采用双文本编码器架构，显著提升提示词理解能力：#SDXL文本编码器结构示意c
VMware Workstation 11 或者 VMware Player 7安装MAC OS X 10.10 Yosemite iwindyforest vmware mac os 10.10 workstation player
最近尝试了下VMware下安装MacOS 系统，安装过程中发现网上可供参考的文章都是VMware Workstation 10以下， MacOS X 10.9以下的文章，只能提供大概的思路，但是实际安装起来由于版本问题，走了不少弯路，所以我尝试写以下总结，希望能给有兴趣安装OSX的人提供一点帮助。写在前面的话：其实安装好后发现，由于我的th
关于《基于模型驱动的B/S在线开发平台》源代码开源的疑虑？ deathwknight JavaScript java 框架
本人从学习Java开发到现在已有10年整，从一个要自学 java买成javascript的小菜鸟，成长为只会java和javascript语言的老菜鸟（个人邮箱：[email protected]）一路走来，跌跌撞撞。用自己的三年多业余时间，瞎搞一个小东西（基于模型驱动的B/S在线开发平台，非MVC框架、非代码生成）。希望与大家一起分享，同时有许些疑虑，希望有人可以交流下平台
如何把maven项目转成web项目 Kai_Ge maven MyEclipse
创建Web工程，使用eclipse ee创建maven web工程 1.右键项目,选择Project Facets,点击Convert to faceted from 2.更改Dynamic Web Module的Version为2.5.(3.0为Java7的,Tomcat6不支持). 如果提示错误,可能需要在Java Compiler设置Compiler compl
主管？？？ Array_06 工作
转载：http://www.blogjava.net/fastzch/archive/2010/11/25/339054.html 很久以前跟同事参加的培训，同事整理得很详细，必须得转！前段时间，公司有组织中高阶主管及其培养干部进行了为期三天的管理训练培训。三天的课程下来，虽然内容较多，因对老师三天来的课程内容深有感触，故借着整理学习心得的机会，将三天来的培训课程做了一个
python内置函数大全 2002wmj python
最近一直在看python的document，打算在基础方面重点看一下python的keyword、Build-in Function、Build-in Constants、Build-in Types、Build-in Exception这四个方面，其实在看的时候发现整个《The Python Standard Library》章节都是很不错的，其中描述了很多不错的主题。先把Build-in Fu
JSP页面通过JQUERY合并行 357029540 JavaScript jquery
在写程序的过程中我们难免会遇到在页面上合并单元行的情况，如图所示如果对于会的同学可能很简单，但是对没有思路的同学来说还是比较麻烦的，提供一下用JQUERY实现的参考代码 function mergeCell(){ var trs = $("#table tr"); &nb
Java基础冰天百华 java基础
学习函数式编程 package base; import java.text.DecimalFormat; public class Main { public static void main(String[] args) { // Integer a = 4; // Double aa = (double)a / 100000; // Decimal
unix时间戳相互转换 adminjun 转换 unix 时间戳
如何在不同编程语言中获取现在的Unix时间戳(Unix timestamp)？ Java time JavaScript Math.round(new Date().getTime()/1000) getTime()返回数值的单位是毫秒 Microsoft .NET / C# epoch = (DateTime.Now.ToUniversalTime().Ticks - 62135
作为一个合格程序员该做的事 aijuans 程序员
作为一个合格程序员每天该做的事 1、总结自己一天任务的完成情况最好的方式是写工作日志，把自己今天完成了什么事情，遇见了什么问题都记录下来，日后翻看好处多多 2、考虑自己明天应该做的主要工作把明天要做的事情列出来，并按照优先级排列，第二天应该把自己效率最高的时间分配给最重要的工作 3、考虑自己一天工作中失误的地方，并想出避免下一次再犯的方法出错不要紧，最重
由html5视频播放引发的总结 ayaoxinchao html5 视频 video
前言项目中存在视频播放的功能，前期设计是以flash播放器播放视频的。但是现在由于需要兼容苹果的设备，必须采用html5的方式来播放视频。我就出于兴趣对html5播放视频做了简单的了解，不了解不知道，水真是很深。本文所记录的知识一些浅尝辄止的知识，说起来很惭愧。视频结构本该直接介绍html5的<video>的，但鉴于本人对视频
解决httpclient访问自签名https报javax.net.ssl.SSLHandshakeException: sun.security.validat bewithme httpclient
如果你构建了一个https协议的站点，而此站点的安全证书并不是合法的第三方证书颁发机构所签发，那么你用httpclient去访问此站点会报如下错误 javax.net.ssl.SSLHandshakeException: sun.security.validator.ValidatorException: PKIX path bu
Jedis连接池的入门级使用 bijian1013 redis redis数据库 jedis
Jedis连接池操作步骤如下： a.获取Jedis实例需要从JedisPool中获取； b.用完Jedis实例需要返还给JedisPool； c.如果Jedis在使用过程中出错，则也需要还给JedisPool； packag
变与不变 bingyingao 不变变亲情永恒
变与不变周末骑车转到了五年前租住的小区，曾经最爱吃的西北面馆、江西水饺、手工拉面早已不在，各种店铺都换了好几茬，这些是变的。三年前还很流行的一款手机在今天看起来已经落后的不像样子。三年前还运行的好好的一家公司，今天也已经不复存在。一座座高楼拔地而起，
【Scala十】Scala核心四：集合框架之List bit1129 scala
Spark的RDD作为一个分布式不可变的数据集合，它提供的转换操作，很多是借鉴于Scala的集合框架提供的一些函数，因此，有必要对Scala的集合进行详细的了解 1. 泛型集合都是协变的，对于List而言，如果B是A的子类，那么List[B]也是List[A]的子类，即可以把List[B]的实例赋值给List[A]变量 2. 给变量赋值(注意val关键字，a，b
Nested Functions in C bookjovi c closure
Nested Functions 又称closure，属于functional language中的概念，一直以为C中是不支持closure的，现在看来我错了，不过C标准中是不支持的，而GCC支持。既然GCC支持了closure，那么 lexical scoping自然也支持了，同时在C中label也是可以在nested functions中自由跳转的
Java-Collections Framework学习与总结-WeakHashMap BrokenDreams Collections
总结这个类之前，首先看一下Java引用的相关知识。Java的引用分为四种：强引用、软引用、弱引用和虚引用。强引用：就是常见的代码中的引用，如Object o = new Object();存在强引用的对象不会被垃圾收集
读《研磨设计模式》-代码笔记-解释器模式-Interpret bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 解释器（Interpreter）模式的意图是可以按照自己定义的组合规则集合来组合可执行对象 * * 代码示例实现XML里面1.读取单个元素的值 2.读取单个属性的值 * 多
After Effects操作&快捷键 cherishLC After Effects
1、快捷键官方文档中文版：https://helpx.adobe.com/cn/after-effects/using/keyboard-shortcuts-reference.html 英文版：https://helpx.adobe.com/after-effects/using/keyboard-shortcuts-reference.html 2、常用快捷键
Maven 常用命令 crabdave maven
Maven 常用命令 mvn archetype:generate mvn install mvn clean mvn clean complie mvn clean test mvn clean install mvn clean package mvn test mvn package mvn site mvn dependency:res
shell bad substitution daizj shell 脚本
#!/bin/sh /data/script/common/run_cmd.exp 192.168.13.168 "impala-shell -islave4 -q 'insert OVERWRITE table imeis.${tableName} select ${selectFields}, ds, fnv_hash(concat(cast(ds as string), im
Java SE 第二讲（原生数据类型 Primitive Data Type） dcj3sjt126com java
Java SE 第二讲： 1. Windows: notepad, editplus, ultraedit, gvim Linux: vi, vim, gedit 2. Java 中的数据类型分为两大类： 1）原生数据类型（Primitive Data Type） 2）引用类型（对象类型）（R
CGridView中实现批量删除 dcj3sjt126com PHP yii
1，CGridView中的columns添加 array( 'selectableRows' => 2, 'footer' => '<button type="button" onclick="GetCheckbox();" style=&
Java中泛型的各种使用 dyy_gusi java 泛型
Java中的泛型的使用：1.普通的泛型使用在使用类的时候后面的<>中的类型就是我们确定的类型。 public class MyClass1<T> {//此处定义的泛型是T private T var; public T getVar() { return var; } public void setVa
Web开发技术十年发展历程 gcq511120594 Web 浏览器数据挖掘
回顾web开发技术这十年发展历程： Ajax 03年的时候我上六年级，那时候网吧刚在小县城的角落萌生。传奇，大话西游第一代网游一时风靡。我抱着试一试的心态给了网吧老板两块钱想申请个号玩玩，然后接下来的一个小时我一直在，注，册，账，号。彼时网吧用的512k的带宽，注册的时候，填了一堆信息，提交，页面跳转，嘣，”您填写的信息有误，请重填”。然后跳转回注册页面，以此循环。我现在时常想，如果当时a
openSession()与getCurrentSession()区别： hetongfei java DAO Hibernate
来自 http://blog.csdn.net/dy511/article/details/6166134 1.getCurrentSession创建的session会和绑定到当前线程,而openSession不会。 2. getCurrentSession创建的线程会在事务回滚或事物提交后自动关闭,而openSession必须手动关闭。这里getCurrentSession本地事务(本地
第一章安装Nginx+Lua开发环境 jinnianshilongnian nginx lua openresty
首先我们选择使用OpenResty，其是由Nginx核心加很多第三方模块组成，其最大的亮点是默认集成了Lua开发环境，使得Nginx可以作为一个Web Server使用。借助于Nginx的事件驱动模型和非阻塞IO，可以实现高性能的Web应用程序。而且OpenResty提供了大量组件如Mysql、Redis、Memcached等等，使在Nginx上开发Web应用更方便更简单。目前在京东如实时价格、秒
HSQLDB In-Process方式访问内存数据库 liyonghui160com
HSQLDB一大特色就是能够在内存中建立数据库，当然它也能将这些内存数据库保存到文件中以便实现真正的持久化。先睹为快！下面是一个In-Process方式访问内存数据库的代码示例：下面代码需要引入hsqldb.jar包（hsqldb-2.2.8） import java.s
Java线程的5个使用技巧 pda158 java 数据结构
Java线程有哪些不太为人所知的技巧与用法？　　萝卜白菜各有所爱。像我就喜欢Java。学无止境，这也是我喜欢它的一个原因。日常工作中你所用到的工具，通常都有些你从来没有了解过的东西，比方说某个方法或者是一些有趣的用法。比如说线程。没错，就是线程。或者确切说是Thread这个类。当我们在构建高可扩展性系统的时候，通常会面临各种各样的并发编程的问题，不过我们现在所要讲的可能会略有不同。
开发资源大整合：编程语言篇——JavaScript（1） shoothao JavaScript
概述：本系列的资源整合来自于github中各个领域的大牛，来收藏你感兴趣的东西吧。程序包管理器管理javascript库并提供对这些库的快速使用与打包的服务。 Bower - 用于web的程序包管理。 component - 用于客户端的程序包管理，构建更好的web应用程序。 spm - 全新的静态的文件包管
避免使用终结函数 vahoa.ma java jvm C++
终结函数（finalizer）通常是不可预测的，常常也是很危险的，一般情况下不是必要的。使用终结函数会导致不稳定的行为、更差的性能，以及带来移植性问题。不要把终结函数当做C++中的析构函数（destructors）的对应物。我自己总结了一下这一条的综合性结论是这样的： 1）在涉及使用资源，使用完毕后要释放资源的情形下，首先要用一个显示的方

【零基础学AI】第27讲：注意力机制（Attention） - 机器翻译实战

本节课你将学到

开始之前

环境要求

前置知识

核心概念

为什么需要注意力机制？

注意力机制工作原理

注意力机制类型

注意力机制的优势

代码实战

1. 准备英法翻译数据集

2. 文本预处理与分词器

3. 构建带注意力机制的Seq2Seq模型

4. 准备训练数据格式

5. 训练模型

6. 推理模型（预测阶段）

7. 注意力权重可视化

完整项目

项目结构

requirements.txt

attention_translation.py

运行效果

控制台输出

生成的文件

预期结果说明

常见问题

Q1: 如何提高翻译质量？

Q2: 为什么长句子翻译效果差？

Q3: 如何应用到其他语言对？

Q4: 训练速度太慢怎么办？

课后练习

基础练习

进阶挑战

项目扩展

技术总结

你可能感兴趣的:(0基础学AI,人工智能,机器翻译,自然语言处理,python,tensorflow,机器学习,神经网络)