TomcatLikeYou

Transformer处理文本分类实例(Pytorch)

文章目录

项目开源:GIT地址
Transformer处理文本分类实例
参考网站
我们构建一个实例问题,预测AG_NEWS的文本分类
- AG_NEWS数据集介绍
- 预测目标
- 总体思路(简述)
- 主要流程
- - 数据预处理
  - - dataset构建(不是重点)
    - 构建词表
  - 编写处理模型
  - - 执行词嵌入
    - 位置编码(PositionalEncoding)
    - (*核心)多层Transformer模块
    - - 多头自注意力模块
      - MLP模块
  - 分类层
附录,完整代码
附录: 指明padding的影响
附录:Transformer 关键参数选择参考
- - 1. **词嵌入维度 (`embedding_feature_dim`)**
  - 2. **多头注意力的头数 (`heads`)**
  - 3. **注意力模块的深度 (`depth`)**
  - 4. **注意力特征维度 (`attention_feature_dim`)**
  - 5. **MLP 特征维度 (`mlp_feature_dim`)**
  - 示例配置
附录,训练结果

项目开源:GIT地址

https://gitee.com/TomCoCo/transformer_test

Transformer处理文本分类实例

Transformer的应用太多了:

文字生成图像(DALL-E,Midjourney)
文本翻译(transformer原文的目的)
chartGPT(以给定的文本预测下一个单词)

本文主旨基于介绍Transformer,做一个简单的文本分类任务来说明

参考网站

LLM可视化模型,描述了chartGPT的模型结构,非常详细

llm可视化模型

3Blue1Brown 的Transformer解释的非常棒,推荐一看

【官方双语】直观解释注意力机制，Transformer的核心 | 【深度学习第6章】 https://www.bilibili.com/video/BV1TZ421j7Ke)

我们构建一个实例问题,预测AG_NEWS的文本分类

AG_NEWS数据集介绍

数据格式如下, csv格式,分别为: 分类,标题,描述

“3”,“Wall St. Bears Claw Back Into the Black (Reuters)”,“Reuters - Short-sellers, Wall Street’s dwindling\band of ultra-cynics, are seeing green again.”

AG News数据集包含四个主要的类别：1->世界（World）、2->体育（Sports）、3->商业（Business）,4->科技（Sci/Tech）。
每个类别包含30,000个训练样本和1,900个测试样本，总共120,000个训练样本和7,600个测试样本。
AG News数据集由AG’s Corpus of News Articles收集整理而来，该语料库由ComeToMyHead（一个自2004年7月起运行的学术新闻搜索引擎）在超过一年的时间内从2000多个新闻源中收集了超过100万篇新闻文章。

预测目标

在7600个数据的验证集,总体acc@1>90%,即判断对分类的概率为90%. (参数量在2000w左右)

总体思路(简述)

首先建立一个涵盖所有词的词表,可以理解为一个大词典,初始状态只有所有词的目录,但是没有词的释义,
理论上来说,一门完全陌生从未见过的外语,只要给出相当数量的文本,依旧可以破译出每一个词的含义,训练的过程,就是计算机破译词语(token)的过程.
而推理的的过程,即翻阅已经破译好之后的词典,然后组合上下文确定具体语义的过程
例如下面段(来自于dict.baidu.com):初始情况下,我们只建立了一个序号->词的映射关系,释义都是空的.

我们观察这个词的含义,足足有5个;含义复杂的词汇甚至有十几种意义完全不同的解释.
例如"意思":

训练的第一个目标,就是将所有的词的语义,进行数值映射. 即使用n维(词嵌入特征维度)的tensor,用以存储语义信息.
从ids->到n维tensor的过程就称之为词嵌入,初始情况下,目标tensor称之为词嵌入张量,又称之为词嵌入矩阵/词嵌入向量(单个词),初始为随机值(无意义信息,只是占位).
词嵌入的维度,称之为词嵌入(特征)维度决定着对于任意一个词,语义丰富程度的上限,如果维度过低,无法容纳过多的语义信息
训练的过程,就是从每一个语句中获取到每一个词的含义,然后更新词嵌入张量.词嵌入向量的更新是为了使其在所有语境中表现得更好，而不是完全捕捉每个具体上下文的所有信息。词嵌入捕捉的是词的通用语义特征，而上下文中的具体语义会通过Transformer的自注意力机制来捕捉。
训练阶段:同一个词在不同的语句中的含义会不同,故而词嵌入张量会被不断更新,以叠加更多的语义在其中(散布在不同的层参数)
!!注意!! 词嵌入层,保存的是一个token_id到通用语义的映射
推理阶段,使用id计算词嵌入结果, 这里的处理过程是使用嵌入层计算初始词嵌入张量(注意,这里由于被训练过,故而是有值的,即词典已经构造完成),然后使用自注意力层和mlp,更新词向量的数据,使之更加匹配当前的上下文语义.(即可以理解为,通过上下文选择组合一些释义,作为这个词当前的释义)
总的来说,使用嵌入层将token_id转为具有通用含义的tensor,使用自注意力机制和后续的网络层会调整这些向量,使其更好地反映当前输入的上下文语义。这样就获取到了当前句子(准确来说是上下文长度),每一个词的在当前语境下实际含义.
有了一句话的每个词的含义,做一个句子长度(上下文长度)->分类的全连接即可完成分类工作

主要流程

总体类似于下图,图像来自于https://bbycroft.net/llm,点击nano-gpt模型,本文主要结构和nano-gpt模型的形状一致

数据预处理

dataset构建(不是重点)

我们简单描述dataset,以及datasetloader的构建,说白了就是把数据封装为标签和文本的过程,以下是batch_size=2的示例

Label: Size([2])

tensor([2, 1])

Texes:tulpe: Size:2(batch_size=2)

(

‘Fosters counts cost of poor wine market Brewing giant Fosters today said that higher annual profits from sales of beer overseas had been eroded by a sharp drop in US wine trade.’,

‘Carter - joined the Jets. (Getty Images) Less than three weeks after being released by the Dallas Cowboys, quarterback Quincy Carter has landed with the New York Jets. Carter arrived in New York on Tuesday and signed a one-year contract.’

)

from torchtext import datasets
# 可以直接使用torchtext构建
train_data = datasets.AG_NEWS(root=train_data_path, split='train')
valid_data = datasets.AG_NEWS(root=train_data_path, split='test')
self.train_data_loader = DataLoader(dataset=train_data, batch_size=self.batch_size, shuffle=True)
self.valid_data_loader = DataLoader(dataset=valid_data, batch_size=self.batch_size, shuffle=True)
self.train_data_size = 120000
self.valid_data_size = 7600

构建词表

首先,我们想处理任意的文本输入,需要告诉模型,你需要认识哪些词汇(即token),也就是给模型一份(词)字典,
分词的主要过程:

首先将一句话切分成若干的语义单元(token),例如下面这句话的分词方式

我/买了/一个/金色/的/黄铜/材质/的/东方明珠/塔/模型(分词方式1)

我/买了/一个/金色的/黄铜材质的/东方明珠塔/模型(分词方式2)
- 分词方式: 每一个词,有其本身的含义在,合适的分词是处理的第一步,
  
  例如:方式2就会比方式1,构建出更厚的一本词表,但是相对的,每个词的含义更加明确不会混淆;
  
  极端的,如果针对每一个字,单独切分,构建出更薄的一本词表也是可行的.就会从词典变成字典. 每个字的含义会更加混淆不清楚;
  
  这样带来的影响,就是模型需要通过更多的上下文,去推断这个字的含义,因为单字的含义大多数时候是模糊不清的.
  
  你看新华字典可比现代汉语词典要小的多了
- 词表大小: 再看这句话,其中包含了英文和中文,如果目标是兼容2种文字,则词表会建立的更大,相当于建立了一本<<现代汉语和英语词典>>
  
  熟悉/markdown/语法/可以/让/文章/排版/更/便捷/美观
  
  确定你的需要处理的文字的范围,以确定词表大小,把所有的词(token)都从0-length编个有序列表,这样一个空的词表就建好了. 相当于建立了一本词典,但是目前只有目录,所有词条的含义尚未定义.这些词条定义,需要在学习中逐渐定义出来
- 分词器: 中文分词器jieba,英文分词器BertTokenizerFast.本文针对AG_news处理,故而使用BertTokenizerFast
- 特殊词处理:我构建词表时,最简单的方式就是将训练集的所有句子,统一执行分词,然后去重,就很容易得到一个训练集上出现的所有单词列表,这个是没有问题的. 但是预测推理的过程中,无法保证新的词,一定在词表中出现. 就如现在的很多网络新词,你查<<现代汉语词典>>也是查不到的,所幸,如果训练集足够大,那么词表足够大,缺少的词也不会很多,故而影响不是很大.
  - 未知词标记 [UNK]
  - 填充词标记 [PAD] 和上下文长度有关,后面会解释
为处理AG_NEWS, 由于是全英文的,此处我们不去手动构建词表,使用BertTokenizerFast提供的词表,词表长度:30522; 使用以下方法可以将文本数组,使用分词->映射->填充->转换格式的处理流程处理为了tensor格式的下标.

转换示例:

tulpe: Size:2(batch_size=2)

(

‘Fosters counts cost of poor wine market Brewing giant Fosters today said that higher annual profits from sales of beer overseas had been eroded by a sharp drop in US wine trade.’,

‘Carter - joined the Jets. (Getty Images) Less than three weeks after being released by the Dallas Cowboys, quarterback Quincy Carter has landed with the New York Jets. Carter arrived in New York on Tuesday and signed a one-year contract.’

)

->Tensor:Size([2, 512])

tensor([[ 101, 6469, 2015, …, 0, 0, 0],
[ 101, 5708, 1011, …, 0, 0, 0]])

转换代码:
```
from transformers import BertTokenizerFast
# 分词器和词表,注意这里的词表,仅仅使用了一个分词功能和id映射功能,没有使用到词嵌入的映射哦
tokenizer = BertTokenizerFast.from_pretrained('bert-base-uncased')
# 分词,max_length是上下文长度
encoded_batch = tokenizer.batch_encode_plus(
                texts,
                max_length=512,
                truncation=True,
                padding='max_length',
                return_tensors='pt'
            )
# 转化为了tensor格式的下标
input_ids = encoded_batch['input_ids'].to(self.device)
```
上下文长度:

如果我们把一个自然句,认为是一次的训练样本,那么有以下推论(训练和推理都存在)
如果一句话非常长,每一个词受到的影响就会越多,因为上下文越多,但是消耗计算资源也会变多
如果一句话非常短,每一个词受到的影响就会越少,因为上下文越少,但是消耗计算资源也会变少
即:上下文长度会影响到一个词会影响到/受影响多远距离的词.
实际情况下,句子有长有短,当前模型无法处理一个变长的语句,故而将超出的词截去,过短的使用填充词填充(上文提到的 [PAD] ,下标为0)
!!非常重要!! 我们规定一个合适的长度,将所有输入的文本都处理成等长的tensor即可,称之为上下文长度(序列长度)

编写处理模型

执行词嵌入

实际处理的是token_id到通用语义的映射这么一个过程
训练阶段,从无通用语义,逐渐使用已有的上下文去推断语义是什么
推理阶段,使用token_id,提取通用语义.
故而形状可以轻松推断,即词表宽度x词嵌入深度
词表宽度由构建词表的方式决定,词嵌入深度决定词的语义丰富程度的上限
在pytorch中定义嵌入层非常简单

vocab_size = self.tokenizer.vocab_size
# 我这里设计深度为300,参数选择可以见附录参数参考
embedding_feature_dim = 300
self.embedding = nn.Embedding(vocab_size, embedding_feature_dim)

此时,数据格式变化为

->Tensor:Size([2, 512])

tensor([[ 101, 6469, 2015, …, 0, 0, 0],
[ 101, 5708, 1011, …, 0, 0, 0]])

->Tensor:Size([2, 512, 300])

tensor([[[-0.0749, -1.5324, 0.0588, …, -1.8509, 0.4253, -1.5777],
[ 0.5036, 1.1159, -1.0334, …, 0.7873, -1.9076, -0.5892],
[ 1.6551, -1.7568, 1.0481, …, -1.8378, -1.4752, -1.7096],
…,
[-1.0518, 0.9318, -0.3377, …, 0.6822, -1.4751, 0.9430],
[-1.0518, 0.9318, -0.3377, …, 0.6822, -1.4751, 0.9430],
[-1.0518, 0.9318, -0.3377, …, 0.6822, -1.4751, 0.9430]],
[[-0.0749, -1.5324, 0.0588, …, -1.8509, 0.4253, -1.5777],
[ 0.7489, -0.8386, 0.9028, …, 3.1699, 0.8188, -0.2222],
[-0.0861, 0.1495, -0.1039, …, -0.1902, -2.5695, 0.0744],
…,
[-1.0518, 0.9318, -0.3377, …, 0.6822, -1.4751, 0.9430],
[-1.0518, 0.9318, -0.3377, …, 0.6822, -1.4751, 0.9430],
[-1.0518, 0.9318, -0.3377, …, 0.6822, -1.4751, 0.9430]]],
grad_fn=)

注意,这里非常重要:我们获得了一个batch_size x 上下文长度 x 词特征嵌入深度的tensor(词嵌入结果),接下来的操作,本质都是在更新它的过程,它就代表这这句话的语义. 此处的示例形状为Size([2, 512, 300])

位置编码(PositionalEncoding)

这段512长度的句子,在300的特征维度中,并没有记录位置信息,即包含谁在前,谁在后的信息. 因为是从词嵌入层获取的
故而使用编码技术,执行位置编码,将位置信息写入到特征维度中,此时张量形状不变,而且无可学习参数,只是单纯的更新数据,以嵌入位置信息
模块代码如下:

class PositionalEncoding(nn.Module):
    """
    位置编码器
    """

    def __init__(self, d_model, max_len=512, device=None):
        super(PositionalEncoding, self).__init__()
        self.encoding = torch.zeros(max_len, d_model)
        self.register_buffer('positional_encoding', self.encoding)

        position = torch.arange(0, max_len).unsqueeze(1).float()
        div_term = torch.exp(torch.arange(0, d_model, 2).float() * -(math.log(10000.0) / d_model))
        self.encoding[:, 0::2] = torch.sin(position * div_term)
        self.encoding[:, 1::2] = torch.cos(position * div_term)
        self.encoding = self.encoding.unsqueeze(0)  # Add batch dimension
        self.encoding = self.encoding.to(device)

    def forward(self, x):
        return x + self.encoding[:, :x.size(1)]

(*核心)多层Transformer模块

我们先来看一下这个模型的形状:其中有一个6x,代表以下的模块重复建立6次.(互为独立参数),重复次数为注意力模块的深度 (depth)

(transformer): Transformer(
(layers): ModuleList(
(0-5): 6 x ModuleList(
(0): AttentionMulti(
(w_qkv): Linear(in_features=300, out_features=3072, bias=True)
(attention_to_embedding): Linear(in_features=1024, out_features=300, bias=True)
(dropout): Dropout(p=0.0, inplace=False)
)
(1): Sequential(
(0): LayerNorm((300,), eps=1e-05, elementwise_affine=True)
(1): Linear(in_features=300, out_features=1200, bias=True)
(2): GELU(approximate=‘none’)
(3): Dropout(p=0.1, inplace=False)
(4): Linear(in_features=1200, out_features=300, bias=True)
(5): Dropout(p=0.1, inplace=False)
)
)
)

我们先看单个的Transformer模块,为一个多头注意力模块和MLP层构成

(0): AttentionMulti(
(w_qkv): Linear(in_features=300, out_features=3072, bias=True)
(attention_to_embedding): Linear(in_features=1024, out_features=300, bias=True)
(dropout): Dropout(p=0.0, inplace=False)
)
(1): Sequential(
(0): LayerNorm((300,), eps=1e-05, elementwise_affine=True)
(1): Linear(in_features=300, out_features=1200, bias=True)
(2): GELU(approximate=‘none’)
(3): Dropout(p=0.1, inplace=False)
(4): Linear(in_features=1200, out_features=300, bias=True)
(5): Dropout(p=0.1, inplace=False)
)

多头自注意力模块

先看AttentionMulti,结构貌似非常简单,忽略掉dropout,就是2个全连接层而已,观察2个全连接层
- w_qkv 从词嵌入维度(3000)到3072维度
- attention_to_embedding 从1024维度到300维度
- 我们剖开w_qkv,其实是3个全连接层,为了计算方便组合在一起计算罢了,等效于
```
wq = nn.Linear(300, 1024)
wk = nn.Linear(300, 1024)
wv = nn.Linear(300, 1024)
```
- 实际的此层的操作,可以猜测,貌似是使用2个全连接层,升维再降维: 即从300维->1024维,然后又从1024维度->300维

好的,我们先不看这个多层多头的Transformer模块,我们先去理解,这个模块想要做什么

核心任务改变词嵌入张量,以适应上下文的语义. 核心在改变一词,我们需要获取到这个变化量dt,可以看出,变化量的维度必须和词嵌入张量维度一致,不然无法叠加上去
这个模块的功能就是从上下文中提取到合适的语义,然后计算这个变化量

如何计算呢,首先我们需要衡量,一句话中,那一个词会对当前词产生影响,影响因子(QK)有多少,对于塔这个词来说,影响可能是这样的

比如: 我/买了/一个/黄金的/埃菲尔/塔.

对于词 “塔” 来说

上下文中: 一个,黄金的,埃菲尔都对塔产生了明显语义影响,且影响很大,而: 我,买了则影响相对较小.

影响源	影响目标	attention
我	塔	0.09
买了	塔	0.01
一个	塔	0.2
黄金的	塔	0.2
埃菲尔	塔	0.5
塔	塔	0

上表中的是单个对"塔"单个的影响,而且是归一化的概率值,下面是一句话中的所有词构成的注意力矩阵,logits值

其次,我们需要知道,每一个词对目标词的**影响量(V)**是多少,例如""黄金的"对"塔"的影响,就应该使之具有一种金灿灿,值钱,黄色等等语义的赋予.注意这个影响量也是具有维度的,维度越高,那么可以赋予的语义空间就越大.
所有的词的**影响量(V)**x,影响因子(QK),对塔有影响的数据.
原始数据切分为token,token选择对应的词向量表示(从嵌入矩阵中),此时的向量只编码了基础单词含义,是没有上下文影响存在的

上下文长度,每一个词能够看到的上下文对他的影响距离

上下文长度的token,输入到模型中,和解嵌入矩阵相乘,得到预测单词分布

输入6,深度128,即输入6x128记为X
X流经注意力模块还是X ,但是被编码了上下文信息,即数据改变了,即一句话里面的每一个词,含有了其上下文的语义,而不是一个单独的词存在
埃菲尔铁塔模型 -> 拆分为埃菲尔/铁塔/模型铁塔(初始值), 埃菲尔对其影响, 模型对其影响

生成Q的矩阵, ,词向量为128x1时,为了生成Q,则

生成Q,即有哪些特征会影响到本词

生成K,即本词具有哪些特征

QK的乘积,即本词和哪些其他的词匹配上了,匹配度是多少,即本词需要的特征与其他词的提供特征对应上了.

比如: 我/买了/一个/黄金的/埃菲尔/塔

上下文中明显: 一个,黄金的,埃菲尔都对塔产生了语义影响,且影响很大,而: 我,买了则影响相对较小.

换一个角度来说,

对于词: 塔来说,他的Q(128维度),第一维是期待获取形状,第二维度材质,第三维度颜色,第四维度数量,第五维度位置等等等等

对于词:黄金的来说,他K(128维度)第一维描述为重量,第二维度描述为颜色,第三维描述为形容词等等等等(注意,这里是特征名,不是特征值)

对于词:黄金的来说,他V(128维度),则是他的K的对应的每一个维度的特征值,例如第一维是:很重,第二维是:金色,第三维:是

执行点积,即执行两者的相似度度量,如果相似,则匹配较好,故而这些词对他的影响会更大,
注意力矩阵大小等于上下文长度的平方

具体的计算方案,

构建 $W_{QKV}$ 三个全连接层,输入参数即词嵌入矩, 用以计算 $Q, K, V$

$W_Q$ 矩阵 :生成Q矩阵 :词嵌入特征维度->注意力特征维度

$W_K$ 矩阵 :生成K矩阵 :词嵌入特征维度->注意力特征维度

$W_V$ 矩阵 :生成V矩阵 :词嵌入特征维度->注意力特征维度
计算注意力矩阵

$Attention(Q,K)=softmax(\frac{QK^T} {\sqrt{d_k}})$

其中 $d_k$ 为注意力特征维度(此例为128)

除以 $\sqrt{d_k}$ 可以使点积的结果保持在一个较为稳定的范围内，确保 softmax 函数的输出不至于变得过于极端。
注意力矩阵乘以V

$Attention(Q,K,V)=softmax(\frac{QK^T} {\sqrt{d_k}})V$

得出的值即应该添加到原数据上的变化量

注意,此时的维度不一致,需要将变化量结果从: 注意力特征维度->词嵌入特征维度

wq = nn.Linear(300, 128)
wk = nn.Linear(300, 128)
wv = nn.Linear(300, 128)

attention_to_embedding = nn.Linear(128, 300)

......省略若干

# 使用WK,WQ 300->128 , 将嵌入矩阵6x512x300分别全连接为6x512x128,
# 512来自于上下文长度,128来自于kq特征维度(attn_feature_dim).
# 计算KQV结果: 6x512x128 ,
q_tensor = wq(token_tensor)
k_tensor = wk(token_tensor)
v_tensor = wv(token_tensor)

# 点积qk(注意需要转置矩阵),得注意力矩阵(attention matrix),6x512x512. 即计算kq的128维度相关性
# 点积的结果值,和attn_feature_dim相关,维度越高,则点积的结果越大
attention_tensor = torch.matmul(q_tensor, k_tensor.transpose(-1, -2))
# 为平衡点积结果,故而除以根号下attn_feature_dim  6x512x512->6x512x512
attention_tensor = attention_tensor / torch.sqrt(torch.tensor(128, dtype=torch.float32))
# 对结果做softmax得到概率值(6x512x512)
attention_tensor = torch.softmax(attention_tensor, dim=-1)
# 做叉乘,得6x512x128,即在这个注意力网络中,对每一个的词向量的改变值.
v_output = torch.matmul(attention_tensor, v_tensor)
# 注意这个变化量形状(6x512x128)和词向量形状(6x512x300)不一致. 再做一个线性变换,从注意力特征维度转为300词嵌入维度
attention_delta = attention_to_embedding(v_output)
# 将变化量添加到原数据上
token_tensor.add(attention_delta)

以上是单头单层注意力模块的内容,数据的变化如下

6x512x300 + (6x512x300 -> 6x512x128 -> 6x512x300)

多(n)头,即将 $Q K V$ 复制多n份,例如8头,则存在8组 $W_Q,W_K,W_V$ ,则输出结构x8,又由于kqv结构一致,故而合并为一个tensor处理则之前的问题可以解释:
(w_qkv): Linear(in_features=300, out_features=3072, bias=True) 其中的3072应该分解为 128x8x3 : 128维度的注意力模块深度,8头,qkv三组参数
(attention_to_embedding): Linear(in_features=1024, out_features=300, bias=True) 单头的计算应该是6x512x128 -> 6x512x300,即128->300维度,由于是8头,则是8x128 = 1024输入层

MLP模块

MLP看上去貌似更简单,实际也是更简单,其实就是2个全连接顺序执行,先升维度,激活函数,再降维

Sequential(
(0): LayerNorm((300,), eps=1e-05, elementwise_affine=True)
(1): Linear(in_features=300, out_features=1200, bias=True)
(2): GELU(approximate=‘none’)
(3): Dropout(p=0.1, inplace=False)
(4): Linear(in_features=1200, out_features=300, bias=True)
(5): Dropout(p=0.1, inplace=False)
)
首先目的:
- 引入语法语义层次的语义信息到句子中,而不是简单词义的叠加
- 这里引入的GELU的激活函数,引入了非线性映射,
- 将不同的特征加权重新映射,MLP可以学习到不同特征之间的相关性和相互作用，使模型能够更好地理解和表示数据的复杂结构。
- 例如，在语言模型中，不同的词语嵌入向量在MLP中经过变换后，可以捕捉到词语之间的语法和语义关系。

分类层

1. 经过若干次的transformer模块,句子的合适的语义信息,已经被捕捉到了,保存在6x512x300的tensor中,我们处理的是一个4分类任务,即我们需要一个6x4的可能性tensor
2. 执行分类操作,直接执行 300->4的分类是缺少意义的,是针对一句话的每一个词(512)分别求分类,需要在第1维度作平均,平均一句话的内容,即6x512x300->6x4
3. 这样再执行一次全连接 300->4即可

# 执行分类操作,直接执行 300->4的分类是缺少意义的,是针对一句话的每一个词(512)分别求分类,需要在第1维度作平均,平均一句话的内容
x = x.mean(dim=1)
# 全连接执行分类操作,得分类的logtis值
return self.fc(x)

附录,完整代码

import math
import time
from datetime import datetime

import torch
from functorch.einops import rearrange

from torch import nn, optim
from torch.utils.data import DataLoader
from torch.utils.tensorboard import SummaryWriter
from torchtext import datasets
from transformers import BertTokenizerFast


class PositionalEncoding(nn.Module):
    """
    位置编码器
    """

    def __init__(self, d_model, max_len=512, device=None):
        super(PositionalEncoding, self).__init__()
        self.encoding = torch.zeros(max_len, d_model)
        self.register_buffer('positional_encoding', self.encoding)

        position = torch.arange(0, max_len).unsqueeze(1).float()
        div_term = torch.exp(torch.arange(0, d_model, 2).float() * -(math.log(10000.0) / d_model))
        self.encoding[:, 0::2] = torch.sin(position * div_term)
        self.encoding[:, 1::2] = torch.cos(position * div_term)
        self.encoding = self.encoding.unsqueeze(0)  # Add batch dimension
        self.encoding = self.encoding.to(device)

    def forward(self, x):
        return x + self.encoding[:, :x.size(1)]


class AttentionMulti(nn.Module):
    def __init__(self, embedding_feature_dim, attention_feature_dim, heads, dropout=0.):
        """
        :param embedding_feature_dim: 词嵌入特征维度: 例300
        :param attention_feature_dim: 注意力特征维度(每一个头),即dk 例:128
        :param heads: 多头注意力的头数 例:8
        """
        super(AttentionMulti, self).__init__()
        # qkv合一,形状一致,故而深度为attention_feature_dim * heads * 3
        self.w_qkv = nn.Linear(embedding_feature_dim, attention_feature_dim * heads * 3)
        self.heads = heads
        self.dk = attention_feature_dim / heads
        self.attention_to_embedding = nn.Linear(attention_feature_dim * heads, embedding_feature_dim)
        self.dropout = nn.Dropout(dropout)

    def forward(self, x, mask):
        # 6x512x300 -> 6x512x(128x8x3)
        qkv = self.w_qkv(x)
        # 沿着qkv切开 3(tuple)x6x512x(128x8)
        qkv = qkv.chunk(3, dim=-1)
        # 分离出heads提到前面来 3(tuple)x6x8x512x128
        # b (batch_size); h (heads)头数 ;n (sequence length)序列长度(上下文长度);d (dimension) 注意力特征维度
        q, k, v = map(lambda t: rearrange(t, 'b n (h d) -> b h n d', h=self.heads), qkv)

        # 6x8x512x128 叉乘 6x8x512x128 ->6x8x512x512,得128维组合的相关性
        attention_tensor = torch.matmul(q, k.transpose(-1, -2))
        attention_tensor = attention_tensor / torch.sqrt(torch.tensor(self.dk, dtype=torch.float32))

        # 在计算注意力权重时，将填充部分的权重设置为负无穷大，以使 softmax 计算后变为零。从而使填充不会影响到其他数据
        if mask is not None:
            # 使用填充掩码调整注意力权重
            mask = mask.unsqueeze(1).unsqueeze(2)  # Shape: [b, 1, 1, n]
            attention_tensor = attention_tensor.masked_fill(mask == 0, float('-inf'))

        # 对结果做softmax得到概率值(6x8x512x512)
        attention_tensor = attention_tensor.softmax(dim=-1)
        attention_tensor = self.dropout(attention_tensor)

        # 做叉乘,得6x8x512x128,即在这个注意力网络中,对每一个的词向量的改变值.
        out = torch.matmul(attention_tensor, v)
        # 将多头获取到的变化合并到最后的改变特征值维度,6x8x512x128 -> 6x512x(128x8)
        # 即每个头都为原始的词嵌入提供了128维度的变化量,总计8个头,故而提供128x8,所以合并这些变化量
        out = rearrange(out, 'b h n d -> b n (h d)', h=self.heads)
        out = self.attention_to_embedding(out)
        out = self.dropout(out)
        # 输出尺寸和输入一致 6x512x300
        return out


class Transformer(nn.Module):
    def __init__(self, depth, embedding_feature_dim, attention_feature_dim, heads, mlp_feature_dim, dropout=0.):
        """
        :param depth: 模型深度:例如3
        :param embedding_feature_dim: 词嵌入特征维度: 例300
        :param attention_feature_dim: 注意力特征维度(每一个头),即dk 例:128
        :param heads: 多头注意力的头数 例:8
        :param mlp_feature_dim: mlp的特征维度:例1200
        """
        super(Transformer, self).__init__()
        self.layers = nn.ModuleList([])
        for _ in range(depth):
            # 多头注意力
            attention = AttentionMulti(embedding_feature_dim, attention_feature_dim, heads)
            # 每个MLP一个ln,2个全连接,一个激活函数构成
            mlp = nn.Sequential(
                nn.LayerNorm(embedding_feature_dim),
                nn.Linear(embedding_feature_dim, mlp_feature_dim),
                nn.GELU(),
                nn.Dropout(dropout),
                nn.Linear(mlp_feature_dim, embedding_feature_dim),
                nn.Dropout(dropout),
            )
            self.layers.append(nn.ModuleList([attention, mlp]))
        # 深度次数后的的Transformer,加上一个层归一化
        self.norm = nn.LayerNorm(embedding_feature_dim)

    def forward(self, x, mask):
        for attention, mlp in self.layers:
            x = x + attention(x, mask)
            x = x + mlp(x)
        return self.norm(x)


class TextClassifyTransformer(nn.Module):
    def __init__(self, class_num, vocab_size, sequence_length, depth, embedding_feature_dim, attention_feature_dim,
                 heads, mlp_feature_dim, dropout=0., emb_dropout=0., device=None):
        """
        :param class_num: 分类数量
        :param vocab_size: 词表大小,
        :param sequence_length: 序列长度(上下文长度)
        :param depth: Transformer模型深度:例如3,即自注意力模块和mlp重复多少次
        :param embedding_feature_dim: 词嵌入特征维度: 例300
        :param attention_feature_dim: 注意力特征维度(每一个头),即dk 例:128
        :param heads: 多头注意力的头数 例:8
        :param mlp_feature_dim: mlp的特征维度:例1200
        :param dropout: 丢弃率.这里一共会使用4处,1.注意力矩阵计算完成,对注意力矩阵执行. 2.从注意力转为词向量的全连接层之后 3.mlp网络第一次全连接,激活后,4.mlp第二次全连接后
        :param emb_dropout: 对抗过拟合,此处为编码完成之后的dropout,即对词嵌入后执行的
        """
        super(TextClassifyTransformer, self).__init__()
        # 建立词嵌入层,词表长度,嵌入维度
        self.embedding = nn.Embedding(vocab_size, embedding_feature_dim)
        # 归一化
        self.ln1 = nn.LayerNorm(embedding_feature_dim)
        # 位置编码器
        self.pos_encoder = PositionalEncoding(d_model=embedding_feature_dim, max_len=sequence_length, device=device)
        self.emb_dropout = nn.Dropout(emb_dropout)

        # Transformer模块
        self.transformer = Transformer(depth, embedding_feature_dim, attention_feature_dim, heads, mlp_feature_dim,
                                       dropout)

        self.fc = nn.Linear(embedding_feature_dim, class_num)

    def forward(self, x, mask):
        # 执行词嵌入,将输入input转对应词向量 6x512x300
        x = self.embedding(x)

        # 嵌入位置  6x512x300
        x = self.pos_encoder(x)

        x = self.emb_dropout(x)

        # 执行layerNorm,即 6x512x300 的300维度执行归一化,即对一句话的每一个词向量执行归一化,2组权重参数β和γ
        x = self.ln1(x)

        # 执行Transformer模块,得 6x512x300
        x = self.transformer(x, mask)

        # 执行分类操作,直接执行 300->4的分类是缺少意义的,是针对一句话的每一个词(512)分别求分类,需要在第1维度作平均,平均一句话的内容
        x = x.mean(dim=1)

        # 全连接执行分类操作,得分类的logtis值
        return self.fc(x)


class TextClassify:
    def __init__(self, train_data_path=None, workers=8,
                 batch_size=128, epochs_num=2, lr=1e-5, target_path="./target"):
        """
        :param train_data_path: 数据集的路径
        :param workers: 加载器工作线程数
        :param batch_size:
        :param epochs_num:
        :param lr:
        :param target_path: 权重文件保存位置
        """
        # 定义设备
        self.device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
        print(f"use divice:{self.device}")
        # tensorboard 记录器
        self.writer = SummaryWriter(log_dir='./log/' + time.strftime('%m-%d_%H.%M', time.localtime()))

        # 定义目标目录
        self.target_path = target_path

        # 设定超参数:minibatch大小,迭代次数,学习率,正则惩罚
        self.batch_size = batch_size
        self.epochs_num = epochs_num
        self.lr = lr
        self.workers = workers

        # 分词器和词表,注意这里的词表,仅仅使用了一个分词功能和id映射功能,没有使用到词嵌入的映射哦
        self.tokenizer = BertTokenizerFast.from_pretrained('bert-base-uncased')
        # 词表长度:30522
        print(f"The vocabulary size is: {self.tokenizer.vocab_size}")

        # 构造模型
        self.model = TextClassifyTransformer(4, self.tokenizer.vocab_size, sequence_length=512, depth=6,
                                             embedding_feature_dim=300, attention_feature_dim=128, heads=8,
                                             mlp_feature_dim=1200, dropout=0.1, emb_dropout=0.1, device=self.device)

        self.model.to(self.device)

        # 损失函数,优化器
        self.criterion = nn.CrossEntropyLoss()
        self.optimizer = optim.AdamW(self.model.parameters(), lr=self.lr, weight_decay=1e-2)
        self.lr_scheduler = optim.lr_scheduler.StepLR(self.optimizer, step_size=1, gamma=0.7)

        # 数据集,预处理方式
        self.train_data_loader = None
        self.valid_data_loader = None
        self.train_data_size = None
        self.valid_data_size = None

        # 临时变量,用以计数,训练和验证执行的batch的index,在一次训练中始终从0开始,一直递增
        self.valid_batch_index = 0
        self.train_batch_index = 0

        # 加载数据
        self.__load_data(train_data_path)

    def __load_data(self, train_data_path):
        train_data = datasets.AG_NEWS(root=train_data_path, split='train')
        valid_data = datasets.AG_NEWS(root=train_data_path, split='test')
        self.train_data_loader = DataLoader(dataset=train_data, batch_size=self.batch_size, shuffle=True)
        self.valid_data_loader = DataLoader(dataset=valid_data, batch_size=self.batch_size, shuffle=True)
        # self.train_data_size = len(train_data)
        # self.valid_data_size = len(valid_data)
        self.train_data_size = 120000
        self.valid_data_size = 7600

    def train_model(self):
        print("start train model...")
        print(f"hyper-parameters: batch_size:{self.batch_size}; "
              f"epochs_num:{self.epochs_num}; lr:{self.lr};")

        # 批次最佳
        best_epoch_acc_rate_valid = 0

        # 重置批次计数
        self.train_batch_index = 0
        self.valid_batch_index = 0

        for epoch in range(self.epochs_num):
            epoch_loss_train, epoch_acc_rate_train = self.__do_train(epoch)
            # 更新优化器
            self.lr_scheduler.step()
            # 执行验证
            epoch_loss_valid, epoch_acc_rate_valid = self.__do_valid(epoch)

            # 记录每个epoch的优化情况
            self.writer.add_scalars("epoch_loss", {"train": epoch_loss_train}, epoch)
            self.writer.add_scalars("epoch_loss", {"valid": epoch_loss_valid}, epoch)
            self.writer.add_scalars("epoch_acc", {"train": epoch_acc_rate_train}, epoch)
            self.writer.add_scalars("epoch_acc", {"valid": epoch_acc_rate_valid}, epoch)

            print(f"epoch {epoch}/{self.epochs_num - 1} : "
                  f"epoch_loss_train:{epoch_loss_train:.4f}; epoch_acc_rate_train:{epoch_acc_rate_train:.4f}; "
                  f"epoch_loss_valid:{epoch_loss_valid:.4f}; epoch_acc_rate_valid:{epoch_acc_rate_valid:.4f}; ")

            # 更新最优参数
            if epoch_acc_rate_valid >= best_epoch_acc_rate_valid:
                best_epoch_acc_rate_valid = epoch_acc_rate_valid
                torch.save(self.model.state_dict(),
                           f"{self.target_path}/state_dict_{datetime.now().strftime('%Y%m%d%H%M%S')}"
                           f"_{epoch_acc_rate_train:.4f}_{best_epoch_acc_rate_valid:.4f}.pth")

    def __do_train(self, epoch):
        """
        训练数据
        :param epoch:
        :return:
        """
        # 进入训练模式,计算梯度
        self.model.train()

        epoch_loss_sum = 0
        epoch_acc_sum = 0

        # minibatch计数
        ix = 0
        for label, texts in self.train_data_loader:
            label = label - 1
            label = label.to(self.device)

            # 分词,找词表对应下标,还有填充,这里一个方法一起做了
            encoded_batch = self.tokenizer.batch_encode_plus(
                texts,
                max_length=512,
                truncation=True,
                padding='max_length',
                return_tensors='pt'
            )
            # token的id,6x512
            input_ids = encoded_batch['input_ids'].to(self.device)
            attention_mask = encoded_batch['attention_mask'].to(self.device)

            with (torch.set_grad_enabled(True)):
                # 传入填充过的mask,计算分类
                output = self.model(input_ids, attention_mask)

                loss = self.criterion(output, label)
                _, prediction = torch.max(output, 1)
                # 执行反向传播
                loss.backward()
                self.optimizer.step()
                self.optimizer.zero_grad()

                # 计算当前小批量的正确率
                batch_acc = prediction.eq(label).sum()
                # 计算批次准确率
                # 当前批量大小,由于数据集可能都不足一个batch_size,所以要获取到准确的batch_size
                now_batch_size = label.shape[0]

                # 将损失乘上size是为了在计算平均损失时，考虑到每个样本对损失的贡献。
                epoch_loss_sum += (loss * now_batch_size)
                epoch_acc_sum += batch_acc
                # 记录事件
                self.writer.add_scalars("batch_train", {"loss": loss}, self.train_batch_index)
                self.writer.add_scalars("batch_train", {"acc": batch_acc / now_batch_size}, self.train_batch_index)

                print('[%d/%d][%d/%d]\t%s\t loss: %.4f\t acc_rate: %.4f'
                      % (epoch, self.epochs_num, ix, self.train_data_size, datetime.now(), loss.item(), batch_acc / now_batch_size))

                self.train_batch_index += 1
                ix += self.batch_size

        epoch_loss = epoch_loss_sum / self.train_data_size
        epoch_acc_rate = epoch_acc_sum / self.train_data_size
        return epoch_loss, epoch_acc_rate

    def __do_valid(self, epoch):
        """
        验证过程
        :param epoch:
        :return:
        """
        # 进入推理模式,不计算梯度
        self.model.eval()

        epoch_loss_sum = 0
        epoch_acc_sum = 0

        ix = 0
        for label, texts in self.valid_data_loader:
            label = label - 1
            label = label.to(self.device)

            # 分词,找词表对应下标,还有填充,这里一个方法一起做了
            encoded_batch = self.tokenizer.batch_encode_plus(
                texts,
                max_length=512,
                truncation=True,
                padding='max_length',
                return_tensors='pt'
            )
            # token的id,6x512
            input_ids = encoded_batch['input_ids'].to(self.device)
            attention_mask = encoded_batch['attention_mask'].to(self.device)

            with (torch.set_grad_enabled(False)):
                # 传入填充过的mask,计算分类
                output = self.model(input_ids, attention_mask)

                loss = self.criterion(output, label)
                _, prediction = torch.max(output, 1)
                # 计算当前小批量的正确率
                batch_acc = prediction.eq(label).sum()
                # 计算批次准确率
                # 当前批量大小,由于数据集可能都不足一个batch_size,所以要获取到准确的batch_size
                now_batch_size = label.shape[0]

                # 将损失乘上size是为了在计算平均损失时，考虑到每个样本对损失的贡献。
                epoch_loss_sum += (loss * now_batch_size)
                epoch_acc_sum += batch_acc
                # 记录事件
                self.writer.add_scalars("batch_valid", {"loss": loss}, self.valid_batch_index)
                self.writer.add_scalars("batch_valid", {"acc": batch_acc / now_batch_size}, self.valid_batch_index)

                print('[%d/%d][%d/%d]\t%s\t loss: %.4f'
                      % (epoch, self.epochs_num, ix, self.valid_data_size, datetime.now(), loss.item()))

                self.valid_batch_index += self.batch_size
                ix += 1

        epoch_loss = epoch_loss_sum / self.valid_data_size
        epoch_acc_rate = epoch_acc_sum / self.valid_data_size
        return epoch_loss, epoch_acc_rate


"""
多头示例
"""
if __name__ == '__main__':
    cc = TextClassify(train_data_path="./resources", batch_size=2, epochs_num=2, lr=1e-4, target_path="./target")
    cc.train_model()

附录: 指明padding的影响

指明padding的index是什么,会加速收敛速度. 不指明模型其实也可以习得,

附录:Transformer 关键参数选择参考

对于构建 Transformer 模型的关键参数选择，以下是建议的设定：

1. 词嵌入维度 (`embedding_feature_dim`)

推荐值: 256, 300, 或 512
选择依据:
- 256: 适用于资源有限或基础任务。
- 300: 通常的选择，平衡性能和资源消耗。
- 512: 高性能需求的复杂任务。

2. 多头注意力的头数 (`heads`)

推荐值: 4, 8, 或 12
选择依据:
- 4: 计算开销较小，适合基础任务。
- 8: 常见选择，适合大部分 NLP 任务。
- 12: 适用于需要更高表达能力的复杂任务。

3. 注意力模块的深度 (`depth`)

推荐值: 4, 6, 或 12
选择依据:
- 4: 适合轻量级模型，任务较简单。
- 6: 通用选择，平衡性能和复杂性。
- 12: 高性能需求的复杂任务，如机器翻译、问答系统。

4. 注意力特征维度 (`attention_feature_dim`)

推荐值: 64, 128, 或 256
选择依据:
- 64: 适合资源有限或模型简化的场景。
- 128: 常见选择，适合大部分 NLP 任务。
- 256: 高性能需求的复杂任务。

5. MLP 特征维度 (`mlp_feature_dim`)

推荐值: 2 * embedding_feature_dim 到 4 * embedding_feature_dim
选择依据:
- 2 * embedding_feature_dim: 适合资源有限或模型简化的场景。
- 4 * embedding_feature_dim: 提供更高的模型表达能力，适合复杂任务。

示例配置

中等规模模型:
- embedding_feature_dim = 300
- heads = 8
- depth = 6
- attention_feature_dim = 128
- mlp_feature_dim = 600 (或 900)

这些推荐值可以根据具体任务、硬件资源和期望的模型性能进行调整。初始选择后，可以通过实验和调优进一步优化。

附录,训练结果

深度为6和8影响不大
示例代码为深度8时训练2轮,acc@1大约91%,耗时一个上午(H100)

你可能感兴趣的:(机器学习,pytorch,transformer)

MotionLCM 部署优化踩坑解决bug AI算法网奇 aigc与数字人深度学习宝典文生motion
目录依赖项windowstorchok：渲染黑白图问题解决：humanml3d：sentence-t5-large下载数据：报错：Nomodulenamed'sentence_transformers'继续报错：fromtransformers.integrationsimportCodeCarbonCallback解决方法：推理相关转mesh：module‘matplotlib.cm‘hasno
Anaconda 和 Miniconda：功能详解与选择建议古月฿ python入门 python conda
Anaconda和Miniconda详细介绍一、Anaconda的详细介绍1.什么是Anaconda？Anaconda是一个开源的包管理和环境管理工具，在数据科学、机器学习以及科学计算领域发挥着关键作用。它以Python和R语言为基础，为用户精心准备了大量预装库和工具，极大地缩短了搭建数据科学环境的时间。对于那些想要快速开展数据分析、模型训练等工作的人员来说，Anaconda就像是一个一站式的“数
机器学习必备数学与编程指南：从入门到精通 a小胡哦机器学习基础机器学习人工智能
一、机器学习核心数学基础1.线性代数（神经网络的基础）必须掌握：矩阵运算（乘法、转置、逆）向量空间与线性变换特征值分解与奇异值分解(SVD)为什么重要：神经网络本质就是矩阵运算学习技巧：用NumPy实际操作矩阵运算2.概率与统计（模型评估的关键）核心概念：条件概率与贝叶斯定理概率分布（正态、泊松、伯努利）假设检验与p值应用场景：朴素贝叶斯、A/B测试3.微积分（优化算法的基础）重点掌握：导数与偏导
AI 生成虚拟宠物：24 小时陪你聊天解闷大力出奇迹985 人工智能宠物
本文围绕AI生成虚拟宠物展开，介绍这类依托人工智能技术诞生的虚拟伙伴，能实现24小时不间断陪伴聊天，为人们解闷。文中详细阐述其技术基础，包括自然语言处理、机器学习等；分析多样功能，如个性化互动、情绪回应等；探讨在独居人群、压力大者等不同群体中的应用场景，最后总结其为人们生活带来的积极影响及未来发展潜力，展现AI虚拟宠物在陪伴领域的独特价值。一、AI生成虚拟宠物的诞生背景与技术基石在快节奏的现代社会
基于Python的AI健康助手：开发与部署全攻略 AI算力网络与通信 AI算力网络与通信原理 AI人工智能大数据架构 python 人工智能开发语言 ai
基于Python的AI健康助手：开发与部署全攻略关键词：Python、AI健康助手、机器学习、自然语言处理、Flask、部署、健康管理摘要：本文将详细介绍如何使用Python开发一个AI健康助手，从需求分析、技术选型到核心功能实现，再到最终部署上线的完整过程。我们将使用自然语言处理技术理解用户健康咨询，通过机器学习模型提供个性化建议，并展示如何用Flask框架构建Web应用接口。文章包含大量实际代
数据分析领域中AI人工智能的发展前景展望 AI大模型应用工坊 AI大模型开发实战数据分析人工智能数据挖掘 ai
数据分析领域中AI人工智能的发展前景展望关键词：数据分析、人工智能、机器学习、深度学习、数据挖掘、预测分析、自动化摘要：本文深入探讨了人工智能在数据分析领域的发展现状和未来趋势。我们将从核心技术原理出发，分析AI如何改变传统数据分析范式，详细讲解机器学习算法在数据分析中的应用，并通过实际案例展示AI驱动的数据分析解决方案。文章还将探讨行业应用场景、工具生态以及未来发展面临的挑战和机遇，为数据分析师
AI人工智能中的数据挖掘：提升智能决策能力
AI人工智能中的数据挖掘：提升智能决策能力关键词：数据挖掘、人工智能、机器学习、智能决策、数据分析、特征工程、模型优化摘要：本文深入探讨了数据挖掘在人工智能领域中的核心作用，重点分析了如何通过数据挖掘技术提升智能决策能力。文章从基础概念出发，详细介绍了数据挖掘的关键算法、数学模型和实际应用场景，并通过Python代码示例展示了数据挖掘的全流程。最后，文章展望了数据挖掘技术的未来发展趋势和面临的挑战
数据中台中的数据科学工作台：Jupyter集成方案 AI大数据智能洞察大数据与AI人工智能 jupyter 信息可视化 ide ai
数据中台中的数据科学工作台：Jupyter集成方案关键词：数据中台、数据科学工作台、JupyterNotebook、数据科学、机器学习、数据可视化、协作开发摘要：本文深入探讨了在数据中台架构中集成JupyterNotebook作为数据科学工作台的完整解决方案。我们将从数据中台的基本概念出发，详细分析Jupyter在数据科学工作流中的核心作用，介绍多种集成方案和技术实现细节，并通过实际案例展示如何构
2018年中南大学中英翻译某翁
参考：20180827235856533.jpg【1】机器学习理论表明，机器学习算法能从有限个训练集样本上得到较好的泛化【1】Machinelearningtheoryshowsthatmachinelearningalgorithmcangeneralizewellfromfinitetrainingsetsampleslimited有限的infinite无限的【2】这似乎违背了一些基本的逻辑准
今年校招竞争真激烈 12_05
程序员满大街，都要找不到工作了。即使人工智能满大街，我也后悔当初没学机器学习，后悔当初没学Java。C++真难找工作。难道毕了业就失业吗？好担心！
基于随机森林的白酒风味智能分类系统：从数据到洞察的完整实践笙囧同学 python
作者：笙囧同学|中科院计算机大模型方向硕士|全栈开发爱好者座右铭：偷懒是人生进步的阶梯联系方式：[email protected]各大平台账号/公众号：笙囧同学前言大家好，我是笙囧同学！今天给大家分享一个超级有趣且技术含量爆表的项目——白酒风味智能分类系统。作为一个既爱技术又爱美酒的程序员，我花了大量时间研究如何用机器学习的方法来"品酒"，让AI帮我们识别白酒的风味特征。这个项目融合了机器学习、数
Spring AI与机器学习：智能应用开发新范式 tmjpz04412 人工智能 spring 机器学习
SpringAI与机器学习的整合SpringAI是一个基于Spring生态的AI开发框架，旨在简化智能应用的开发流程。通过SpringAI，开发者可以快速集成机器学习模型，构建高效的智能应用。SpringAI支持多种机器学习库和框架，如TensorFlow、PyTorch和Scikit-learn，提供统一的API接口。SpringAI的核心优势在于其模块化设计和自动化配置。开发者无需关心复杂的依
基于深度学习的目标检测算法综述：从RCNN到YOLOv13，一文看懂十年演进！人工智能教程深度学习目标检测算法人工智能自动驾驶 YOLO 机器学习
一、引言：目标检测的十年巨变2012年AlexNet拉开深度学习序幕，2014年RCNN横空出世，目标检测从此进入“深度时代”。十年间，算法从两阶段到单阶段，从Anchor-base到Anchor-free，从CNN到Transformer，从2D到3D，从监督学习到自监督学习，迭代速度之快令人目不暇接。本文将系统梳理基于深度学习的目标检测算法，带你全面了解技术演进、核心思想、代表算法、工业落地与
从零开始构建深度学习环境：基于Pytorch、CUDA与cuDNN的虚拟环境搭建与实践（适合初学者）荣华富贵8 程序员的知识储备2 程序员的知识储备3 深度学习 pytorch 人工智能
摘要：深度学习正在引领人工智能技术的革新，而对于初学者来说，正确搭建深度学习环境是迈向AI研究与应用的第一步。本文将为读者提供一套详尽的教程，指导如何在本地环境中搭建Pytorch、CUDA与cuDNN，以及如何利用Anaconda和PyCharm进行高效开发。内容涵盖从环境配置、常见错误修正，到基础的深度学习模型构建及训练。我们旨在为深度学习零基础的入门者提供一个全面且易于理解的“保姆级”教程，
视觉Transformer还有哪些点可以研究？怎么应用？计算机视觉工坊 3D视觉从入门到精通学习算法开源
0.这篇文章干了啥？今天笔者为大家推荐一篇最新的综述，详细总结了Transformer的网络架构、优化策略、发展方向，还会定期更新Github，研究注意力机制的小伙伴一定不要错过。注意机制有助于人类视觉系统有效地分析和理解复杂场景，它能够聚焦于图像的关键区域，同时忽略无关紧要的部分。受此概念启发，注意机制已经被引入到计算机视觉（CV）中，以动态地为图像中的不同区域分配权重。这使得神经网络能够专注于
使用 PyTorch 和 Pandas 进行 Kaggle 房价预测 Clang's Blog AI pytorch pandas 人工智能
文章目录1、环境设置2、数据下载3、数据预处理4、模型构建5、训练和验证6、训练模型并生成预测结果7、完整代码在本篇博文中，我们将探索如何使用PyTorch和Pandas库，构建一个用于Kaggle房价预测的模型。我们将详细讨论数据加载、预处理、模型构建、训练、验证及最终预测的全过程。1、环境设置我们首先需要导入所需的库，包括用于数据处理的pandas和numpy，以及用于深度学习的torch。i
PyTorch 使用指南
PyTorch是一个功能强大且灵活的Python开源机器学习库，以其动态计算图和直观的Pythonic接口而闻名。本指南将带您了解PyTorch的基础操作，包括张量创建、自动求导，以及如何构建、训练和优化神经网络模型。我们还将深入探讨其在图像分类（以CIFAR-10为例）和自然语言处理（以灾难推文分类为例）等特定领域的应用，并概述其在图像分割和强化学习等其他领域的应用。PyTorch使用指南1.P
PyTorch武侠演义第一卷：初入江湖第7章：矿洞中的计算禁制空中湖 pytorch武侠演绎 pytorch 人工智能 python
第一卷：初入江湖第7章：矿洞中的计算禁制矿洞深处罗盘残件在接近矿洞时突然发热，指针疯狂旋转。"就是这里，"欧阳长老抚摸着洞壁上的计算图刻痕，“TensorFlow帮用静态图封印了矿脉。”林小码看到：幽蓝矿脉构成巨大的计算图结构水晶矿簇随呼吸节奏明灭（CUDA核心）矿道中流淌着数据光流（内存带宽）"小心！"大师突然拉回林小码。他刚才踩中的矿砖下陷，触发岩壁上的机关——数十道计算图锁链从四面八方射来！
Python 4.0新特性解析：性能优化与语法升级知识产权13937636601 计算机 python 性能优化开发语言
本文针对Python4.0的核心升级展开系统性分析，从性能优化与语法革新两个维度揭示其技术突破。首先解析新型解释器架构对运算效率的提升路径，其次探讨模式匹配、异步编程简化和类型系统强化等语法特性，最后结合机器学习与高并发场景验证新版本的实践价值。研究发现，Python4.0通过JIT编译器与内存管理重构实现3倍以上性能跃升，同时静态类型推导的完善显著提升大型项目维护效率，标志着Python从"胶水
Python,C++,go语言开发社会犯罪人群回归社会跟踪与辅助管理APP Geeker-2025 python c++golang
开发一款用于**社会犯罪人群回归社会跟踪与辅助管理**的App，结合Python、C++和Go语言的优势，可以实现高效的数据处理、实时的跟踪监控以及用户友好的前端界面。以下是一个详细的开发方案，涵盖技术选型、功能模块、开发步骤等内容。##技术选型###后端（Python+Go）-**编程语言**：-**Python**：用于数据处理、机器学习（如风险评估、行为预测）、脚本编写等。-**Go**：用
IoTDB智能分析节点AINode：时序数据分析的新引擎时序数据说 iotdb 数据分析数据挖掘时序数据库数据库大数据 ai
在大数据与物联网的驱动下，时序数据处理需求激增，如何高效存储、管理并实时分析海量时序数据成为技术挑战。作为专为时序数据设计的数据库，IoTDB通过引入智能分析节点（AINode），将机器学习能力原生集成到数据库中，实现了“数据存储-分析-决策”的一体化闭环。本文将深入解析AINode的核心功能、技术优势及实际应用场景。AINode：IoTDB的智能分析引擎AINode是IoTDB推出的第三种内生节
【免费下载】探索PlantVillage-Dataset：深度学习在植物病害检测中的革命性突破
探索PlantVillage-Dataset：深度学习在植物病害检测中的革命性突破在这个数字化时代，人工智能正逐步改变我们的生活，其中深度学习在农业领域的应用尤其引人注目。PlantVillage-Dataset是一个开放源代码的项目，它提供了一个庞大的植物病害识别数据集，旨在帮助开发人员和研究者利用机器学习技术改善农作物健康状况的监测。本文将深入探讨该项目的技术细节、应用价值及其独特之处。项目简
【AI大模型：前沿】43、Mamba架构深度解析：为什么它是Transformer最强挑战者？无心水架构 transformer Mamba Mamba架构 AI大模型系统开发实战 AI大模型高手开发 AI大模型系统实战
Transformer架构自2017年诞生以来，一直是NLP、计算机视觉等领域的“统治级”模型架构。但随着序列长度需求的增长（如128K长文本处理、基因组学超长序列分析），其自注意力机制的O(n2)O(n^2)O(n2)计算复杂度成为难以逾越的瓶颈。2023年底，由AlbertGu和TriDao等人提出的Mamba架构，通过创新的“选择性状态空间模型（SelectiveSSM）”实现了线性复杂度（
Python 的 GIL 时代即将终结，迈向真正的多线程时代技术狂潮AI Python开发实战 AI编程实战 AI应用实战开发语言 GIL Python
Python功能强大、灵活且对程序员友好，广泛应用于从Web开发到机器学习的各个领域。根据引用次数最多的两项指标，Python甚至超越了Java和C等语言，成为最流行的编程语言。经过多年的流行，Python似乎势不可挡。但Python作为一种编程语言的未来发展至少面临一个重大障碍。它被称为GIL，即全局解释器锁，几十年来，Python开发人员一直试图将其从Python的默认实现中删除。虽然GIL在
如何从零开始入行机器学习
在当今的科技浪潮中，机器学习无疑是最耀眼的明星之一。它不仅引领了人工智能的发展，还在各个行业中催生了大量的创新和变革。对于那些对技术充满热情、渴望在这个领域有所作为的人来说，“如何从零开始入行机器学习”成为了最热门的话题之一。这不仅仅是技术上的挑战，更是一个职业生涯的新起点。想象一下，在未来的工作中，你能够开发出自动识别图像的应用程序，或者设计一个可以预测市场趋势的智能系统，这一切都源于你现在迈出
如何评价开课吧机器学习特训营这个课程？ cda2024 机器学习人工智能
开场：点明主题，吸引眼球在当今数据驱动的时代，机器学习（MachineLearning）已经成为各个行业不可或缺的技术之一。无论是金融、医疗、制造还是零售，机器学习的应用都为这些领域带来了巨大的变革。面对这样的趋势，许多人都希望能够掌握这门技术，从而提升自己的职业竞争力。那么，当我们谈论“如何评价开课吧机器学习特训营这个课程”时，实际上是在探讨一个非常具体且重要的问题：对于那些希望进入或深入机器学
Llama 2 模型架构深度解析：Transformer的进化 SuperAGI架构师的AI实验室 AI大模型应用开发宝典 llama 架构 transformer ai
Llama2模型架构深度解析：Transformer的进化关键词：Llama2、Transformer、模型架构、进化、人工智能摘要：本文将深入剖析Llama2的模型架构，探讨它作为Transformer进化版本的独特之处。从背景知识的介绍，到核心概念的解释，再到算法原理、实战案例以及实际应用场景等方面，为读者全面展现Llama2的魅力和价值。通过通俗易懂的语言，让即使是对技术不太熟悉的读者也能理
Anaconda（AI生成测试） harrio_ python
技术文章大纲：Anaconda插件开发挑战赛引言Anaconda作为数据科学与机器学习的核心工具，其插件生态系统的扩展性为开发者提供了广阔的创新空间。插件开发挑战赛旨在激励开发者探索Anaconda的潜力，解决实际场景中的技术痛点。以下为技术文章的核心框架。Anaconda插件开发的核心价值插件开发能够增强Anaconda的功能模块化，例如集成新的编程语言支持、优化包管理流程或扩展可视化工具。通过
Python与机器学习库Scikit-learn进阶 master_chenchengg python python Python python开发 IT
Python与机器学习库Scikit-learn进阶Scikit-learn进阶之旅：从新手到高手的必经之路为什么选择Scikit-learn？安装与环境设置特征工程的艺术：打造更强大的预测模型数据清洗特征构造模型调优秘籍：网格搜索与交叉验证的最佳实践网格搜索交叉验证集成学习的魅力：提升模型性能的组合拳随机森林梯度提升机堆叠实战案例解析：使用Scikit-learn解决真实世界问题数据准备模型训练
表征学习：机器认知世界的核心能力与前沿突破大千AI助手人工智能 #OTHER Python 学习人工智能机器学习神经网络表征学习 RL 特征工程
一、定义与背景：从特征工程到自动化学习表征学习（RepresentationLearning），又称特征学习（FeatureLearning），是机器学习的核心技术领域，其核心目标是通过算法自动学习数据的内在特征表示，将复杂多变的原始数据（如图像、文本、语音）转化为低维、富含语义信息的向量形式，从而提升下游任务（如分类、回归、聚类）的效率和精度。与传统依赖人工设计特征的特征工程（FeatureEn
HQL之投影查询归来朝歌 HQL Hibernate 查询语句投影查询
在HQL查询中，常常面临这样一个场景，对于多表查询，是要将一个表的对象查出来还是要只需要每个表中的几个字段，最后放在一起显示？针对上面的场景，如果需要将一个对象查出来： HQL语句写“from 对象”即可 Session session = HibernateUtil.openSession();
Spring整合redis bylijinnan redis
pom.xml <dependencies>  <dependency> <groupId>org.springframework.data</groupId> <artifactId>spring-data-redi
org.hibernate.NonUniqueResultException: query did not return a unique result: 2 0624chenhong Hibernate
参考：http://blog.csdn.net/qingfeilee/article/details/7052736 org.hibernate.NonUniqueResultException: query did not return a unique result: 2 在项目中出现了org.hiber
android动画效果不懂事的小屁孩 android动画
前几天弄alertdialog和popupwindow的时候，用到了android的动画效果，今天专门研究了一下关于android的动画效果，列出来，方便以后使用。 Android 平台提供了两类动画。一类是Tween动画，就是对场景里的对象不断的进行图像变化来产生动画效果（旋转、平移、放缩和渐变）。第二类就是 Frame动画，即顺序的播放事先做好的图像，与gif图片原理类似。
js delete 删除机理以及它的内存泄露问题的解决方案换个号韩国红果果 JavaScript
delete删除属性时只是解除了属性与对象的绑定，故当属性值为一个对象时，删除时会造成内存泄露（其实还未删除）举例： var person={name:{firstname:'bob'}} var p=person.name delete person.name p.firstname -->'bob' // 依然可以访问p.firstname，存在内存泄露
Oracle将零干预分析加入网络即服务计划蓝儿唯美 oracle
由Oracle通信技术部门主导的演示项目并没有在本月较早前法国南斯举行的行业集团TM论坛大会中获得嘉奖。但是，Oracle通信官员解雇致力于打造一个支持零干预分配和编制功能的网络即服务（NaaS）平台，帮助企业以更灵活和更适合云的方式实现通信服务提供商（CSP）的连接产品。这个Oracle主导的项目属于TM Forum Live!活动上展示的Catalyst计划的19个项目之一。Catalyst计
spring学习——springmvc（二） a-john springMVC
Spring MVC提供了非常方便的文件上传功能。 1，配置Spring支持文件上传： DispatcherServlet本身并不知道如何处理multipart的表单数据，需要一个multipart解析器把POST请求的multipart数据中抽取出来，这样DispatcherServlet就能将其传递给我们的控制器了。为了在Spring中注册multipart解析器，需要声明一个实现了Mul
POJ-2828-Buy Tickets aijuans ACM_POJ
POJ-2828-Buy Tickets http://poj.org/problem?id=2828 线段树，逆序插入 #include<iostream>#include<cstdio>#include<cstring>#include<cstdlib>using namespace std;#define N 200010struct
Java Ant build.xml详解 asia007 build.xml
1,什么是antant是构建工具2,什么是构建概念到处可查到，形象来说，你要把代码从某个地方拿来，编译，再拷贝到某个地方去等等操作，当然不仅与此，但是主要用来干这个3,ant的好处跨平台 --因为ant是使用java实现的，所以它跨平台使用简单--与ant的兄弟make比起来语法清晰--同样是和make相比功能强大--ant能做的事情很多，可能你用了很久，你仍然不知道它能有
android按钮监听器的四种技术百合不是茶 android xml配置监听器实现接口
android开发中经常会用到各种各样的监听器,android监听器的写法与java又有不同的地方; 1,activity中使用内部类实现接口 ,创建内部类实例使用add方法与java类似创建监听器的实例 myLis lis = new myLis(); 使用add方法给按钮添加监听器
软件架构师不等同于资深程序员 bijian1013 程序员架构师架构设计
本文的作者Armel Nene是ETAPIX Global公司的首席架构师，他居住在伦敦，他参与过的开源项目包括 Apache Lucene,，Apache Nutch， Liferay 和 Pentaho等。如今很多的公司
TeamForge Wiki Syntax & CollabNet User Information Center sunjing TeamForge How do Attachement Anchor Wiki Syntax
the CollabNet user information center http://help.collab.net/ How do I create a new Wiki page? A CollabNet TeamForge project can have any number of Wiki pages. All Wiki pages are linked, and
【Redis四】Redis数据类型 bit1129 redis
概述 Redis是一个高性能的数据结构服务器，称之为数据结构服务器的原因是，它提供了丰富的数据类型以满足不同的应用场景，本文对Redis的数据类型以及对这些类型可能的操作进行总结。 Redis常用的数据类型包括string、set、list、hash以及sorted set.Redis本身是K/V系统，这里的数据类型指的是value的类型，而不是key的类型，key的类型只有一种即string
SSH2整合-附源码白糖_ eclipse spring tomcat Hibernate Google
今天用eclipse终于整合出了struts2+hibernate+spring框架。我创建的是tomcat项目，需要有tomcat插件。导入项目以后，鼠标右键选择属性，然后再找到“tomcat”项，勾选一下“Is a tomcat project”即可。具体方法见源码里的jsp图片，sql也在源码里。补充1：项目中部分jar包不是最新版的，可能导
[转]开源项目代码的学习方法 braveCS 学习方法
转自： http://blog.sina.com.cn/s/blog_693458530100lk5m.html http://www.cnblogs.com/west-link/archive/2011/06/07/2074466.html 1）阅读features。以此来搞清楚该项目有哪些特性2）思考。想想如果自己来做有这些features的项目该如何构架3）下载并安装d
编程之美-子数组的最大和（二维） bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; import java.util.Random; public class MaxSubArraySum2 { /** * 编程之美子数组之和的最大值（二维） */ private static final int ROW = 5; private stat
读书笔记-3 chengxuyuancsdn jquery笔记 resultMap配置 ibatis一对多配置
1、resultMap配置 2、ibatis一对多配置 3、jquery笔记 1、resultMap配置当<select resultMap="topic_data"> <resultMap id="topic_data">必须一一对应。 (1)<resultMap class="tblTopic&q
[物理与天文]物理学新进展 comsci
如果我们必须获得某种地球上没有的矿石,才能够进行某些能量输出装置的设计和建造,而要获得这种矿石,又必须首先进行深空探测,而要进行深空探测,又必须获得这种能量输出装置,这个矛盾的循环,会导致地球联盟在与宇宙文明建立关系的时候,陷入困境怎么办呢?
Oracle 11g新特性:Automatic Diagnostic Repository daizj oracle ADR
Oracle Database 11g的FDI（Fault Diagnosability Infrastructure）是自动化诊断方面的又一增强。 FDI的一个关键组件是自动诊断库（Automatic Diagnostic Repository-ADR）。在oracle 11g中，alert文件的信息是以xml的文件格式存在的，另外提供了普通文本格式的alert文件。这两份log文
简单排序:选择排序 dieslrae 选择排序
public void selectSort(int[] array){ int select; for(int i=0;i<array.length;i++){ select = i; for(int k=i+1;k<array.leng
C语言学习六指针的经典程序，互换两个数字 dcj3sjt126com c
示例程序，swap_1和swap_2都是错误的，推理从1开始推到2，2没完成，推到3就完成了 # include <stdio.h> void swap_1(int, int); void swap_2(int *, int *); void swap_3(int *, int *); int main(void) { int a = 3; int b =
php 5.4中php-fpm 的重启、终止操作命令 dcj3sjt126com PHP
php 5.4中php-fpm 的重启、终止操作命令: 查看php运行目录命令：which php/usr/bin/php 查看php-fpm进程数：ps aux | grep -c php-fpm 查看运行内存/usr/bin/php -i|grep mem 重启php-fpm/etc/init.d/php-fpm restart 在phpinfo()输出内容可以看到php
线程同步工具类 shuizhaosi888 同步工具类
同步工具类包括信号量（Semaphore）、栅栏（barrier）、闭锁（CountDownLatch）闭锁（CountDownLatch） public class RunMain { public long timeTasks(int nThreads, final Runnable task) throws InterruptedException { fin
bleeding edge是什么意思 haojinghua DI
不止一次，看到很多讲技术的文章里面出现过这个词语。今天终于弄懂了——通过朋友给的浏览软件，上了wiki。我再一次感到，没有辞典能像WiKi一样，给出这样体贴人心、一清二楚的解释了。为了表达我对WiKi的喜爱，只好在此一一中英对照，给大家上次课。 In computer science, bleeding edge is a term that
c中实现utf8和gbk的互转 jimmee c iconv utf8&gbk编码
#include <iconv.h> #include <stdlib.h> #include <stdio.h> #include <unistd.h> #include <fcntl.h> #include <string.h> #include <sys/stat.h> int code_c
大型分布式网站架构设计与实践 lilin530 应用服务器搜索引擎
1.大型网站软件系统的特点？ a.高并发，大流量。 b.高可用。 c.海量数据。 d.用户分布广泛，网络情况复杂。 e.安全环境恶劣。 f.需求快速变更，发布频繁。 g.渐进式发展。 2.大型网站架构演化发展历程？ a.初始阶段的网站架构。应用程序，数据库，文件等所有的资源都在一台服务器上。 b.应用服务器和数据服务器分离。 c.使用缓存改善网站性能。 d.使用应用
在代码中获取Android theme中的attr属性值 OliveExcel android theme
Android的Theme是由各种attr组合而成, 每个attr对应了这个属性的一个引用, 这个引用又可以是各种东西. 在某些情况下, 我们需要获取非自定义的主题下某个属性的内容 (比如拿到系统默认的配色colorAccent), 操作方式举例一则: int defaultColor = 0xFF000000; int[] attrsArray = { andorid.r.
基于Zookeeper的分布式共享锁 roadrunners zookeeper 分布式共享锁
首先，说说我们的场景，订单服务是做成集群的，当两个以上结点同时收到一个相同订单的创建指令，这时并发就产生了，系统就会重复创建订单。等等......场景。这时，分布式共享锁就闪亮登场了。共享锁在同一个进程中是很容易实现的，但在跨进程或者在不同Server之间就不好实现了。Zookeeper就很容易实现。具体的实现原理官网和其它网站也有翻译，这里就不在赘述了。官
两个容易被忽略的MySQL知识 tomcat_oracle mysql
1、varchar(5)可以存储多少个汉字，多少个字母数字？　　相信有好多人应该跟我一样，对这个已经很熟悉了，根据经验我们能很快的做出决定，比如说用varchar(200)去存储url等等，但是，即使你用了很多次也很熟悉了，也有可能对上面的问题做出错误的回答。　　这个问题我查了好多资料，有的人说是可以存储5个字符，2.5个汉字（每个汉字占用两个字节的话），有的人说这个要区分版本，5.0
zoj 3827 Information Entropy(水题) 阿尔萨斯 format
题目链接：zoj 3827 Information Entropy 题目大意：三种底，计算和。解题思路：调用库函数就可以直接算了，不过要注意Pi = 0的时候，不过它题目里居然也讲了。。。limp→0+plogb(p)=0，因为p是logp的高阶。 #include <cstdio> #include <cstring> #include <cmath&