Datawhale

超过GPT3.5？Mixtral 8*7B 模型结构分析

Datawhale干货

作者：宋志学，Datawhale成员

前言

2023年12月11日，Mistral AI团队发布了一款高质量的稀疏专家混合模型Mixtral 8x7B。

Mistral AI继续致力于向开发者社区提供最优秀的开放模型。在人工智能领域向前发展，需要采取超越重用众所周知的架构和训练范式的新技术路径。最重要的是，它需要让社区从原创模型中受益，以促进新的发明和用途。

Mixtral 8x7B是一款高质量的稀疏专家混合模型（SMoE），具有开放权重。采用Apache 2.0开源软件许可证。Mixtral在大多数基准测试中表现超过了Llama 2 70B，推断速度快6倍。它是目前拥有宽松许可证最强大的开放权重模型，并在成本/性能权衡方面是最佳模型。特别是在大多数标准基准测试中，它的表现匹配或超过了GPT3.5。

Mixtral具有以下特点：

优雅地处理32k标记的上下文。
支持英语、法语、意大利语、德语和西班牙语。
在代码生成方面表现出色。
可以微调为一个遵循指令的模型，在MT-Bench上达到8.3的分数。

在 transformers 仓库中可以看到 mixtral 的源码，首先是 MixtralModel 类，继承自 PreTrainedModel ，这个类是所有模型的基类，包含了一些通用的方法，比如保存模型、加载模型、初始化权重等。具体目录是：src\transformers\models\mixtral\modeling_mixtral.py

继承关系为：MixtralModel -> MixtralPreTrainedModel -> PreTrainedModel

MixtralConfig

MixtralConfig 类继承自 PretrainedConfig ，这个类是所有配置类的基类，包含了一些通用的方法，比如保存配置、加载配置、初始化配置等。具体路径在 transformers 仓库的 src\transformers\models\mixtral\configuration_mixtral.py目录下。

可以使用如下代码直接创建模型的config对象：

config = MixtralConfig()

MixtralModel

MixtralModel 初始化

如果你看过我上一篇 LLaMA开源大模型源码分析！的话，就会发现这里的初始化和llama模型的初始化非常相似，都是先初始化embed_tokens，然后初始化layers，最后初始化norm。

设置了模型的两个属性:padding_idx（用于指定填充标记的索引），vocab_size（词汇表的大小）
初始化了模型的嵌入层、解码器层、归一化层
嵌入层（nn.Embedding）：模型使用嵌入层将输入的标记映射成密集的向量表示。
解码器层（nn.ModuleList()）：模型包含多个解码器层，这些层都是由 MixtralDecoderLayer 定义
归一化层 MixtralRMSNorm：归一化层使用的是 Root Mean Square Layer Normalization（RMS Layer Norm），和llama使用的是一样的。
设置了是否使用 gradient_checkpoint 主要是用来节省显存
调用 post_init() 完成一些初始化和准备检查的代码

class MixtralModel(MixtralPreTrainedModel):
    """
    Transformer decoder consisting of *config.num_hidden_layers* layers. Each layer is a [`MixtralDecoderLayer`]

    Args:
        config: MixtralConfig
    """

    def __init__(self, config: MixtralConfig):
        super().__init__(config)
        self.padding_idx = config.pad_token_id
        self.vocab_size = config.vocab_size

        self.embed_tokens = nn.Embedding(config.vocab_size, config.hidden_size, self.padding_idx)
        self.layers = nn.ModuleList(
            [MixtralDecoderLayer(config, layer_idx) for layer_idx in range(config.num_hidden_layers)]
        )
        self._attn_implementation = config._attn_implementation
        self.norm = MixtralRMSNorm(config.hidden_size, eps=config.rms_norm_eps)

        self.gradient_checkpointing = False
        # Initialize weights and apply final processing
        self.post_init()

可以看一下 post_init() 的代码，主要是初始化权重和gradient_checkpointing相关的一些事情。该方法在PreTrainedModel基类中，transformers中所有模型基本都继承这个类。

def post_init(self):
    """
    A method executed at the end of each Transformer model initialization, to execute code that needs the model's
    modules properly initialized (such as weight initialization).
    """
    self.init_weights()
    self._backward_compatibility_gradient_checkpointing()

MixtralModel Forward

forward 部分的代码有点长，但其实大部分都是张量并行或者是节省显存相关的代码，对于理解模型结构来说可以直接忽略。

首先进来就是把 inputs_ids 进行向量化，然后拿到 hidden_states 。然后是存起来所有的hidden_states 进入 decoder_layer 再拿一个 hidden_states，作为下一轮 decoder_layer 的 hidden_states 输入，最后给 hidden_states norm一下。如下代码所示：

# 向量化
inputs_embeds = self.embed_tokens(input_ids)
hidden_states = inputs_embeds

for decoder_layer in self.layers:
    #存起来所有的 hidden_states
    if output_hidden_states:
        all_hidden_states += (hidden_states,)
    # 这里是decoder_layer 的forward
    layer_outputs = decoder_layer(
        hidden_states,
        attention_mask=attention_mask,
        position_ids=position_ids,
        past_key_value=past_key_values,
        output_attentions=output_attentions,
        output_router_logits=output_router_logits,
        use_cache=use_cache,
    )
    # # 再拿一个 hidden_states，作为下一轮 decoder_layer 的 hidden_states 输入
    hidden_states = layer_outputs[0]

# norm 一下
hidden_states = self.norm(hidden_states)

MixtralDecoderLayer

MixtralDecoderLayer 初始化

好，来到了 moe 模型和 llama 模型最大区别的地方了，Mixtral 使用 MixtralSparseMoeBlock 模块代替了原有的 MLP 层， MLP 层还是在的，待会在后面我们再说。先来看初始化部分 DecoderLayer 做了什么事情。

hidden_size : 也就是在上面说的输入输出。
self_attn : 别看它写这么多啊，其实就是选一下用什么 attention 。看见大写字母不要怕，直接点进去看看怎么个事！

MIXTRAL_ATTENTION_CLASSES = {
    "eager": MixtralAttention,
    "flash_attention_2": MixtralFlashAttention2,
    "sdpa": MixtralSdpaAttention,
}

block_sparse_moe : moe稀疏矩阵，这个待会后面再说，输入输出都是 hidden_size 大小。
input_layernorm : MixtralRMSNorm 层，输入时候的norm
post_attention_layernorm : 丢入稀疏矩阵 block_sparse_moe 之前的操作。

class MixtralDecoderLayer(nn.Module):
    def __init__(self, config: MixtralConfig, layer_idx: int):
        super().__init__()
        self.hidden_size = config.hidden_size  # 隐藏层的大小
        
        self.self_attn = MIXTRAL_ATTENTION_CLASSES[config._attn_implementation](config, layer_idx)  # 自注意力机制
        
        self.block_sparse_moe = MixtralSparseMoeBlock(config)  # 稀疏混合块
        self.input_layernorm = MixtralRMSNorm(config.hidden_size, eps=config.rms_norm_eps)  # 输入层归一化
        self.post_attention_layernorm = MixtralRMSNorm(config.hidden_size, eps=config.rms_norm_eps)  # 注意力之后的层归一化

MixtralDecoderLayer Forward

首先复制一份 hidden_states 给 residual。然后 hidden_states 进入 input_layernorm 进行norm。

然后进入 self_attn 进行 attention 操作，拿到 hidden_states、self_attn_weights、present_key_value。

而后 hidden_states 和 residual 相加，得到 hidden_states。此时再复制一份 residual 。然后 hidden_states 进入 post_attention_layernorm 进行norm。

来了，来了！这里 hidden_states 进入稀疏矩阵 block_sparse_moe 得到 hidden_states, router_logits ，hidden_states 和 residual 相加，得到 hidden_states。最后输出 hidden_states。

residual = hidden_states
hidden_states = self.input_layernorm(hidden_states)

hidden_states, self_attn_weights, present_key_value = self.self_attn(
            hidden_states=hidden_states,
            attention_mask=attention_mask,
            position_ids=position_ids,
            past_key_value=past_key_value,
            output_attentions=output_attentions,
            use_cache=use_cache,
        )

hidden_states = residual + hidden_states

residual = hidden_states
hidden_states = self.post_attention_layernorm(hidden_states)
hidden_states, router_logits = self.block_sparse_moe(hidden_states)
hidden_states = residual + hidden_states

outputs = (hidden_states,)

if output_attentions:
    outputs += (self_attn_weights,)

if use_cache:
    outputs += (present_key_value,)

if output_router_logits:
    outputs += (router_logits,)

return outputs

MixtralAttention

我们先来看 Attention 部分嗷，稀疏矩阵留到最后压轴再看。

MixtralAttention 初始化

好好好，首先映入眼帘的还是 Attention Is All You Need ，不忘初心，可以可以！

先来看 init 部分叭。

layer_idx : 这个就是第几个 DecoderLayers 层。不用关心。
attention_dropout : 用于dropout的概率。
hidden_size : 输入输出大小。
num_attention_heads : 多头注意力的头数。
head_dim : 多头注意力的维度 self.hidden_size // self.num_heads，和transformers中的一样。
num_key_value_heads : 用于key和value的头数。

其他的参数都在 MixtralConfig 中有默认值，可以直接使用，也可以直接去MixtralConfig的源码中看具体的解释，这里就不再多说。

再往下就是 q_proj、 k_proj 、v_proj、 o_proj 四个矩阵（全连接层），耳熟能详了。

class MixtralAttention(nn.Module):
    """
    Multi-headed attention from 'Attention Is All You Need' paper. Modified to use sliding window attention: Longformer
    and "Generating Long Sequences with Sparse Transformers".
    """

    def __init__(self, config: MixtralConfig, layer_idx: Optional[int] = None):
        super().__init__()
        self.config = config
        self.layer_idx = layer_idx
        if layer_idx is None:
            logger.warning_once(
                f"Instantiating {self.__class__.__name__} without passing `layer_idx` is not recommended and will "
                "to errors during the forward call, if caching is used. Please make sure to provide a `layer_idx` "
                "when creating this class."
            )

        self.hidden_size = config.hidden_size
        self.num_heads = config.num_attention_heads
        self.head_dim = self.hidden_size // self.num_heads
        self.num_key_value_heads = config.num_key_value_heads
        self.num_key_value_groups = self.num_heads // self.num_key_value_heads
        self.max_position_embeddings = config.max_position_embeddings
        self.rope_theta = config.rope_theta
        self.is_causal = True
        self.attention_dropout = config.attention_dropout

        if (self.head_dim * self.num_heads) != self.hidden_size:
            raise ValueError(
                f"hidden_size must be divisible by num_heads (got `hidden_size`: {self.hidden_size}"
                f" and `num_heads`: {self.num_heads})."
            )
        self.q_proj = nn.Linear(self.hidden_size, self.num_heads * self.head_dim, bias=False)
        self.k_proj = nn.Linear(self.hidden_size, self.num_key_value_heads * self.head_dim, bias=False)
        self.v_proj = nn.Linear(self.hidden_size, self.num_key_value_heads * self.head_dim, bias=False)
        self.o_proj = nn.Linear(self.num_heads * self.head_dim, self.hidden_size, bias=False)

        self.rotary_emb = MixtralRotaryEmbedding(
            self.head_dim,
            max_position_embeddings=self.max_position_embeddings,
            base=self.rope_theta,
        )

MixtralAttention Forward

这里的 forward 函数就是 Attention 的核心部分了，我们来一点一点看。

注意：其中有关于张量并行或者显存节省的部分我就直接省略了，直接看主要代码。这个笔记主要是分析mixtral的模型结构，并不讨论如何节省显存。

首先获取 batch_size 和 seq_len ，然后把 hidden_states 丢入 q_proj、 k_proj 、v_proj 三个矩阵，得到 query_states、 key_states 、value_states 。然后把 query_states、 key_states 、value_states reshape 为下一步计算做准备。

获取 kv_seq_len ，其实我觉得这步挺多余的，因为 kv_seq_len 就等于 self.num_key_value_heads 。

将旋转位置嵌入应用于查询和键张量。使用了旋转位置嵌入的余弦和正弦部分，将它们与查询和键张量相乘，并将结果相加，从而实现旋转位置嵌入的效果。

key_states和value_states重复self.num_key_value_groups次。然后，使用torch.matmul()函数计算query_states和转置后的key_states之间的矩阵乘法。最后，将结果除以math.sqrt(self.head_dim)进行归一化。

然后softmax 和 dropout。然后 attn_weights 和 value_states 相乘，把 attn_output reshape 为下一步计算做准备，最后把 attn_output 丢入 o_proj ，然后return就行了。

# 获取 batch_size 和 seq_len
bsz, q_len, _ = hidden_states.size()

# 把 hidden_states 丢入 q_proj、k_proj、v_proj
query_states = self.q_proj(hidden_states)
key_states = self.k_proj(hidden_states)
value_states = self.v_proj(hidden_states)

# 把 q_proj、k_proj、v_proj 的输出 reshape 为下一步计算做准备
query_states = query_states.view(bsz, q_len, self.num_heads, self.head_dim).transpose(1, 2)
key_states = key_states.view(bsz, q_len, self.num_key_value_heads, self.head_dim).transpose(1, 2)
value_states = value_states.view(bsz, q_len, self.num_key_value_heads, self.head_dim).transpose(1, 2)

# 获取 kv_seq_len，其实我觉得这步挺多余的，因为 kv_seq_len 就等于 self.num_key_value_heads
kv_seq_len = key_states.shape[-2]

# 将旋转位置嵌入应用于查询和键张量。使用了旋转位置嵌入的余弦和正弦部分，将它们与查询和键张量相乘，并将结果相加，从而实现旋转位置嵌入的效果
cos, sin = self.rotary_emb(value_states, seq_len=kv_seq_len)
query_states, key_states = apply_rotary_pos_emb(query_states, key_states, cos, sin, position_ids)

# 首先，它将key_states和value_states重复self.num_key_value_groups次。然后，使用torch.matmul()函数计算query_states和转置后的key_states之间的矩阵乘法。最后，将结果除以math.sqrt(self.head_dim)进行归一化
key_states = repeat_kv(key_states, self.num_key_value_groups)
value_states = repeat_kv(value_states, self.num_key_value_groups)
attn_weights = torch.matmul(query_states, key_states.transpose(2, 3)) / math.sqrt(self.head_dim)

# softmax + dropout
attn_weights = nn.functional.softmax(attn_weights, dim=-1, dtype=torch.float32).to(query_states.dtype)
attn_weights = nn.functional.dropout(attn_weights, p=self.attention_dropout, training=self.training)

# 然后 attn_weights 和 value_states 相乘
attn_output = torch.matmul(attn_weights, value_states)

# 然后把 attn_output reshape 为下一步计算做准备
attn_output = attn_output.transpose(1, 2).contiguous()
attn_output = attn_output.reshape(bsz, q_len, self.hidden_size)
# 最后把 attn_output 丢入 o_proj
attn_output = self.o_proj(attn_output)

# 返回 attn_output、attn_weights、past_key_value
return attn_output, attn_weights, past_key_value

MixtralSparseMoeBlock

来了，来了。MoE模型的核心，稀疏矩阵！

MixtralSparseMoeBlock 初始化

首先来看看在初始化中，init做了什么事情。

hidden_dim : 输入输出维度大小。
ffn_dim : MLP 层的维度大小。
num_experts : 本地专家的数量。
top_k : 选择的专家数量。
gate : 门控层，输入是 hidden_dim ，输出是 num_experts 。
experts : 专家层，八个 MixtralBLockSparseTop2MLP 模块。（就是八个原来的MLP层）

class MixtralSparseMoeBlock(nn.Module):

    def __init__(self, config):
        super().__init__()
        self.hidden_dim = config.hidden_size
        self.ffn_dim = config.intermediate_size
        self.num_experts = config.num_local_experts
        self.top_k = config.num_experts_per_tok

        # gating
        self.gate = nn.Linear(self.hidden_dim, self.num_experts, bias=False)

        self.experts = nn.ModuleList([MixtralBLockSparseTop2MLP(config) for _ in range(self.num_experts)])

MixtralSparseMoeBlock Forward

首先，输入的隐藏状态hidden_states经过重塑，以适应后续处理。
使用门控层gate计算出每个隐藏状态对于各个专家的重要程度，得到router_logits。
对router_logits应用softmax函数，得到路由权重routing_weights。
从routing_weights中选出最相关的top_k个专家，并进行归一化。
初始化最终的隐藏状态final_hidden_states。
对每个专家进行遍历，根据专家掩码expert_mask选出分配给当前专家的隐藏状态，经过专家层处理后，将结果累加到最终隐藏状态中。
最后，将最终隐藏状态的形状重塑回原始形状，并返回。

看完了稀疏矩阵的数据流向，现在你还觉得MoE模型在推理的之后只有两个模型在运行嘛？哈哈哈，其实就是八个MLP层作为专家模型，实际上所有的八个MLP层都是在运行的。

# 首先获取隐藏状态的维度信息
batch_size, sequence_length, hidden_dim = hidden_states.shape
# 将隐藏状态的形状重塑为二维，便于后续处理
hidden_states = hidden_states.view(-1, hidden_dim)

# router_logits用于计算每个专家对每个隐藏状态的重要程度
router_logits = self.gate(hidden_states)

# 使用softmax函数计算路由权重，这些权重决定每个隐藏状态分配给每个专家的比例
routing_weights = F.softmax(router_logits, dim=1, dtype=torch.float)
# 选择top_k个最相关的专家
routing_weights, selected_experts = torch.topk(routing_weights, self.top_k, dim=-1)
# 对路由权重进行归一化处理
routing_weights /= routing_weights.sum(dim=-1, keepdim=True)

# 将路由权重转换回输入数据类型
routing_weights = routing_weights.to(hidden_states.dtype)

# 初始化最终隐藏状态
final_hidden_states = torch.zeros(
    (batch_size * sequence_length, hidden_dim), dtype=hidden_states.dtype, device=hidden_states.device
)

# 生成专家掩码，用于确定哪些隐藏状态分配给哪些专家
expert_mask = torch.nn.functional.one_hot(selected_experts, num_classes=self.num_experts).permute(2, 1, 0)

# 遍历所有的专家
for expert_idx in range(self.num_experts):
    # 获取当前专家的处理层
    expert_layer = self.experts[expert_idx]
    # 找出选中当前专家的隐藏状态索引
    idx, top_x = torch.where(expert_mask[expert_idx])

    # 如果没有隐藏状态被分配给当前专家，则继续下一个专家
    if top_x.shape[0] == 0:
        continue

    # 将索引转换为列表形式，以便高效处理
    top_x_list = top_x.tolist()
    idx_list = idx.tolist()

    # 获取并处理当前专家应处理的隐藏状态
    current_state = hidden_states[None, top_x_list].reshape(-1, hidden_dim)
    current_hidden_states = expert_layer(current_state) * routing_weights[top_x_list, idx_list, None]

    # 将计算结果累加回最终隐藏状态中
    final_hidden_states.index_add_(0, top_x, current_hidden_states.to(hidden_states.dtype))

# 将最终隐藏状态的形状重塑回原始的三维形状
final_hidden_states = final_hidden_states.reshape(batch_size, sequence_length, hidden_dim)

# 返回最终的隐藏状态和路由逻辑结果
return final_hidden_states, router_logits

MixtralBLockSparseTop2MLP

这个就是所谓的专家模型，其实就是原来的MLP层而已。

首先初始胡三个线性层和一个激活层，然后就是前向传播部分了。hidden_states 经过第一个线性层，然后经过激活层，再与经过第三个线性层的hiden_states相乘，得到current_hidden_states。

然后current_hidden_states经过第二个线性层，最后返回current_hidden_states。

class MixtralBLockSparseTop2MLP(nn.Module):
    def __init__(self, config: MixtralConfig):
        super().__init__()
        self.ffn_dim = config.intermediate_size
        self.hidden_dim = config.hidden_size

        self.w1 = nn.Linear(self.hidden_dim, self.ffn_dim, bias=False)
        self.w2 = nn.Linear(self.ffn_dim, self.hidden_dim, bias=False)
        self.w3 = nn.Linear(self.hidden_dim, self.ffn_dim, bias=False)

        self.act_fn = ACT2FN[config.hidden_act]

    def forward(self, hidden_states):
        current_hidden_states = self.act_fn(self.w1(hidden_states)) * self.w3(hidden_states)
        current_hidden_states = self.w2(current_hidden_states)
        return current_hidden_states

干货学习，点赞三连↓

你可能感兴趣的:(gpt-3)

Language Models are Few-Shot Learners: 开箱即用的GPT-3(三) 新兴AI民工深度网络/大模型经典论文详解语言模型 gpt-3 人工智能
Result前面的两个部分介绍了背景，模型的情况和一些测试的方法，这一章就是展示各种尺寸的模型，包括175B的GPT-3在各种任务下的测试情况了。power-law第三章一上来，就用了14不同尺寸的模型来验证这个cross-entropy的线性提升与模型尺寸的指数关系(从最小的100000个参数，一只上升到175B的GPT-3，从10的5次方一直测试到10的11次方)，从更大的尺度上来验证这个结论
使用多块AMD GPU通过Megatron-DeepSpeed进行大型语言模型的预训练 109702008 #ROCm 语言模型人工智能学习
Pre-trainingalargelanguagemodelwithMegatron-DeepSpeedonmultipleAMDGPUs2024年1月24日，作者：DouglasJia在这篇博客中，我们将向你展示如何使用Megatron-DeepSpeed框架在多块AMDGPU上预训练GPT-3模型。我们还将展示如何使用你预训练的模型执行文本生成任务的推理。什么是Megatron-DeepSp
深入解析LoRA：低秩适应的高效大模型微调技术 Zhong Yang 大模型微调人工智能机器学习算法
1.背景与动机随着大语言模型（如GPT-3、Llama）的参数规模突破千亿级，传统全参数微调面临三大挑战：显存爆炸：微调70B模型需数千GB显存（如Llama-270B全微调需1.2TB显存）计算成本：全参数微调的计算量随模型规模呈二次增长过拟合风险：大规模模型对少量下游数据易产生过拟合LoRA（Low-RankAdaptation）由微软研究院提出，通过低秩矩阵分解技术，将微调参数量压缩至原模型
GPT-3 面试题
简介1、GPT-3是什么？它是基于什么模型的？GPT-3是一种基于深度学习原理的语言预测模型。它是由OpenAI开发的，可以从互联网数据中生成任何类型的文本。它只需要一小段文本作为输入，就可以生成大量的准确和复杂的机器生成文本²⁴。GPT-3是基于Transformer模型的，使用了仅有解码器的自回归架构。它使用下一个单词预测目标进行训练¹²。GPT-3有8个不同的模型，参数从1.25亿到1750
深度学习分布式训练：并行策略与通信机制的系统性分析 Takoony 深度学习分布式人工智能
1.引言随着深度学习模型规模的指数级增长，单一计算设备已无法满足训练需求。以GPT-3为例，其1750亿参数在FP16精度下需要约350GB存储空间（每个参数2字节），远超当前主流GPU的显存容量（如NVIDIAA100的80GB）。根据OpenAI的技术报告[1]，即使使用最先进的硬件，单卡训练GPT-3需要355年。这一计算瓶颈催生了分布式训练技术的快速发展。本文将从理论基础出发，系统性地分析
在LLM快速迭代时代构建持久AI应用：架构设计与实施策略
引言：技术浪潮下的开发困境大型语言模型(LLM)的发展速度令人瞠目：从GPT-3到GPT-4，从Claude1到Claude3，从Llama1到Llama3，迭代周期正在从"年"缩短到"月"。作为一名AI应用开发者，我亲身经历了这种技术浪潮带来的挑战：昨天精心调优的prompt今天可能失效；上个季度集成的模型这个季度已有更优选择；刚完成的功能设计瞬间被新模型的能力超越。在如此快速变化的环境中，如何
EgoAlpha/prompt-in-context-learning项目解析：Prompt Engineering核心技术指南霍日江Eagle-Eyed
EgoAlpha/prompt-in-context-learning项目解析：PromptEngineering核心技术指南prompt-in-context-learningAwesomeresourcesforin-contextlearningandpromptengineering:MasteryoftheLLMssuchasChatGPT,GPT-3,andFlanT5,withup-
MiniMind：3小时训练26MB微型语言模型，开源项目助力AI初学者快速入门 nine是个工程师关注人工智能语言模型开源
开发｜界面｜引擎｜交付｜副驾——重写全栈法则：AI原生的倍速造应用流来自全栈程序员nine的探索与实践，持续迭代中。欢迎关注评论私信交流~在大型语言模型(LLaMA、GPT等)日益流行的今天，一个名为MiniMind的开源项目正在AI学习圈内引起广泛关注。这个项目让初学者能够在3小时内从零开始训练出一个仅26.88MB大小的微型语言模型，体积仅为GPT-3的七千分之一，却完整覆盖了从数据处理到模型
「论文导读」LLM高效推理与模型量化雷羿 LexChien prompt 人工智能 LLM 论文阅读
1.论文背景作者：HugoTouvron等人，來自MetaAI来源：arXiv:2302.13971，2023年2月主题：介绍LLaMA系列模型（LLaMA-7B、13B、33B、65B），专为研究用途设计，强调高效能与低资源需求的语言模型推理。论文探讨如何通过优化训练数据、模型架构和推理技术，在有限硬体资源（如单一GPU或CPU）上实现高效推理。学术背景：随着大型语言模型（LLM）如GPT-3的
【人工智能】Maas（模型即服务）（Model as a Service）是一种基于云计算的商业模式，通过API将预训练的人工智能模型作为服务提供给用户，使其无需自行管理底层基础设施即可调用AI能力。本本本添哥 A -AIGC 人工智能大模型人工智能云计算
ModelasaService（模型即服务，MaaS）是一种基于云计算的商业模式，通过API将预训练的人工智能模型作为服务提供给用户，使其无需自行管理底层基础设施即可调用AI能力。MaaS通过云原生架构和标准化服务，正在重塑AI技术的开发和消费方式，推动人工智能从“技术专有”向“普惠工具”转变。以下是其核心要点：1.定义与核心理念MaaS将大模型（如GPT-3、多模态模型等）封装为标准化服务，用户
大语言模型原理基础与前沿基于语言反馈进行微调 AI天才研究院计算 AI大模型企业级应用开发实战 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大语言模型原理基础与前沿基于语言反馈进行微调作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着深度学习技术的飞速发展，自然语言处理（NLP）领域取得了显著的进展。大语言模型（LargeLanguageModels，LLMs）如GPT-3、BERT等在各项NLP任务上取得了令人瞩目的成绩。然而，如何进一步提高大语言模型的理
四种微调技术详解：SFT 监督微调、LoRA 微调、P-tuning v2、Freeze 监督微调方法
当谈到人工智能大语言模型的微调技术时，我们进入了一个令人兴奋的领域。这些大型预训练模型，如GPT-3、BERT和T5，拥有卓越的自然语言处理能力，但要使它们在特定任务上表现出色，就需要进行微调，以使其适应特定的数据和任务需求。在这篇文章中，我们将深入探讨四种不同的人工智能大语言模型微调技术：SFT监督微调、LoRA微调方法、P-tuningv2微调方法和Freeze监督微调方法。第一部分：SFT监
基于Google Gemini 探索大语言模型在医学领域应用评估和前景知来者逆 LLM 语言模型搜索引擎人工智能 Gemini 大语言模型医疗健康医疗
概述近年来，大规模语言模型（LLM）在理解和生成人类语言方面取得了显著的飞跃，这些进步不仅推动了语言学和计算机编程的发展，还为多个领域带来了创新的突破。特别是模型如GPT-3和PaLM，它们通过吸收海量文本数据，已经能够掌握复杂的语言模式。人工智能技术的迅猛发展不断推动着LLM的进化，并加速了这一领域的专业创新。这些进步是随着模型规模的扩大、数据量的增加以及计算能力的提升而逐步实现的，其中许多尖端
LoRA微调详解：如何为AIGC模型节省90%显存 SuperAGI2025 AI大模型应用开发宝典 AIGC ai
LoRA微调详解：如何为AIGC模型节省90%显存关键词：LoRA、低秩适应、AIGC模型、参数高效微调、显存优化摘要：在AIGC（人工智能生成内容）领域，大模型（如GPT-3、LLaMA、StableDiffusion）的微调需要消耗海量显存，普通用户或企业难以负担。本文将深入解析LoRA（Low-RankAdaptation，低秩适应）这一参数高效微调技术，通过生活类比、数学原理、代码实战和应
《论文阅读》GPT-3是否会产生移情对话？一种新的情境示例选择方法和用于生成同理心对话的自动评估度量 ICCL 2022 365JHWZGo 情感对话论文阅读 gpt-3 共情回复上下文学习提示学习大模型
《论文阅读》GPT-3是否会产生移情对话？一种新的情境示例选择方法和用于生成同理心对话的自动评估度量ICCL2022前言贡献PromptIn-contextlearningSITSMEMOSITSM新的自动指标实验前言亲身阅读感受分享，细节画图解释，再也不用担心看不懂论文啦~无抄袭，无复制，纯手工敲击键盘~今天为大家带来的是《DoesGPT-3GenerateEmpatheticDialogues
【LangChain编程：从入门到实践】AI 大模型检索增强生成 RAG 实践 AI智能应用 Python入门实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
LangChain编程：从入门到实践-AI大模型检索增强生成RAG实践关键词：LangChain,RAG,大语言模型,检索增强生成,向量数据库,嵌入模型,提示工程1.背景介绍在人工智能和自然语言处理领域,大语言模型(LargeLanguageModels,LLMs)的出现无疑是一个重大突破。像GPT-3、GPT-4这样的模型展现出了惊人的语言理解和生成能力,为各种应用场景带来了无限可能。然而,这些
大模型系列——提示词工程：从原理、实践到未来的一部系统性综述猫猫姐大模型人工智能大模型提示词
提示词工程：从原理、实践到未来的一部系统性综述摘要本文系统性地阐述了提示词工程（PromptEngineering）这一关键领域，它作为释放大语言模型（LLM）潜能的核心人机交互范式。报告从LLM的“下一个词预测”基本机制出发，追溯了提示词工程从GPT-3时代“上下文学习”的偶然发现到当前系统化、工程化的演进历程。本文深度剖析了多种高级提示框架，包括旨在激发模型逐步推理的“思维链”（Chain-o
【AI大模型】26、算力受限下的模型工程：从LoRA到弹性智能系统的优化实践无心水 AI大模型人工智能搜索引擎 LoRA 大语言模型微调模型压缩知识蒸馏量化技术
引言：算力瓶颈与模型工程的突围之路在人工智能领域，大语言模型的发展正呈现出参数规模爆炸式增长的趋势。从GPT-3的1750亿参数到PaLM的5400亿参数，模型能力的提升往往伴随着对算力资源的极度渴求。然而，对于大多数企业和研究者而言，动辄数百GB的显存需求、数十万块GPU的训练集群显然是难以企及的"算力鸿沟"。当面对"无米之炊"的困境时，模型工程技术成为突破算力瓶颈的核心路径——通过算法创新而非
【大模型学习 | LORA 原理及实现】九年义务漏网鲨鱼语言模型 python pytorch 自然语言处理
LORA:LOW-RANKADAPTATIONOFLARGELAN-GUAGEMODELSGithub库：GitHub-microsoft/LoRA:Codeforloralib,animplementationof“LoRA:Low-RankAdaptationofLargeLanguageModels”GPT-3：175B微调模型变得十分的贵。作者提出利用Low-RankAdaption来冻结
⼤模型（LLMs）基础⾯ cv2016_DL LLM大模型计算机视觉人工智能 llama
1.⽬前主流的开源模型体系有哪些？⽬前主流的开源LLM（语⾔模型）模型体系包括以下⼏个：1.GPT（GenerativePre-trainedTransformer）系列：由OpenAI发布的⼀系列基于Transformer架构的语⾔模型，包括GPT、GPT-2、GPT-3等。GPT模型通过在⼤规模⽆标签⽂本上进⾏预训练，然后在特定任务上进⾏微调，具有很强的⽣成能⼒和语⾔理解能⼒。2.BERT（B
二、大模型的能力（DataWhale大模型理论基础） Y_fulture 大模型理论基础（DW组队学习）人工智能 gpt-3 nlp
大模型的能力一、概述本节主要是通过对GPT-3论文中的基准测试深入研究，从而获得关于GPT-3更深程度的认识我们应该知道，GPT-3的结果参差不齐：在某些任务上，比如语言建模，GPT-3大幅度超越了现有技术的最高水平；在其他任务上，GPT-3与训练有素，拥有大量标签数据的系统竞争时，却明显落后。造成上述现象的原因：GPT-3并未明确针对这些任务进行训练，它只是作为一个语言模型，被训练来预测下一个词
大语言模型：人工智能的“大脑革命“与未来图景 RockLiu@805 大模型实战人工智能语言模型自然语言处理
大语言模型：人工智能的"大脑革命"与未来图景——从GPT-3到AGI的演进之路引言：算力觉醒的时代2022年11月，ChatGPT的横空出世犹如一记惊雷，仅用5天时间就突破百万用户，两个月后月活用户突破1亿。这个现象级应用背后，是参数量高达1750亿的GPT-3.5大模型在支撑。这场由大语言模型（LargeLanguageModels,LLMs）引发的AI革命，正在重塑人类社会的认知边界。当我们与
DeepSpeed 深度学习学习笔记：高效训练大型模型
主要参考官网文档，对于具体内容还需参考官方文档1.引言：为什么需要DeepSpeed？大型模型训练的挑战随着深度学习模型规模的爆炸式增长（从BERT的几亿参数到GPT-3的千亿参数，再到现在的万亿参数模型），传统的单GPU训练方式变得力不从心，即使是多GPU训练也面临巨大挑战：内存限制(MemoryWall):模型参数：模型的参数量巨大，例如一个1750亿参数的GPT-3模型，即使使用FP16精度
LoRA、QLoRA是什么爱吃土豆的马铃薯ㅤㅤㅤㅤㅤㅤㅤㅤㅤ 人工智能机器学习深度学习
一：LoRA（Low-RankAdaptation，低秩适应）是一种高效的大模型参数微调技术，由Meta在2021年提出。它通过冻结预训练模型参数，仅训练少量新增的低秩矩阵，大幅减少了需要训练的参数量，同时保持接近全参数微调的效果。为什么需要LoRA？传统的全参数微调（Fine-tuning）需要更新大型语言模型的所有参数（如GPT-3有1750亿参数），这带来两个核心问题：计算资源需求极高：需要
深入探讨：如何使用OutputFixingParser修复LLM输出的解析错误并确保数据结构的完整性 m0_57781768 数据结构
深入探讨：如何使用OutputFixingParser修复LLM输出的解析错误并确保数据结构的完整性在当今的自然语言处理（NLP）领域，大型语言模型（LLM）如GPT-3等，已成为解决复杂问题的重要工具。这些模型能够生成自然语言文本，用于回答问题、生成内容或进行对话。然而，在将这些生成的文本转换为结构化数据格式（如JSON或Pydantic模型实例）时，可能会遇到解析错误。尤其是在文本格式不正确或
AI 在创新创业比赛的 10 大应用：从创意激发到成果转化大明者省人工智能
1.创意灵感生成：基于大数据的创新点挖掘AI通过分析行业动态、市场痛点及前沿技术趋势，结合自然语言处理和生成式模型，为参赛者提供创新灵感。例如，利用GPT-3等语言模型，输入行业关键词，快速生成潜在的创业方向和产品概念。importopenai#设置OpenAIAPI密钥openai.api_key="your_api_key"defgenerate_innovation_ideas(keywor
【AI大模型】15、从GPT-1到GPT-3：大语言模型核心技术演进与能力涌现全解析
一、GPT-1：预训练微调范式的奠基者（2018）（一）架构创新：单向Transformer解码器的诞生GPT-1首次将Transformer架构应用于语言模型领域，其核心采用12层Transformer解码器，摒弃了传统RNN的递归结构，通过自注意力机制实现并行计算。与Encoder-Decoder架构不同，GPT-1仅使用解码器部分，每个解码器层包含：多头自注意力模块：8个头，每个头维度64，
从零开始掌握OpenAI的GPT-3 API：基础指南与实战示例 stjklkjhgffxw gpt-3 python
#从零开始掌握OpenAI的GPT-3API：基础指南与实战示例##引言在人工智能领域，OpenAI的GPT-3无疑是近年来最令人瞩目的技术突破之一。无论是用于生成自然语言文本、编写代码，还是提供智能对话服务，GPT-3都展示了其强大的能力。本篇文章旨在帮助初学者从零开始掌握GPT-3的API使用，了解其核心原理，并通过实战示例加深理解。##主要内容###1.什么是GPT-3？GPT-3（Gene
大模型全景解析：从技术突破到行业变革敲键盘的小夜猫大语言模型语言模型
目录一、引言：人工智能的新纪元二、大模型发展历史与技术演进1.早期探索期（2015-2017）：从"人工智障"到初具规模RNN/LSTM架构时代（2013-2017）Transformer革命（2017）2.预训练模型崛起（2018-2020）：范式转变BERT模型（2018）GPT系列初期（2018-2019）3.千亿参数时代（2020-2022）：规模效应凸显GPT-3（2020）：规模带来质
AI大模型创业：如何实现未来盈利？ AI智能应用 AI大模型应用入门实战与进阶 java python javascript kotlin golang 架构人工智能
AI大模型，创业，盈利模式，商业应用，技术趋势，市场分析，案例研究1.背景介绍近年来，人工智能（AI）技术取得了飞速发展，特别是大规模语言模型（LLM）的出现，如GPT-3、LaMDA等，展现出强大的文本生成、理解和翻译能力，为各行各业带来了革命性的变革。随着AI技术的不断进步，越来越多的创业者看到了AI大模型的巨大商业潜力，纷纷涌入这个领域。然而，仅仅拥有先进的AI技术还不够，如何将AI大模型转
多线程编程之join()方法周凡杨 java JOIN 多线程编程线程
现实生活中，有些工作是需要团队中成员依次完成的，这就涉及到了一个顺序问题。现在有T1、T2、T3三个工人，如何保证T2在T1执行完后执行，T3在T2执行完后执行？问题分析：首先问题中有三个实体，T1、T2、T3，因为是多线程编程，所以都要设计成线程类。关键是怎么保证线程能依次执行完呢？ Java实现过程如下： public class T1 implements Runnabl
java中switch的使用 bingyingao java enum break continue
java中的switch仅支持case条件仅支持int、enum两种类型。用enum的时候，不能直接写下列形式。 switch (timeType) { case ProdtransTimeTypeEnum.DAILY: break; default: br
hive having count 不能去重 daizj hive 去重 having count 计数
hive在使用having count()是，不支持去重计数 hive (default)> select imei from t_test_phonenum where ds=20150701 group by imei having count(distinct phone_num)>1 limit 10; FAILED: SemanticExcep
WebSphere对JSP的缓存周凡杨 WAS JSP 缓存
对于线网上的工程，更新JSP到WebSphere后，有时会出现修改的jsp没有起作用，特别是改变了某jsp的样式后，在页面中没看到效果，这主要就是由于websphere中缓存的缘故，这就要清除WebSphere中jsp缓存。要清除WebSphere中JSP的缓存，就要找到WAS安装后的根目录。现服务
设计模式总结朱辉辉33 java 设计模式
1.工厂模式 1.1 工厂方法模式 (由一个工厂类管理构造方法) 1.1.1普通工厂模式(一个工厂类中只有一个方法) 1.1.2多工厂模式(一个工厂类中有多个方法) 1.1.3静态工厂模式(将工厂类中的方法变成静态方法) &n
实例：供应商管理报表需求调研报告老A不折腾 finereport 报表系统报表软件信息化选型
引言随着企业集团的生产规模扩张，为支撑全球供应链管理，对于供应商的管理和采购过程的监控已经不局限于简单的交付以及价格的管理，目前采购及供应商管理各个环节的操作分别在不同的系统下进行，而各个数据源都独立存在，无法提供统一的数据支持；因此，为了实现对于数据分析以提供采购决策，建立报表体系成为必须。业务目标 1、通过报表为采购决策提供数据分析与支撑 2、对供应商进行综合评估以及管理，合理管理和
mysql 林鹤霄
转载源：http://blog.sina.com.cn/s/blog_4f925fc30100rx5l.html mysql -uroot -p ERROR 1045 (28000): Access denied for user 'root'@'localhost' (using password: YES) [root@centos var]# service mysql
Linux下多线程堆栈查看工具(pstree、ps、pstack) aigo linux
原文：http://blog.csdn.net/yfkiss/article/details/6729364 1. pstree pstree以树结构显示进程$ pstree -p work | grep adsshd(22669)---bash(22670)---ad_preprocess(4551)-+-{ad_preprocess}(4552) &n
html input与textarea 值改变事件 alxw4616 JavaScript
// 文本输入框(input) 文本域(textarea)值改变事件 // onpropertychange(IE) oninput(w3c) $('input,textarea').on('propertychange input', function(event) { console.log($(this).val()) });
String类的基本用法百合不是茶 String
字符串的用法; // 根据字节数组创建字符串 byte[] by = { 'a', 'b', 'c', 'd' }; String newByteString = new String(by); 1,length() 获取字符串的长度 &nbs
JDK1.5 Semaphore实例 bijian1013 java thread java多线程 Semaphore
Semaphore类一个计数信号量。从概念上讲，信号量维护了一个许可集合。如有必要，在许可可用前会阻塞每一个 acquire()，然后再获取该许可。每个 release() 添加一个许可，从而可能释放一个正在阻塞的获取者。但是，不使用实际的许可对象，Semaphore 只对可用许可的号码进行计数，并采取相应的行动。 S
使用GZip来压缩传输量 bijian1013 java GZip
启动GZip压缩要用到一个开源的Filter：PJL Compressing Filter。这个Filter自1.5.0开始该工程开始构建于JDK5.0，因此在JDK1.4环境下只能使用1.4.6。 PJL Compressi
【Java范型三】Java范型详解之范型类型通配符 bit1129 java
定义如下一个简单的范型类， package com.tom.lang.generics; public class Generics<T> { private T value; public Generics(T value) { this.value = value; } }
【Hadoop十二】HDFS常用命令 bit1129 hadoop
1. 修改日志文件查看器 hdfs oev -i edits_0000000000000000081-0000000000000000089 -o edits.xml cat edits.xml 修改日志文件转储为xml格式的edits.xml文件，其中每条RECORD就是一个操作事务日志 2. fsimage查看HDFS中的块信息等 &nb
怎样区别nginx中rewrite时break和last ronin47
在使用nginx配置rewrite中经常会遇到有的地方用last并不能工作，换成break就可以，其中的原理是对于根目录的理解有所区别，按我的测试结果大致是这样的。 location / { proxy_pass http://test;
java-21.中兴面试题输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 , 使其和等于 m bylijinnan java
import java.util.ArrayList; import java.util.List; import java.util.Stack; public class CombinationToSum { /* 第21 题 2010 年中兴面试题编程求解：输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 , 使其和等
eclipse svn 帐号密码修改问题开窍的石头 eclipse SVN svn帐号密码修改
问题描述： Eclipse的SVN插件Subclipse做得很好，在svn操作方面提供了很强大丰富的功能。但到目前为止，该插件对svn用户的概念极为淡薄，不但不能方便地切换用户，而且一旦用户的帐号、密码保存之后，就无法再变更了。解决思路：删除subclipse记录的帐号、密码信息，重新输入
[电子商务]传统商务活动与互联网的结合 comsci 电子商务
某一个传统名牌产品，过去销售的地点就在某些特定的地区和阶层，现在进入互联网之后，用户的数量群突然扩大了无数倍，但是，这种产品潜在的劣势也被放大了无数倍，这种销售利润与经营风险同步放大的效应，在最近几年将会频繁出现。。。。如何避免销售量和利润率增加的
java 解析 properties-使用 Properties-可以指定配置文件路径 cuityang java properties
#mq xdr.mq.url=tcp://192.168.100.15:61618; import java.io.IOException; import java.util.Properties; public class Test { String conf = "log4j.properties"; private static final
Java核心问题集锦 darrenzhu java 基础核心难点
注意，这里的参考文章基本来自Effective Java和jdk源码 1)ConcurrentModificationException 当你用for each遍历一个list时，如果你在循环主体代码中修改list中的元素，将会得到这个Exception，解决的办法是： 1)用listIterator, 它支持在遍历的过程中修改元素， 2)不用listIterator, new一个
1分钟学会Markdown语法 dcj3sjt126com markdown
markdown 简明语法基本符号 *,-,+ 3个符号效果都一样，这3个符号被称为 Markdown符号空白行表示另起一个段落 `是表示inline代码，tab是用来标记代码段，分别对应html的code，pre标签换行单一段落( <p>) 用一个空白行连续两个空格会变成一个 <br> 连续3个符号，然后是空行
Gson使用二（GsonBuilder） eksliang json gson GsonBuilder
转载请出自出处：http://eksliang.iteye.com/blog/2175473 一.概述 GsonBuilder用来定制java跟json之间的转换格式二.基本使用实体测试类：温馨提示：默认情况下@Expose注解是不起作用的,除非你用GsonBuilder创建Gson的时候调用了GsonBuilder.excludeField
报ClassNotFoundException: Didn't find class "...Activity" on path: DexPathList gundumw100 android
有一个工程，本来运行是正常的，我想把它移植到另一台PC上，结果报： java.lang.RuntimeException: Unable to instantiate activity ComponentInfo{com.mobovip.bgr/com.mobovip.bgr.MainActivity}: java.lang.ClassNotFoundException: Didn't f
JavaWeb之JSP指令 ihuning javaweb
要点 JSP指令简介 page指令 include指令 JSP指令简介 JSP指令（directive）是为JSP引擎而设计的，它们并不直接产生任何可见输出，而只是告诉引擎如何处理JSP页面中的其余部分。 JSP指令的基本语法格式： <%@ 指令属性名="
mac上编译FFmpeg跑ios 啸笑天 ffmpeg
1、下载文件：https://github.com/libav/gas-preprocessor，复制gas-preprocessor.pl到/usr/local/bin/下，修改文件权限：chmod 777 /usr/local/bin/gas-preprocessor.pl 2、安装yasm-1.2.0 curl http://www.tortall.net/projects/yasm
sql mysql oracle中字符串连接 macroli oracle sql mysql SQL Server
有的时候，我们有需要将由不同栏位获得的资料串连在一起。每一种资料库都有提供方法来达到这个目的： MySQL: CONCAT() Oracle: CONCAT(), || SQL Server: + CONCAT() 的语法如下： Mysql 中 CONCAT(字串1, 字串2, 字串3, ...): 将字串1、字串2、字串3，等字串连在一起。请注意，Oracle的CON
Git fatal: unab SSL certificate problem: unable to get local issuer ce rtificate qiaolevip 学习永无止境每天进步一点点 git 纵观千象
// 报错如下： $ git pull origin master fatal: unable to access 'https://git.xxx.com/': SSL certificate problem: unable to get local issuer ce rtificate // 原因：由于git最新版默认使用ssl安全验证，但是我们是使用的git未设
windows命令行设置wifi surfingll windows wifi 笔记本wifi
还没有讨厌无线wifi的无尽广告么，还在耐心等待它慢慢启动么教你命令行设置笔记本电脑wifi： 1、开启wifi命令 netsh wlan set hostednetwork mode=allow ssid=surf8 key=bb123456 netsh wlan start hostednetwork pause 其中pause是等待输入，可以去掉 2、
Linux（Ubuntu）下安装sysv-rc-conf wmlJava linux ubuntu sysv-rc-conf
安装：sudo apt-get install sysv-rc-conf 使用：sudo sysv-rc-conf 操作界面十分简洁，你可以用鼠标点击，也可以用键盘方向键定位，用空格键选择，用Ctrl+N翻下一页，用Ctrl+P翻上一页，用Q退出。背景知识 sysv-rc-conf是一个强大的服务管理程序，群众的意见是sysv-rc-conf比chkconf
svn切换环境，重发布应用多了javaee标签前缀 zengshaotao javaee
更换了开发环境，从杭州，改变到了上海。svn的地址肯定要切换的，切换之前需要将原svn自带的.svn文件信息删除，可手动删除，也可通过废弃原来的svn位置提示删除.svn时删除。然后就是按照最新的svn地址和规范建立相关的目录信息，再将原来的纯代码信息上传到新的环境。然后再重新检出，这样每次修改后就可以看到哪些文件被修改过，这对于增量发布的规范特别有用。检出