Qwen-1.8B 模型的架构细节

+

解释
The details of the model architecture of Qwen-1.8B are listed as follows:

| Hyperparameter  |  Value |
|:----------------|:-------|
|    n_layers     |     24 |
|     n_heads     |     16 |
|     d_model     |   2048 |
|   vocab size    | 151851 |
| sequence length |   8192 |+

Qwen-1.8B 模型的架构细节如下所示:

| 超参数           | 值     |
|-----------------|--------|
| n_layers        | 24     |
| n_heads         | 16     |
| d_model         | 2048   |
| 词汇表大小      | 151,851 |
| 序列长度        | 8192   |

- `n_layers`:模型中的 Transformer 层的数量。在 Qwen-1.8B 中,有 24 层。
- `n_heads`:多头注意力机制中的注意力头数。Qwen-1.8B 具有 16 个注意力头。
- `d_model`:模型隐藏状态(也称为嵌入向量)的维度。对于 Qwen-1.8B,隐藏状态的维度为 2048。
- `词汇表大小`:词汇表的大小,即模型可以理解的唯一标记数量。Qwen-1.8B 的词汇表大小为 151,851。
- `序列长度`:模型可以处理的输入序列的最大长度。在这种情况下,Qwen-1.8B 可以处理最长为 8192 个标记的输入序列。

这些超参数提供了关于 Qwen-1.8B 语言模型的规模、容量和功能的相关信息。

你可能感兴趣的:(AI笔记,人工智能)