国产大模型 RWKV 发布新架构论文:基于矩阵值状态和动态递归的改进

2024 年 4 月 9 日,RWKV Foundation 发布了 RWKV 新架构的最新论文 ——《Eagle and Finch: RWKV with Matrix-Valued States and Dynamic Recurrence》,论文由 Bo PENG 和 RWKV 开源社区成员共同完成。

论文地址:https://arxiv.org/abs/2404.05892 

论文内容摘要

论文提出了两种新的 RWKV 架构:Eagle (RWKV-5) 和 Finch (RWKV-6),这两种序列模型在 RWKV-4 架构的基础上进行了改进。

对比 RWKV-4 , 新 RWKV 架构的改进包括多头矩阵值状态(multi-headed matrix-valued states)和动态递归机制(dynamic recurrence mechanism),这些改进提高了 RWKV 模型的表达能力,同时保持 RNN 的推理效率特征。

新的 RWKV 架构还使用一个包含 1.12 T tokens 的新多语言语料库和一个基于 greedy matching 的快速分词器,以增强 RWKV 的多语言能力。

基于新的架构训练了四个 Eagle (RWKV-5) 模型(分别是 0.4B、1.5B、3B、7B 参数),以及两个 Finch 模型(分别是 1.6B 、3B 参数)。

新架构的 RWKV 模型在各种基准测试中都实现了具有竞争力的性能࿰

你可能感兴趣的:(语言模型,人工智能)