LLM 系列——Qwen2——论文解读

一、概述

1、是什么

    是单模态纯文本的大语言模型,论文全称《QWEN2 TECHNICAL REPORT》,开源了 一整套基础和指令调优的语言模型,参数范围从5亿到720亿不等,包括密集模型和混合专家模型。可以用于: 语言理解、生成、多语言、编码、数学和推理。

2、亮点

    主要是精召性能、数据和长文本处理方面,包括数据处理等使用了一些最新的其他论文的思路,模型结构等方面并没有大的改动,具体如下:
    * 旗舰模型Qwen2-72B在多个基准测试中表现出色,例如在MMLU、GPQA、HumanEval、GSM8K和BBH上得分均较高。
    *展现了强大的多语言能力,能够熟练处理约30种语言,凸显了其通用性和全球覆盖范围。

你可能感兴趣的:(AIGC算法,nlp,transformer,AIGC)