自然语言处理(NLP)领域大语言模型学习目录大全

本文主要收集了自然语言处理(NLP)领域的大语言模型,可以可以通过点击标题链接查看具体的详情。


GPT 系列

GPT-1(Generative Pre-trained Transformer 1)模型

GPT-1(Generative Pre-trained Transformer 1)是 OpenAI 在 2018 年 6 月提出的 第一代 GPT 模型,也是 第一个基于 Transformer 结构的自回归(Autoregressive)语言模型,专门用于 自然语言生成(NLG)任务。

GPT-2(Generative Pre-trained Transformer 2)模型

GPT-2(Generative Pre-trained Transformer 2)是 OpenAI 在 2019 年 2 月提出的 第二代 GPT 模型,是一个 大规模自回归语言模型,用于 文本生成(NLG)任务。

GPT-3(Generative Pre-trained Transformer 3)模型

GPT-3(Generative Pre-trained Transformer 3)是 OpenAI 在 2020 年 5 月发布的 第三代 GPT 语言模型,是当时 参数量最大、通用能力最强 的 NLP 预训练模型之一,具备 强大的文本生成、代码生成和任务适应能力。

GPT-3.5(Generative Pre-trained Transformer 3.5)模型

GPT-3.5 是 OpenAI 在 GPT-3 和 GPT-4 之间的过渡版本,于 2022 年 11 月左右推出,相较于 GPT-3 改进了文本生成质量、上下文理解和推理能力。在AI 助手、智能客服、编程工具中被广泛应用。

GPT-4(Generative Pre-trained Transformer 4)模型

GPT-4(Generative Pre-trained Transformer 4)是 OpenAI 在 2023 年 3 月发布的 第四代 GPT 语言模型,相较于 GPT-3 和 GPT-3.5,GPT-4 具备更强的推理能力、更高的文本生成质量,并首次支持多模态输入(文本+图像)。

GPT-4V(GPT-4 with Vision)模型

GPT-4V(GPT-4 with Vision)是 OpenAI 在大约 2023 年 7 月发布的多模态版本,基于 GPT-4, 支持图像输入,具备更强的 文本+图像联合理解能力。

GPT-4o(Generative Pre-trained Transformer 4 omni)模型

GPT-4o 是由 OpenAI 开发的一种先进的 多模态大语言模型(Multimodal Large Language Model),于 2024 年 5 月 13 日正式发布。它是 GPT-4 系列的升级版本,相较于之前的模型(如 GPT-4 和 GPT-3.5),GPT-4o 在多模态能力、性能和效率上有了显著提升。

GPT-4.5(Generative Pre-trained Transformer 4.5)模型

GPT-4.5 是由 OpenAI 开发的一款大语言模型(Large Language Model, LLM),作为 GPT-4 系列的升级版本,于 2025 年 2 月 27 日以研究预览版(research preview)形式发布。

BERT 及其变种

BERT(Bidirectional Encoder Representations from Transformers)模型

BERT(双向编码器表示的 Transformer)是 Google AI 在 2018 年 10 月提出的 预训练 NLP 模型,它能够捕捉 上下文信息,在 文本分类、命名实体识别(NER)、问答系统(QA)等 NLP 任务 中取得了突破性成果。

RoBERTa(Robustly Optimized BERT Pretraining Approach)模型

RoBERTa(鲁棒优化 BERT)是 Facebook AI(FAIR) 在 2019 年 7 月提出的一种 改进版 BERT,通过 改进 BERT 预训练方法,在 NLP 任务中取得了更好的表现。

SpanBERT(Span-based Pre-training of BERT)模型

SpanBERT 是 Facebook AI Research(FAIR) 和 University of Washington 在 2019 年 7 月提出的一种 改进版 BERT,专门用于 学习更好的文本片段(Span)表示,特别适用于 问答系统(QA)和关系抽取(RE)任务。

ALBERT(A Lite BERT for Self-supervised Learning of Language Representations)模型

ALBERT(轻量级 BERT)是 Google AI 在 2019 年 9 月提出的一种 BERT 变体,旨在 减少参数量、提高训练效率,同时保持 BERT 的强大性能。

DistilBERT(Distilled BERT)模型

DistilBERT(蒸馏 BERT)是 Hugging Face 在 2019 年 10 月提出的一种 轻量级 BERT 模型,通过 知识蒸馏(Knowledge Distillation) 方式,将 BERT 压缩为更小的模型,但 保持大部分性能。

MacBERT(MLM as correction BERT)模型

MacBERT 是 哈工大讯飞联合实验室(HFL) 在 2020 年 7 月提出的一种 改进版 BERT 预训练模型,专门针对 中文 NLP 任务 进行优化,同时适用于其他语言。

T5 (Text-to-Text Transfer Transformer)

T5(Text-to-Text Transfer Transformer)模型

T5(Text-to-Text Transfer Transformer)是 Google Research 在 2019 年 10 月提出的一种 通用 NLP 预训练模型,其核心思想是 将所有自然语言处理任务统一转换为“文本到文本”(text-to-text)任务。

ERNIE 、XLNet、BART、ELECTRA等

ERNIE(Enhanced Representation through kNowledge Integration)模型

ERNIE(文心)是 百度(Baidu)在 2019 年 5 月提出的预训练语言模型,在 BERT 的基础上 引入了 知识增强(Knowledge Integration),特别适用于 中文 NLP 任务。

XLNet 模型

XLNet 是 Google Brain 和 Carnegie Mellon University 在 2019 年 6 月提出的一种 自回归语言模型,在许多 NLP 任务上 超越 BERT,同时保留了 GPT 的自回归生成特性。

BART(Bidirectional and Auto-Regressive Transformer)

BART(Bidirectional and Auto-Regressive Transformer)是 Facebook AI(FAIR) 在 2019 年 10 月提出的一种 预训练文本生成模型,它结合了 BERT 的双向编码能力 和 GPT 的自回归解码能力,适用于 文本修复、文本摘要、问答系统、文本生成 等任务。

ELECTRA(Efficiently Learning an Encoder that Classifies Token Replacements Accurately)模型

ELECTRA(高效学习替换标记分类的编码器)是 Google Research 在 2020 年 3 月提出的一种 替代 BERT 训练方法的预训练模型,旨在 提高训练效率,同时保持甚至超越 BERT 的效果。

新兴开源模型

OPT(Open Pretrained Transformer)模型

OPT(Open Pretrained Transformer)是 Meta(Facebook) 于 2022 年 5 月发布的 开源 GPT 类语言模型,旨在 提供与 OpenAI 的 GPT-3 竞争的高效替代方案。

BLOOM(BigScience Large Open-science Open-access Multilingual Language Model)模型

BLOOM(BigScience Large Open-science Open-access Multilingual Language Model)是 2022 年 7 月由 BigScience 项目发布的一款开源大型语言模型(LLM),它是 首个完全开源、支持 46 种语言和 13 种编程语言的 GPT-3 级别语言模型。

LLaMA(Large Language Model Meta AI)模型

LLaMA(Large Language Model Meta AI)是 Meta(Facebook) 于 2023 年 2 月开始发布的一系列 开源大语言模型(LLM),旨在 提供高效、轻量级的 GPT 竞争对手,尤其适用于 学术研究和工业应用。

GLM(General Language Model)模型

GLM(General Language Model,通用语言模型) 是 清华大学知识工程实验室(THU-KEG)和智谱 AI(Zhipu AI) 共同研发并从 2022 年开始发布的 开源大语言模型(LLM)。GLM 支持中英文双语,适用于多种 NLP 任务,如 文本生成、代码生成、问答、翻译 等。

Qwen(通义千问)模型

Qwen(通义千问) 是由 阿里云 开发并于 2023 年开始发布的大型语言模型(LLM)系列,旨在提供 高效、开源、可商用的大语言模型,支持 文本、代码、数学推理 等任务,并在多个基准测试中表现出色。

DeepSeek 模型

DeepSeek模型是由中国杭州的DeepSeek公司(全称“杭州深度求索人工智能基础技术研究有限公司”)开发的一系列大语言模型。DeepSeek-R1 模型发布于2025年1月,是专注于推理能力的模型。DeepSeek模型是AI领域的一次技术与工程突破,凭借高效的MoE架构、创新的MLA机制和纯RL训练方法,为全球AI社区提供了宝贵资源。

OpenAI o系列

OpenAI o1 模型

OpenAI o1 是由 OpenAI 开发的一系列大语言模型,首次以预览版形式(o1-preview 和 o1-mini)于 2024 年 9 月 12 日发布,完整版于 2024 年 12 月 5 日推出。它代表了 OpenAI 在人工智能研发中的一个新方向,与之前的 GPT 系列(如 GPT-4o)不同,o1 系列专注于 推理能力(reasoning),旨在通过模拟人类逐步思考的过程,解决复杂的科学、数学和编码问题。

OpenAI o3 模型

OpenAI o3 是由 OpenAI 开发的新一代大语言模型,作为 o1 系列的继任者,于 2024 年 12 月 20 日首次公布,并在 2025 年初逐步推出。它属于 OpenAI 的“o系列”推理模型(reasoning models),旨在进一步提升复杂问题解决能力,尤其是在数学、编码和科学领域。

你可能感兴趣的:(大模型,自然语言处理,NLP,大模型,LLM,GPT,BERT,GLM)