gpt-2

LLM系统性学习完全指南（初学者必看系列）

我们将从支撑整个领域的数学与机器学习基石出发，逐步剖析自然语言处理（NLP）的经典范式，深入探究引发革命的Transformer架构，并按时间顺序追溯从BERT、GPT-2到GPT-4、Llama及Gemini

GA琥珀·2025-07-19 19:11

解释LLM怎么预测下一个词语的

以GPT-2为例，在生成文本时，它会将输入文本中每个词对应的词向量依次输入到模型的多层Transformer编码器-解码器结构中。每一层

ZhangJiQun&MXP·2025-07-03 14:23

⼤模型（LLMs）基础⾯

LLM（语⾔模型）模型体系包括以下⼏个：1.GPT（GenerativePre-trainedTransformer）系列：由OpenAI发布的⼀系列基于Transformer架构的语⾔模型，包括GPT、GPT

cv2016_DL·2025-06-27 01:04

自然语言处理NLP星空智能对话机器人系列：深入理解Transformer自然语言处理 Training a GPT-2 language model

自然语言处理NLP星空智能对话机器人系列：深入理解Transformer自然语言处理TrainingaGPT-2languagemodel目录GPT模型简介TrainingaGPT-2languagemodelStep1:Prerequisites星空智能对话机器人系列博客GPT模型简介生成式预训练转换器（GPT）是由OpenAI团队构建的一系列基于深度学习的语言模型。GPT-3是一个预先训练过的

段智华·2025-06-09 11:27

OpenAI重磅回归开源！首发推理模型不限商用，直面DeepSeek挑战

上一次这样开源还是6年前推出GPT-2。这几乎就是冲着DeepSeek-R1来的。奥特曼表示，这个模型非常强。为了让它更强，现在先招募开发者来收集反馈。而且每个人都能使用。

奋斗的java小伙·2025-06-01 11:14

【自然语言处理与大模型】大模型（LLM）基础知识①

1.GTP（GenerativePer_trainedTransformer）系列，是由OpenAI发布的一系列基于Transformer架构的语言模型，包括GPT、GPT-2、GPT-3等。

小oo呆·2025-05-19 03:11

GPT-2 小模型剪枝实战：L1 Unstructured 剪枝策略与实现详解

本文基于prune_training.py文件，展示如何使用PyTorch对GPT-2Student模型进行L1不规则剪枝（UnstructuredPruning），分析剪枝策略、实现代码、效果影响及保存模型的关键细节，帮助你将训练好的模型进一步轻量化。✂️为什么剪枝？模型训练完成后，仍存在大量“权重占位但几乎不贡献预测”的参数，剪枝可以：✅降低显存使用✅加快推理速度✅保持原模型结构（不影响部署）

YoanAILab·2025-05-16 14:07

部署本地大模型并导入本地数据文件的一般步骤

一、准备工作选择大模型：首先，你需要选择一个适合你任务的大模型，例如，如果你要进行自然语言处理，可以选择GPT系列的开源版本，如GPT-2或GPT-Neo等；对于图像任务，可以考虑DALL-E的开源实现等

辉腾-T·2025-05-16 13:26

gpt各个版本有什么区别

GPT-2:这是GPT的第二个版本，它在GPT的基础上进

Waiyuet Fung·2025-05-13 18:47

一文读懂模型上下文协议（MCP）：AI与世界的「万能接口」设计指南

聚客AI·2025-05-09 11:59

AI编译器对比：TVM vs MLIR vs Triton在大模型部署中的工程选择

本文基于NVIDIAA100与GoogleTPUv4平台，通过BERT-base（110M）和GPT-2（1.5B）的实测数据，对比TVM、MLIR、Triton三大编译框架在动态shape支持、算子融合效率

学术猿之吻·2025-05-09 04:14

大规模语言模型从理论到实践实践思考

从2018年的BERT,到2019年的GPT-2,再到2020年的GPT-3,大规模语言模型在自然语言处理(NLP)领域取得了一系列突破性进展,展现出了强大的语言理解和生成能力。1.2大规模语言

AI天才研究院·2025-05-08 01:25

从零学习大模型（一）-----GPT3（上）

其参数规模是前一代模型（如GPT-2）的10倍以上。GPT-3的目标是通过大规模的参数量和广泛的预训练来实现对多种语言任务的few-shot学习，即通过少量示例而无需额外

懒惰才能让科技进步·2025-05-07 23:11

Python Transformers 库介绍

该库具有以下特点和功能：主要特点丰富的预训练模型：Transformers库包含了大量的预训练模型，如BERT、GPT-2、RoBERTa、XLNet等。

qq_27390023·2025-04-27 23:51

GPT-2源码实现及GPT-3、GPT-3.5、GPT-4及GPT-5内幕解析(三)

GPT-2源码实现及GPT-3、GPT-3.5、GPT-4及GPT-5内幕解析(三)5.3GPT-3内幕机制可视化解析GPT-3是一个基于Transformer的语言模型，通过不同的层次提取语言不同层面的特性

段智华·2025-04-16 00:26

【深度学习】GPT-2，Language Models are Unsupervised Multitask Learners，【语言建模】

论文：https://d4mucfpksywv.cloudfront.net/better-language-models/language_models_are_unsupervised_multitask_learners.pdf文章目录摘要引言方法2.1训练数据集2.2输入表示2.3模型3.实验3.1语言建模3.2Children’sBookTest3.3LAMBADA3.4Winograd

XD742971636·2025-04-13 12:58

从零构建大语言模型全栈开发指南：第二部分：模型架构设计与实现-2.2.1从零编写类GPT-2模型架构（规划模块与代码组织）

点击关注不迷路点击关注不迷路点击关注不迷路文章大纲2.2.1从零编写类GPT-2模型架构（规划模块与代码组织）1.模型架构设计规划1.1架构核心组件2.模块化设计实现2.1输入处理模块2.1.1分词与嵌入

言析数智·2025-03-28 08:06

ChatGPT智能聊天机器人实现

以下是一个从零实现类ChatGPT智能聊天机器人的完整开发指南，包含技术选型、核心代码逻辑和推荐学习资源：—云端平台整理一、技术架构与工具核心模型基座模型：HuggingFaceTransformers库（如GPT

云端源想·2025-03-17 14:57

AI 行业发展趋势：科技创新引领未来变革

以GPT系列为代表的大语言模型，参数数量不断攀升，从GPT-2的15亿参数到GPT-4的万亿级参数，模型的语

我是阿萌·2025-03-15 06:51

大模型面试--大模型（LLMs）基础面

以下是一些主流的Transformer模型：GPT系列GPT-2和GPT-3：由OpenAI开发的生成式预训练变换器模型，用于生成高质量的文本。GPT-Neo和GPT-J：由Eleuthe

TAICHIFEI·2025-03-12 08:13

SeisMoLLM: Advancing Seismic Monitoring via Cross-modal Transfer with Pre-trained Large Language

通过精心设计的波形标记化处理和对预训练GPT-2模型的微调，SeisMoLLM在DiTing和

UnknownBody·2025-03-11 12:29

【Hugging Face】transformers 库中 model.generate() 方法：自回归模型的文本生成方法

HuggingFacemodel.generate方法model.generate是transformers库中的文本生成（TextGeneration）方法，适用于自回归模型（如GPT-2、T5、BART

彬彬侠·2025-03-11 11:52

GPT-2源码实现及GPT-3、GPT-3.5、GPT-4及GPT-5内幕解析(二)

GPT-2源码实现及GPT-3、GPT-3.5、GPT-4及GPT-5内幕解析(二)Gavin大咖微信：NLP_Matrix_Space5.2GPT-2源码实现逐行解析本节讲解GPT-2源码，gpt2.

段智华·2025-02-25 09:35

从零开始构建一个大语言模型-第五章第五节

LLM5.3控制随机性的解码策略5.4在PyTorch中加载和保存模型权重5.5从OpenAI加载预训练权重5.5从OpenAI加载预训练权重此前，我们使用一个由一本短篇小说集组成的有限数据集训练了一个小型GPT

释迦呼呼·2025-02-06 15:41

gpt-2语言模型训练

一、通过下载对应的语言模型数据集1.1根据你想让回答的内容，针对性下载对应的数据集，我下载的是个医疗问答数据集1.2针对你要用到的字段信息进行处理，然后把需要处理的数据丢给模型去训练，这个模型我是直接从GPT2的网站下载下来的依赖的必要文件截图如下：二、具体代码样例实现：importosimportpandasaspdfromtransformersimportGPT2Tokenizer,GPT2

谷隐凡二·2024-09-10 09:48

GPT-3：一个新应用生态系统诞生了

Transformerencoder-decoder模型之间由超过1,750亿个被称为参数的单词之间的加权值连接，将其15亿个参数的前身GPT-2打的落花流水。您只要输入要执行的任务

派派AI学院·2024-09-02 09:34

AIGC从入门到实战:模型搭建【GPT4ALL】

老童聊AI·2024-08-23 10:50

NLP_GPT到ChatGPT

GPT-2：2019年，OpenAI推出了GPT的升级版，拥有更多参数[15亿

you_are_my_sunshine*·2024-02-15 09:39

大模型基础知识

主流的开源模型体系GPT（GenerativePre-trainedTransformer）系列：由OpenAI发布的一系列基于Transformer架构的语言模型，包括GPT、GPT-2、GPT-3等

lichunericli·2024-02-13 13:46

OpenAI使用的海量数据集介绍

虽然具体的细节可能不完全公开，但我们可以根据历史信息和公开报道推测，这些数据集通常包含：WebText：早期版本的GPT（如GPT-2）使用的WebText是一个大规模的网络文本集合，包含了从互联网上抓取的高质量网页内容

科学禅道·2024-02-11 07:53

GPT-3 训练自己的数据教程详解

pipinstalltorchpipinstalltransformers下载预训练模型：从HuggingFace的模型库中下载GPT-2的预训练权重。

mqdlff_python·2024-02-08 06:30

介绍一下gpt2模型的原理

GPT-2（GenerativePre-trainedTransformer2）是OpenAI发布的一种生成式预训练模型，是GPT系列的第二代。

程序员奇奇·2024-02-08 00:39

多模态对比语言图像预训练CLIP：打破语言与视觉的界限，具备零样本能力

CLIP的设计类似于GPT-2和GPT-3，具备出色的零射击能力，可以应用于多种多模态任务。多模态对比语言图像预训练（ContrastiveLanguage-ImagePre-training

代码讲故事·2024-02-06 10:30

GPT-1, GPT-2, GPT-3, GPT-3.5, GPT-4论文内容解读

目录1ChatGPT概述1.1whatischatGPT1.2HowdoesChatGPTwork1.3TheapplicationsofChatGPT1.3ThelimitationsofChatGPT2算法原理2.1GPT-12.1.1Unsupervisedpre-training2.1.2Supervisedfine-tuning2.1.3语料2.1.4分析2.2GPT-22.3GPT-3

BGoodHabit·2024-02-06 06:36

有哪些流行的中文开源语言模型？

**GPT-2/GPT-3**：OpenAI发布的GPT系列模型，虽然主要是以英文

qq_20984273·2024-02-04 06:41

transformer_多头注意力机制代码笔记

transformer_多头注意力机制代码笔记以GPT-2中多头注意力机制代码为例classCausalSelfAttention(nn.Module):"""因果掩码+多头自注意力机制Avanillamulti-headmaskedself-attentionlayerwithaprojectionattheend.Itispossibletousetorch.nn.MultiheadAtten

等风来随风飘·2024-02-01 08:29

Transformer 自然语言处理（二）

一个著名的例子是OpenAI的GPT-2，当给出以下提示时：¹在一个令人震惊的发现中，科学家们发现了一群生活在安第斯山脉偏远、以前未被探索过的山谷中的独

绝不原创的飞龙·2024-02-01 07:57

LLM语言模型，特别是GPT，对美国各种职业和行业的潜在影响

百态老人·2024-01-31 09:00

Byte Pair Encoding（BPE）算法及代码笔记

Transformer中构建词表的方法，大致分为如下几个步骤：将语料中的文本切分为字符统计高频共现二元组将共现频率最高的二元组合并加入词表重复上述第二和第三直到词表规模达到预先设置的数量，或没有可以合并的二元组为止以GPT

等风来随风飘·2024-01-29 13:50

GPT-2 开源模型本地搭建（一）

GPT-2开源模型本地搭建1、GPT使用心得2、py环境准备2.1安装MicrosoftVisualC++14.0运行库2.2环境安装1.安装python3.6或3.72.安装pip3安装tensorflow4

天罚神·2024-01-28 11:55

【论文笔记】GPT，GPT-2，GPT-3

参考：GPT，GPT-2，GPT-3【论文精读】GPTTransformer的解码器，仅已知"过去"，推导"未来"论文地址：ImprovingLanguageUnderstandingbyGenerativePre-Training

爱学习的卡比兽·2024-01-28 06:44

GPT4+Python近红外光谱数据分析及机器学习与深度学习建模

详情点击链接：GPT4+Python近红外光谱数据分析及机器学习与深度学习建模第一：GPT4入门基础1、ChatGPT概述（GPT-1、GPT-2、GPT-3、GPT-3.5、GPT-4模型的演变）2、

慢腾腾的小蜗牛·2024-01-28 05:54

复现六：大模型评测教程

沿着这条路线，随后又陆续发布了GPT-2和GPT-3模型。与此同时，谷歌也探索了不同的大规模预训练模型方案，例如如T5,Flan等。OpenAI在2022年11月发布ChatGPT，展示了

cq99312254·2024-01-27 03:55

大语言模型(LLM)有哪些？

最早的版本是GPT-1，之后发展到了GPT-2和GPT-3，目前最新版本是GPT-4，2023年3月14日发布。GPT系列模型通过预训练和微调的方式，可以生成高质量的文本。BERTBER

图灵追慕者·2024-01-25 03:13

GPT-5最新官方剧透；Yann LeCun称对 AI 严格立法还为时尚早

GPT-2非常糟糕，3相当糟糕，4也糟糕，5应该能算okay。如果对比初代iPhone和最新iPhone15，会感觉是截然不同的设备，AI也是如此。

无际Ai·2024-01-25 01:37

GPT4+Python近红外光谱数据分析及机器学习与深度学习建模

详情点击链接：GPT4+Python近红外光谱数据分析及机器学习与深度学习建模第一：GPT41、ChatGPT（GPT-1、GPT-2、GPT-3、GPT-3.5、GPT-4模型的演变）2、ChatGPT

夏日恋雨·2024-01-25 00:08

大模型用model.generate 直接产生文本的id以及获得模型生成文本概率的方法

使用模型的generate方法当使用大型语言模型（如GPT-2、GPT-3、BERT等）的generate方法直接产生文本时，通常返回的是文本的tokenID序列。

samoyan·2024-01-24 23:55

解码器生成策略：大模型 Decoder 的应用与实践

近年来，随着数百万个网页数据的训练，大型基于Transformer的语言模型如OpenAI的GPT-2逐渐崭露头角。

百度_开发者中心·2024-01-24 16:13

基于ChatGPT4+Python近红外光谱数据分析及机器学习与深度学习建模教程

详情点击链接：基于ChatGPT4+Python近红外光谱数据分析及机器学习与深度学习建模教程第一：GPT41、ChatGPT（GPT-1、GPT-2、GPT-3、GPT-3.5、GPT-4模型的演变）

夏日恋雨·2024-01-23 07:31

虚无火星车·2024-01-23 05:03

推荐频道

gpt-2

LLM系统性学习完全指南（初学者必看系列）

解释LLM怎么预测下一个词语的

⼤模型（LLMs）基础⾯

自然语言处理NLP星空智能对话机器人系列：深入理解Transformer自然语言处理 Training a GPT-2 language model

OpenAI重磅回归开源！首发推理模型不限商用，直面DeepSeek挑战

【自然语言处理与大模型】大模型（LLM）基础知识①

GPT-2 小模型剪枝实战：L1 Unstructured 剪枝策略与实现详解

部署本地大模型并导入本地数据文件的一般步骤

gpt各个版本有什么区别

一文读懂模型上下文协议（MCP）：AI与世界的「万能接口」设计指南

AI编译器对比：TVM vs MLIR vs Triton在大模型部署中的工程选择

大规模语言模型从理论到实践 实践思考

从零学习大模型（一）-----GPT3（上）

Python Transformers 库介绍

GPT-2源码实现及GPT-3、GPT-3.5、GPT-4及GPT-5内幕解析(三)

【深度学习】GPT-2，Language Models are Unsupervised Multitask Learners，【语言建模】

从零构建大语言模型全栈开发指南：第二部分：模型架构设计与实现-2.2.1从零编写类GPT-2模型架构（规划模块与代码组织）

ChatGPT智能聊天机器人实现

AI 行业发展趋势：科技创新引领未来变革

大模型面试--大模型（LLMs）基础面

SeisMoLLM: Advancing Seismic Monitoring via Cross-modal Transfer with Pre-trained Large Language

【Hugging Face】transformers 库中 model.generate() 方法：自回归模型的文本生成方法

GPT-2源码实现及GPT-3、GPT-3.5、GPT-4及GPT-5内幕解析(二)

从零开始构建一个大语言模型-第五章第五节

gpt-2语言模型训练

GPT-3：一个新应用生态系统诞生了

AIGC从入门到实战:模型搭建【GPT4ALL】

NLP_GPT到ChatGPT

大模型基础知识

OpenAI使用的海量数据集介绍

GPT-3 训练自己的数据教程详解

介绍一下gpt2模型的原理

多模态对比语言图像预训练CLIP：打破语言与视觉的界限，具备零样本能力

GPT-1, GPT-2, GPT-3, GPT-3.5, GPT-4论文内容解读

有哪些流行的中文开源语言模型？

transformer_多头注意力机制代码笔记

Transformer 自然语言处理（二）

LLM语言模型，特别是GPT，对美国各种职业和行业的潜在影响

Byte Pair Encoding（BPE）算法及代码笔记

GPT-2 开源模型本地搭建（一）

【论文笔记】GPT，GPT-2，GPT-3

GPT4+Python近红外光谱数据分析及机器学习与深度学习建模

复现六：大模型评测教程

大语言模型(LLM)有哪些？

GPT-5最新官方剧透；Yann LeCun称对 AI 严格立法还为时尚早

GPT4+Python近红外光谱数据分析及机器学习与深度学习建模

大模型用model.generate 直接产生文本的id以及获得模型生成文本概率的方法

解码器生成策略：大模型 Decoder 的应用与实践

基于ChatGPT4+Python近红外光谱数据分析及机器学习与深度学习建模教程

GPT-5，奥特曼最新剧透

大规模语言模型从理论到实践实践思考