维度 | T5(Text-to-Text Transfer Transformer) | GPT(Generative Pretrained Transformer) |
---|---|---|
模型类型 | 编码器-解码器(Encoder-Decoder) | 解码器-only(Decoder-only) |
训练目标 | 将一切任务转化为“文本到文本”的转换问题(如翻译、摘要、QA) | 语言建模(预测下一个 token) |
设计理念 | 通用统一框架:“所有 NLP 任务 = 文本 → 文本” | 自回归生成器:强在自然生成与上下文理解 |
预训练数据 | C4 数据集(Colossal Clean Crawled Corpus) | WebText, Common Crawl, Books, Code 等 |
任务适配 | 翻译、摘要、QA、分类、填空、对话都能统一处理 | 长文本生成、代码、对话生成超强 |
多任务泛化能力 | 非常强,能一套参数做多种任务(prompt 设计好很重要) | 单一任务效果顶尖(如大模型对话) |
表现特点 | 精准任务完成率高,适合指令学习(text2text) | 自然语言生成更流畅,适合 open-ended tasks |
❤️ 模型代表 | T5, mT5, FLAN-T5, UL2 | GPT-2, GPT-3, GPT-4, ChatGPT |
实际应用 | 强在结构化输出(如摘要、QA、纠错) | 强在自由生成(对话、创作、续写) |
推理效率 | 相对较低(Encoder + Decoder) | 高效(Decoder-only) |
token 处理 | SentencePiece | Byte-level BPE (tiktoken) |
开放式生成(如:写故事、生成代码、对话) GPT 系列 > T5
GPT 是最强“生成型 AI”,尤其是在 ChatGPT 这样强化后的版本中。
结构化文本任务(如:摘要、翻译、QA、信息抽取) T5 系列更灵活
T5 将一切任务统一转为“输入文本 → 输出文本”,非常适合 fine-tune。
多任务泛化 FLAN-T5, UL2 表现强劲
微调时 T5 更容易实现多个任务共享参数,通用性更高。
T5 像是“全能型学霸”,什么题都能做;GPT 是“天才型作家”,能把语言玩得出神入化。