按时间与技术路标排序,核心模型如下:
GPT‑3.5(2022)
GPT‑4(2023 年 3 月)
GPT‑4 Turbo / GPT‑4.5(2023 年末 / 2025 年 2 月)
GPT‑4o(Omni)(2024 年 5 月)
GPT‑4o mini / o1 / o3 系列 / GPT‑4.1(2024–2025)
每一代都是对前代提升版本,从参数规模、性能、能力上不断优化。
所有模型基于 Transformer 解码器架构。
GPT‑4 开始采用 Mixture‑of‑Experts(MoE),即按需激活子模型以提升效率。
GPT‑4o 使用融合结构,支持文字、图像、音频直接输入。
这些结构影响推理速度、并发能力及部署成本。
GPT‑3.5:约 1750 亿参数
GPT‑4:约 1 万亿参数,采用 MoE 架构
GPT‑4o:延续 GPT‑4 规模,优化多模态处理
GPT‑4o mini:缩减至数百亿参数
更多参数意味着更强表达能力,但计算成本更高。
GPT‑3.5:4K–16K token
GPT‑4:32K token
GPT‑4o / GPT‑4 Turbo:128K token
GPT‑4.1 系列:最高实验支持 1,000,000 token
128K+ 支持长文档、RAG 应用、复杂上下文交互,底层用 FlashAttention、Dynamic RoPE 等优化 。
GPT‑3.5:纯文本
GPT‑4:支持图文输入()
GPT‑4o:支持文字、图像、音频、视频输入与语音输出()
GPT‑4o mini:轻量多模态版本
GPT‑3.5 Turbo:快速、低成本
GPT‑4:慢、成本高(~ $60+ / 1M tokens)
GPT‑4o:快两倍、成本大幅下降($2.50/$10 per 1M tokens)
GPT‑4o mini:只需输入 $0.15,输出 $0.60 / 1M tokens
GPT‑3.5 开始支持 Function Calling
GPT‑4o 及之后版本:能自动判断何时调用外部工具,构建复杂流程
这使系统能智能规划流程、自动调用 API。
GPT‑3.5 Turbo:支持 API 微调(fine-tuning)
GPT‑4o:支持 embedding 调整与 RAG 结构,但不直接开放微调
GPT‑4o mini:未来支持 LoRA / Adapter 微调
Attention Is All You Need:提出 Transformer 架构
Language Models are Few‑Shot Learners:GPT‑3 基础
GPT‑4 Technical Report:详述 GPT‑4 的多模态与能力表现
Scaling Laws for Neural Language Models:解析模型参数与性能关系
这些文献提供了设计路径与能力预期。
多模态 RAG 系统
构建知识库 + 图像文本检索 -> 模型生成,提供员工内部问答支持。
代码生成与迁移助手
使用 GPT‑4o 协助生成、审查、翻译代码,提高开发效率。
智能多模态助理
接输入语音或图像,自动调用工具查信息、发送通知,完成智能任务。