AI大模型学习之白话笔记(一)-- GPT和LLM

前言

2022年底第一次听说chatGPT, 从最初的对话,到如今的文生视频Sora,带来的效果,越来越超出我们的想象。

在2023年,我尝试去了解GPT可以干什么,有什么作用,该怎么用,不过变化太快,最终也没有找到一个好的方式干进去。

为什么变化这么快,说到底,是AI大模型带来的巨变。

现在很多大厂都在降薪裁员,也有不少公司在All in AI,我们都有一个预感,要变天了。你想想,如果有一天,一款游戏的所有美术、策划、服务端、客户端、客服都可以由一个人通过gpt搞定了,就问你慌不慌?

因此,在2024年,我决定尝试去了解AI大模型,并打算用白话的方式做一些笔记,由于我也是一名初学者,当然这只是非常浅显的知识,但对还没有入门的普通人来说,应该是足够了,希望能对大家理解大模型有些许帮助。

在学习大模型之前,有必要先了解GPT,了解GPT相关的一个个名词, 那么我们就从GPT开始我们的第一篇大模型学习笔记。

GPT

GPT是一种基于互联网的、可用数据来训练的、文本生成的深度学习模型。

GPT是Generative Pre-Trained Transformer的缩写,我们把GPT三个字母拆开来理解:

G代表Generative(生成式)

这是一种机器学习模型,它的作用是学习数据的分布,生成与训练数据类似的新数据。这其实就是之前自然语言处理(NLP)领域干的事。

P代表Pre-Trained(预训练)

预训练是深度学习领域的一种方法,通过对大数据进行训练,学习知识的特征训练成基础模型,然后针对特定业务进行微调。

T代表Transformer(变换器)

Transformer是自然语言处理中的一种神经网络结构,它通过自注意力(Self-Attention)机制有效捕捉上下文信息,处理长距离依赖关系,并实现并行计算。

不论是现在的chatGPT还是目前国内的大模型,都是基于Transformer,所以了解大模型我们绕不开Transformer。

注意力(Self-Attention)机制

注意力机制是一种用于帮助循环神经网络(RNN࿰

你可能感兴趣的:(人工智能,学习,笔记,langchain,python,机器人,大模型)