大模型工程化基础概念

大模型工程化基础概念

大模型工程化是以智能体为核心架构,融合多模态交互与知识推理的系统工程。智能体(Agent)通过大语言模型(LLM)构建感知-规划-执行闭环,结合记忆模块(如向量数据库)、工具链(RPA/API)实现自主任务分解,其工程框架包含知识库增强、工具代理引擎等组件。RAG技术通过检索外部知识库优化LLM生成质量,与智能体的本质区别在于任务流程是否由AI自主决策。关键技术涵盖提示词工程激发LLM潜能、LoRA微调实现参数高效优化,以及向量数据库解决幻觉问题。当前趋势体现为原生AI智能体逐步替代人工流程,通过工具链整合和多Agent协作构建高鲁棒性系统,推动AI从辅助工具向自主执行体演进。

序号 名词 解释
1 智能体(学术解释) Agent是一个处于环境之中并且作为这个环境一部分的系统,它随时可以感测环境并且执行相应的动作,同时逐渐建立自己的活动规划以应付未来可能感测到的环境变化。智能Agent能够持续执行三项功能:感知环境中的动态条件;执行动作影响环境条件;进行推理以解释感知信息、求解问题、产生推断和决定动作”
2 原生AI智能体(IT智能体) Agent = 大语言模型+记忆+规划+工具使用原生AI智能体是一个处于IT系统中,并且作为IT系统的一部分,可以进行人机交互,感测环境以作为交互模块,结合知识库和LLM,具备智能体记忆和规划能力,作为记忆和规划推理的模块,并通过RPA、API等工具执行相应的动作,作为执行模块。并通过一些系列的动作与外界进行交互,不断迭代。
3 智能体框架(AI agent) 对IT系统智能体而言,智能体指能够通过多模态人机交互实现上下文对话,通过知识推理层实现任务的策略规划、知识推理,并结合工具执行层连接搜索引擎、RPA等外部工具进行应对。Agent并不是算法,而是一种基于LLM的工程实现,其核心依托于LLM的能力,通过外在的Prompt来激发大模型的规划推理等智能能力,从而达到智能体的效果。但需要明确的LLM并不是全部,Agent是一种工程架构实现系统,包含着其他的构成部分,不能简单割裂看待。
4 RAG(检索增强问答) “RAG”(Retrieval-Augmented Generation)方法,RAG是一种自然语言处理技术,将检索和生成策略结合,以增强语言模型的表现,一般利用基于BERT的高效检索系统从大型文档库中提取相关信息,并通过大语言模型利用检索信息来生成流畅且内容丰富的回答。RAG方法的优势在于其融合了精确检索和灵活生成的能力,使其在处理复杂查询和生成详尽回答时表现出色。因此,这项技术在问答系统、对话系统以及需要自然语言理解与生成的场景中具有巨大实用价值。
5 RAG和AI agent的区别 RAG核心原因在于做到了大模型的能力与场景需要的结合。受限于大模型的context window大小限制、性能,信息的及时性以及难以克服的幻觉,内容可信等多方面技术要求,加之于大模型的交互可以简化为问答式聊天的场景交互,使得RAG成为知识问答,任务辅助(Copilot,使用工具+多轮对话)等的核心架构。Agent则是为了替代人而出现,给定一个既有目标或复杂任务,让机器自己去思考如何分解完成,而整个过程无需人类参与,甚至到了Muti-Agent阶段,Agent可以有效分工协作进而替代一个组织,完成更为复杂的任务。公司运营将更多通过使用 AI Agent 和工具进行,而不全是人类员工。Agent与RAG的本质区别在于RAG等LLMChain的解决问题的核心流程是人工确定的,LLM在过程中只起到局部作用,而Agent的整个解决问题的流程都是由AI自主确定的,LLM在此期间起着决定性作用,没有了LLM那么这个应用将无法工作,可以说Agent才是真正的高纯度AI-Native的范式,甚至可以说是真的AI APP的编程范式。
6 chatgpt ChatGPT是一个由OpenAI训练的大型语言模型,它可以模拟人类语言,用于回答自然语言问题,并且可以生成自然语言文本。它可以帮助开发人员创建更加自然的机器人聊天系统,以及其他自然语言处理任务。
7 人机交互 人机交互是指人与计算机之间使用某种对话语言,以一定的交互方式,为完成确定任务的人与计算机之间的信息交换过程。可以通过文本、语音、视频、VR、AR、脑机等多种形式与计算机系统实现信息交互,比如最近流行的虚拟人对话,可以以虚拟人形式,语音对话,虚拟人能够有动作和表情交互。
8 向量数据库 向量数据库是专门用来存储和查询向量的数据库,其存储的向量来自于对文本、语音、图像、视频等的向量化。与传统数据库相比,向量数据库可以处理更多非结构化数据(比如图像和音频)。在机器学习和深度学习中,数据通常以向量形式表示。向量数据库是大模型的记忆与灵魂,对于解决大模型的“幻觉”问题至关重要,通过向量数据库对记忆/知识进行存储/权限管控,能够在降低训练成本的同时保障知识问答的准确率
9 提示词工程 Prompt Engineering 是一种人工智能(AI)技术,它通过设计和改进 AI 的 prompt 来提高 AI 的表现。Prompt Engineering 的目标是创建高度有效和可控的 AI 系统,使其能够准确、可靠地执行特定任务。
10 工具链 工具链是指一系列软件。逐个使用这一系列软件可以实现某一个技术目标。工具可以是与 LLM 相关的任何外部操作,例如计算器、搜索引擎、SQL 执行、文档或数据加载器,或具有 API 的任何其他操作。
11 中小模型 主要指 大语言模型 以外的中小模型,如视频、图像、音频、数据挖掘等模型,这些中小模型可以作为大模型的补充,实现多种模态信息的知识推理,为智能体提供更全面的知识推理能力。
12 知识库 知识库,是用于知识管理的一种特殊的数据库,以便于有关领域知识的采集、整理以及提取,是将知识表示为计算机内部形式并能进行知识处理的一种软件。主要分为条目化知识、非结构化知识、图谱知识。相比大模型参数化存储的知识,知识库是形式化存储,能够实现更高效的知识管理与更新,能够作为知识补充,给大模型提供外挂知识,减轻大模型的幻觉现象,为大模型提供行业逻辑和领域知识。可以类比为人脑中的感觉记忆、短期记忆和长期记忆(LLM能接受的上下文非常有限,需要外部存储辅助)
13 工具代理引擎 工具代理是一种自动执行者,可以根据 LLM 输出的每个步骤制定"计划"。可以添加更多功能,创建一个完整的、功能齐全的工具代理,可以为智能体执行操作,例如使用工具、构建提示模板、解析输出。
14 工具执行引擎 作为工具代理引擎的一部分,实现读取代理的输出,运行工具箱中的操作,通过提供输出来完成执行,为智能体提供执行能力。
15 SFT SFT(Supervised Fine-Tuning):监督微调是指在源数据集上预训练一个神经网络模型,即源模型。主流方法:LoRA、P-tuning v2、Freeze。
16 鲁棒性 鲁棒是Robust的音译,也就是健壮和强壮的意思。
17 lora微调 LORA微调是一种针对大型语言模型的参数高效微调方法,旨在优化神经网络中的一些密集层,同时保持预先训练的权重不变。该方法假设模型在任务适配过程中权重的改变量是低秩的,由此提出低秩自适应(LoRA)方法。在原始PLM(Pre-trained Language Model)旁边增加一个旁路,做一个降维再升维的操作,来模拟所谓的intrinsic rank。使用LoRA方法做参数高效微调,大幅降低了对显存的需求
18 batch_size Batch size 指的是在机器学习或深度学习中,每次训练时使用的样本数量。对于不同的数据集和不同的模型,batch size 的选择会有所不同。在训练神经网络时,batch size 是一个重要的超参数,它影响模型的训练速度和效果。一般来说,batch size 越大,训练速度越快,但同时也会占用更多的内存。相反,batch size 过小,可能会导致模型训练效果不稳定,也可能会增加模型训练的次数。Batch size 的选择也需要考虑模型的收敛速度和稳定性。在训练深度神经网络时,如果 batch size 太大,可能会导致模型收敛到局部最小值,而不是全局最小值。而如果 batch size 过小,可能会导致模型收敛速度变慢
19 学习率 学习率(learning rate)是指在机器学习或深度学习训练过程中,用于调整模型参数的步长。学习率的大小会影响模型的训练速度和收敛效果。如果学习率过大,可能会导致模型训练速度过快,但可能会造成模型收敛到局部最小值,而不是全局最小值。如果学习率过小,则可能需要较长的训练时间,但可以提高模型收敛的稳定性和精度
20 训练轮次 训练轮次(epoch)指的是在所有训练数据上迭代一次叫作一个轮次(epoch)。在机器学习和深度学习训练过程中,每进行一轮训练,模型会根据训练数据集中的所有样本更新其参数一次。一般来说,模型训练的轮次越多,模型的效果就会越好。但是,如果训练轮次过多,可能会造成过拟合,即模型在训练数据上表现良好,但在测试数据上表现不佳。所以需要在验证集上观察模型效果来选择合适的训练轮次以避免过拟合
21 模型过拟合 模型过拟合是指模型在训练集上表现很好,但在测试集上却表现很差,即模型复杂度高于实际问题:主要原因:1、实验样本数据太少;2、模型太复杂:为得到高精度的拟合结果,而使模型变得过度复杂,导致模型参数不合理,表现力、预测力变差;3、数据有噪声。防止过度拟合的方法:1、获取更多的数据:我们需要获取更多的数据进行训练,模型的训练数据越多,模型发生过度拟合的可能性就越小。2、 简化模型:如果说我们手中已经获取了所有需的数据量,而模型却仍然过度拟合训练数据集,那可能是模型太过于强大,那么我们可以试试降低模型的复杂度。3、移除特征:能够减低模型复杂度,并且在一定程度上可以避免噪声,使模型更高效。4、使用一些方法:比如正则化、早停、Dropout、交叉验证等来避免模型过度训练
22 模型层数 模型层数是指神经网络中的层数,一般来说,增加模型层数可以增加模型的复杂性和拟合能力,但同时也增加了模型的训练时间和参数量。在训练神经网络时,需要根据实际情况来选择适当的模型层数。一般来说,可以通过实验来选择最优的模型层数。也可以使用模型剪枝等技术来减少模型层数,以降低模型的复杂性和计算资源需求,但可能会降低模型的效果
23 温度值 大模型温度值(temperature parameter)在生成语言模型中起着控制生成文本的随机性和创造性的作用。这个参数调整模型的softmax输出层中预测词的概率分布。当温度值较高时,预测词的概率分布变得更加平均,即很多词被选择的可能性增大,这有利于文本的多样化。这就像在随机过程中引入更多的概率分布,使得模型不那么确定,从而产生更多的创新和探索。相反,当温度值较低时,模型更加确定,预测词的概率分布更加集中在某些词上,这有利于生成更具预测性和确定性的文本

你可能感兴趣的:(人工智能,大模型工程化,基本概念,大模型)