最全大模型术语表,从入门到入土,从此告别小白!

分类 代表性产品
AI对话 ChatGPT: OpenAI开发的通用对话模型、DeepSeek: 深度求索推出的中文大模型、腾讯元宝: 腾讯社交生态集成助手、豆包: 字节跳动轻量化AI助手
AI图像 Midjourney: 艺术创作标杆工具、Stable Diffusion: 开源文生图框架、通义万相: 阿里多模态图像生成
AI视频 Sora: OpenAI文生视频模型、即梦AI: 字节跳动电影级生成工具、可灵AI: 快手短视频生成平台、Pika: 创意动画生成工具
AI编程 Cursor: AI代码编辑器、Trae: 国产低代码工具、Cline: 开源编程助手、通义灵码: 阿里云智能编码
LLM应用开发平台 Coze: 字节跳动Bot开发平台、Dify: 开源LLM工作流工具、n8n: 自动化流程编排平台
Agent开发框架 Spring AI: Java生态集成框架、LangChain4J: Java版LangChain、LangChain: Python多工具链框架
多Agent协作框架 LangGraph: 基于图的智能体编排、MetaGPT: 模拟软件公司协作流程
RAG工具 Ragflow: 可视化知识库构建、FastGPT: 低代码问答系统、LlamaIndex: Python向量检索框架
开源模型社区 Hugging Face: 全球最大模型库、ModelScope: 阿里云中文模型社区
模型部署框架 Ollama: 本地化模型运行器、vLLM: 高通量推理引擎、LMDeploy: 国产硬件优化部署工具
模型微调工具 LLama Factory: 可视化微调平台、Xtuner: 轻量化参数高效微调库

前置概念

函数(Function)

函数是模型中的数学运算单元,如ReLU激活函数f(x)=max(0,x)。它们堆叠构成网络层,决定信息流动方式(如Transformer中的前馈层)。

参数(Parameter)

参数是决定LLM根据输入生成什么输出的数字。LLM的输入和输出之间的关系由这些参数定义。小的LLM可能有大约10亿个参数,而大的LLM可能有超过1000亿个参数。一般来说,参数越多,模型越“聪明”,但同时成本也越高,因为每个参数都对应计算机需要执行的操作。

权重(Weights)

大模型权重是神经网络中决定输入数据如何被处理和转换的参数,通常以矩阵形式存储。它们的作用类似于人类大脑的神经连接强度,直接影响模型的预测能力。

模型(Model)

模型是AI系统中从数据学习规律的数学表示,如线性回归或神经网络。其性能依赖架构设计(如ResNet)和训练策略(如迁移学习)。

大模型(Large Model)

大模型指参数量超亿级的深度学习模型,如GPT-3(175B参数)。其核心优势在于通过海量数据预训练获得泛化能力,可适应多种下游任务。

LLM

大语言模型(LLM, Large Language Model)

大语言模型是通过海量文本训练的 AI 模型,能够理解和生成人类语言。现代 LLM(如 GPT 系列、Claude 等)可以撰写文章、回答问题、编写代码,甚至进行推理,它们是各种 AI 应用的核心引擎,尤其适合需要语言理解和生成的场景。

推理(Inference)

大模型推理是利用训练好的模型对输入数据生成预测结果的过程,属于前向计算(Forward Pass)。

AGI(Artificial General Intelligence)

AGI指具备人类水平通用智能的AI系统,能自主完成任何智力任务。当前大模型(如GPT-4)虽展现部分通用能力,但仍属窄AI范畴。AGI需突破因果推理、跨模态学习等瓶颈。

AIGC(AI-Generated Content)

AIGC是通过AI生成文本、图像、视频等内容的技术。例如,Stable Diffusion生成图像时,模型将文本提示(如“星空下的城堡”)转化为像素排列,其质量依赖训练数据和扩散算法。

提示词(Prompt)

提示词是引导 AI 模型生成特定响应的输入文本。精心设计的提示词能显著提高输出质量,包括明确指令、提供示例、设定格式要求等元素。例如,不同的提示词可以引导同一模型生成学术文章、创意故事或技术分析,是影响 AI 输出的最关键因素之一。

Token

Token是模型处理文本的最小单元,不同模型的token处理稍有区别,约等于一个单词或汉字。例如,“ChatGPT”可能被拆分为“Chat”、“G”、“PT”三个token。模型通过token序列理解输入,其处理效率直接影响生成速度。

上下文(Context)

上下文是大模型处理当前输入时参考的先前信息,通常以对话历史或文本片段的形式存在。模型通过注意力机制捕捉上下文关联,例如在问答中,用户追问“它的优点呢?”时,模型需结合前文讨论的对象(如某款手机)来生成合理回答。

上下文窗口(Context Window)

上下文窗口是LLM能够处理的最大文本量。虽然更多的指令和上下文通常能让LLM表现得更好,但它的处理能力是有限的。对于现代LLM来说,这个上限大约是10万字(相当于一本普通书的长度)。不过,像Gemini 1.5 Pro这样的模型可以处理100万字以上。

幻觉(Hallucination)

指生成式人工智能模型在生成文本或回答问题时,尽管表面上呈现出逻辑性和语法正确的形式,但其输出内容可能包含完全虚构、不准确或与事实不符的信息。AI幻觉的产生通常是由于模型在缺乏相关信息的情况下,通过概率性选择生成内容,而非基于真实世界的知识库或逻辑推理,这使得其输出不仅难以信赖,且可能误导用户。

涌现(Emergence)

涌现指模型在参数量达到阈值时突现的新能力,如GPT-3突然掌握多语言翻译。这种现象源于复杂系统中量变到质变的转换,目前尚无法完全预测。

记忆(Memory)

记忆是 AI 系统保存和使用历史交互信息的能力,使多轮对话保持连贯。有效的记忆机制让 AI 能够理解上下文引用、记住用户偏好、追踪长期目标,从而提供个性化且有连续性的用户体验,避免重复询问已提供的信息。

短期记忆(Short-term Memory)

上下文对话记录,依赖模型的上下文窗口,仅能处理当前会话内的信息。每次对话时,模型将历史对话拼接为一段文本输入,通过注意力机制动态关注相关部分。

长期记忆(Long-term Memory)

通过外部系统(如数据库、向量存储)实现跨会话、跨任务的信息持久化存储。例如通过数据库记录用户偏好、行为历史,支持时间感知检索和动态更新。本质是结构化、可扩展的"外部记忆库",需结合检索增强生成(RAG)等技术调用。

流式结果返回(Streaming Response)

流式结果返回是一种实时响应机制,AI 系统边生成内容边返回给用户,而不是等所有内容生成完毕再一次性展示。这种方式显著改善用户等待体验,特别是对于长回答,用户可以立即看到部分内容并开始阅读,提供更自然的交互感受,类似于人类对话中的即时反馈。

本地模型推理(Local Model Inference)

本地模型推理是在用户自己的设备上运行 AI 模型的过程,而非依赖云服务。这种方式提供更好的隐私保护(数据不离开本地)和更低的延迟(无需网络传输),适合处理敏感数据或需要离线工作的场景,但通常受限于本地设备的计算能力。比如Ollama、vLLM、LMDeploy等工具部署大模型。

私有化部署(Private Deployment)

私有化部署指将AI模型或服务部署在企业自有的服务器或数据中心,而非依赖公共云服务。这种方式提供更高的数据安全性和定制化能力,适用于对数据隐私和合规性要求严格的场景。例如,金融机构可能选择私有化部署核心风控模型,以确保客户数据不外泄。

模型即服务(MaaS, Model-as-a-Service)

模型即服务是一种云服务模式,提供商通过 API 提供预训练模型的访问。用户无需关心模型的训练、部署和维护,只需调用 API 并支付使用费用,大幅降低了 AI 应用的开发门槛和基础设施成本,适合快速验证想法或构建原型。

预定义模型(Predefined Model)

预定义模型是由 AI 厂商训练并提供的现成模型,用户可以直接调用而无需自行训练。这些闭源模型(如 GPT-4、Claude 等)通常经过大规模训练和优化,能力强大且易于使用,适合快速开发应用或缺乏自主训练资源的团队。

预训练模型(Pre-trained Model)

在大规模通用数据(如文本、图像)上预先训练的模型,通过迁移学习适配下游任务。和预定义模型区别:预训练模型已完成权重优化(如ResNet在ImageNet上的参数),预定义模型可能是未训练的架构(如PyTorch提供的Transformer类),需用户从头训练。预训练模型直接用于微调(Fine-tuning),预定义模型可能作为基础架构,用户可选择是否加载预训练权重。

闭源模型(Proprietary Model)

闭源模型由企业严格控制访问权限,如GPT-4。用户仅能通过API调用,无法查看内部机制。优势在于商业可控性,但可能引发“黑箱”疑虑。

开放权重(Open Weights)

开放权重指仅公开模型参数(如.safetensors文件),但不提供训练细节。用户可基于权重微调,但难以复现原始训练过程。例如,Bloom模型开放176B参数权重,但未公开完整数据集

完全开源(Fully Open-Source)

完全开源指公开模型全部代码、权重和训练数据。例如Meta的LLaMA-2,用户可自由修改模型结构或用于商业项目,但需遵守许可协议。开源促进技术透明,但可能增加滥用风险。

思维链(CoT, Chain of Thought)

思维链是一种提示技术,引导大语言模型展示其逐步思考过程,典型模型的代表就是DeepSeek R1。例如,解决数学问题时,模型会先列出已知条件,然后按照推理步骤一步步求解,最后得出结论,整个过程类似人类的思考方式。

思维骨架(BoT, Backbone of Thought)

思维骨架是一种结构化思考框架,如同人类在解决数学题时先列“解题步骤”,为大语言模型提供推理的主干结构。它帮助模型在处理复杂问题时保持清晰的思考路径,类似于论文的提纲或决策树的骨架。Chain-of-Thought是思维骨架的微观实现手段之一。

思维图(GoT, Graph of Thought)

思维图是一种将思考过程表示为网络结构的方法,捕捉概念之间的复杂关系。不同于线性的思维链,思维图可以表达分支、循环和多路径的思考模式,适合处理有多个相互关联因素的复杂问题。

思维树(ToT, Tree of Thought)

思维树是一种探索多个推理路径的思考方法,允许模型从不同角度分析问题。类似于人类的”如果…那么…”思考模式,思维树让模型生成多个可能的思考分支,评估每个分支的可行性,然后选择最优路径继续,特别适合解决需要试错或考虑多种可能性的复杂问题。

LLM参数

温度(Temperature)

温度是控制语言模型输出随机性的参数,通常在 0-1 之间。温度越低(接近 0),模型输出越确定和保守,倾向于高概率词汇,适合事实性回答;温度越高(接近 1),输出越多样和创造性,适合创意写作。例如,天气预报可能使用 0.1 的低温度,而故事创作可能使用 0.8 的高温度。

最大标记数(Max Tokens)

最大标记数控制模型在单次响应中生成的最大字符量。一个标记大约相当于 4 个字符或 3/4 个英文单词。设置合理的最大标记数可以控制回答的长度,避免过于冗长的输出,同时确保完整表达必要信息。例如,一篇简短摘要可能设为 200 标记,而详细报告可能需要 2000 标记。

核采样(TopP, Nucleus Sampling)

核采样是一种文本生成控制方法,只从累积概率达到阈值 P 的最可能词汇中选择下一个词。与固定选择最高概率词或完全随机不同,TopP 在确定性和创造性间取得平衡。例如,TopP=0.9 意味着模型只考虑概率和占 90% 的词汇,忽略低概率选项,既避免了完全可预测的输出,又不会生成过于随机的内容。取值越大,生成的随机性越高;取值越低,生成的确定性越高。

频率惩罚(Frequency Penalty)

频率惩罚是一种文本生成控制参数,通过降低频繁出现词汇的生成概率来增加输出的多样性。值越高,模型越倾向于使用多样化的词汇和表达方式;值为 0 时,模型不会特意避免重复使用相同词汇。

存在惩罚(Presence Penalty)

存在惩罚是防止语言模型重复内容的参数设置。它通过降低已出现词汇的生成概率,鼓励模型探索新的表达方式。参数值越高,模型越不倾向于重复之前生成的内容,有助于避免 AI 回答中常见的循环论证或重复叙述问题。

响应格式(Response Format)

响应格式指定模型输出的结构类型,如纯文本、JSON 或 HTML。设置特定的响应格式可以使 AI 输出更容易被程序处理或集成到其他系统。例如,要求模型以 JSON 格式回答可以确保输出具有一致的结构,便于前端应用直接解析和展示。

微调

微调(Fine-tuning)

在预训练模型基础上,使用任务特定数据(如1k-100k样本)调整参数。分为:对整个预训练模型的所有参数进行微调的全量微调;在已微调的模型基础上,用新数据进一步微调的增量微调;仅微调模型的部分参数(如特定层或模块)的局部微调。目前常说的微调一般指局部微调。

LoRA(Low-Rank Adaptation,低秩适应)

LoRA是一种高效微调大模型的技术,通过冻结原模型参数并添加低秩矩阵(ΔW=BA)来调整模型行为,仅需训练少量参数(如原模型的0.1%),显著降低计算资源需求。

QLoRA(Quantized Low-Rank Adapter,量化低秩适应)

QLoRA是LoRA的量化升级版,将模型权重压缩至4位精度(如NF4类型),结合双重量化和分页优化器技术,进一步减少显存占用,可在消费级GPU(如24GB显存)上微调百亿级模型。和LoRA的区别如下,LoRA:保持全精度计算,适合中等规模模型快速微调;QLoRA:牺牲少量精度(约1-2%),支持超大规模模型单卡微调。

预训练(Pre-training)

基于海量无标注数据(如FineWeb数据集)的自监督学习,通过掩码语言建模(MLM)或自回归预测任务构建通用知识库。例如,GPT系列通过万亿token训练掌握语言统计规律,为下游任务提供先验知识。

模型压缩(Model Compression)

模型压缩是剪枝、量化、蒸馏等技术的统称,旨在降低资源消耗。例如,将ViT模型压缩至10MB以下,使其能在手机端实时运行。

剪枝(Pruning)

剪枝通过移除冗余连接压缩模型,如删除权重接近0的神经元。例如,将BERT参数量减少30%而保持90%准确率,提升部署效率。

量化(Quantization)

量化将模型参数从32位浮点转为8位整数,减少存储和计算开销。例如,GPT-3量化后显存占用降低75%,适合边缘设备。

蒸馏(Distillation)

蒸馏用小模型(学生)模仿大模型(教师)的行为。例如,TinyBERT通过蒸馏BERT的注意力分布,实现10倍加速但保留90%性能。

RAG

检索增强生成(RAG, Retrieval-Augmented Generation)

检索增强生成是结合外部知识检索和语言生成的技术架构。系统首先从知识库检索与用户问题相关的信息,然后将这些信息作为上下文提供给语言模型,生成有依据、准确的回答。RAG 克服了语言模型知识有限和幻觉问题,特别适合需要最新或专业知识的应用场景。

引用与归属(Citation and Attribution)

引用与归属功能让 AI 系统能够清晰标明信息来源,提高响应的可信度和透明度。当系统基于知识库内容生成回答时,可以自动标注引用的文档名称、页码或 URL,让用户了解信息的出处。

召回测试(Retrieval Test)

召回测试是验证知识库检索效果的功能,开发者可以模拟用户查询并评估系统返回结果。这种测试帮助开发者了解系统的检索能力边界,发现并修复潜在问题,如漏检、误检或相关度不佳的情况,是优化 RAG 系统不可或缺的工具。

RAG数据处理

提取、转换、加载(ETL, Extract, Transform, Load)

ETL 是数据处理的经典流程:提取原始数据,转换为适合分析的格式,然后加载到目标系统。在 AI 文档处理中,ETL 可能包括从 PDF 提取文本、清理格式、分割内容、计算嵌入向量,最后加载到向量数据库中,为 RAG 系统做准备。

元数据(Metadata)

元数据是描述数据的数据,提供关于内容的结构化信息,如文档的创建时间、作者、标题、标签、文件格式等属性信息等。这些信息可用于组织、分类和检索内容。通过元数据,系统可以实现更精确的内容管理和检索,例如按时间范围筛选文档、按作者分类或根据文件类型过滤搜索结果。

元数据筛选(Metadata Filtering)

元数据筛选利用文档属性信息(如标题、作者、日期、分类标签)进行内容过滤。例如,用户可以限定只检索特定日期范围内的技术文档,或只查询特定部门的报告,从而在检索前缩小范围,提高查找效率和结果相关性。

RAG文档切分

分段(Chunking)

分段是将长文本拆分成较小内容块的处理技术,使检索系统能更精准地找到相关信息。合理的分段策略既要考虑内容的语义完整性,也要满足语言模型的上下文窗口限制,从而提高检索和生成质量。

通用分段模式(General Chunking Pattern)

通用分段模式是一种简单的文本分割策略,将文档拆分为相互独立的内容块。这种模式适合结构清晰、段落相对独立的文档,如产品说明书或百科条目,每个分段可以独立理解而不严重依赖上下文。

固定大小分块(Fixed-size Chunking)

固定大小分块是一种基础文本分割策略,按预定义的字符数、词数或Token数均匀切分文本。这种模式适合处理格式规整的文档(如日志文件或标准化报告),通过重叠部分缓解语义截断问题,但可能破坏复杂句子的连贯性。

语义分块(Semantic Chunking)

语义分块是一种智能文本分割策略,通过嵌入模型计算相邻段落的余弦相似度,动态合并语义相关的文本单元。这种模式适合处理主题连贯的长文档(如学术论文或技术文档),能保留完整思想但需调整相似度阈值。

递归分块(Recursive Chunking)

递归分块是一种分层文本分割策略,先按段落/章节切分,超长部分继续递归分割为句子或短语。这种模式适合结构复杂且长度不一的文档(如技术手册或法律合同),平衡结构完整性与长度限制,但实现复杂度较高。

文档结构分块(Document Structure-based Chunking)

文档结构分块是一种规则驱动文本分割策略,利用标题、表格、代码块等固有结构定义分块边界。这种模式适合格式规范的文档(如Markdown文件或API文档),需结合递归分块处理超长片段。

LLM智能分块(LLM-based Chunking)

LLM智能分块是一种模型驱动的文本分割策略,通过大语言模型分析语义边界动态划分内容块。这种模式适合处理语义关系复杂的文本(如跨段落论述或专业文献),精度最高但依赖算力成本。

父子分段模式(Parent-Child Chunking)

父子分段模式是一种高级文本分割策略,创建两层级的内容块:父区块保留完整上下文,子区块提供精确匹配点。系统先通过子区块确定相关内容位置,再获取对应父区块以提供完整背景,同时兼顾检索精度和上下文完整性,适合处理复杂文档如研究论文或技术手册。

RAG存储

知识库(Knowledge Base)

知识库是 AI 应用中存储结构化信息的数据库,为模型提供专业知识来源。知识库可以包含各种文档(PDF、Word、网页等),经过处理后供 AI 检索并用于生成准确、有根据的回答,特别适合构建领域专家型应用。

文本嵌入(Text Embedding)

也叫词嵌入,文本嵌入是将文本转换为数值向量的过程,使 AI 系统能够理解和处理语言。这些向量捕捉了词汇和句子的语义特征,使计算机可以测量文本间的相似度、聚类相关内容或检索匹配信息。不同的嵌入模型(如 OpenAI 的 text-embedding-ada-002 或 Cohere 的 embed-multilingual)针对不同语言和应用场景进行了优化。

向量数据库(Vector Database)

向量数据库是专门存储和搜索向量嵌入的数据库系统,是高效语义检索的基础设施。与传统数据库不同,向量数据库针对高维向量相似度搜索进行了优化,能快速从数百万文档中找出语义相近的内容。常见的向量数据库包括 Pinecone、Milvus、Qdrant 等,它们在 RAG 系统、推荐引擎和内容分析中发挥关键作用。

问答模式(Q&A Mode)

问答模式是一种特殊索引策略,为文档内容自动生成问答对,实现”问题到问题”的匹配。当用户提问时,系统会寻找语义相似的预生成问题,然后返回对应答案。这种模式特别适合 FAQ 内容或结构化知识点,能提供更精准的问答体验。

RAG检索

余弦相似度(Cosine Similarity)

余弦相似度通过向量夹角衡量语义相关性,范围在-1到1之间。例如,比较“猫”和“狗”的嵌入向量,若相似度为0.8,说明二者语义接近。常用于检索和聚类任务。

欧式距离(Euclidean Distance)

欧式距离计算向量空间中的直线距离,值越小表示越相似。例如,评估生成文本与参考答案的差异时,距离越小则质量越高。与余弦相似度互补,共同优化模型输出。

知识检索(Knowledge Retrieval)

知识检索是从知识库中找出与用户问题最相关信息的过程,是 RAG 系统的关键环节。有效的知识检索不仅要找到相关内容,还要控制返回的信息量,避免无关内容干扰模型,同时提供足够背景确保回答准确完整。

关键词检索(Keyword Search)

关键词检索是基于精确匹配的搜索方法,查找包含特定词汇的文档。这种方法计算效率高,适合用户明确知道要查找的术语的场景,如产品型号、专有名词或特定命令,但可能会漏掉使用同义词或相关概念表达的内容。

倒排索引(Inverted Index)

倒排索引是搜索引擎的核心数据结构,它记录每个词出现在哪些文档中,搜索引擎Elastic Search就是采用该方法。与传统索引从文档找内容不同,倒排索引从词汇出发找文档,大幅提高全文检索速度。例如,“人工智能”一词的索引项会列出所有包含这个词的文档 ID 和位置。

语义检索(Semantic Search)

语义检索基于理解和匹配文本意义而非简单关键词匹配的检索方法。它利用向量嵌入技术将文本转换为数学表示,然后计算查询与文档的语义相似度。这种方法能够找到表达方式不同但含义相近的内容,理解同义词和上下文关系,甚至支持跨语言检索,特别适合复杂或自然语言形式的查询。

向量检索(Vector Retrieval)

向量检索是基于文本向量嵌入相似度的搜索方法,是语义搜索的技术核心。系统首先将用户查询转换为向量,然后在预先计算的文档向量中查找最相似的内容。这种方法能够捕捉深层语义关系,找到表达不同但意思相近的内容,克服了关键词搜索的局限,特别适合处理自然语言查询和概念性问题。

全文检索(Full-text Search)

全文检索是索引文档中的所有词汇,从而允许用户查询任意词汇,并返回包含这些词汇的文本片段。这种技术是现代搜索引擎的基础,能够扫描整个文档集合,无论内容规模多大,都能快速定位包含特定字词或短语的内容。全文检索通常结合倒排索引等数据结构实现高效查询,适用于各类文档库、知识库和搜索系统。

混合检索(Hybrid Search)

混合检索结合关键词匹配和语义搜索的优势,提供更全面的检索结果。例如,当搜索”苹果营养成分”时,混合检索既能找到包含”苹果”和”营养”关键词的文档,也能找到讨论”水果健康价值”等相关语义的内容,通过权重调整或重排序选出最优结果。

多路召回(Multi-path Retrieval)

多路召回是通过多种检索方法并行获取信息的策略。例如,系统可以同时使用关键词搜索、语义匹配和知识图谱查询,然后合并筛选结果,提高信息获取的覆盖面和准确性,特别适合处理复杂或模糊的用户查询。

TopK

TopK 是控制检索返回结果数量的参数,指定保留相似度最高的前 K 个文本片段。合理设置 TopK 值对 RAG 系统性能至关重要:值太小可能丢失关键信息,值太大则可能引入噪音并增加语言模型处理负担。例如,简单问题可能只需 TopK=3,而复杂问题可能需要 TopK=10 以获取足够背景。

分数阈值(Score Threshold)

分数阈值是过滤检索结果的相似度门槛,只有评分超过设定值的内容才会被返回。设置合理的阈值可以避免无关信息干扰模型生成,提高回答的精确性。例如,如果阈值设为 0.8(满分 1.0),则只有高度相关的内容会被采用,但可能导致信息不全;降低阈值则会纳入更多内容但可能引入噪音。

RAG重排序

重排序(ReRank)

重排序是对初步检索结果进行二次排序的技术,提高最终结果的相关性。例如,系统可能先通过高效算法快速检索出大量候选内容,然后使用更复杂但精准的模型对这些结果重新评分排序,将最相关的内容置前,平衡了检索效率和结果质量。

重排序模型(Rerank Model)

重排序模型专门用于评估检索结果与查询的相关性并重新排序。与初步检索不同,这类模型通常采用更复杂的算法,考虑更多语义因素,能更精确地判断内容与用户意图的匹配度。例如,Cohere Rerank 和 BGE Reranker 等模型可显著提升搜索和推荐系统的结果质量。

Agent

智能代理(Agent)

智能代理是一种自主 AI 系统,能够根据环境信息做出决策并执行任务。智能代理能够结合大语言模型的理解能力与外部工具的交互能力,可以自动完成从简单到复杂的一系列操作,如搜索信息、调用 API 或生成内容。比如Manus。

工具调用(Tool Calling)

工具调用是 AI 系统识别并使用外部功能的能力,极大扩展了模型的能力边界。例如,语言模型本身不能访问实时数据,但通过调用天气 API,它可以提供当前天气信息;通过调用数据库查询工具,它可以获取最新产品库存;通过调用计算器,它可以执行复杂计算,这使 AI 能够解决超出其训练数据范围的问题。

函数调用(Function Calling)

函数调用是大型语言模型的能力,允许模型识别何时需要调用特定函数并提供所需参数。例如,当用户询问天气时,模型可以自动调用天气 API,构造正确的参数格式(城市、日期),然后根据 API 返回结果生成回答。

推理与行动(ReAct, Reasoning and Acting)

推理与行动是一种 AI 代理框架,使模型能够交替进行思考和执行操作。在解决问题过程中,模型先分析当前状态,制定计划,然后调用合适工具(如搜索引擎、计算器),根据工具返回结果进行下一步思考,形成思考-行动-思考的循环,直到解决问题,适合处理需要多步骤和外部工具的复杂任务。

多工具调用(Multi-tool-call)

多工具调用是模型在单次响应中调用多个不同工具的能力。例如,处理”比较北京和上海明天的天气并推荐适合的衣着”这样的请求时,模型可以同时调用两个城市的天气 API,然后基于返回结果给出合理建议,提高处理复杂任务的效率。

MCP(Model Control Protocol)

模型上下文协议,Claude大模型的公司 Anthropic 于2024年11月倡导推出并开源。这是一个将AI连接到第三方数据源的新标准,包括内容存储库、业务工具和开发环境。可以让大模型通过统一的方式调用第三方数据和工具。通过MCP,用户可以轻松地使用各种在线服务和本地工具,实现更丰富的功能。

A2A(Agent-to-Agent)

A2A指多智能体协作,Google推出的开放协议,旨在标准化多Agent系统间的通信,解决不同框架(如LangGraph、CrewAI)Agent协作中的痛点,如多个AI分工完成代码编写(生成、测试、优化)。

WorkFlow

工作流(Workflow)

工作流是一种任务编排方式,将复杂 AI 应用拆分为多个独立节点并按特定顺序执行。在 Dify 等平台中,开发者可以可视化设计工作流,组合多个处理步骤(如用户输入处理、知识检索、多模型协作、条件分支),构建能处理复杂业务逻辑的 AI 应用,使应用开发既灵活又直观。

对话流(Chatflow)

对话流是一种面向对话场景的工作流编排模式,专为需要多步逻辑处理的交互式应用设计。与普通工作流相比,对话流额外支持对话历史记忆、问题理解和上下文管理等功能,使大模型能够在多轮对话中保持连贯性。

智能体工作流(Agentic Workflow)

智能体工作流是一种任务编排方法,工作流中可配置一个或多个Agent节点,允许 AI 系统通过多个步骤自主解决复杂问题。例如,一个智能体工作流可以先理解用户问题,然后查询知识库,接着调用计算工具,最后整合信息生成完整回答,全程无需人工干预。

流式工具调用(Stream-tool-call)

流式工具调用是一种实时处理模式,允许 AI 系统在生成响应的同时调用外部工具,而不必等待完整回答生成后再处理。这种方式大大提高了处理复杂任务的响应速度,让用户体验更加流畅,适合需要多次工具调用的交互场景。

多模态模型

多模态模型(Multimodal Model)

多模态模型能处理多种类型的输入数据,如文本、图像、音频等。这类模型打破了传统 AI 的单一感知限制,可以理解图片内容、分析视频场景、识别声音情绪,为更全面的信息理解创造可能,适用于需要跨媒体理解的复杂应用场景。

视觉能力(Vision)

视觉能力是多模态 LLM 理解和处理图像的功能,允许模型分析用户上传的图片并结合文本生成回答。例如,用户可以上传产品照片询问使用方法,上传菜单照片请求翻译,或上传图表要求分析数据趋势。这种能力大大拓展了 AI 应用场景,使交互更加直观和多样化。

自动语音识别(ASR, Automatic Speech Recognition)

自动语音识别技术将人类语音转换为文本,是语音交互应用的基础。这项技术使用户可以通过说话而非打字与 AI 系统交互,广泛应用于语音助手、会议记录和无障碍服务等场景。

语音转文字(STT, Speech-to-Text)

语音转文字技术将用户的语音输入转换为文本数据。这项技术让用户可以通过说话而非打字与 AI 系统交互,提高了交互的自然性和便捷性,特别适合移动设备、驾驶场景或无障碍应用,是语音助手和实时转录等应用的基础。

文本转语音(TTS, Text-to-Speech)

文本转语音是将书面文本转换为自然语音的技术,使 AI 系统能以语音方式与用户交流。现代 TTS 系统能生成接近人类的自然语音,支持多种语言、音色和情感表达,广泛应用于有声读物、导航系统、语音助手和无障碍服务,为不同场景和用户提供更自然的交互体验。

光学字符识别(OCR,Optical Character Recognition)

是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。

数字人(Digital Human)

数字人是基于大模型的虚拟形象,能自然对话和表情互动。例如,银行客服数字人通过语音合成和情感识别提供拟人化服务。

Dify

领域特定语言(DSL, Domain-Specific Language)

领域特定语言是为特定应用领域设计的编程语言或配置格式。Dify DSL 是一种基于 YAML 格式的应用工程文件标准,用于定义 AI 应用的各项配置,包括模型参数、提示词设计和工作流编排,使非专业开发者也能构建复杂 AI 应用。

反向调用(Reverse Calling)

反向调用是插件与平台交互的双向机制,允许插件主动调用平台功能。在 Dify 中,这意味着第三方插件不仅能被 AI 调用,还能反过来使用 Dify 的核心功能,如触发工作流或调用其他插件,极大增强了系统的扩展性和灵活性。

会话变量(Session Variables)

会话变量是存储多轮对话上下文信息的机制,使 AI 能维持连贯交互。例如,系统可以记住用户的偏好(如”简洁回答”)、身份信息或交互历史状态,避免重复询问,提供个性化体验。在 Dify 中,开发者可以定义和管理这些变量,建立真正记住用户的”有记忆”应用。

IT通用

软件开发工具包(SDK, Software Development Kit)

软件开发工具包是一组用于开发特定平台或服务应用程序的工具集合。在 Dify 中,SDK 提供了各种编程语言的接口库,使开发者能够方便地集成和调用 Dify 的功能,包括对话管理、知识库操作、应用配置等。通过使用 SDK,开发者可以在自己的应用中快速实现 AI 能力,而无需深入了解底层 API 细节。

应用程序编程接口(API, Application Programming Interface)

是一些预先定义的函数,目的是提供应用程序与开发人员基于某软件或硬件得以访问一组例程的能力,而又无需访问源码,或理解内部工作机制的细节。

你可能感兴趣的:(LLM,LLM)