Korbin Luo

大型语言模型，用最少的数学和行话进行解释

本文来自于《Large language models, explained with a minimum of math and jargon》，不嵌入任何笔者的个人理解，只是对原文的总结与记录。

文章作者是Tim Lee和Sean Trott，Tim Lee是一位拥有计算机科学硕士学位的记者，Sean Trott是加州大学圣地亚哥分校的认知科学家。

当ChatGPT于去年秋天推出时，它在科技行业和更大的世界中引发了冲击波，至今天，几乎每个人都听说过LLM，并且有数千万人尝试过它们，但是仍然没有多少人了解它们是如何工作的，大多数人只听说过LLM被训练成“预测下一个单词”，并且它们需要大量的文本来做到这一点，但仅此而已。

而由于LLM的开发方式与传统软件那种由人类程序员提供明确的分步指令不同，ChatGPT建立在数十亿个普通语言单词训练的神经网络上，因此，地球上没有人完全了解LLM的内部工作原理，这需要再过数年或数十年才能被人类完全解析。

本文则试图通过不使用技术术语或高级数学的方式下，令普罗大众对LLM内部的工作原理有一定的理解。

本文将首先解释词向量，然后将深入研究Transformer，最后将解释这些模型是如何训练的。

1 Word vectors 词向量

词向量是LLM用于表示单词的方式，它是一长串数字，如下是表示单词cat的词向量：

LLM使用词向量的原因是：

(1) 假设有一个词空间，通过词向量的数值的远近，用于表示两个或多个词之间是否有相似的含义，例如，在词空间中，最接近猫的词包括狗和宠物等；

(2) 词向量由于由数值构成，因此可以通过词向量的运算来“推理”单词，例如，谷歌研究人员将单词“biggest”的词向量，去掉“big”的词向量，再加上“small”的词向量，最终推理出来的是“smallest”；

词向量真正开始被提出并广而研究，是Google于2013年提出的word2vec项目，谷歌分析了从谷歌新闻收集的数百万份文档，以确定哪些单词往往出现在相似的句子中，随后，一个神经网络被训练来预测哪些单词与其他哪些单词同时出现，学会了在词空间中将相似的单词放在一起。

词向量当然还有其他的计算方式，比如用于类比，谷歌的词向量捕捉到了一些其他的关系：

(1) 瑞士人之于瑞士（Swiss is to Switzerlands），就像柬埔寨人之于柬埔寨（Cambodian is to Cambodia）；

(2) 巴黎之于法国（Paris is to France），就像柏林之于德国（Berlin is to Germany）；

(3) 不道德之于首先（Unethical is to Ethical），就像可能之于不可能（Possibly is to Impossibly）；

(4) Mouse之于Mice（老鼠），就像Dollar之于Dollars（美元）；

(5) 男人之于女人（Man is to Woman），就像国王之于王后（King is to Queen）；

而由于这些向量是根据人类使用单词的方式构建的，因此它们也反射出了人类语言中存在的偏见（Bias），例如，在一些向量模型中，Doctor（医生）减去Man（男人）加上Woman（女人）的结果是Nurse（护士），而减轻这种偏见，也是词向量研究的一个重要领域。

词向量是语言模型中很重要的部分，它们编码了有关单词之间微妙但重要的信息——如果语言模型学习了一些有关于猫的知识，例如它有时会去看宠物，那么小狗或者其他宠物也应该会有类似的动作；如果语言模型对巴黎和法国之间的关系有所了解，那么它也有可能认识到柏林和德国的关系，以及罗马和意大利之间的关系。

2 词义取决于上下文

由于单词通常具有多种含义，因此简单的词向量方案并不总能准确地描述自然语言的事实信息。

例如以下两个句子：

(1) John picks up a magazine.

(2) Susan works for a magazine.

magazine在这两个句子中虽然意义相近，但并不相同，John拿起的是一本杂志，而Susan则是在一家出版社工作。

而bank在以下两个句子中的含义则并不相同：

(1) The bank wired John the money.

(2) The university is on the left bank of the river.

第一句中bank的意思是银行，第二句中的bank则表示河流旁边的土地。

当一个词有两个不相关的含义时，就像bank一样，称为同音异义词（homonym）；当一个词有两个密切相关的含义时，如magazine，称为多义词（polysemy）。
像ChatGPT这样的LLM能够根据该单词出现的上下文，用不同的向量表示同一个单词。例如表示银行的bank和表示河流旁边的bank的词向量是不一样的，表示杂志的magazine和表示杂志社的magazine也是不一样的。

3 将词向量转化为词预测

GPT-3是ChatGPT背后的大语言模型，它由数十层的Transformer组成，每一层都采用一系列向量作为输入（输入文本中的每个单词对应一组向量），并添加了一些信息用于阐明该单词的含义，以更好地预测下一个单词。

下面是一个示例：

Google在2017年的一篇具有里程碑意义的论文中，将LLM的这些具有神经网络架构的层（Layer）命名为Transformer。

示例中的结构是从下往上，最下面一层是部分句子，即“John wants his bank to cash the”，它将被通过word2vec转化为一组向量，作为第一层Transformer的输入。

第一层Transformer通过一定的思考，确认wants和cash两个词是动词，于是在这两个词后添加括号，标注其为动词，转化为向量后传递给下一层的Transformer（当然，这是一种用我们比较能简单理解的方式，实际上Transformer的处理更为复杂）。我们将在第一层Transformer之后添加的这些信息（verb）称为隐藏状态。

第二层Transformer也为这个句子添加了一些上下文：bank是一个财务机构，his是指John的。这时这个句子“John wants his bank to cash the”变成了“John wants(verb) his(John’s) bank(financial institution) to cash(verb) the”，括号中的单词为每一层的Transformer所学习到的内容。

当然，以上只是特意将Transformer的工作内容简化，使我们能够更好理解的一个例子，实际的LLM会包含更多层的Transformer，例如GPT-3包含了96层Transformer。

研究表明，LLM的前几层侧重于理解句子的语法并解决歧义，而后面的层则更偏重于对整个句子的高阶理解。

例如，当LLM“通读”一篇短篇小说时，它似乎会跟踪有关故事人物的各种信息：性别和年龄、与其他人物的关系、过去和现在的位置、个性和目标等等。

研究人员并不能确切地了解LLM是如何跟踪这些信息的，但从逻辑上讲，模型应该是通过修改隐藏状态向量（hidden state vectors）后，一层一层往下传递来实现信息跟踪的。

GPT-3使用了12288个维度的词向量，也就是说，每个词都由12288个数字的列表表示，是Google的word2vec的20倍，我们可以把这些额外的维度看作是一个“暂存空间”，GPT-3可以用它来存储每个词的上下文注释，即隐藏状态向量hidden state vectors，前几层的注释可以被后几层读取和修改，使模型能够逐渐加深对整个段落的理解。

假设我们使用96层的LLM来解释一个1000字的故事时，第60层可能包括John的注释信息，例如“(main character, male, married to Cheryl, cousin of Donald, from Minnesota, currently in Boise, trying to find his missing wallet)”，即“（主要性格、性别、跟Donald的表姐Cheryl结婚了、来自于Minnesota、目前在Boise、试图找到他丢失的钱包）”，而这些信息（甚至更多信息）将被以某种方式编码为一组与John关联的12288个数字的列表，而同样，故事中的其他单词例如Cheryl、Donald、Boise、Wallet等，也有可能有与之相关的12288维度的向量注释与之对应。

这些信息作为hidden state vectors，将一层一层地往后传递，传到第96层后，第96层即可根据这些信息，预测下一个单词的内容。

4 Transformer的内部逻辑

我们来看Transformer内部发生了什么，一般来讲，Transformer通过以下两步来新增或更新每个单词的隐藏状态hidden state：

(1) Attention Step，每个单词“环顾四周”，寻找具有相关上下文并相互共享信息的其他单词；

(2) Feed-Forward Step，每个单词“思考”上一步收集的信息，并尝试预测下一个单词；

LLM使用网状的方式来执行这两个步骤，这有益于LLM充分利用GPU芯片的大规模并行处理能力，且有助于LLM扩展到包含成千上万个单词的段落。

4.1 注意力步骤Attention Step

我们可以把注意力机制视为单词的匹配服务，在匹配服务执行过程中，每个单词都会生成一个查询向量清单，用于描述它所查找的单词的特征，同时会生成一个关键词向量清单用于描述其自身的特征。神经网络通过计算点积的方法，将每个关键词向量与每个查询向量进行比较以找到最匹配的单词，找到匹配项后，它会将信息从生成关键词向量的单词传输到生成查询向量的单词。

以上文中提到的“John wants his bank to cash the”为例，his的查询向量可能是“我在寻找描述男性的名词”，而John的关键词向量可能是“我是描述男性的名词”，于是神经网络经过点积计算后，将生成“我是描述男性的名词”这个关键词向量的单词John，传输到生成“我在寻找描述男性的名词”这个查询向量的单词his，即：

每个注意力层（attention layer）都有几个注意力头（attention heads），这意味着这种信息交换过程在每一层都会并行的发生几次，而每个注意力头的工作不一样：

(1) 一些注意力头可能会将代词与名词匹配；

(2) 一些注意力头可能专注于解决同意异义词的含义；

(3) 一些注意力头可能会将两个词的短语联系在一起，例如“John Biden”；

等等。

注意力头通常都是按顺序操作，一层注意力头操作的的结果成为下一层注意力头的输入，而每一项任务都经常需要几个注意力头的工作。

GPT-3的最大版本有96层，每一层有96个注意力头，因此GPT-3每次预测一个新词时，都会执行9216次注意力操作。

接下来我们来看一下真实环境中，LLM内部是如何工作的。

去年，Redwood Research的研究人员对GPT-2如何预测“When Mary and John went to the store, John gave a drink to”的下一个词进行了研究。

GPT-2预测到下一个单词是Mary，研究人员发现，有三种类型的注意力头促成了这一预测：

(1) 他们称之为名称移动头（Name Mover Heads）的三个注意力头将信息从Mary向量复制到最终的输入向量to，GPT-2使用to中的信息来预测下一个单词;

(2) 被称为主语抑制头（Subject Inhibition Heads）的四个注意力头将John进行标记，阻止名称移动头将John的信息复制到to中；

(3) 标记重复头（Duplicate Token Heads）的二个注意力头将第二个John向量标记为第一个John向量的副本，以辅助主语抑制头决策不复制John的信息到to的hidden state中；

简而言之，这九个注意力头使GPT-2能够发现“John gave a drink to John”（John给John喝了一杯）是无意义的，而决策应该是“John gave a drink to Mary”。

虽然Redwood Research的五人团队做了这些研究，并且发表了一篇25页的论文来阐述他们是如何识别和验证这些注意力，但这仍然不足以全面解释为什么GPT-2会决策Mary是下一个单词，例如在另一些句子“when Mary and John went to the restaurant, John gave his key to”中，显然预测Mary是这个句子的下一个词并不怎么合理，更合理的是“the valet”服务员。

4.2 前馈步骤Feed-forward Step

注意力头在词向量之间传递信息之后，是一个前馈网络（Feed-forward network），前馈网络“思考”每个词向量并试图预测下一个词。前馈步骤阶段会单独分析每个单词，且能访问之前由注意力头复制的任何信息，但不会进行任何信息交换。

以下是GPT-3的最大版本中前馈层的结构：

其中绿色和紫色的圆圈是神经元：计算输入加权和的数学函数。

这只是GPT-3前馈层的基本结构，GPT-3前馈层的实际结构，比这要复杂得多，其输出层有12288个神经元（对应于模型的12288维度的词向量），隐藏层有49152个神经元。

因此在最大版本的GPT-3中，前馈层的隐藏层中有49152个神经元，每个神经元有12288个输入（因此有12288个权重参数）。而每个神经元有12288个输出神经元，有49152个输入值（因此有49152个权重参数），这意味着每个前馈层有4915212288+1228848152=12亿个权重参数。而由于有96个前馈层，因此总共有12亿*96=1160亿个参数。

在2020年的一篇论文中，Tel Aviv University大学的研究人员发现，前馈层通过模式匹配来工作——隐藏层中的每个神经元都匹配输入文本中的特定模式。

以下是16层版本的GPT-2中神经元匹配的一些模式：

(1) 第 1 层中的神经元匹配以“substitutes”结尾的单词序列;

(2) 第 6 层中的神经元匹配与军事相关的序列，并以“base”或“bases”结尾；

(3) 第 13 层中的神经元匹配以“下午 3 点到 7 点之间”或“从周五晚上 7：00 到”等时间范围结尾的序列；

(4) 第 16 层中的神经元匹配与电视节目相关的序列，例如“原始的NBC日间版本已存档”或“时间延迟使该集的观众增加了57%”；

正如我们所见，模式在后面几层中变得越来更加抽象，早期的层倾向于匹配特定的单词，而后期的层匹配更广泛的语义类别（如电视节目或时间间隔）的短语。这种匹配当然不是因为前馈层一次性检查了多个单词，而是因为“原始的NBC日间版本已存档”或“时间延迟使该集的观众增加了57%”这些向量已经被加入到“archived”这个词的关键词向量中，在“Television”进行查询时，注意力头将archived的关键词向量复制到了archived向量的隐藏向量中。

当神经元匹配其中一种模式时，它会向词向量添加信息。虽然这些信息并不总是容易解释，但在许多情况下，您可以将其视为对下一个单词的初步预测。

对于前馈层，Brown University的研究员基于24层的GPT-2，对其如何预测“Q: What is the capital of France? A: Paris Q: What is the capital of Poland? A:”进行了进一步研究，研究人员发现，GPT-2的前15层看起来像是在进行随意猜测，而在第16至19层，GPT-2猜测出答案应该是Poland（虽然不对，但更加接近），而在第20层，GPT-2得出结论是Warsaw这个正确答案，并在后续的几层一直保持了这个正确答案。

Brown University的研究员发现，第20个前馈层通过添加一个向量，将国家向量映射到其相应首都的向量，将Ploand转化为Warsaw，这种处理方式称为向量计算（Vector Arithmetic），它能完成类似于将小写单词转换为大写单词、将现在时态转换为过去时态等工作。

因此，注意力头（Attention Heads）从提示中较早的单词中检索信息，而前馈层（Feed-forward Layers）使语言模型能够“记住”提示中没有的信息。

5 如何训练语言模型

许多早期的机器学习算法要求训练样本由人类手工标记。例如，训练数据可能是狗或猫的照片，每张照片都有人工提供的标签（“狗”或“猫”）。人类需要标记数据，这使得创建足够大的数据集来训练强大的模型变得困难且昂贵。

LLM 的一个关键创新是它们不需要明确标记的数据。相反，他们通过尝试预测普通文本段落中的下一个单词来学习。几乎任何书面材料（从维基百科页面到新闻文章再到计算机代码）都适合训练这些模型。

例如，一个 LLM 可能会被输入“我喜欢我的奶油咖啡”，并应该预测“糖”作为下一个单词。一个新初始化的语言模型在这方面将非常糟糕，因为它的每个权重参数（在最强大的 GPT-3 版本中为 1750 亿个）都将从一个基本上是随机数开始。但是，随着模型看到更多的例子（数千亿个单词），这些权重会逐渐调整，以做出越来越好的预测。

我们可以这样类比，假设你要去洗澡，你希望温度恰到好处：不要太热，也不要太冷。您以前从未使用过这个水龙头，因此您将旋钮指向随机方向并感受水温。如果太热，你把它转向一个方向;如果天气太冷，你就把它转向另一个方向。越接近合适的温度，所做的调整就越小。

现在让我们对这个类比做一些改动。首先，假设有 50,257 个水龙头，而不仅仅是一个。每个水龙头对应一个不同的词，如猫或银行。你的目标是让水只从水龙头中流出，与序列中的下一个单词相对应。

其次，水龙头后面有一堆相互连接的管道，这些管道上也有一堆阀门。因此，如果水从错误的水龙头流出，您可以调整水龙头上的旋钮。你派出一群聪明的松鼠向后追踪每根管道，并调整它们沿途发现的每个阀门。

这会变得很复杂，因为同一根管道可能对接了多个水龙头。因此，需要仔细考虑才能弄清楚哪些阀门要拧紧，哪些阀门要松动，以及松动多少。

显然，如果你从字面上理解它，这个例子很快就会变得非常难以理解。建立一个拥有 1750 亿个阀门的管道网络既不现实也没有用。但多亏了摩尔定律，计算机可以而且确实在这种规模下运行。

到目前为止，我们在本文中讨论的LLM的所有部分——前馈层中的神经元和在单词之间移动上下文信息的注意力头——都是作为一个简单的数学函数链（主要是矩阵乘法）实现的，其行为由可调整的权重参数决定。就像我故事中的松鼠松开和拧紧阀门来控制水流一样，训练算法也会增加或减少语言模型的权重参数来控制信息如何流经神经网络。

训练过程分两步进行。首先有一个“前进通道”，打开水，检查它是否从正确的水龙头流出。然后关掉水，有一个“后退通道”，松鼠沿着每根管道奔跑，拧紧和松开阀门。在数字神经网络中，松鼠的角色由一种称为反向传播的算法扮演，该算法在网络中“向后行走”，使用微积分来估计每个权重参数的变化程度。

完成这个过程——对一个示例进行前向传递，然后向后传递以提高网络在该示例上的性能——需要数千亿次数学运算。训练像 GPT-3 这样大的模型需要重复该过程数十亿次——每个训练数据字一次。 OpenAI 估计，训练 GPT-3 需要超过 3000 亿万亿次浮点计算——这相当于数十种高端计算机芯片的数月工作。

6 综述

我们来尝试进行总结：

(1) LLM使用词向量来表示单词，每个单词的词向量都是一长串数字，被存储在向量空间中，并且由于是数值，因此可以通过运算来进行推理，例如通过运算判断某两个单词之间的关系等；

(2) 由于存在同音异义词和多义词，因此虽然是同一个单词，在向量空间中可能存储在不同的位置，而不同单词可能存储在相近位置，单词的具体词义取决于上下文；

(3) LLM由数十层的Transformer组成，第一层Transformer接受用户的输入（被转化为词向量），然后进行词向量运算和处理后，生成的数据（向量）会被存储在隐藏状态中，然后将原始向量和隐藏状态一起作为输入传给第二层Transformer；第二层Transformer接收到第一层的原始向量和隐藏状态后，继续进行处理，更新隐藏状态，然后将原始向量和新的隐藏状态继续传到第三层Transformer，依此类推；每一层都根据上一层输入的原始向量和隐藏状态进行下一个单词的预测，随着隐藏状态的越来越丰富和准确，使得预测结果越来越准确；

(4) 每一层Transformer内部的处理逻辑类似——注意力头（Attention Heads）从提示中较早的单词中检索信息，而前馈层（Feed-forward Layers）使语言模型能够“记住”提示中没有的信息：

1) Attention Step，注意力步骤，寻找具有相关上下文并相互共享信息的其他单词，每个单词都会生成一个查询向量清单，用于描述它所查找的单词的特征，同时会生成一个关键词向量清单用于描述其自身的特征。神经网络通过计算点积的方法，将每个关键词向量与每个查询向量进行比较以找到最匹配的单词，找到匹配项后，它会将信息从生成关键词向量的单词传输到生成查询向量的单词；

2) Feed-forward Step，前馈步骤，注意力步骤传递信息之后，前馈步骤阶段会单独分析每个单词，且能访问之前由注意力头复制的任何信息，但不会进行任何信息交换，每个单词“思考”上一步收集的信息，并尝试预测下一个单词；

(5) LLM的每一层Transformer都有多个注意力头（一般跟Transformer的层数相同），每个注意力头进行的单词匹配工作和机制都不一样，注意力头通常都是按顺序操作，一层注意力头操作的的结果成为下一层注意力头的输入，而每一项任务都经常需要几个注意力头的工作；

(6) 前馈层由一个神经网络构成，也称多层感知器，神经元的数量即权重参数的数量，如上文所述，GPT-3的前馈层有1160亿个参数，每一层前馈层完成不同的工作，使用向量数学进行推理并得出结果；

(7) LLM不需要通过明确标记的数据进行学习，他们通过尝试预测普通文本段落中的下一个单词来学习，随着模型学习到越多的例子，前馈网络中的参数权重会逐步调整，以做出越来越好的预测，规模越大，LLM的能力越强；

7 写在最后

原文地址：https://www.understandingai.org/p/large-language-models-explained-with

对应视频讲解：https://www.youtube.com/watch?v=dIyQl99oxlg

鄙文所述，或有未尽周详之处，所论观点仅供诸君参考，切莫尽信，盖因学识有限，难免挂一漏万，敬请方家不吝指正。

为了在未来的人工智能世界中取得成功，学生们必须学习人类写作的优点睿邸管家
澳大利亚各地的学生在新学年开始使用铅笔、钢笔和键盘学习写字。在工作场所，机器也在学习写作，如此有效，几年之内，它们可能会写得比人类更好。有时它们已经做到了，就像Grammarly这样的应用程序所展示的那样。当然，人类现在的日常写作可能很快就会由具有人工智能(AI)的机器来完成。手机和电子邮件软件常用的预测文本是无数人每天都在使用的一种人工智能写作形式。据AI行业研究机构称，到2022年，人工智能及
Qwen3 大模型实战：使用 vLLM 部署与函数调用（Function Call）全攻略曦紫沐大模型大模型部署 Qwen3 vLLM 函数调用
文章摘要本文将带你从零开始，深入掌握如何使用Qwen3-8B大语言模型，结合vLLM进行高性能部署，并通过函数调用（FunctionCall）实现模型与外部工具的智能联动。我们将详细讲解部署命令、调用方式、代码示例及实际应用场景，帮助你快速构建基于Qwen3的智能应用。一、Qwen3简介与部署环境准备Qwen3是通义千问系列的最新一代大语言模型，具备强大的自然语言理解和生成能力，尤其在函数调用、工
人工智能应用研究快讯 2021-11-30 峰谷皆平
[HTML]ArtificialIntelligenceforSkinCancerDetection:ScopingReviewATakiddin,JSchneider,YYang,AAbd-Alrazaq...JournalofMedicalInternet...,2021ABSTACT:Background:Skincanceristhemostcommoncancertypeaffectin
从振动信号到精准预警：AI 如何重塑工业设备健康管理？缘华工业智维人工智能计算机视觉边缘计算信息与通信
在智能制造浪潮席卷全球的当下，工业生产正经历着从传统模式向智能化、数字化转型的深刻变革。在这场变革中，AI驱动的振动分析技术犹如一颗璀璨新星，成为工业设备可靠运行的“健康卫士”。它通过在设备关键部位部署振动传感器，如同医生为患者听诊般实时采集设备运行时的振动信号，再借助强大的人工智能算法对这些“工业脉搏”进行深度解析，从而实现对工业设备从故障预警到寿命预测的全周期精准守护。一、AI振动分析：设备状
AI 生成虚拟宠物：24 小时陪你聊天解闷大力出奇迹985 人工智能宠物
本文围绕AI生成虚拟宠物展开，介绍这类依托人工智能技术诞生的虚拟伙伴，能实现24小时不间断陪伴聊天，为人们解闷。文中详细阐述其技术基础，包括自然语言处理、机器学习等；分析多样功能，如个性化互动、情绪回应等；探讨在独居人群、压力大者等不同群体中的应用场景，最后总结其为人们生活带来的积极影响及未来发展潜力，展现AI虚拟宠物在陪伴领域的独特价值。一、AI生成虚拟宠物的诞生背景与技术基石在快节奏的现代社会
基于Python的AI健康助手：开发与部署全攻略 AI算力网络与通信 AI算力网络与通信原理 AI人工智能大数据架构 python 人工智能开发语言 ai
基于Python的AI健康助手：开发与部署全攻略关键词：Python、AI健康助手、机器学习、自然语言处理、Flask、部署、健康管理摘要：本文将详细介绍如何使用Python开发一个AI健康助手，从需求分析、技术选型到核心功能实现，再到最终部署上线的完整过程。我们将使用自然语言处理技术理解用户健康咨询，通过机器学习模型提供个性化建议，并展示如何用Flask框架构建Web应用接口。文章包含大量实际代
GPT-4 在 AIGC 中的微调技巧：让模型更懂你的需求 AIGC应用创新大全 AI人工智能与大数据应用开发 MCP&Agent 云算力网络 AIGC ai
GPT-4在AIGC中的微调技巧：让模型更懂你的需求关键词：GPT-4、AIGC、模型微调、监督学习、指令优化、过拟合预防、个性化生成摘要：AIGC（人工智能生成内容）正在重塑内容创作行业，但通用的GPT-4模型可能无法精准匹配你的垂直需求——比如写电商爆款文案时总“跑题”，或生成技术文档时专业术语不够。本文将用“教小朋友学画画”的通俗类比，从微调的底层逻辑讲到实战技巧，带你掌握让GPT-4“更懂
AIGC内容生成实战：如何用ChatGPT+DALL·E打造高转化内容 AI大模型应用工坊 AI大模型开发实战 AIGC chatgpt ai
AIGC内容生成实战：如何用ChatGPT+DALL·E打造高转化内容关键词：AIGC、ChatGPT、DALL·E、内容生成、高转化营销、多模态协同、提示词工程摘要：随着AIGC（人工智能生成内容）技术的爆发式发展，ChatGPT（文本生成）与DALL·E（图像生成）的组合已成为内容创作领域的“黄金搭档”。本文将深度解析二者的协同原理，结合实战案例演示从需求分析到内容落地的全流程，并揭示提升内容
数据分析领域中AI人工智能的发展前景展望 AI大模型应用工坊 AI大模型开发实战数据分析人工智能数据挖掘 ai
数据分析领域中AI人工智能的发展前景展望关键词：数据分析、人工智能、机器学习、深度学习、数据挖掘、预测分析、自动化摘要：本文深入探讨了人工智能在数据分析领域的发展现状和未来趋势。我们将从核心技术原理出发，分析AI如何改变传统数据分析范式，详细讲解机器学习算法在数据分析中的应用，并通过实际案例展示AI驱动的数据分析解决方案。文章还将探讨行业应用场景、工具生态以及未来发展面临的挑战和机遇，为数据分析师
AI人工智能中的数据挖掘：提升智能决策能力
AI人工智能中的数据挖掘：提升智能决策能力关键词：数据挖掘、人工智能、机器学习、智能决策、数据分析、特征工程、模型优化摘要：本文深入探讨了数据挖掘在人工智能领域中的核心作用，重点分析了如何通过数据挖掘技术提升智能决策能力。文章从基础概念出发，详细介绍了数据挖掘的关键算法、数学模型和实际应用场景，并通过Python代码示例展示了数据挖掘的全流程。最后，文章展望了数据挖掘技术的未来发展趋势和面临的挑战
【三桥君】MCP中台，究竟如何实现多模型、多渠道、多环境的统一管控？如何以MCP为核心设计AI应用架构？三桥君《三桥君 MCP落地方法论》《三桥君 AI大模型落地方法论》#《三桥君 AI产品方法论》人工智能 AI产品经理 MCP API 三桥君系统架构 llama
你好，我是✨三桥君✨本文介绍>>一、引言随着人工智能技术的快速发展，越来越多的企业开始引入大语言模型（LLM）以提升用户体验和运营效率。然而，如何高效、稳定地将这些AI能力落地到生产环境呢？传统的系统架构往往难以应对AI应用的高并发、低延迟和灵活扩展需求，因此，从整体架构角度设计AI应用架构显得尤为重要。本文三桥君将深入探讨以MCP为核心的AI应用架构，并分析多种部署方式的优劣势，为企业在AI落地
深入理解卷积神经网络（CNN）与循环神经网络（RNN） CodeJourney. cnn rnn 人工智能
在当今的人工智能领域，神经网络无疑是最为璀璨的明珠之一。而卷积神经网络（ConvolutionalNeuralNetworks，CNN）和循环神经网络（RecurrentNeuralNetworks，RNN）作为神经网络家族中的重要成员，各自有着独特的架构和强大的功能，广泛应用于众多领域。本文将深入探讨这两种神经网络的原理、特点以及应用场景，为对深度学习感兴趣的读者提供全面的知识讲解。一、卷积神经
今年校招竞争真激烈 12_05
程序员满大街，都要找不到工作了。即使人工智能满大街，我也后悔当初没学机器学习，后悔当初没学Java。C++真难找工作。难道毕了业就失业吗？好担心！
如何运用深度学习打造高效AI人工智能系统 AI智能探索者 AI Agent 智能体开发实战人工智能深度学习 ai
如何运用深度学习打造高效AI人工智能系统关键词：深度学习、AI系统、神经网络、模型优化、实战开发摘要：本文将从深度学习的核心概念出发，结合生活实例和代码实战，系统讲解如何构建高效AI系统。我们会拆解数据准备、模型设计、训练优化、部署落地的全流程，揭秘“数据-模型-训练-推理”的协同机制，并通过具体案例演示从0到1开发AI系统的关键技巧，帮助开发者掌握打造高效AI系统的底层逻辑。背景介绍目的和范围在
非欧空间计算加速：图神经网络与微分几何计算的GPU优化（流形数据的内存布局优化策略）九章云极AladdinEdu 空间计算神经网络人工智能 gpu算力算法 java 开发语言
一、非欧空间计算的革命性意义与核心挑战在三维形状分析、社交网络建模、分子动力学模拟等领域，非欧几里得空间数据（流形数据）的处理正推动人工智能技术向更复杂的几何结构迈进。传统欧式空间优化方法在处理流形数据时面临根本性局限：黎曼度量导致距离计算失效、局部坐标系动态变化引发内存访问模式混乱、曲率变化影响并行计算效率。本文提出基于分块流形存储（BlockedManifoldStorage,BMS）与层次化
ChatGPT还不能写小说吗？刘若愚
最近，ChatGPT大热，据说可以写论文，编故事，好像无所不能。于是，我给它出了个题目：写一篇5万字的科幻小说。人物：刘若愚，化学家；刘子琪，大律师；仔仔，刘子琪的宠物猫；周金凝，医生；刘泽余，大侦探；赵政淇，程序猿；杰夫（Jeff）机器人它给我的回答是：我很抱歉，我是一个AI语言模型，无法写出如此长篇的小说。但我可以为您提供一些写作灵感和指导：确定故事背景和时间线：在科幻小说中，背景和时间线非常
AI心理学四层架构揭秘：语言模型为何“说谎“？ TGITCIC AI-大模型的落地之道语言模型人工智能自然语言处理大模型国产大模型大模型落地
第一章神经层：代码编织的"脑电图"1.1注意力权重的量子跃迁当Claude3.5Haiku处理"达拉斯所在州的首府"这类问题时，其注意力权重图谱呈现出量子跃迁特征。研究团队通过归因图技术捕捉到：在输入"达拉斯"的瞬间，模型内部Texas节点的激活强度达到87.6%，首府概念节点同步飙升至79.3%。这种非线性激活模式与人类大脑的默认模式网络惊人相似。模型层级激活时序决策路径可解释性神经层300ms
响应式编程实践：Spring Boot WebFlux构建高性能非阻塞服务 fanxbl957 Web spring boot 后端 java
博主介绍：Java、Python、js全栈开发“多面手”，精通多种编程语言和技术，痴迷于人工智能领域。秉持着对技术的热爱与执着，持续探索创新，愿在此分享交流和学习，与大家共进步。全栈开发环境搭建运行攻略：多语言一站式指南(环境搭建+运行+调试+发布+保姆级详解)感兴趣的可以先收藏起来，希望帮助更多的人响应式编程实践：SpringBootWebFlux构建高性能非阻塞服务一、引言在当今数字化时代，互
企业级RAG的数据方案选择 - 向量数据库、图数据库和知识图谱南七小僧 AI技术产品经理网站开发人工智能数据库知识图谱人工智能
如何为企业RAG选择合适的数据存储方式摘要:本文讨论了矢量数据库、图数据库和知识图谱在解决信息检索挑战方面的重要性，特别是针对企业规模的检索增强生成（RAG）。看看海外人工智能企业Writer是如何利用知识图谱增强企业级RAG。要点概要：矢量数据库高效存储数据，但缺乏上下文和关联信息。图数据库优先考虑数据点之间的关系，受益于关系结构。知识图谱在语义存储方面表现出色，由于其能够编码丰富的上下文信息，
【人工智能入门必看的最全Python编程实战（1）】 DFCED 人工智能 python 开发语言深度学习找工作就业
--------------------------------------------------------------------------------------------------------------------1.AIGC未来发展前景未完持续…1.1人工智能相关科研重要性拥有一篇人工智能科研论文及专利软著竞赛是保研考研留学深造以及找工作的关键门票！！！拥有一篇人工智能科研论文
2025毫米波雷达技术白皮书：智能汽车与物联网的感知核心
随着人工智能、物联网（IoT）和智能汽车产业的迅猛发展，毫米波雷达技术正成为感知领域的核心驱动力。毫米波雷达凭借其高精度、全天候和强抗干扰能力，广泛应用于智能汽车的自动驾驶、物联网的环境感知以及工业自动化。2025年，毫米波雷达技术在性能、应用场景和市场规模上都达到了一个全新的高度。本白皮书将深入探讨毫米波雷达技术的核心优势、发展趋势及其在智能汽车与物联网中的应用前景，同时推荐各大品牌的领先产品方
从零开始构建深度学习环境：基于Pytorch、CUDA与cuDNN的虚拟环境搭建与实践（适合初学者）荣华富贵8 程序员的知识储备2 程序员的知识储备3 深度学习 pytorch 人工智能
摘要：深度学习正在引领人工智能技术的革新，而对于初学者来说，正确搭建深度学习环境是迈向AI研究与应用的第一步。本文将为读者提供一套详尽的教程，指导如何在本地环境中搭建Pytorch、CUDA与cuDNN，以及如何利用Anaconda和PyCharm进行高效开发。内容涵盖从环境配置、常见错误修正，到基础的深度学习模型构建及训练。我们旨在为深度学习零基础的入门者提供一个全面且易于理解的“保姆级”教程，
BEYOND BINARY REWARDS: TRAINING LMS TOREASON ABOUT THEIR UNCERTAINTY 樱花的浪漫大模型与智能体对抗生成网络与动作识别强化学习人工智能语言模型自然语言处理机器学习深度学习
https://gist.github.com/josherich/8a30dbf3d6ae0cae1048c3331f38fe80https://gist.github.com/josherich/8a30dbf3d6ae0cae1048c3331f38fe801引言与此担忧一致，研究表明，即使最初校准良好的大型语言模型（LLMs）在RL训练后也会变得过度自信（Lengetal.,2
Gradient-Adaptive Policy Optimization:Towards Multi-Objective Alignment of Large Language Models 樱花的浪漫大模型与智能体对抗生成网络与动作识别强化学习语言模型人工智能自然语言处理深度学习机器学习
2025.acl-long.549.pdfhttps://aclanthology.org/2025.acl-long.549.pdf1.概述大型语言模型（LLMs）（Anthropic,2023;OpenAI,2024）已经在广泛的实际应用中展示了显著的能力（Bubecketal.,2023），包括内容创作（Yuanetal.,2022）、编程辅助（Chenetal.,2021;Gaoetal.
人工智能概念之九：深度学习概述
文章目录相关文章一、深度学习的定位：AI时代的基石技术1.1技术生态全景图1.2技术革命的催化剂二、深度学习的双面性：性能优势与技术挑战2.1技术优势全景扫描2.2技术挑战深度剖析三、技术演进时间轴：70年的厚积薄发四、主流框架生态对比五、未来演进方向相关文章人工智能概念之二：人工智能核心概念：网页链接一、深度学习的定位：AI时代的基石技术1.1技术生态全景图深度学习处于人工智能（AI）技术金字塔
Uncovering Bias in Large Vision-Language Models at Scale with Counterfactuals 樱花的浪漫因果推断大模型与智能体人工智能算法机器学习语言模型自然语言处理
UncoveringBiasinLargeVision-LanguageModelsatScalewithCounterfactuals-ACLAnthologyhttps://aclanthology.org/2025.naacl-long.305/1.概述最近，大型视觉-语言模型（LVLMs）因其能够将语言模型（LLMs）的对话能力扩展到多模态领域而受到欢迎。具体来说，LVLMs可以根据文本提
H800核心技术突破与行业应用实战智能计算研究中心其他
内容概要在人工智能技术持续迭代的背景下，H800芯片凭借自主架构优化与算力跃升，成为推动行业场景化落地的关键驱动力。本文将从技术路径、性能突破与行业应用三个维度，系统解析H800如何在高并发计算与低延时响应领域实现底层架构创新。首先聚焦其自主架构优化的核心技术路径，包括动态资源调度算法与异构计算单元的深度协同设计，揭示其在能效比与计算密度上的突破逻辑；进一步结合算力跃升的具体表现，探讨该芯片如何通
智慧建筑：科技引领房地产与建筑业的未来 RedPhoenix45
最新接入DeepSeek-V3模型，点击下载最新版本InsCodeAIIDE智慧建筑：科技引领房地产与建筑业的未来随着科技的飞速发展，人工智能（AI）和智能化工具正以前所未有的速度改变着各行各业。在房地产与建筑领域，这种变革尤为显著。从建筑设计到施工管理，再到物业管理，智能化技术正在重塑行业的每一个环节。本文将探讨如何利用先进的智能化工具提升房地产与建筑行业的效率，并介绍一款革命性的开发工具——它
智慧施工：AI技术赋能建筑安全监测新纪元
开发AI智能应用，就下载InsCodeAIIDE，一键接入DeepSeek-R1满血版大模型！智慧施工：AI技术赋能建筑安全监测新纪元在现代建筑行业中，施工安全始终是核心关注点之一。随着科技的飞速发展，人工智能（AI）和大数据分析逐渐成为提升施工安全的重要工具。本文将探讨如何利用智能化软件和大模型API来构建高效的施工安全监测系统，并介绍一款强大的开发工具——InsCodeAIIDE的应用场景及其
智慧工地系统：建筑行业数字化变革的引领者青云智慧园区 java
在建筑行业积极迈向数字化转型的浪潮中，智慧工地系统凭借“数据驱动、智能管控、协同增效”的核心优势，深度融合物联网、大数据、人工智能等前沿技术，构建起覆盖工程项目全生命周期的精细化管理体系。以下将从系统架构、核心功能模块、应用价值以及未来展望等方面，全方位剖析智慧工地系统如何实现施工全过程的智能化、高效化管理。一、系统架构：打造一体化协同管理平台智慧工地系统采用先进的分层架构设计，以底层的数据采集层
github中多个平台共存 jackyrong github
在个人电脑上，如何分别链接比如oschina,github等库呢，一般教程之列的，默认 ssh链接一个托管的而已，下面讲解如何放两个文件 1）设置用户名和邮件地址 $ git config --global user.name "xx" $ git config --global user.email "[email protected]"
ip地址与整数的相互转换(javascript) alxw4616 JavaScript
//IP转成整型 function ip2int(ip){ var num = 0; ip = ip.split("."); num = Number(ip[0]) * 256 * 256 * 256 + Number(ip[1]) * 256 * 256 + Number(ip[2]) * 256 + Number(ip[3]); n
读书笔记-jquey+数据库+css chengxuyuancsdn html jquery oracle
1、grouping ,group by rollup, GROUP BY GROUPING SETS区别 2、$("#totalTable tbody>tr td:nth-child(" + i + ")").css({"width":tdWidth, "margin":"0px", &q
javaSE javaEE javaME == API下载 Array_06 java
oracle下载各种API文档： http://www.oracle.com/technetwork/java/embedded/javame/embed-me/documentation/javame-embedded-apis-2181154.html JavaSE文档： http://docs.oracle.com/javase/8/docs/api/ JavaEE文档： ht
shiro入门学习 cugfy java Web 框架
声明本文只适合初学者，本人也是刚接触而已，经过一段时间的研究小有收获，特来分享下希望和大家互相交流学习。首先配置我们的web.xml代码如下，固定格式，记死就成 <filter> <filter-name>shiroFilter</filter-name> &nbs
Array添加删除方法 357029540 js
刚才做项目前台删除数组的固定下标值时，删除得不是很完整，所以在网上查了下，发现一个不错的方法，也提供给需要的同学。 //给数组添加删除 Array.prototype.del = function(n){
navigation bar 更改颜色张亚雄 IO
今天郁闷了一下午，就因为objective-c默认语言是英文，我写的中文全是一些乱七八糟的样子，到不是乱码，但是，前两个自字是粗体，后两个字正常体，这可郁闷死我了，问了问大牛，人家告诉我说更改一下字体就好啦，比如改成黑体，哇塞，茅塞顿开。翻书看，发现，书上有介绍怎么更改表格中文字字体的，代码如下
unicode转换成中文 adminjun unicode 编码转换
在Java程序中总会出现\u6b22\u8fce\u63d0\u4ea4\u5fae\u535a\u641c\u7d22\u4f7f\u7528\u53cd\u9988\uff0c\u8bf7\u76f4\u63a5这个的字符，这是unicode编码，使用时有时候不会自动转换成中文就需要自己转换了使用下面的方法转换一下即可。 /** * unicode 转换成中文
一站式 Java Web 框架 firefly aijuans Java Web
Firefly是一个高性能一站式Web框架。涵盖了web开发的主要技术栈。包含Template engine、IOC、MVC framework、HTTP Server、Common tools、Log、Json parser等模块。 firefly-2.0_07修复了模版压缩对javascript单行注释的影响，并新增了自定义错误页面功能。更新日志：增加自定义系统错误页面功能
设计模式——单例模式 ayaoxinchao 设计模式
定义 Java中单例模式定义：“一个类有且仅有一个实例，并且自行实例化向整个系统提供。” 分析从定义中可以看出单例的要点有三个：一是某个类只能有一个实例；二是必须自行创建这个实例；三是必须自行向系统提供这个实例。 &nb
Javascript 多浏览器兼容性问题及解决方案 BigBird2012 JavaScript
不论是网站应用还是学习js,大家很注重ie与firefox等浏览器的兼容性问题，毕竟这两中浏览器是占了绝大多数。一、document.formName.item(”itemName”) 问题问题说明：IE下，可以使用 document.formName.item(”itemName”) 或 document.formName.elements ["elementName&quo
JUnit-4.11使用报java.lang.NoClassDefFoundError: org/hamcrest/SelfDescribing错误 bijian1013 junit4.11 单元测试
下载了最新的JUnit版本，是4.11，结果尝试使用发现总是报java.lang.NoClassDefFoundError: org/hamcrest/SelfDescribing这样的错误，上网查了一下，一般的解决方案是，换一个低一点的版本就好了。还有人说，是缺少hamcrest的包。去官网看了一下，如下发现：
[Zookeeper学习笔记之二]Zookeeper部署脚本 bit1129 zookeeper
Zookeeper伪分布式安装脚本(此脚本在一台机器上创建Zookeeper三个进程，即创建具有三个节点的Zookeeper集群。这个脚本和zookeeper的tar包放在同一个目录下，脚本中指定的名字是zookeeper的3.4.6版本，需要根据实际情况修改)： #!/bin/bash #!!!Change the name!!! #The zookeepe
【Spark八十】Spark RDD API二 bit1129 spark
coGroup package spark.examples.rddapi import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.SparkContext._ object CoGroupTest_05 { def main(args: Array[String]) { v
Linux中编译apache服务器modules文件夹缺少模块(.so)的问题 ronin47 modules
在modules目录中只有httpd.exp，那些so文件呢？我尝试在fedora core 3中安装apache 2. 当我解压了apache 2.0.54后使用configure工具并且加入了 --enable-so 或者 --enable-modules=so (两个我都试过了) 去make并且make install了。我希望在/apache2/modules/目录里有各种模块，
Java基础-克隆 BrokenDreams java基础
Java中怎么拷贝一个对象呢？可以通过调用这个对象类型的构造器构造一个新对象，然后将要拷贝对象的属性设置到新对象里面。Java中也有另一种不通过构造器来拷贝对象的方式，这种方式称为克隆。 Java提供了java.lang.
读《研磨设计模式》-代码笔记-适配器模式-Adapter bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 适配器模式解决的主要问题是，现有的方法接口与客户要求的方法接口不一致 * 可以这样想，我们要写这样一个类（Adapter）: * 1.这个类要符合客户的要求 ---> 那显然要
HDR图像PS教程集锦&心得 cherishLC PS
HDR是指高动态范围的图像，主要原理为提高图像的局部对比度。软件有photomatix和nik hdr efex。一、教程叶明在知乎上的回答： http://www.zhihu.com/question/27418267/answer/37317792 大意是修完后直方图最好是等值直方图，方法是HDR软件调一遍，再结合不透明度和蒙版细调。二、心得 1、去除阴影部分的
maven-3.3.3 mvn archetype 列表 crabdave ArcheType
maven-3.3.3 mvn archetype 列表可以参考最新的：http://repo1.maven.org/maven2/archetype-catalog.xml [INFO] Scanning for projects... [INFO]
linux shell 中文件编码查看及转换方法 daizj shell 中文乱码 vim 文件编码
一、查看文件编码。在打开文件的时候输入:set fileencoding 即可显示文件编码格式。二、文件编码转换 1、在Vim中直接进行转换文件编码,比如将一个文件转换成utf-8格式 &
MySQL--binlog日志恢复数据 dcj3sjt126com binlog
恢复数据的重要命令如下 mysql> flush logs; 默认的日志是mysql-bin.000001，现在刷新了重新开启一个就多了一个mysql-bin.000002
数据库中数据表数据迁移方法 dcj3sjt126com sql
刚开始想想好像挺麻烦的，后来找到一种方法了，就SQL中的 INSERT 语句，不过内容是现从另外的表中查出来的，其实就是 MySQL中INSERT INTO SELECT的使用下面看看如何使用语法：MySQL中INSERT INTO SELECT的使用 1. 语法介绍有三张表a、b、c，现在需要从表b
Java反转字符串 dyy_gusi java 反转字符串
前几天看见一篇文章，说使用Java能用几种方式反转一个字符串。首先要明白什么叫反转字符串，就是将一个字符串到过来啦，比如"倒过来念的是小狗"反转过来就是”狗小是的念来过倒“。接下来就把自己能想到的所有方式记录下来了。 1、第一个念头就是直接使用String类的反转方法，对不起，这样是不行的，因为Stri
UI设计中我们为什么需要设计动效 gcq511120594 UI linux
随着国际大品牌苹果和谷歌的引领，最近越来越多的国内公司开始关注动效设计了，越来越多的团队已经意识到动效在产品用户体验中的重要性了，更多的UI设计师们也开始投身动效设计领域。但是说到底，我们到底为什么需要动效设计？或者说我们到底需要什么样的动效？做动效设计也有段时间了，于是尝试用一些案例，从产品本身出发来说说我所思考的动效设计。一、加强体验舒适度嗯，就是让用户更加爽更加爽的用
JBOSS服务部署端口冲突问题 HogwartsRow java 应用服务器 jboss server EJB3
服务端口冲突问题的解决方法，一般修改如下三个文件中的部分端口就可以了。 1、jboss5/server/default/conf/bindingservice.beans/META-INF/bindings-jboss-beans.xml 2、./server/default/deploy/jbossweb.sar/server.xml 3、.
第三章 Redis/SSDB+Twemproxy安装与使用 jinnianshilongnian ssdb reids twemproxy
目前对于互联网公司不使用Redis的很少，Redis不仅仅可以作为key-value缓存，而且提供了丰富的数据结果如set、list、map等，可以实现很多复杂的功能；但是Redis本身主要用作内存缓存，不适合做持久化存储，因此目前有如SSDB、ARDB等，还有如京东的JIMDB，它们都支持Redis协议，可以支持Redis客户端直接访问；而这些持久化存储大多数使用了如LevelDB、RocksD
ZooKeeper原理及使用 liyonghui160com
ZooKeeper是Hadoop Ecosystem中非常重要的组件，它的主要功能是为分布式系统提供一致性协调(Coordination)服务，与之对应的Google的类似服务叫Chubby。今天这篇文章分为三个部分来介绍ZooKeeper，第一部分介绍ZooKeeper的基本原理，第二部分介绍ZooKeeper
程序员解决问题的60个策略 pda158 框架工作单元测试
根本的指导方针 1. 首先写代码的时候最好不要有缺陷。最好的修复方法就是让 bug 胎死腹中。良好的单元测试强制数据库约束使用输入验证框架避免未实现的“else”条件在应用到主程序之前知道如何在孤立的情况下使用日志 2. print 语句。往往额外输出个一两行将有助于隔离问题。 3. 切换至详细的日志记录。详细的日
Create the Google Play Account sillycat Google
Create the Google Play Account Having a Google account, pay 25$, then you get your google developer account. References: http://developer.android.com/distribute/googleplay/start.html https://p
JSP三大指令 vikingwei jsp
JSP三大指令一个jsp页面中，可以有0~N个指令的定义！ 1. page --> 最复杂：<%@page language="java" info="xxx"...%> * pageEncoding和contentType： > pageEncoding：它