深度人工智能

大模型基础架构的变革：剖析Transformer的挑战者（中）

上一篇文章中，我们介绍了RetNet、RWKV、Mamba等有可能会替代Transformer的模型架构，这一篇文章我们将要介绍另外三个有可能会替代Transformer的模型架构，它们分别是UniRepLKNet、StripedHyena、PanGu-π，想了解之前的内容，请前往《大模型基础架构的变革：剖析Transformer的挑战者（上）》一文查阅。

四、UniRepLKNet（Universal Perception Large-Kernel ConvNet）

UniRepLKNet是由腾讯和香港中文大学联合发布的一种基于大核卷积神经网络（CNN）的大模型基础架构。UniRepLKNet采用大核CNN，可以处理多种模态的数据，如图像、音频、时序预测等。

UniRepLKNet提出了四条指导原则，用于设计大核CNN架构，同时采用硬件感知的并行算法，成功实现了在多种模态上的最先进性能，并在超大数据的时序预测任务中展现了卓越表现。这一模型架构的强大之处在于有效地利用了大核CNN的优点，创新性地应对了感受野、特征抽象和深度模型表示能力等关键问题。

大核卷积的独特优势在于不依赖深度堆叠即可获得大感受野，避免了深度增加带来的边际递减问题。这对于卷积模型而言具有重要意义，因为传统的卷积神经网络在不断增加深度时，有效感受野的效用呈递减趋势。UniRepLKNet通过对感受野和层数关系的深入理解，成功规避了这一问题，并提出了相应的架构设计原则。

有效感受野的概念成为UniRepLKNet设计的基石。理论分析表明，一个模型的有效感受野与卷积核大小乘以层数的平方根成正比。通过充分考虑这一关系，UniRepLKNet设计的大核CNN架构在层数增加的同时，更有效地扩展了感受野，为模型提供更全面的空间信息，从而取得更为显著的性能提升。

此外，UniRepLKNet对特征抽象的层次进行了深入研究。除了关注模型能够感知的空间范围外，特征抽象层次的高低也在空间模式的理解中发挥着关键作用。UniRepLKNet的架构设计不仅注重提高感受野，还着眼于模型对抽象层次的理解，通过逐层提取空间模式实现了特征的高层次抽象，使得模型更能理解和表达复杂的视觉信息。

深度模型的一般表示能力也是UniRepLKNet成功的关键因素。通过增加可训练参数和引入非线性激活函数，更深、更多的参数模型能够学到更复杂的函数表达，提高整体的表征能力。UniRepLKNet的设计原则充分考虑了这一点，使得其模型架构在表达复杂关系和特征时具有更强大的能力。

UniRepLKNet通过对大核CNN架构设计的深刻思考，成功提出了四项指导原则，使其在感受野、特征抽象和深度表示等方面都达到了最先进水平，成为一种强大而高效的模型架构。

在传统的卷积模型设计中，一般是使用3*3的小卷积核进行大量的堆叠来实现增加感受野的方式，比如想要得到5*5的感受野效果，可以使用2个3*3的卷积核来替代。但是在前文中已经说过，在最新的研究中发现，直接通过3*3的卷积和堆叠模型层带来的名义上的感受野，在实际效用上确实随着模型层的加深而边际递减的。

此外卷积层多了，特征抽象层次当然是够了，但到底具体要多高的抽象层次算够却无人知晓。因为模型的抽象层次跟感受野是紧密耦合的，没法单独调整。模型太深还会导致卷积层占用的参数和运算量过大，在模型大小的限制下，很难再进一步提高其一般的表征能力了。

那么是否意味着直接在传统的卷积模型设计中加入大卷积核就可以了呢？这看似是一个不错的想法，但实际上直接这么做会导致一系列的问题：

l深层模型设计中，浅层模型的感受野可能存在过大的问题。这并非仅仅是算力的浪费，对于一些下游任务的框架（例如语义分割的UperNet），在backbone的低层特征过早地获取过大的感受野可能会导致负面效果。通常来说，低层特征应该是局部特征，UperNet需要将其与高层特征组合以获取更全局的信息。然而，如果低层感受野过大，这些低层特征就变成了全局特征，可能影响到任务的准确性和性能。

l在深层网络中直接使用过大的卷积核可能浪费计算资源，降低训练效率。在感受野已经足够的情况下，将较低抽象层次的特征转化为较高抽象层次的特征是一种相对简单的任务。明明使用一个depthwise3x3卷积就足以胜任，却不必要地采用一个尺寸为31x31的卷积。这种冗余操作不仅浪费计算资源，还可能引入不必要的复杂性，不利于模型的训练和推理效率。

l使用了过大卷积核，让模型提早获得足够感受野，不利于模型的表征能力。尽管某些模型可能仅使用少数层就实现了大感受野，但如果仅停留在这样的深度（例如RepLKNet只使用了24个超大卷积层和24个FNN结构），模型的表征能力可能不足。深度模型的表征能力主要来源于更多的可训练参数和非线性激活函数，因此在设计模型时需要综合考虑深度、层数以及参数数量，以确保模型能够充分学习并表达复杂的特征和关系。

那么如何巧妙的将大卷积核融入模型的设计当中呢？在设计大卷积核CNN架构时，应当遵循一系列原则，以充分发挥大卷积核的优势。具体的策略是将感受野、特征抽象和模型深度这三个要素解耦，根据需要选择相应的结构来实现所需效果。正是大卷积核的本质优势，为实现这种解耦提供了保证。

首先，为了保证大感受野，应该采用少量的大卷积核。通过这种方式，能够在不过度增加模型深度的情况下，有效扩展模型对空间信息的感知范围。这不仅有助于提高模型的整体性能，还能避免在感受野足够时过度增加计算复杂度的问题。

其次，为了提高特征抽象的层次，还要使用诸如depthwise3x3等小卷积的结构。这种选择允许模型在局部区域内更有效地捕捉特征，从而提高了模型对不同层次抽象的能力。通过在网络中灵活运用这些小卷积结构，可以在保持模型高效性的同时，进一步丰富模型对输入数据的抽象表达。

最后，为了增强模型的一般表示能力，还需要引入了一些高效的结构，如SEBlock和Bottleneckstructure。这些结构的使用有助于提高模型的深度，使其能够更好地拟合复杂函数，从而更全面地学习输入数据的复杂特征和关系。通过精心设计和整合这些高效结构，能够在不失模型效率的前提下，提升模型的整体表现。

综合而言，对于大卷积核的设计需要通过解耦感受野、特征抽象和模型深度，并灵活运用大卷积核的优势来完成既高效又强大的大卷积核CNN架构。这种设计原则不仅符合实际应用需求，还使得模型能够在各个方面都取得卓越的性能。

综合以上的因素，对于CNN中大卷积核的设计，应遵守四条指导原则：

l局部结构设计规则：采用一些高效结构如SE或bottleneck来增加深度。这种策略有助于提高模型的表达能力，通过引入这些专门设计的结构，可以在保持计算效率的同时，使模型更好地学习和表示输入数据的复杂特征。

l结构重参数化设计：在模型设计过程中可以使用膨胀卷积来捕捉稀疏特征。论文中提出了一个名为DilatedReparamBlock的子模块，其中除了大核卷积外，还采用了并行的膨胀卷积。通过结构重参数化的思想，整个block可以等价转换为一个大核卷积。这是因为小kernel与膨胀卷积的组合在等效性上等同于大kernel与非膨胀卷积的组合。这种设计使得模型能够更有效地捕捉到空间中分布稀疏的特征，从而提高了模型对复杂模式的感知能力。

l关于kernelsize的设计：根据下游任务和采用的具体框架来选择合适的kernelsize。如前文提到的，对于语义分割框架UperNet而言，低层feature过早地获得过大的感受野可能带来负面效果。然而，并非因此认为大kernel会降低模型的表达能力或最终feature的质量。RepLKNet的“kernelsize加大至少不会变差”的结论虽然被修正，但对于本文所涉及的任务而言，13x13的kernelsize已经足够。

l关于scalinglaw：即随着模型尺度变化而变化的一些规律。对于已经使用了许多大kernel的小模型，当增加模型深度时，应该考虑使用depthwise3x3的block。这种操作虽然不再增加大kernel，因为感受野已经足够大，但通过使用高效的3x3操作仍然可以提高特征的抽象层次。这种策略在维持计算效率的同时，保证了模型对输入数据更高层次的理解和表达。

五、StripedHyena（这是一只会手术的斑鬣狗）

StripedHyena是由TogetherAI发布的一种新型人工智能模型，StripedHyena采用了一种独特的混合结构，将门控卷积和注意力结合成了Hyena运算符。由多头、分组查询注意力和排列在Hyena块中的门控卷积组成。与传统的仅包含解码器的Transformer不同，StripedHyena通过将卷积表示为状态空间模型（SSM）或截断滤波器，在Hyena块中进行常数内存解码。这种结构使得StripedHyena在训练、微调和生成长序列过程中具有更高的处理效率，更快的速度和更高的内存效率。

在短序列任务中，包括OpenLLM排行榜任务，StripedHyena在性能上超越了Llama-27B、Yi7B以及最强大的Transformer替代品，如RWKV14B。StripedHyena能够处理长序列，这使得它在处理长提示的各种基准测试中表现出色。StripedHyena的设计优化了计算效率，使得它在训练期间能够进行体系结构修改。

深度学习的最新进展很大程度上依赖于大型Transformer的使用，因为它们具有大规模学习的能力。但是Transformer的核心构建块，即注意算子，在序列长度上表现出二次代价，限制了上下文可访问的数量。现有的基于低秩和稀疏逼近的次二次方法需要与密集关注层相结合来匹配Transformer，这表明在能力上存在差距。

现有基于低秩和稀疏逼近的次二次方法需要与稠密的注意层相结合才能匹配Transformer，也就是说存在表达能力上的差距。换句话说，在语言处理中，注意力机制只利用了其二次方能力的一小部分。因此，关键问题是：是否存在一个次二次算子，能够在大规模训练时与注意力机制的性能匹敌？

来自斯坦福大学和蒙特利尔大学（Mila和蒙特利尔大学）的研究人员提出的Hyena，作为注意力的次二次替代品。在对数千到数十万个token的序列进行召回和推理任务时，Hyena比依赖于状态空间和其他隐式和显式方法的运算符提高了50多个点的准确性，与基于注意力的模型相匹配。

研究人员为标准数据集（WikiText103和ThePile）上的语言建模设计了一种新的免密集注意力架构，达到了Transformer的质量。在序列长度为2k时，所需的训练计算减少了20%。在序列长度为8k和64k时，Hyena的算子速度分别是高度优化注意力的两倍和100倍。

通过对高效次二次原语进行组合，如元素乘法（门控）和长卷积（即滤波器大小与输入一样长的卷积），研究人员从实验结果中得到了积极的答案。这表明Hyena在大规模语言处理任务中作为次二次注意力的替代方案具有有效性和潜力。

根据最新的机制可解释性研究，在专注于召回和归纳方面，研究人员提出了一系列有针对性的推理任务，以深入挖掘注意力机制与其性能相关的三个关键特性，并评估其与现有次二次元方法之间的质量差距：

l数据控制（Datacontrol）：注意力机制实现了一种富有表现力的数据控制线性算子，能够在单个块中对整个线性函数族进行编码。这表示注意力机制具备在数据流中进行灵活操作的能力，使其在处理不同输入时能够更加精细地控制信息流动。

l次线性参数缩放（Sublinearparameterscaling）：通过将注意力层的参数数量与序列长度解耦，Transformers得以在注意力层之间更加自由地分配参数，如前馈神经网络（FNN）。这种灵活性使得模型能够根据任务需求有效地调整参数规模，提高性能并减少冗余，为更大规模的序列处理提供了更好的适应性。

l无限制的上下文（Unrestrictedcontext）：注意力机制具备不受限制的上下文，能够近似任意两个输入之间的依赖关系，而不受任何限制，如局部性。这意味着在给定输入的情况下，模型能够自由地捕捉输入之间的关联，提供更全面的上下文理解。需要注意的是，这种特性在自回归模型等使用掩码的情况下可能受到一些限制，但在大多数情况下表现出卓越的灵活性。

这些特性的深入研究有助于揭示注意力机制的内在机制，同时评估其在数据控制、参数缩放和上下文方面相对于次二次元方法的质量。这不仅对机制的改进提供了指导，也为深度学习模型的设计和基于上述三个发现，研究人员提出了一种层次结构，即Hyena，由两个高效的二次基元递归定义的算子组成。递归的指定深度可控制算子的大小，短递归时，现有模型可作为特例。

通过将Hyena递归映射到矩阵形式，研究人员发现其等价于数据控制矩阵的分解，即entries为输入函数的矩阵。此外，他们展示了如何利用快速卷积算法，高效评估Hyena算子而不具体化全矩阵。

经验上看，Hyena算子能够显著缩小与大规模注意力的质量差距，以更少的计算成本实现相似的困惑度和下游性能，无需混合注意力。

设计Hyena的初衷是解决「标准稠密注意力」和「次二次运算符」之间的质量差距，并通过与大规模语言建模性能相关的推理任务确定这一差距。研究人员扩展了基本的机械可解释性基准，增加任务复杂度，研究了长卷积的最佳参数化。

在具有数十万词条的挑战性设置中，隐式参数化方案提高了50%以上的准确率。此外，研究人员验证了Hyena在大规模图像识别中的通用性，并在视觉Transformer（ViT）中替代了注意力。在图像分类中，Hyena的准确率可以与注意力相媲美。

对于长序列上的效率基准测试显示，在长度为8192的序列上，Hyena的速度是稠密自注意力的5倍，是高度优化的FlashAttention的2倍；在长度为64k的序列上，速度是FlashAttention的100倍。这些结果证明了Hyena在不同应用场景中的性能卓越，为注意力机制的改进和深度学习模型的设计提供了有力支持。优化提供了有益的洞察。

六、PanGu-π

Panguπ是华为诺亚方舟实验室和北京大学等机构的研究者提出的网络架构，主要是为了尝试构建更高效的大模型架构，它针对Transformer的特征坍塌问题和非线性关系进行了优化。在Transformer更深层中，特征的秩显著降低，导致所有token之间的相似性增加，这极大地降低了LLM的生成质量和多样性。

非线性对Transformer模型的能力有重大影响。增强非线性可以有效地缓解特征坍塌的问题，并提高Transformer模型的表达能力。PanGuπ在前馈网络（FNN）中采用了级数激活函数，并且在多头自注意力（MSA）中集成了增强型快捷连接，这有效地为Transformer架构引入了更多的非线性。并增广Shortcut（Augmented Shortcut）来缓解特征坍塌的问题，提高大语言模型的表达能力。

Panguπ作为一种全新的LLM架构，专门设计用于解决特征坍塌问题。通过在FNN（Feedforward Neural Network）和MSA（Multi-Head Self Attention）模块中引入更多的非线性元素，值得关注的是Panguπ架构虽然从两个关键方面增强了模型的非线性表达，但是却不会显著增加模型的复杂性。

首先，在FNN中，作者采用了一种基于级数的激活函数，该函数包含多个可学习的仿射变换。这一创新不仅有效地提高了整个网络的非线性，而且计算量相对较小，使得模型在处理复杂任务时能够更加高效。

其次，为了防止特征秩的坍塌，作者对每个MSA模块的主分支和增强型短路连接（Augmented Shortcut）进行了并行处理。这一策略有助于维持特征的多样性，提高模型的稳定性。为了保持模型的高效性，作者还对增强型短路操作进行了精心优化，使其更适合硬件实现。通过这两项创新操作的叠加，模型实现了显著的非线性补偿，而不增加额外的参数规模。

Panguπ架构包括两个主要版本，分别是Panguπ-7B和Panguπ-1B，两者在模型规模上存在差异。通过在大规模语料库上进行训练，Panguπ大模型展现了卓越的通用语言能力。在各种自然语言处理任务上的大量实验证明，相较于之前的大模型，Panguπ在准确性和效率方面均表现更为出色。

除了基础能力外，作者将Panguπ-7B部署在金融和法律领域，形成了一个专门的LLM，命名为云山大模型。在实际商业应用中，云山大模型展现出卓越的性能，特别是在金融和法律基准的广泛评估中，它超越了其他相似规模的先进大模型。这表明Panguπ架构不仅在通用语言能力上取得了成功，而且在高价值领域的实际应用中也具备了显著的优势。

为了进一步证实Panguπ架构的特征有效性，研究者进行了丰富的可视化实验，首先对各层特征的有效维度进行了深入分析。有效维度作为一个基于主成分方差的分析指标，反映了实现预设总方差（0.8）所需的特征维度数。Panguπ架构在各层中展现了一致较高的有效维度数，相对于没有非线性增强的结构，这验证了架构设计的出色性能。

进一步探索各层特征的多样性，研究者进行了可视化实验。通过主成分分析将来自同一token在不同上下文下的特征降维，呈现出在三维空间中明显的聚类现象。Panguπ模型展示了更为显著的多样性，而随着层数的增加，来自同一token的特征逐渐形成了更为高维度且丰富的聚类群，充分彰显了对上下文语义的深刻理解与融合。

与此同时，研究者在基于LAMBDA数据集的续写任务中，对各个模型的输入显著性进行了详细分析。在实验中，通过统计最终输出结果在每个特征维度上的梯度绝对值，反映了各token对最终结果的影响程度。以一个例子来看，在续写任务中，模型被要求输出前文提到的人名"chestor"，Panguπ模型相较于基线模型更为准确地捕捉到了上文的有效信息，最终成功输出了正确的结果。这个例子更加强调了Panguπ架构在处理语境相关任务时的卓越性能。

这些可视化实验结果展示了在不同模型架构下，模型各层的有效特征和隐特征的可视化呈现。进一步强调了Panguπ架构在提高特征的表达效能方面所取得的显著进展。

以上的UniRepLKNet、StripedHyena、PanGu-π是有可能会在未来替代Transformer的模型架构，下一篇文章我们将继续剖析其它有可能会替代Transformer的模型架构。

MotionLCM 部署优化踩坑解决bug AI算法网奇 aigc与数字人深度学习宝典文生motion
目录依赖项windowstorchok：渲染黑白图问题解决：humanml3d：sentence-t5-large下载数据：报错：Nomodulenamed'sentence_transformers'继续报错：fromtransformers.integrationsimportCodeCarbonCallback解决方法：推理相关转mesh：module‘matplotlib.cm‘hasno
互信息：理论框架、跨学科应用与前沿进展大千AI助手人工智能 Python #OTHER 人工智能深度学习算法互信息香农通信随机变量
1.起源与核心定义互信息（MutualInformation,MI）由克劳德·香农（ClaudeShannon）在1948年开创性论文《AMathematicalTheoryofCommunication》中首次提出，该论文奠定了现代信息论的基础。互信息用于量化两个随机变量之间的统计依赖关系，定义为：若已知一个随机变量的取值，能为另一个随机变量提供的信息量。数学上，对于离散随机变量XXX和YYY，
2023-01-26 胡喜平
我觉得《可见的学习》一书确实从底层逻辑说清楚了，教学的本质。可是太多术语和概念，一时间难以消化啊。而且知道和懂得有距离，运用就更不行了，需要高手和专家的指导。我需要多听听新课标的讲座了，来反复印证。读论文也有了一点点灵感，明天修改我的论文。
为了在未来的人工智能世界中取得成功，学生们必须学习人类写作的优点睿邸管家
澳大利亚各地的学生在新学年开始使用铅笔、钢笔和键盘学习写字。在工作场所，机器也在学习写作，如此有效，几年之内，它们可能会写得比人类更好。有时它们已经做到了，就像Grammarly这样的应用程序所展示的那样。当然，人类现在的日常写作可能很快就会由具有人工智能(AI)的机器来完成。手机和电子邮件软件常用的预测文本是无数人每天都在使用的一种人工智能写作形式。据AI行业研究机构称，到2022年，人工智能及
Qwen3 大模型实战：使用 vLLM 部署与函数调用（Function Call）全攻略曦紫沐大模型大模型部署 Qwen3 vLLM 函数调用
文章摘要本文将带你从零开始，深入掌握如何使用Qwen3-8B大语言模型，结合vLLM进行高性能部署，并通过函数调用（FunctionCall）实现模型与外部工具的智能联动。我们将详细讲解部署命令、调用方式、代码示例及实际应用场景，帮助你快速构建基于Qwen3的智能应用。一、Qwen3简介与部署环境准备Qwen3是通义千问系列的最新一代大语言模型，具备强大的自然语言理解和生成能力，尤其在函数调用、工
人工智能应用研究快讯 2021-11-30 峰谷皆平
[HTML]ArtificialIntelligenceforSkinCancerDetection:ScopingReviewATakiddin,JSchneider,YYang,AAbd-Alrazaq...JournalofMedicalInternet...,2021ABSTACT:Background:Skincanceristhemostcommoncancertypeaffectin
从振动信号到精准预警：AI 如何重塑工业设备健康管理？缘华工业智维人工智能计算机视觉边缘计算信息与通信
在智能制造浪潮席卷全球的当下，工业生产正经历着从传统模式向智能化、数字化转型的深刻变革。在这场变革中，AI驱动的振动分析技术犹如一颗璀璨新星，成为工业设备可靠运行的“健康卫士”。它通过在设备关键部位部署振动传感器，如同医生为患者听诊般实时采集设备运行时的振动信号，再借助强大的人工智能算法对这些“工业脉搏”进行深度解析，从而实现对工业设备从故障预警到寿命预测的全周期精准守护。一、AI振动分析：设备状
AI 生成虚拟宠物：24 小时陪你聊天解闷大力出奇迹985 人工智能宠物
本文围绕AI生成虚拟宠物展开，介绍这类依托人工智能技术诞生的虚拟伙伴，能实现24小时不间断陪伴聊天，为人们解闷。文中详细阐述其技术基础，包括自然语言处理、机器学习等；分析多样功能，如个性化互动、情绪回应等；探讨在独居人群、压力大者等不同群体中的应用场景，最后总结其为人们生活带来的积极影响及未来发展潜力，展现AI虚拟宠物在陪伴领域的独特价值。一、AI生成虚拟宠物的诞生背景与技术基石在快节奏的现代社会
GPT-4 在 AIGC 中的微调技巧：让模型更懂你的需求 AIGC应用创新大全 AI人工智能与大数据应用开发 MCP&Agent 云算力网络 AIGC ai
GPT-4在AIGC中的微调技巧：让模型更懂你的需求关键词：GPT-4、AIGC、模型微调、监督学习、指令优化、过拟合预防、个性化生成摘要：AIGC（人工智能生成内容）正在重塑内容创作行业，但通用的GPT-4模型可能无法精准匹配你的垂直需求——比如写电商爆款文案时总“跑题”，或生成技术文档时专业术语不够。本文将用“教小朋友学画画”的通俗类比，从微调的底层逻辑讲到实战技巧，带你掌握让GPT-4“更懂
AIGC内容生成实战：如何用ChatGPT+DALL·E打造高转化内容 AI大模型应用工坊 AI大模型开发实战 AIGC chatgpt ai
AIGC内容生成实战：如何用ChatGPT+DALL·E打造高转化内容关键词：AIGC、ChatGPT、DALL·E、内容生成、高转化营销、多模态协同、提示词工程摘要：随着AIGC（人工智能生成内容）技术的爆发式发展，ChatGPT（文本生成）与DALL·E（图像生成）的组合已成为内容创作领域的“黄金搭档”。本文将深度解析二者的协同原理，结合实战案例演示从需求分析到内容落地的全流程，并揭示提升内容
数据分析领域中AI人工智能的发展前景展望 AI大模型应用工坊 AI大模型开发实战数据分析人工智能数据挖掘 ai
数据分析领域中AI人工智能的发展前景展望关键词：数据分析、人工智能、机器学习、深度学习、数据挖掘、预测分析、自动化摘要：本文深入探讨了人工智能在数据分析领域的发展现状和未来趋势。我们将从核心技术原理出发，分析AI如何改变传统数据分析范式，详细讲解机器学习算法在数据分析中的应用，并通过实际案例展示AI驱动的数据分析解决方案。文章还将探讨行业应用场景、工具生态以及未来发展面临的挑战和机遇，为数据分析师
AI人工智能中的数据挖掘：提升智能决策能力
AI人工智能中的数据挖掘：提升智能决策能力关键词：数据挖掘、人工智能、机器学习、智能决策、数据分析、特征工程、模型优化摘要：本文深入探讨了数据挖掘在人工智能领域中的核心作用，重点分析了如何通过数据挖掘技术提升智能决策能力。文章从基础概念出发，详细介绍了数据挖掘的关键算法、数学模型和实际应用场景，并通过Python代码示例展示了数据挖掘的全流程。最后，文章展望了数据挖掘技术的未来发展趋势和面临的挑战
【三桥君】MCP中台，究竟如何实现多模型、多渠道、多环境的统一管控？如何以MCP为核心设计AI应用架构？三桥君《三桥君 MCP落地方法论》《三桥君 AI大模型落地方法论》#《三桥君 AI产品方法论》人工智能 AI产品经理 MCP API 三桥君系统架构 llama
你好，我是✨三桥君✨本文介绍>>一、引言随着人工智能技术的快速发展，越来越多的企业开始引入大语言模型（LLM）以提升用户体验和运营效率。然而，如何高效、稳定地将这些AI能力落地到生产环境呢？传统的系统架构往往难以应对AI应用的高并发、低延迟和灵活扩展需求，因此，从整体架构角度设计AI应用架构显得尤为重要。本文三桥君将深入探讨以MCP为核心的AI应用架构，并分析多种部署方式的优劣势，为企业在AI落地
深入理解卷积神经网络（CNN）与循环神经网络（RNN） CodeJourney. cnn rnn 人工智能
在当今的人工智能领域，神经网络无疑是最为璀璨的明珠之一。而卷积神经网络（ConvolutionalNeuralNetworks，CNN）和循环神经网络（RecurrentNeuralNetworks，RNN）作为神经网络家族中的重要成员，各自有着独特的架构和强大的功能，广泛应用于众多领域。本文将深入探讨这两种神经网络的原理、特点以及应用场景，为对深度学习感兴趣的读者提供全面的知识讲解。一、卷积神经
今年校招竞争真激烈 12_05
程序员满大街，都要找不到工作了。即使人工智能满大街，我也后悔当初没学机器学习，后悔当初没学Java。C++真难找工作。难道毕了业就失业吗？好担心！
时序预测 | MATLAB实现贝叶斯优化CNN-GRU时间序列预测(股票价格预测) Matlab机器学习之心 matlab cnn gru
✅作者简介：热爱数据处理、数学建模、仿真设计、论文复现、算法创新的Matlab仿真开发者。更多Matlab代码及仿真咨询内容点击主页：Matlab科研工作室个人信条：格物致知，期刊达人。内容介绍股票价格预测一直是金融领域一个极具挑战性的课题。其内在的非线性、随机性和复杂性使得传统的预测方法难以取得令人满意的效果。近年来，深度学习技术，特别是卷积神经网络(CNN)和门控循环单元(GRU)的结合，为时
时序预测 | MATLAB实现BO-CNN-GRU贝叶斯优化卷积门控循环单元时间序列预测 Matlab算法改进和仿真定制工程师 matlab cnn gru
✅作者简介：热爱数据处理、数学建模、算法创新的Matlab仿真开发者。更多Matlab代码及仿真咨询内容点击：Matlab科研工作室个人信条：格物致知。内容介绍时间序列预测在各个领域都具有重要的应用价值，例如金融市场预测、气象预报、交通流量预测等。准确地预测未来趋势对于决策制定至关重要。近年来，深度学习技术在时间序列预测领域取得了显著进展，其中卷积神经网络(CNN)和门控循环单元(GRU)由于其强
Python Gradio：实现交互式图像编辑 PythonAI编程架构实战家 Python编程之道 python 开发语言 ai
PythonGradio：实现交互式图像编辑关键词：Python,Gradio,交互式图像编辑,计算机视觉,深度学习,图像处理,Web应用摘要：本文将深入探讨如何使用Python的Gradio库构建交互式图像编辑应用。我们将从基础概念开始，逐步介绍Gradio的核心功能，并通过实际代码示例展示如何实现各种图像处理功能。文章将涵盖图像滤镜应用、对象检测、风格迁移等高级功能，同时提供完整的项目实战案例
如何运用深度学习打造高效AI人工智能系统 AI智能探索者 AI Agent 智能体开发实战人工智能深度学习 ai
如何运用深度学习打造高效AI人工智能系统关键词：深度学习、AI系统、神经网络、模型优化、实战开发摘要：本文将从深度学习的核心概念出发，结合生活实例和代码实战，系统讲解如何构建高效AI系统。我们会拆解数据准备、模型设计、训练优化、部署落地的全流程，揭秘“数据-模型-训练-推理”的协同机制，并通过具体案例演示从0到1开发AI系统的关键技巧，帮助开发者掌握打造高效AI系统的底层逻辑。背景介绍目的和范围在
非欧空间计算加速：图神经网络与微分几何计算的GPU优化（流形数据的内存布局优化策略）九章云极AladdinEdu 空间计算神经网络人工智能 gpu算力算法 java 开发语言
一、非欧空间计算的革命性意义与核心挑战在三维形状分析、社交网络建模、分子动力学模拟等领域，非欧几里得空间数据（流形数据）的处理正推动人工智能技术向更复杂的几何结构迈进。传统欧式空间优化方法在处理流形数据时面临根本性局限：黎曼度量导致距离计算失效、局部坐标系动态变化引发内存访问模式混乱、曲率变化影响并行计算效率。本文提出基于分块流形存储（BlockedManifoldStorage,BMS）与层次化
ChatGPT还不能写小说吗？刘若愚
最近，ChatGPT大热，据说可以写论文，编故事，好像无所不能。于是，我给它出了个题目：写一篇5万字的科幻小说。人物：刘若愚，化学家；刘子琪，大律师；仔仔，刘子琪的宠物猫；周金凝，医生；刘泽余，大侦探；赵政淇，程序猿；杰夫（Jeff）机器人它给我的回答是：我很抱歉，我是一个AI语言模型，无法写出如此长篇的小说。但我可以为您提供一些写作灵感和指导：确定故事背景和时间线：在科幻小说中，背景和时间线非常
AI心理学四层架构揭秘：语言模型为何“说谎“？ TGITCIC AI-大模型的落地之道语言模型人工智能自然语言处理大模型国产大模型大模型落地
第一章神经层：代码编织的"脑电图"1.1注意力权重的量子跃迁当Claude3.5Haiku处理"达拉斯所在州的首府"这类问题时，其注意力权重图谱呈现出量子跃迁特征。研究团队通过归因图技术捕捉到：在输入"达拉斯"的瞬间，模型内部Texas节点的激活强度达到87.6%，首府概念节点同步飙升至79.3%。这种非线性激活模式与人类大脑的默认模式网络惊人相似。模型层级激活时序决策路径可解释性神经层300ms
响应式编程实践：Spring Boot WebFlux构建高性能非阻塞服务 fanxbl957 Web spring boot 后端 java
博主介绍：Java、Python、js全栈开发“多面手”，精通多种编程语言和技术，痴迷于人工智能领域。秉持着对技术的热爱与执着，持续探索创新，愿在此分享交流和学习，与大家共进步。全栈开发环境搭建运行攻略：多语言一站式指南(环境搭建+运行+调试+发布+保姆级详解)感兴趣的可以先收藏起来，希望帮助更多的人响应式编程实践：SpringBootWebFlux构建高性能非阻塞服务一、引言在当今数字化时代，互
论文阅读：《针对多目标优化和应用的 NSGA-II 综述》一些关于优化算法的简介行然梦实优化算法论文阅读算法数学建模
前言提醒：文章内容为方便作者自己后日复习与查阅而进行的书写与发布，其中引用内容都会使用链接表明出处（如有侵权问题，请及时联系）。其中内容多为一次书写，缺少检查与订正，如有问题或其他拓展及意见建议，欢迎评论区讨论交流。内容由AI辅助生成，仅经笔者审核整理，请甄别食用。文章目录前言一些关于优化算法的缩写优化算法Ma,Haiping&Zhang,Yajing&Sun,Shengyi&Liu,Ting&S
企业级RAG的数据方案选择 - 向量数据库、图数据库和知识图谱南七小僧 AI技术产品经理网站开发人工智能数据库知识图谱人工智能
如何为企业RAG选择合适的数据存储方式摘要:本文讨论了矢量数据库、图数据库和知识图谱在解决信息检索挑战方面的重要性，特别是针对企业规模的检索增强生成（RAG）。看看海外人工智能企业Writer是如何利用知识图谱增强企业级RAG。要点概要：矢量数据库高效存储数据，但缺乏上下文和关联信息。图数据库优先考虑数据点之间的关系，受益于关系结构。知识图谱在语义存储方面表现出色，由于其能够编码丰富的上下文信息，
【人工智能入门必看的最全Python编程实战（1）】 DFCED 人工智能 python 开发语言深度学习找工作就业
--------------------------------------------------------------------------------------------------------------------1.AIGC未来发展前景未完持续…1.1人工智能相关科研重要性拥有一篇人工智能科研论文及专利软著竞赛是保研考研留学深造以及找工作的关键门票！！！拥有一篇人工智能科研论文
基于深度学习的目标检测算法综述：从RCNN到YOLOv13，一文看懂十年演进！人工智能教程深度学习目标检测算法人工智能自动驾驶 YOLO 机器学习
一、引言：目标检测的十年巨变2012年AlexNet拉开深度学习序幕，2014年RCNN横空出世，目标检测从此进入“深度时代”。十年间，算法从两阶段到单阶段，从Anchor-base到Anchor-free，从CNN到Transformer，从2D到3D，从监督学习到自监督学习，迭代速度之快令人目不暇接。本文将系统梳理基于深度学习的目标检测算法，带你全面了解技术演进、核心思想、代表算法、工业落地与
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现不同水果的检测识别（C#代码，UI界面版）
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现不同水果的检测识别（C#代码，UI界面版））工业相机使用YoloV8模型实现不同水果的检测识别工业相机通过YoloV8模型实现不同水果的检测识别的技术背景在相机SDK中获取图像转换图像的代码分析工业相机图像转换Bitmap图像格式和Mat图像重要核心代码本地文件图像转换Bitmap图像格式和Mat图像重要核心代码Mat图像导入Yo
2025 最强 Agent 智能体学习笔记 (71) 一刀7段学习笔记人工智能
Agent智能体的系统学习与职业发展核心内容概览本集是《2025最强Agent智能体全套教程》的第72集，聚焦Agent智能体领域的系统学习方法与职业发展路径，系统梳理了从入门到专家的能力体系、关键学习资源、职业方向选择及行业发展机遇。内容结合技术趋势与职场需求，为不同背景的学习者（学生、开发者、转行人士）提供清晰的成长蓝图，帮助其在Agent智能体领域高效成长，实现职业目标。系统学习的能力体系与
2025毫米波雷达技术白皮书：智能汽车与物联网的感知核心
随着人工智能、物联网（IoT）和智能汽车产业的迅猛发展，毫米波雷达技术正成为感知领域的核心驱动力。毫米波雷达凭借其高精度、全天候和强抗干扰能力，广泛应用于智能汽车的自动驾驶、物联网的环境感知以及工业自动化。2025年，毫米波雷达技术在性能、应用场景和市场规模上都达到了一个全新的高度。本白皮书将深入探讨毫米波雷达技术的核心优势、发展趋势及其在智能汽车与物联网中的应用前景，同时推荐各大品牌的领先产品方
继之前的线程循环加到窗口中运行 3213213333332132 java thread JFrame JPanel
之前写了有关java线程的循环执行和结束，因为想制作成exe文件，想把执行的效果加到窗口上，所以就结合了JFrame和JPanel写了这个程序，这里直接贴出代码，在窗口上运行的效果下面有附图。 package thread; import java.awt.Graphics; import java.text.SimpleDateFormat; import java.util
linux 常用命令 BlueSkator linux 命令
1.grep 相信这个命令可以说是大家最常用的命令之一了。尤其是查询生产环境的日志，这个命令绝对是必不可少的。但之前总是习惯于使用（grep -n 关键字文件名）查出关键字以及该关键字所在的行数，然后再用（sed -n '100,200p' 文件名），去查出该关键字之后的日志内容。但其实还有更简便的办法，就是用（grep -B n、-A n、-C n 关键
php heredoc原文档和nowdoc语法 dcj3sjt126com PHP heredoc nowdoc
<!doctype html> <html lang="en"> <head> <meta charset="utf-8"> <title>Current To-Do List</title> </head> <body> <?
overflow的属性周华华 JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
《我所了解的Java》——总体目录 g21121 java
准备用一年左右时间写一个系列的文章《我所了解的Java》，目录及内容会不断完善及调整。在编写相关内容时难免出现笔误、代码无法执行、名词理解错误等，请大家及时指出，我会第一时间更正。 &n
[简单]docx4j常用方法小结 53873039oycg docx
本代码基于docx4j-3.2.0，在office word 2007上测试通过。代码如下: import java.io.File; import java.io.FileInputStream; import ja
Spring配置学习云端月影 spring配置
首先来看一个标准的Spring配置文件 applicationContext.xml <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi=&q
Java新手入门的30个基本概念三 aijuans java 新手 java 入门
17.Java中的每一个类都是从Object类扩展而来的。　　18.object类中的equal和toString方法。　　equal用于测试一个对象是否同另一个对象相等。　　toString返回一个代表该对象的字符串,几乎每一个类都会重载该方法,以便返回当前状态的正确表示.(toString 方法是一个很重要的方法)　　 19.通用编程:任何类类型的所有值都可以同object类性的变量来代替。　
《2008 IBM Rational 软件开发高峰论坛会议》小记 antonyup_2006 软件测试敏捷开发项目管理 IBM 活动
我一直想写些总结,用于交流和备忘,然都没提笔,今以一篇参加活动的感受小记开个头,呵呵! 其实参加《2008 IBM Rational 软件开发高峰论坛会议》是9月4号,那天刚好调休.但接着项目颇为忙,所以今天在中秋佳节的假期里整理了下. 参加这次活动是一个朋友给的一个邀请书,才知道有这样的一个活动,虽然现在项目暂时没用到IBM的解决方案,但觉的参与这样一个活动可以拓宽下视野和相关知识.
PL/SQL的过程编程,异常,声明变量,PL/SQL块百合不是茶 PL/SQL的过程编程异常 PL/SQL块声明变量
PL/SQL; 过程; 符号; 变量; PL/SQL块; 输出; 异常; PL/SQL 是过程语言(Procedural Language)与结构化查询语言(SQL)结合而成的编程语言PL/SQL 是对 SQL 的扩展,sql的执行时每次都要写操作
Mockito(三)--完整功能介绍 bijian1013 持续集成 mockito 单元测试
mockito官网：http://code.google.com/p/mockito/，打开documentation可以看到官方最新的文档资料。一.使用mockito验证行为 //首先要import Mockito import static org.mockito.Mockito.*; //mo
精通Oracle10编程SQL(8)使用复合数据类型 bijian1013 oracle 数据库 plsql
/* *使用复合数据类型 */ --PL/SQL记录 --定义PL/SQL记录 --自定义PL/SQL记录 DECLARE TYPE emp_record_type IS RECORD( name emp.ename%TYPE, salary emp.sal%TYPE, dno emp.deptno%TYPE ); emp_
【Linux常用命令一】grep命令 bit1129 Linux常用命令
grep命令格式 grep [option] pattern [file-list] grep命令用于在指定的文件(一个或者多个,file-list)中查找包含模式串(pattern)的行,[option]用于控制grep命令的查找方式。 pattern可以是普通字符串，也可以是正则表达式，当查找的字符串包含正则表达式字符或者特
mybatis3入门学习笔记白糖_ sql ibatis qq jdbc 配置管理
MyBatis 的前身就是iBatis，是一个数据持久层(ORM)框架。 MyBatis 是支持普通 SQL 查询，存储过程和高级映射的优秀持久层框架。MyBatis对JDBC进行了一次很浅的封装。以前也学过iBatis，因为MyBatis是iBatis的升级版本，最初以为改动应该不大，实际结果是MyBatis对配置文件进行了一些大的改动，使整个框架更加方便人性化。
Linux 命令神器：lsof 入门 ronin47 lsof
lsof是系统管理/安全的尤伯工具。我大多数时候用它来从系统获得与网络连接相关的信息，但那只是这个强大而又鲜为人知的应用的第一步。将这个工具称之为lsof真实名副其实，因为它是指“列出打开文件（lists openfiles）”。而有一点要切记，在Unix中一切（包括网络套接口）都是文件。有趣的是，lsof也是有着最多
java实现两个大数相加，可能存在溢出。 bylijinnan java实现
import java.math.BigInteger; import java.util.regex.Matcher; import java.util.regex.Pattern; public class BigIntegerAddition { /** * 题目：java实现两个大数相加，可能存在溢出。 * 如123456789 + 987654321
Kettle学习资料分享，附大神用Kettle的一套流程完成对整个数据库迁移方法 Kai_Ge Kettle
Kettle学习资料分享 Kettle 3.2 使用说明书目录概述..........................................................................................................................................7 1.Kettle 资源库管
[货币与金融]钢之炼金术士 comsci 金融
自古以来,都有一些人在从事炼金术的工作.........但是很少有成功的那么随着人类在理论物理和工程物理上面取得的一些突破性进展...... 炼金术这个古老
Toast原来也可以多样化 dai_lm android toast
Style 1：默认 Toast def = Toast.makeText(this, "default", Toast.LENGTH_SHORT); def.show(); Style 2：顶部显示 Toast top = Toast.makeText(this, "top", Toast.LENGTH_SHORT); t
java数据计算的几种解决方法3 datamachine java hadoop ibatis r-langue r
4、iBatis 简单敏捷因此强大的数据计算层。和Hibernate不同，它鼓励写SQL，所以学习成本最低。同时它用最小的代价实现了计算脚本和JAVA代码的解耦，只用20%的代价就实现了hibernate 80%的功能,没实现的20%是计算脚本和数据库的解耦。复杂计算环境是它的弱项，比如：分布式计算、复杂计算、非数据
向网页中插入透明Flash的方法和技巧 dcj3sjt126com html Web Flash
将 Flash 作品插入网页的时候，我们有时候会需要将它设为透明，有时候我们需要在Flash的背面插入一些漂亮的图片，搭配出漂亮的效果……下面我们介绍一些将Flash插入网页中的一些透明的设置技巧。　　一、Swf透明、无坐标控制　　首先教大家最简单的插入Flash的代码，透明，无坐标控制：　　注意wmode="transparent"是控制Flash是否透明
ios UICollectionView的使用 dcj3sjt126com
UICollectionView的使用有两种方法，一种是继承UICollectionViewController，这个Controller会自带一个UICollectionView；另外一种是作为一个视图放在普通的UIViewController里面。个人更喜欢第二种。下面采用第二种方式简单介绍一下UICollectionView的使用。 1.UIViewController实现委托，代码如
Eos平台java公共逻辑蕃薯耀 Eos平台java公共逻辑 Eos平台 java公共逻辑
Eos平台java公共逻辑 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月1日 17:20:4
SpringMVC4零配置--Web上下文配置【MvcConfig】 hanqunfeng springmvc4
与SpringSecurity的配置类似，spring同样为我们提供了一个实现类WebMvcConfigurationSupport和一个注解@EnableWebMvc以帮助我们减少bean的声明。 applicationContext-MvcConfig.xml  <
解决ie和其他浏览器poi下载excel文件名乱码 jackyrong Excel
使用poi,做传统的excel导出，然后想在浏览器中，让用户选择另存为，保存用户下载的xls文件，这个时候，可能的是在ie下出现乱码（ie,9,10,11),但在firefox,chrome下没乱码，因此必须综合判断，编写一个工具类： /** * * @Title: pro
挥洒泪水的青春 lampcy 编程生活程序员
2015年2月28日，我辞职了，离开了相处一年的触控，转过身--挥洒掉泪水，毅然来到了兄弟连，背负着许多的不解、质疑——”你一个零基础、脑子又不聪明的人，还敢跨行业，选择Unity3D？“，”真是不自量力••••••“，”真是初生牛犊不怕虎•••••“，••••••我只是淡淡一笑，拎着行李----坐上了通向挥洒泪水的青春之地——兄弟连！这就是我青春的分割线，不后悔，只会去用泪水浇灌——已经来到
稳增长之中国股市两点意见-----严控做空，建立涨跌停版停牌重组机制 nannan408
对于股市，我们国家的监管还是有点拼的，但始终拼不过飞流直下的恐慌，为什么呢？笔者首先支持股市的监管。对于股市越管越荡的现象，笔者认为首先是做空力量超过了股市自身的升力，并且对于跌停停牌重组的快速反应还没建立好，上市公司对于股价下跌没有很好的利好支撑。我们来看美国和香港是怎么应对股灾的。美国是靠禁止重要股票做空，在
动态设置iframe高度(iframe高度自适应) Rainbow702 JavaScript iframe contentDocument 高度自适应局部刷新
如果需要对画面中的部分区域作局部刷新，大家可能都会想到使用ajax。但有些情况下，须使用在页面中嵌入一个iframe来作局部刷新。对于使用iframe的情况，发现有一个问题，就是iframe中的页面的高度可能会很高，但是外面页面并不会被iframe内部页面给撑开，如下面的结构： <div id="content"> <div id=&quo
用Rapael做图表 tntxia rap
function drawReport(paper,attr,data){ var width = attr.width; var height = attr.height; var max = 0; &nbs
HTML5 bootstrap2网页兼容（支持IE10以下） xiaoluode html5 bootstrap
<!DOCTYPE html> <html> <head lang="zh-CN"> <meta charset="UTF-8"> <meta http-equiv="X-UA-Compatible" content="IE=edge">

大模型基础架构的变革：剖析Transformer的挑战者（中）

四、UniRepLKNet（Universal Perception Large-Kernel ConvNet）

五、StripedHyena（这是一只会手术的斑鬣狗）

六、PanGu-π

你可能感兴趣的:(技术趋势,论文速递,AIGC,transformer,深度学习,人工智能,语言模型)