十篇最新经典多模态论文梳理

一些思考写在前面

训练任务有ITC（图像文本对比学习），ITM（图像文本匹配），MLM（Maked Language Modeling，有时会扩展到MIM），LM（Language Modeling，大部分可以看作是captioning）。然后选其中1到3个作为训练Loss，最后感觉选什么loss无太大所谓，比的还是谁的数据大，模型大...,谁大谁牛逼。不过当然了，能扩大规模最好还是精简一些loss的设计。
图像文本对数据量不够多，可以兼容单模态数据一起训练这样可以攒出很大的数据集，如BEIT-3。不过值得注意的是，BEIT-3放出来的时候引起了不小的关注，可是这时候GPT-4已经训练好了...，不知道GPT-4的项目组成员是如何笑话我们没见过大蛇拉屎的...
网络搜集的数据还是太脏，如Blip的做法用训练好的模型清洗一遍，可以涨不少点
个人感觉有LM loss更有前途，训练完之后直接可以用，而且还可以拿来refine数据集形成闭环
如Blip2 可以利用现成的LLM提高模型能力，但感觉还是个中间形态
直接用LLM来建模感觉更有前途，不过Kosmos-1的模型大小没做太大实际上还没Beit-3大，而GPT-4就是多模态的，而且22年8月份就训练完，而微软放出Kosmos-1已经是23年3月份的事了，openAI真牛逼，除了它大家都在玩泥沙
目前的论文方法不够牛逼可能还缺更大体量的模型、数据和Human Feedback的引入。
简单到没朋友的CLIP直接牛逼，说明vision-language pretrain就是需要海量的数据，数据不够方法上怎么建模可能都是白搭，目前发表论文的模型可能还处于“饥饿”状态。

CLIP

Title：Learning Transferable Visual Models From Natural Language Supervision
Paper：https://arxiv.org/pdf/2103.00020.pdf
机构：OpenAI

简单到没朋友，是一个让简单方法重新做牛逼、把VLP（vision-language Pretraining）直接引爆的工作！

贡献

从互联网中搜集了一波400M的图文对数据
用图-文对比学习去对齐图文embeddding，训练预训练模型
训完之后发现模型非常牛逼，甚至可以接做zero-shot learning

方法

如上图（1）所示，双塔结构，文本模态输入到text encoder，视觉模态输入到image encoder

训练的时候，输入一个batch的图-文对，batch内，每个图片和其他文本组成负样本；同理，每个文本也可以和其他图片组成正样本。

如上图（2）、（3）所示，训练完之后，可以很牛逼做zero-shot learning，把类别组成一句话：A photo of a [object]，输入到Text encoder，得到embedding，输入一个测试图片到image encoder得到的视觉embedding和文本embedding算cosine相似度取最高的作为预测类别。

训练伪代码如下图所示：

zero-shot效果直接直接炸裂，引爆了整个AI圈，无论是图生文，还是文生图都常见clip的身影

FLIP

Title：Scaling Language-Image Pre-training via Masking
Paper：https://arxiv.org/pdf/2212.00794.pdf
机构：Meta

贡献

如下图所示，训练CLIP的时候，图像支路沿用MAE的MASK方案，丢掉大部分patches。

方法

注意这里的mask不是置0，而是跟MAE那样直接丢掉patches不参与计算，所丢掉多少就省多少计算量和显存！

这样的好处有两点：

加速。同样的时间内，训练更多的image-text pairs
更大batch。因为CLIP对比学习的loss是batch越大负样本越多，因此目标函数中能组成更多的负样本，预期会带来较大的gain。

FLIP应该会成为vision-language learning的一个通用trick，至少在工业界会被快速广泛尝试和推广。原因很简单，FLIP是CLIP训练速度的3.7倍，基于CLIP做一次实验的预算，可以支撑FLIP做3.7次实验。

ViLT

Title：ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision
Paper：https://arxiv.org/pdf/2102.03334.pdf
机构：NAVER AI Lab

贡献

名字全称：Vision-and-Language Transformer。顾名思义，不管三七二十一，直接把text tokens和image patches 怼到一块过 Transformer，非常大一统，如下图所示：

缺点

效果不是太好...

方法

输入

文本，直接输入Word Embedding，其中Word Embedding是bert-base-uncased tokenizer，而非用Bert进行映射。
图片，对图片分成多个patches，每个patch用共享参数的线性层映射成Embedding。
分别在文本token 序列和图像patch序列前插入一个Learnable 的 Embedding，作为[class] token。
灰色的Modal-type Embedding 用于标识模态类型，直接和对应的模态相加。
深绿色的Token position embedding 用于标识token在句子中位置；同理，深紫色的Patch position embedding 用于标识token在图像中位置。

最后，Word Embedding/Image Patch(插入了 class Embedding) 、Modal-type embedding、Position Embedding 直接加起来，作为模型输入。

目标函数

2个loss：Image Text Matching、Masked Language Modeling

Image Text Matching

以0.5概率图像-文本是不对齐的，用模型中，第一个token（class token）对应的输出，过一个线性层来分类，图像-文本对是否对齐。

Masked Language Modeling

以0.15的概率随机mask文本token，被mask的token对应的transformer输出，用两层的MLP预测原始token是哪个。这里值得注意的是，文中用的是whole word masking，也就是说，mask的时候一个词对应的所有tokens都会被mask，比如，“giraffe”会被bert-base-uncased tokenizer分成3个tokens ["gi", "##raf", "##fe"]，要mask的话，这三个tokens要被同时mask。

ALBEF

Title：Align before Fuse: Vision and Language Representation Learning with Momentum Distillation
Paper：https://arxiv.org/pdf/2107.07651.pdf
机构：Salesforce Research

贡献

Align Before fuse：用对比学习把图像、文本数据的embedidng对齐，然后把图像、文本embedding融合起来做其他任务（ITM和MLM），凑齐VLP三板斧同时训练
用Momentum distillation来克服noisy data，即用momentum Network来生成伪标签，作用在ITC和MLM上，甚至在下游任务上。

缺点

缺点很明显，做N多个任务，多个网络，一次迭代要前传很多次。

方法

如上图所示，有三个模块：image encoder，text encoder，和multimodal encoder，都用transformer建模，其中multimodal encoder每层多个cross attention来融合不同模态的信息。

这里注意到multimodal encoder和text encoder其实参数量分别只有image encoder的一半，即它是一个12层的transformer劈开两半。

训练loss三板斧：

ITC （Image-Text Contrastive Learning），image encoder和text encoder分别对应的cls token的输出过个现行层，做对比学习。

这里跟CLIP有些区别，该方法会用类似MoCo的方法用momentum networks 维护memory bank来用历史样本充当负样本：具体维护，image encoder和text encoder 各维护一个 momentum network，然后

online image encoder 和 momentum text encoder做对比学习 online text encoder 和 momentum image encoder做对比学习

MLM（Masked Language Modeling），随机mask15%的文本tokens，然后预测之。

ITM（Image-Text Matching），输入image encoder和text encdoer各个token的输出。其中，视觉的tokens输入到每一层的cross attention，文本的tokens从底部输入。最后文本的cls token的输出过个线性层预测文图是否匹配。

ITM的正样本的ITC里的正样本，负样本则从ITC中选择最难的负样本。

MoD （Momentum Distillation）

动机：数据来源于网络噪声很大，类似mean teacher的方式，用momentum network来制作伪标签蒸馏。

作用模块：ITC和MLM

ITC：原来是online image encoder 和 momentum text encoder，计算相似度，用cross entorpy训练；

这回，两边都用momentum的encoder计算相似度，然后用KL散度拉近两个的相似度分布（softmax后的相似度向量），和原来的itc loss 加权组合起来：

其中，红框部分为新增的蒸馏loss。

MLM：很简单，用momentum network，MLM预测的结果作为soft-label，用KL散度逼近之：

其中，红框部分为新增的蒸馏loss。

BLIP

Title：BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
Paper：https://arxiv.org/pdf/2201.12086.pdf
机构：Salesforce Research

贡献

也是三板斧训练目标函数，不过把MLM换成LM：ITC（图像文本对比学习）、ITM（图像文本匹配）、LM（语言模型）
利用训练好的LM生成伪标签、训练好的ITM清洗数据，然后再训一轮，如下图所示

训练方法

训练方法其实很常规，如上图所示

ITC：和clip一毛一样，训练image encoder和text encoder

ITM：从ITC里面选最难（最像）的负样本，进入ITM，也就是说正负样本比是1:1；ITM里面输入文本token，以及在cross attention里面注入视觉embedding。训练image encoder和image-grounded text encdoer

LM：自回归，预测下一个词。

训练image encoder和image-grounded text decdoer

CapFilt

流程如上图所示，

用互联网数据+人工标注数据训练了一版pretrain model
再用人工标注数据（COCO）finetune一版model
用fintune好的image-ground text decoder，过一下互联网数据生成caption
用fintune好的image-ground text encoder，过一下互联网数据，过滤caption，这里caption包括生成的也包括原来数据集的，剩下的caption作为新数据标注。
进入下一轮pretrain。

BLIP2

Paper：https://arxiv.org/pdf/2301.12597.pdf
机构：Salesforce Research

贡献

给定一个视觉模态的单模态模型，一个文本模态的大规模语言模型（LLM），训练两者之间的起桥梁作用的模块（Q-former）。训练captioning任务，训练的冻住视觉模型和语言模型，只训其中的Q-former。

这个操作也很好理解：图-文Pair的数据少，但是单模态的数据多，分别训练两个牛逼的单模态模型，然后只用少量参数连着两者，防止训VLP的时候灾难性遗忘。

方法

两阶段训练：可以简单理解为第一级阶段在训练BLIP，只是冻住了图像encoder; 第二阶段再接个LLM，用LLM来引导finetune可训练的网络（Q-Former）

模型结构：如首图所示，整个方法纯纯地就训练一个Q-Former，Q-Former的结构如下图所示，包含两个transformer，两个transformer 共享 Self-Attention层 （这一点跟VLMO差不多非常神奇，不知道学界有什么解释）：

图像的transformer: 输入图像encoder的特征和多个learnable的query embeddings，图像encoder的特征只在cross attention模块中输入，和query embeddings对应的隐特征交互
文本的transformer: 既可以当做文本encoder也可以是decoder

第一阶段训练：Vision-Language Representation Learning from a Frozen Image Encoder

训练任务还是BLIP那三板斧：ITC、ITM、Captioning，只训练Q-Former，不动Encoder。然后通过对self-Attention模块不同的mask方式，来做不欧通的任务。

ITC（Image-text Contrastive Learning）：图像的transformer会输出queries那么多个embedding；文本transformer 输入cls token和文本tokens，然后[CLS] token的输出embedding和queries对应的embedding计算相似分数，取最高的作为相似度。这里注意，self-attention时，query和文本token是不交互的！
ITM（Image-Text Matching）：self-attention时，query和文本token是互相交互的。对每个qeury 的输出embedidngs接一个二分类的线性分类器，分图文是否匹配，所有query的分类结果取平均作为最终分类结果。
ITG（Image-grounded Text Generation）：query tokens只跟query tokens交互，文本tokens只跟前面的文本tokens和query tokens交互。生成文本的起始标识token用[DEC]token。

第二阶段训练：

第一阶段训练的到 Q-Former的 query token的输出过一层FC，输入到LLM里面用自回归训练。

这里分两种LLM，用不同的方式训练：

如果是decoder-only的LLM，就在LLM里面只输入query tokens的embedding
如果是encoder-decoder的LLM，就在encoder里面输入query tokens的embedding和文本的前缀，预测文本后缀。

CoCa

Title：CoCa: Contrastive Captioners are Image-Text Foundation Models
Paper：https://arxiv.org/pdf/2205.01917.pdf
机构：Google

贡献

对比学习+captioning

方法

同样简单到没朋友，看图

Dual-Encoder Contrastive Learning：跟 CLIP一毛一样

Encoder-Decoder Captioning：

因为方法简单，作者把模型做得很大：

效果直接就牛逼，主要还是因为数据大（数据包含只有Google自家可以用的JFT-3B），模型大（模型直接干到2.1B参数量）...，名场面：

VLMO

Title：VLMO: Unified Vision-Language Pre-Training with Mixture-of-Modality-Experts
Paper：https://arxiv.org/pdf/2111.02358.pdf
机构：微软

贡献

提出了一个能够优雅兼容多模态的Transformer，然后先在大量的单模态数据上训练，再在相对小量的多模态数据上训练。

方法

很简单，就是魔改transformer layer，self-attention部分不动；FFN部分分成三：V-FFN，L-FFN，VL-FFN，顾名思义，V-FFN处理视觉模态，L-FFN处理文本模态，VL-FFN处理多模态。

训练步骤如下图：

首先，在视觉数据上用MIM（masked image model）任务训练模型，这时候网络跟ViT差不多，FFN只用V-FFN
然后，训完之后冻住self-attention layer和V-FFN，在文本数据上用MLM（maked language model）任务训练模型，注意这里有个假设非常神奇，视觉模态上训练好的self-attention layer是可以复用到文本模态的，这里很神奇，不知道有没有懂王解释一下...
最后，在图文数据上，VLMO的前几层，用V-FFN和L-FFN分别处理视觉文本数据（也就是说前面的层self-attention图文不交互）；最后两层用VL-FFN，这时候self-attention是图文交互的；训练loss三板斧：ITC（Image-Text Contrast），ITM（Image-Text Matching）和 MLM（Masked Language Modeling）

BEiT-V3

Title：Image as a Foreign Language: BEIT Pretraining for All Vision and Vision-Language Tasks
Paper：https://arxiv.org/pdf/2208.10442.pdf
机构：微软

贡献

其实就是把VLMO做大做强：backbone用VLMO里提出的Multiway Transformer，训练目标大道至简，只有Masked Data Modeling，没有对比学习了。

方法

在单模态（图片或文本）和多模态数（图像-文本对）据上训练 Maked Data modeling。

对于文本模态，mask 15%的tokens
对于视觉模态，mask 40%的tokens
对于图像-文本对，mask 50%的文本tokens

因为只有一个训练目标，所以不用像前面的工作那样，么个batch要前传n多次，非常高效，因此也很方便扩展训练规模。不用对比学习，因此也不需要很大的batch！

训练细节：

backbone:40层的Multiway transfomer，1408的hidden dim，6144的FFN中间层dim，16个attention heads；前面37层用V-expert FFN和L-expert FFN，最后三层用VL-expert FFN。统共参数量是1.9B。
训练1M步，每一步batchsize是6144，包含2048个单图，2048个单文本，2048个图文对。

Kosmos-1

Title：Language Is Not All You Need: Aligning Perception with Language Models
Paper：https://arxiv.org/pdf/2302.14045.pdf
机构：微软

贡献

做了一个多模态的LLM。

方法

输入

把所有模态的输入都展平成序列输入到Transformer Decoder中。用表示序列的开始和结束。例如

text

是文本输入；

textImage Embeddingtext
是插入了图像的文本的输入。

具体case 如下图所示：

模态表示：对于文本token，就用lookup table把token映射成embedding；对于图像模态就用一个训练好的clip，抽取图像特征，用attentive pooling来减少图片的embedding个数。

网络设计

Backbone用MAGNETO（一个大规模Transformer），用xPos这类相对位置编码来建模长文本的上下文信息。

训练目标

自回归：模型训练预测下一个token，值得注意的是只有文本token会计算loss，预测视觉的token是不计算loss。

模型训练细节

数据

Text Corpora: Pile, Common Crawl (CC), Common Crawl snapshots (2020-50 and 2021-04) datasets, CC-Stories, and RealNews。排除了GitHub, arXiv, Stack Exchange和 PubMed Central的数据来源。
Image-Caption Pairs：English LAION-2B, LAION-400M, COYO-700M, Conceptual Captions
Interleaved Image-Text Data：从Common Crawl snapshot里爬网页，从2B的网页里面筛选剩下71M。筛选主要是限制图片数量。

训练配置

文中训练连MLLM（多模态LLM）是个24层，隐层2048维，FFN中间特征大小8192维，32个attention heads的包含1.3B参数的模型。

每个batch包含1.2M个tokens，其中，0.5M来自 Text Corpora，0.5M来自Image-Caption Pairs，0.2来自Interleaved Image-Text Data。

Language-Only Instruction Tuning

用格式为(instructions, inputs, outputs) 的instruction数据继续训练模型，这里数据是Language-only的。这里训练的时候，predict instructions和inputs的时候是不计算loss的，只有outputs计算loss。

为了在未来的人工智能世界中取得成功，学生们必须学习人类写作的优点睿邸管家
澳大利亚各地的学生在新学年开始使用铅笔、钢笔和键盘学习写字。在工作场所，机器也在学习写作，如此有效，几年之内，它们可能会写得比人类更好。有时它们已经做到了，就像Grammarly这样的应用程序所展示的那样。当然，人类现在的日常写作可能很快就会由具有人工智能(AI)的机器来完成。手机和电子邮件软件常用的预测文本是无数人每天都在使用的一种人工智能写作形式。据AI行业研究机构称，到2022年，人工智能及
Anaconda 和 Miniconda：功能详解与选择建议古月฿ python入门 python conda
Anaconda和Miniconda详细介绍一、Anaconda的详细介绍1.什么是Anaconda？Anaconda是一个开源的包管理和环境管理工具，在数据科学、机器学习以及科学计算领域发挥着关键作用。它以Python和R语言为基础，为用户精心准备了大量预装库和工具，极大地缩短了搭建数据科学环境的时间。对于那些想要快速开展数据分析、模型训练等工作的人员来说，Anaconda就像是一个一站式的“数
人工智能应用研究快讯 2021-11-30 峰谷皆平
[HTML]ArtificialIntelligenceforSkinCancerDetection:ScopingReviewATakiddin,JSchneider,YYang,AAbd-Alrazaq...JournalofMedicalInternet...,2021ABSTACT:Background:Skincanceristhemostcommoncancertypeaffectin
机器学习必备数学与编程指南：从入门到精通 a小胡哦机器学习基础机器学习人工智能
一、机器学习核心数学基础1.线性代数（神经网络的基础）必须掌握：矩阵运算（乘法、转置、逆）向量空间与线性变换特征值分解与奇异值分解(SVD)为什么重要：神经网络本质就是矩阵运算学习技巧：用NumPy实际操作矩阵运算2.概率与统计（模型评估的关键）核心概念：条件概率与贝叶斯定理概率分布（正态、泊松、伯努利）假设检验与p值应用场景：朴素贝叶斯、A/B测试3.微积分（优化算法的基础）重点掌握：导数与偏导
从振动信号到精准预警：AI 如何重塑工业设备健康管理？缘华工业智维人工智能计算机视觉边缘计算信息与通信
在智能制造浪潮席卷全球的当下，工业生产正经历着从传统模式向智能化、数字化转型的深刻变革。在这场变革中，AI驱动的振动分析技术犹如一颗璀璨新星，成为工业设备可靠运行的“健康卫士”。它通过在设备关键部位部署振动传感器，如同医生为患者听诊般实时采集设备运行时的振动信号，再借助强大的人工智能算法对这些“工业脉搏”进行深度解析，从而实现对工业设备从故障预警到寿命预测的全周期精准守护。一、AI振动分析：设备状
AI 生成虚拟宠物：24 小时陪你聊天解闷大力出奇迹985 人工智能宠物
本文围绕AI生成虚拟宠物展开，介绍这类依托人工智能技术诞生的虚拟伙伴，能实现24小时不间断陪伴聊天，为人们解闷。文中详细阐述其技术基础，包括自然语言处理、机器学习等；分析多样功能，如个性化互动、情绪回应等；探讨在独居人群、压力大者等不同群体中的应用场景，最后总结其为人们生活带来的积极影响及未来发展潜力，展现AI虚拟宠物在陪伴领域的独特价值。一、AI生成虚拟宠物的诞生背景与技术基石在快节奏的现代社会
基于Python的AI健康助手：开发与部署全攻略 AI算力网络与通信 AI算力网络与通信原理 AI人工智能大数据架构 python 人工智能开发语言 ai
基于Python的AI健康助手：开发与部署全攻略关键词：Python、AI健康助手、机器学习、自然语言处理、Flask、部署、健康管理摘要：本文将详细介绍如何使用Python开发一个AI健康助手，从需求分析、技术选型到核心功能实现，再到最终部署上线的完整过程。我们将使用自然语言处理技术理解用户健康咨询，通过机器学习模型提供个性化建议，并展示如何用Flask框架构建Web应用接口。文章包含大量实际代
GPT-4 在 AIGC 中的微调技巧：让模型更懂你的需求 AIGC应用创新大全 AI人工智能与大数据应用开发 MCP&Agent 云算力网络 AIGC ai
GPT-4在AIGC中的微调技巧：让模型更懂你的需求关键词：GPT-4、AIGC、模型微调、监督学习、指令优化、过拟合预防、个性化生成摘要：AIGC（人工智能生成内容）正在重塑内容创作行业，但通用的GPT-4模型可能无法精准匹配你的垂直需求——比如写电商爆款文案时总“跑题”，或生成技术文档时专业术语不够。本文将用“教小朋友学画画”的通俗类比，从微调的底层逻辑讲到实战技巧，带你掌握让GPT-4“更懂
AIGC内容生成实战：如何用ChatGPT+DALL·E打造高转化内容 AI大模型应用工坊 AI大模型开发实战 AIGC chatgpt ai
AIGC内容生成实战：如何用ChatGPT+DALL·E打造高转化内容关键词：AIGC、ChatGPT、DALL·E、内容生成、高转化营销、多模态协同、提示词工程摘要：随着AIGC（人工智能生成内容）技术的爆发式发展，ChatGPT（文本生成）与DALL·E（图像生成）的组合已成为内容创作领域的“黄金搭档”。本文将深度解析二者的协同原理，结合实战案例演示从需求分析到内容落地的全流程，并揭示提升内容
数据分析领域中AI人工智能的发展前景展望 AI大模型应用工坊 AI大模型开发实战数据分析人工智能数据挖掘 ai
数据分析领域中AI人工智能的发展前景展望关键词：数据分析、人工智能、机器学习、深度学习、数据挖掘、预测分析、自动化摘要：本文深入探讨了人工智能在数据分析领域的发展现状和未来趋势。我们将从核心技术原理出发，分析AI如何改变传统数据分析范式，详细讲解机器学习算法在数据分析中的应用，并通过实际案例展示AI驱动的数据分析解决方案。文章还将探讨行业应用场景、工具生态以及未来发展面临的挑战和机遇，为数据分析师
AI人工智能中的数据挖掘：提升智能决策能力
AI人工智能中的数据挖掘：提升智能决策能力关键词：数据挖掘、人工智能、机器学习、智能决策、数据分析、特征工程、模型优化摘要：本文深入探讨了数据挖掘在人工智能领域中的核心作用，重点分析了如何通过数据挖掘技术提升智能决策能力。文章从基础概念出发，详细介绍了数据挖掘的关键算法、数学模型和实际应用场景，并通过Python代码示例展示了数据挖掘的全流程。最后，文章展望了数据挖掘技术的未来发展趋势和面临的挑战
数据中台中的数据科学工作台：Jupyter集成方案 AI大数据智能洞察大数据与AI人工智能 jupyter 信息可视化 ide ai
数据中台中的数据科学工作台：Jupyter集成方案关键词：数据中台、数据科学工作台、JupyterNotebook、数据科学、机器学习、数据可视化、协作开发摘要：本文深入探讨了在数据中台架构中集成JupyterNotebook作为数据科学工作台的完整解决方案。我们将从数据中台的基本概念出发，详细分析Jupyter在数据科学工作流中的核心作用，介绍多种集成方案和技术实现细节，并通过实际案例展示如何构
2018年中南大学中英翻译某翁
参考：20180827235856533.jpg【1】机器学习理论表明，机器学习算法能从有限个训练集样本上得到较好的泛化【1】Machinelearningtheoryshowsthatmachinelearningalgorithmcangeneralizewellfromfinitetrainingsetsampleslimited有限的infinite无限的【2】这似乎违背了一些基本的逻辑准
【三桥君】MCP中台，究竟如何实现多模型、多渠道、多环境的统一管控？如何以MCP为核心设计AI应用架构？三桥君《三桥君 MCP落地方法论》《三桥君 AI大模型落地方法论》#《三桥君 AI产品方法论》人工智能 AI产品经理 MCP API 三桥君系统架构 llama
你好，我是✨三桥君✨本文介绍>>一、引言随着人工智能技术的快速发展，越来越多的企业开始引入大语言模型（LLM）以提升用户体验和运营效率。然而，如何高效、稳定地将这些AI能力落地到生产环境呢？传统的系统架构往往难以应对AI应用的高并发、低延迟和灵活扩展需求，因此，从整体架构角度设计AI应用架构显得尤为重要。本文三桥君将深入探讨以MCP为核心的AI应用架构，并分析多种部署方式的优劣势，为企业在AI落地
深入理解卷积神经网络（CNN）与循环神经网络（RNN） CodeJourney. cnn rnn 人工智能
在当今的人工智能领域，神经网络无疑是最为璀璨的明珠之一。而卷积神经网络（ConvolutionalNeuralNetworks，CNN）和循环神经网络（RecurrentNeuralNetworks，RNN）作为神经网络家族中的重要成员，各自有着独特的架构和强大的功能，广泛应用于众多领域。本文将深入探讨这两种神经网络的原理、特点以及应用场景，为对深度学习感兴趣的读者提供全面的知识讲解。一、卷积神经
今年校招竞争真激烈 12_05
程序员满大街，都要找不到工作了。即使人工智能满大街，我也后悔当初没学机器学习，后悔当初没学Java。C++真难找工作。难道毕了业就失业吗？好担心！
时序预测 | MATLAB实现贝叶斯优化CNN-GRU时间序列预测(股票价格预测) Matlab机器学习之心 matlab cnn gru
✅作者简介：热爱数据处理、数学建模、仿真设计、论文复现、算法创新的Matlab仿真开发者。更多Matlab代码及仿真咨询内容点击主页：Matlab科研工作室个人信条：格物致知，期刊达人。内容介绍股票价格预测一直是金融领域一个极具挑战性的课题。其内在的非线性、随机性和复杂性使得传统的预测方法难以取得令人满意的效果。近年来，深度学习技术，特别是卷积神经网络(CNN)和门控循环单元(GRU)的结合，为时
时序预测 | MATLAB实现BO-CNN-GRU贝叶斯优化卷积门控循环单元时间序列预测 Matlab算法改进和仿真定制工程师 matlab cnn gru
✅作者简介：热爱数据处理、数学建模、算法创新的Matlab仿真开发者。更多Matlab代码及仿真咨询内容点击：Matlab科研工作室个人信条：格物致知。内容介绍时间序列预测在各个领域都具有重要的应用价值，例如金融市场预测、气象预报、交通流量预测等。准确地预测未来趋势对于决策制定至关重要。近年来，深度学习技术在时间序列预测领域取得了显著进展，其中卷积神经网络(CNN)和门控循环单元(GRU)由于其强
Python Gradio：实现交互式图像编辑 PythonAI编程架构实战家 Python编程之道 python 开发语言 ai
PythonGradio：实现交互式图像编辑关键词：Python,Gradio,交互式图像编辑,计算机视觉,深度学习,图像处理,Web应用摘要：本文将深入探讨如何使用Python的Gradio库构建交互式图像编辑应用。我们将从基础概念开始，逐步介绍Gradio的核心功能，并通过实际代码示例展示如何实现各种图像处理功能。文章将涵盖图像滤镜应用、对象检测、风格迁移等高级功能，同时提供完整的项目实战案例
基于随机森林的白酒风味智能分类系统：从数据到洞察的完整实践笙囧同学 python
作者：笙囧同学|中科院计算机大模型方向硕士|全栈开发爱好者座右铭：偷懒是人生进步的阶梯联系方式：[email protected]各大平台账号/公众号：笙囧同学前言大家好，我是笙囧同学！今天给大家分享一个超级有趣且技术含量爆表的项目——白酒风味智能分类系统。作为一个既爱技术又爱美酒的程序员，我花了大量时间研究如何用机器学习的方法来"品酒"，让AI帮我们识别白酒的风味特征。这个项目融合了机器学习、数
如何运用深度学习打造高效AI人工智能系统 AI智能探索者 AI Agent 智能体开发实战人工智能深度学习 ai
如何运用深度学习打造高效AI人工智能系统关键词：深度学习、AI系统、神经网络、模型优化、实战开发摘要：本文将从深度学习的核心概念出发，结合生活实例和代码实战，系统讲解如何构建高效AI系统。我们会拆解数据准备、模型设计、训练优化、部署落地的全流程，揭秘“数据-模型-训练-推理”的协同机制，并通过具体案例演示从0到1开发AI系统的关键技巧，帮助开发者掌握打造高效AI系统的底层逻辑。背景介绍目的和范围在
非欧空间计算加速：图神经网络与微分几何计算的GPU优化（流形数据的内存布局优化策略）九章云极AladdinEdu 空间计算神经网络人工智能 gpu算力算法 java 开发语言
一、非欧空间计算的革命性意义与核心挑战在三维形状分析、社交网络建模、分子动力学模拟等领域，非欧几里得空间数据（流形数据）的处理正推动人工智能技术向更复杂的几何结构迈进。传统欧式空间优化方法在处理流形数据时面临根本性局限：黎曼度量导致距离计算失效、局部坐标系动态变化引发内存访问模式混乱、曲率变化影响并行计算效率。本文提出基于分块流形存储（BlockedManifoldStorage,BMS）与层次化
Spring AI与机器学习：智能应用开发新范式 tmjpz04412 人工智能 spring 机器学习
SpringAI与机器学习的整合SpringAI是一个基于Spring生态的AI开发框架，旨在简化智能应用的开发流程。通过SpringAI，开发者可以快速集成机器学习模型，构建高效的智能应用。SpringAI支持多种机器学习库和框架，如TensorFlow、PyTorch和Scikit-learn，提供统一的API接口。SpringAI的核心优势在于其模块化设计和自动化配置。开发者无需关心复杂的依
响应式编程实践：Spring Boot WebFlux构建高性能非阻塞服务 fanxbl957 Web spring boot 后端 java
博主介绍：Java、Python、js全栈开发“多面手”，精通多种编程语言和技术，痴迷于人工智能领域。秉持着对技术的热爱与执着，持续探索创新，愿在此分享交流和学习，与大家共进步。全栈开发环境搭建运行攻略：多语言一站式指南(环境搭建+运行+调试+发布+保姆级详解)感兴趣的可以先收藏起来，希望帮助更多的人响应式编程实践：SpringBootWebFlux构建高性能非阻塞服务一、引言在当今数字化时代，互
企业级RAG的数据方案选择 - 向量数据库、图数据库和知识图谱南七小僧 AI技术产品经理网站开发人工智能数据库知识图谱人工智能
如何为企业RAG选择合适的数据存储方式摘要:本文讨论了矢量数据库、图数据库和知识图谱在解决信息检索挑战方面的重要性，特别是针对企业规模的检索增强生成（RAG）。看看海外人工智能企业Writer是如何利用知识图谱增强企业级RAG。要点概要：矢量数据库高效存储数据，但缺乏上下文和关联信息。图数据库优先考虑数据点之间的关系，受益于关系结构。知识图谱在语义存储方面表现出色，由于其能够编码丰富的上下文信息，
【人工智能入门必看的最全Python编程实战（1）】 DFCED 人工智能 python 开发语言深度学习找工作就业
--------------------------------------------------------------------------------------------------------------------1.AIGC未来发展前景未完持续…1.1人工智能相关科研重要性拥有一篇人工智能科研论文及专利软著竞赛是保研考研留学深造以及找工作的关键门票！！！拥有一篇人工智能科研论文
基于深度学习的目标检测算法综述：从RCNN到YOLOv13，一文看懂十年演进！人工智能教程深度学习目标检测算法人工智能自动驾驶 YOLO 机器学习
一、引言：目标检测的十年巨变2012年AlexNet拉开深度学习序幕，2014年RCNN横空出世，目标检测从此进入“深度时代”。十年间，算法从两阶段到单阶段，从Anchor-base到Anchor-free，从CNN到Transformer，从2D到3D，从监督学习到自监督学习，迭代速度之快令人目不暇接。本文将系统梳理基于深度学习的目标检测算法，带你全面了解技术演进、核心思想、代表算法、工业落地与
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现不同水果的检测识别（C#代码，UI界面版）
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现不同水果的检测识别（C#代码，UI界面版））工业相机使用YoloV8模型实现不同水果的检测识别工业相机通过YoloV8模型实现不同水果的检测识别的技术背景在相机SDK中获取图像转换图像的代码分析工业相机图像转换Bitmap图像格式和Mat图像重要核心代码本地文件图像转换Bitmap图像格式和Mat图像重要核心代码Mat图像导入Yo
2025毫米波雷达技术白皮书：智能汽车与物联网的感知核心
随着人工智能、物联网（IoT）和智能汽车产业的迅猛发展，毫米波雷达技术正成为感知领域的核心驱动力。毫米波雷达凭借其高精度、全天候和强抗干扰能力，广泛应用于智能汽车的自动驾驶、物联网的环境感知以及工业自动化。2025年，毫米波雷达技术在性能、应用场景和市场规模上都达到了一个全新的高度。本白皮书将深入探讨毫米波雷达技术的核心优势、发展趋势及其在智能汽车与物联网中的应用前景，同时推荐各大品牌的领先产品方
从零开始构建深度学习环境：基于Pytorch、CUDA与cuDNN的虚拟环境搭建与实践（适合初学者）荣华富贵8 程序员的知识储备2 程序员的知识储备3 深度学习 pytorch 人工智能
摘要：深度学习正在引领人工智能技术的革新，而对于初学者来说，正确搭建深度学习环境是迈向AI研究与应用的第一步。本文将为读者提供一套详尽的教程，指导如何在本地环境中搭建Pytorch、CUDA与cuDNN，以及如何利用Anaconda和PyCharm进行高效开发。内容涵盖从环境配置、常见错误修正，到基础的深度学习模型构建及训练。我们旨在为深度学习零基础的入门者提供一个全面且易于理解的“保姆级”教程，
jdk tomcat 环境变量配置 Array_06 java jdk tomcat
Win7 下如何配置java环境变量 1。准备jdk包，win7系统，tomcat安装包（均上网下载即可） 2。进行对jdk的安装，尽量为默认路径（但要记住啊！！以防以后配置用。。。） 3。分别配置高级环境变量。电脑-->右击属性-->高级环境变量-->环境变量。分别配置 : path &nbs
Spring调SDK包报java.lang.NoSuchFieldError错误 bijian1013 java spring
在工作中调另一个系统的SDK包，出现如下java.lang.NoSuchFieldError错误。 org.springframework.web.util.NestedServletException: Handler processing failed; nested exception is java.l
LeetCode[位运算] - #136 数组中的单一数 Cwind java 题解位运算 LeetCode Algorithm
原题链接：#136 Single Number 要求：给定一个整型数组，其中除了一个元素之外，每个元素都出现两次。找出这个元素注意：算法的时间复杂度应为O(n)，最好不使用额外的内存空间难度：中等分析：题目限定了线性的时间复杂度，同时不使用额外的空间，即要求只遍历数组一遍得出结果。由于异或运算 n XOR n = 0, n XOR 0 = n，故将数组中的每个元素进
qq登陆界面开发 15700786134 qq
今天我们来开发一个qq登陆界面，首先写一个界面程序，一个界面首先是一个Frame对象，即是一个窗体。然后在这个窗体上放置其他组件。代码如下： public class First { public void initul(){ jf=ne
Linux的程序包管理器RPM 被触发 linux
在早期我们使用源代码的方式来安装软件时，都需要先把源程序代码编译成可执行的二进制安装程序，然后进行安装。这就意味着每次安装软件都需要经过预处理-->编译-->汇编-->链接-->生成安装文件--> 安装，这个复杂而艰辛的过程。为简化安装步骤，便于广大用户的安装部署程序，程序提供商就在特定的系统上面编译好相关程序的安装文件并进行打包，提供给大家下载，我们只需要根据自己的
socket通信遇到EOFException 肆无忌惮_ EOFException
java.io.EOFException at java.io.ObjectInputStream$PeekInputStream.readFully(ObjectInputStream.java:2281) at java.io.ObjectInputStream$BlockDataInputStream.readShort(ObjectInputStream.java:
基于spring的web项目定时操作知了ing java Web
废话不多说，直接上代码，很简单配置一下项目启动就行 1，web.xml <?xml version="1.0" encoding="UTF-8"?> <web-app xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns="h
树形结构的数据库表Schema设计矮蛋蛋 schema
原文地址： http://blog.csdn.net/MONKEY_D_MENG/article/details/6647488 程序设计过程中，我们常常用树形结构来表征某些数据的关联关系，如企业上下级部门、栏目结构、商品分类等等，通常而言，这些树状结构需要借助于数据库完成持久化。然而目前的各种基于关系的数据库，都是以二维表的形式记录存储数据信息，
maven将jar包和源码一起打包到本地仓库 alleni123 maven
http://stackoverflow.com/questions/4031987/how-to-upload-sources-to-local-maven-repository <project> ... <build> <plugins> <plugin> <groupI
java IO操作与 File 获取文件或文件夹的大小，可读，等属性！！！百合不是茶
类 File File是指文件和目录路径名的抽象表示形式。 1，何为文件：标准文件（txt doc mp3...）目录文件（文件夹）虚拟内存文件 2，File类中有可以创建文件的 createNewFile（）方法,在创建新文件的时候需要try{} catch(）{}因为可能会抛出异常；也有可以判断文件是否是一个标准文件的方法isFile();这些防抖都
Spring注入有继承关系的类（2） bijian1013 java spring
被注入类的父类有相应的属性，Spring可以直接注入相应的属性，如下所例：1.AClass类 package com.bijian.spring.test4; public class AClass { private String a; private String b; public String getA() { retu
30岁转型期你能否成为成功人士 bijian1013 成长励志
很多人由于年轻时走了弯路，到了30岁一事无成，这样的例子大有人在。但同样也有一些人，整个职业生涯都发展得很优秀，到了30岁已经成为职场的精英阶层。由于做猎头的原因，我们接触很多30岁左右的经理人，发现他们在职业发展道路上往往有很多致命的问题。在30岁之前，他们的职业生涯表现很优秀，但从30岁到40岁这一段，很多人
【Velocity四】Velocity与Java互操作 bit1129 velocity
Velocity出现的目的用于简化基于MVC的web应用开发，用于替代JSP标签技术，那么Velocity如何访问Java代码.本篇继续以Velocity三http://bit1129.iteye.com/blog/2106142中的例子为基础， POJO package com.tom.servlets; public
【Hive十一】Hive数据倾斜优化 bit1129 hive
什么是Hive数据倾斜问题操作：join,group by,count distinct 现象：任务进度长时间维持在99%（或100%），查看任务监控页面，发现只有少量（1个或几个）reduce子任务未完成；查看未完成的子任务，可以看到本地读写数据量积累非常大，通常超过10GB可以认定为发生数据倾斜。原因：key分布不均匀倾斜度衡量：平均记录数超过50w且
在nginx中集成lua脚本：添加自定义Http头，封IP等 ronin47 nginx lua csrf
Lua是一个可以嵌入到Nginx配置文件中的动态脚本语言，从而可以在Nginx请求处理的任何阶段执行各种Lua代码。刚开始我们只是用Lua 把请求路由到后端服务器，但是它对我们架构的作用超出了我们的预期。下面就讲讲我们所做的工作。强制搜索引擎只索引mixlr.com Google把子域名当作完全独立的网站，我们不希望爬虫抓取子域名的页面，降低我们的Page rank。 location /{
java-3.求子数组的最大和 bylijinnan java
package beautyOfCoding; public class MaxSubArraySum { /** * 3.求子数组的最大和题目描述：输入一个整形数组，数组里有正数也有负数。数组中连续的一个或多个整数组成一个子数组，每个子数组都有一个和。求所有子数组的和的最大值。要求时间复杂度为O(n)。例如输入的数组为1, -2, 3, 10, -4,
Netty源码学习-FileRegion bylijinnan java netty
今天看org.jboss.netty.example.http.file.HttpStaticFileServerHandler.java 可以直接往channel里面写入一个FileRegion对象，而不需要相应的encoder： //pipeline（没有诸如“FileRegionEncoder”的handler）： public ChannelPipeline ge
使用ZeroClipboard解决跨浏览器复制到剪贴板的问题 cngolon 跨浏览器复制到粘贴板 Zero Clipboard
Zero Clipboard的实现原理 Zero Clipboard 利用透明的Flash让其漂浮在复制按钮之上，这样其实点击的不是按钮而是 Flash ，这样将需要的内容传入Flash，再通过Flash的复制功能把传入的内容复制到剪贴板。 Zero Clipboard的安装方法首先需要下载 Zero Clipboard的压缩包，解压后把文件夹中两个文件：ZeroClipboard.js
单例模式 cuishikuan 单例模式
第一种（懒汉，线程不安全）： public class Singleton { 2 private static Singleton instance; 3 pri
spring+websocket的使用 dalan_123
一、spring配置文件 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.w3.or
细节问题：ZEROFILL的用法范围。 dcj3sjt126com mysql
1、zerofill把月份中的一位数字比如1，2，3等加前导0 mysql> CREATE TABLE t1 (year YEAR(4), month INT(2) UNSIGNED ZEROFILL, -> day
Android开发10——Activity的跳转与传值 dcj3sjt126com Android开发
Activity跳转与传值，主要是通过Intent类，Intent的作用是激活组件和附带数据。一、Activity跳转方法一Intent intent = new Intent(A.this, B.class); startActivity(intent) 方法二Intent intent = new Intent();intent.setCla
jdbc 得到表结构、主键 eksliang jdbc 得到表结构、主键
转自博客：http://blog.csdn.net/ocean1010/article/details/7266042 假设有个con DatabaseMetaData dbmd = con.getMetaData(); rs = dbmd.getColumns(con.getCatalog(), schema, tableName, null); rs.getSt
Android 应用程序开关GPS gqdy365 android
要在应用程序中操作GPS开关需要权限： <uses-permission android:name="android.permission.WRITE_SECURE_SETTINGS" /> 但在配置文件中添加此权限之后会报错，无法再eclipse里面正常编译，怎么办？ 1、方法一：将项目放到Android源码中编译； 2、方法二：网上有人说cl
Windows上调试MapReduce zhiquanliu mapreduce
1.下载hadoop2x-eclipse-plugin https://github.com/winghc/hadoop2x-eclipse-plugin.git 把 hadoop2.6.0-eclipse-plugin.jar 放到eclipse plugin 目录中。 2.下载 hadoop2.6_x64_.zip http://dl.iteye.com/topics/download/d2b
如何看待一些知名博客推广软文的行为？ justjavac 博客
本文来自我在知乎上的一个回答：http://www.zhihu.com/question/23431810/answer/24588621 互联网上的两种典型心态：当初求种像条狗，如今撸完嫌人丑当初搜贴像条犬，如今读完嫌人软你为啥感觉不舒服呢？难道非得要作者把自己的劳动成果免费给你用，你才舒服？就如同 Google 关闭了 Gooled Reader，那是
sql优化总结 macroli sql
为了是自己对sql优化有更好的原则性，在这里做一下总结，个人原则如有不对请多多指教。谢谢！要知道一个简单的sql语句执行效率，就要有查看方式，一遍更好的进行优化。一、简单的统计语句执行时间 declare @d datetime ---定义一个datetime的变量set @d=getdate() ---获取查询语句开始前的时间select user_id
Linux Oracle中常遇到的一些问题及命令总结超声波 oracle linux
1.linux更改主机名 (1)#hostname oracledb　　　　临时修改主机名 (2) vi /etc/sysconfig/network 　　修改hostname (3) vi /etc/hosts　　　　　　　　修改IP对应的主机名 2.linux重启oracle实例及监听的各种方法（注意操作的顺序应该是先监听，后数据库实例） &nbs
hive函数大全及使用示例 superlxw1234 hadoop hive函数
具体说明及示例参见附件文档。文档目录：目录一、关系运算： 4 1. 等值比较: = 4 2. 不等值比较: <> 4 3. 小于比较: < 4 4. 小于等于比较: <= 4 5. 大于比较: > 5 6. 大于等于比较: >= 5 7. 空值判断: IS NULL 5
Spring 4.2新特性-使用@Order调整配置类加载顺序 wiselyman spring 4
4.1 @Order Spring 4.2 利用@Order控制配置类的加载顺序 4.2 演示两个演示bean package com.wisely.spring4_2.order; public class Demo1Service { } package com.wisely.spring4_2.order; public class