深圳季连AIgraphX

51-11 多模态论文串讲—VLMo 论文精读

VLMo: Unified Vision-Language Pre-Training with Mixture-of-Modality-Experts (NeurIPS 2022)

VLMo 是一种多模态 Transformer 模型，从名字可以看得出来它是一种 Mixture-of-Modality-Experts (MoME)，即混合多模态专家。怎么理解呢？主流 VLP 模型分为两种，一种是双塔结构 (Dual Encoder)，主要用来做多模态检索任务；一种是单塔结构 (Fusion Encoder)，主要用来做多模态分类任务。VLMo 相当于是一个混合专家 Transformer 模型，预训练完成后，使用时既可以是双塔结构实现高效的图像文本检索，又可以是单塔结构成为分类任务的多模态编码器。

作者团队，全部来自于这个微软这个团队近几年，真的是出了很多大名鼎鼎的工作，比如说BEiT v1,v2,v3，还有LayoutLM v1,v2,v3，还有做语音的，做视频的，真的是多模态领域里非常solid的一个组。所以大家如果想做多模态学习，任何一个领域的多模态学习，都可以去看一下他们组发的论文，应该或多或少，都会有一些联系的。这篇论文的贡献，其实有两点，一个就是模型结构上的改进，也就是他这里说的这个mixture of modality experts。另外一个，就是训练方式上的改进，他们做的这种分阶段的这个模型与训练。这两个改进，其实都师出有名，都有非常强的这个研究动机，接下来，我们就直接去引言看一下这两个研究动机。

引言的第二段，作者上来就说了第一个研究动机，就是他们为什么要介绍这个mixture of expert。作者说，在多模态学习领域，大概有两个这个主流的模型结。一个就是像CLIP，ALIGN这种的，采取了双塔结构，图像有一个模型，文本有一个模型，双塔完全分开了，谁跟谁都不染。然后模态之间的交互，就是被一个非常简单的cosine similarity去做的。它的好处，我们上次也说过，非常明显，就是尤其是对这种，这个检索任务来说，极其有效。因为他可以提前把那些特征都抽好，然后接下来直接算similarity就好了，矩阵乘法，还不是飞快，所以说，极其适合这种大规模的这个图像文本的检索，非常具有这个商业价值。但是，它的缺点也由此而体现，就是说如此shallow的这个交互，也就是说只算了一个similarity，是无法做这种多模态之间，非常难的这个各种情形的。比如说，在ViLT这篇论文里的作者就发现，即使CLIP那么的强，CLIP其实在一系列的这个下游任务上，比如说VR，他其实就比不过之前方式。那自然，肯定就有另外一系列的工作，那你之前是双塔，那现在肯定就是单塔，单塔就是这个fusion encoder的方式。就是我先把这个图像文本分开处理一下，但是当做这个模态交互的时候，我用这个transformer encoder，去好好的做一下模态之间的这个交互。这样，就弥补了你之前这个双塔模式的缺陷，所以说在这个VL visual classification task上，也就我们刚才说的VE，VR，VQQ，取得了这个，就是效果特别好，但是，它也有问题，就是当你去做检索任务的时候，又出麻烦了，因为你只有一个模型，你必须同时做这个推理，所以当你这个图像文本对特别多数据集特别大的时候，你就要把所有all possible这个图像文本段全都要同时的去编码。然后去算这个similarity，而你才能去做这个检索。所以说，它的这个推理时间，就会非常非常的慢，所以对于大规模数据集来说，去做检索的话，基本就不太现实了。那鉴于这种情况，一个很直接的想法就是说，既然你各有各的优缺点，那我能不能把你放到同一个框架里去？然后在做推理的时候，我想把你当做dual-encoder这个来用，我就把你当dual-encoder来用。我想把你当fusion encoder来用，我就把你当fusion encoder来用，那如果能达到这个灵活性，那岂不是特别美好。所以说，作者这里就引出了他们这篇文章提出的，，这个mixture of modality expert。具体的细节，我们会接下来照着图讲。

但简单来说，就是这个自注意力，所有的模态都是共享的。但是在Feed Forward FF层，每个模态就会对应自己不同的Expert。Multi就multi model对应的expert。这样在训练的时候，哪个模态的数据来了，我就训练哪个模态的，然后在推理的时候，我也能根据现在输入的数据，去决定我到底该使用什么样的模型结构，这样就非常优雅的解决了第一个这个研究难题。

那另外一个研究动机，就是在引言的四段。作者上说，其实的时候的这个目标函数，也是ITC，ITM和MLM。所以跟ALBEF是一样，所以在这篇论文里，我都不需要再过多复述。但这样，就会有一个让大家很感兴趣的问题，就是这个训练数据的问题。因为我们都看到了NLP那边用了Transformer，随着这个数据的增加，这个结果就会不停的变好变好变好。在视觉这边，虽然暂时没有看到就是这么好的这个scaling的性能，但是对于多模态来讲，因为他里面也有文本，所以说做多模态学习的任务，他也希望说看到当你这个训练数据集越多的时候，你的这个模型的性能就越好，CLIP，其实已经在某种程度上验证了这一点了。所以大家自然是会想在更多的数据集上去做预训练的。但可惜，在当时做ALBEF，VLMo的时候，LION团队还没有推出400m或者这样可开源的数据集。CLIP用的那个WIT数据集，也并没有开源。所以说对于研究者来说，他们自己如果想去构造这么大规模的一个数据集来说，这个effort是非常大的，那这个时候，一条曲线救国的道路，很自然的就摆在面前。那就是说虽然多模态的训练数据集不够，比如说只有4m setting，或者14m setting。但是，在单个的modality里，就是视觉，或者NLP里有大把大把的数据可以去用，即使你是想有监督的训练，视觉里也有达ImageNet 22K，有14M的数据，那就已经比多这边最大的14m的setting还要大。那如果你是说我想要无监督的预训练，那可用的数据更是多的数不胜数，那文本那边，也是多的数不胜数。所以说，基于这个研究动机，本文作者，就提出了一个stage strategy，就是说我分阶段去训练。既然你这个视觉和NLP领域，都有自己各自的这么大的数据集，那我就先把这个vision expert在视觉数据集这边好。然后我再去把language expert，在language那边的数据集上text only Data上训练好。那这个时候，这个模型本身这个参数，已经是非常好的被初始化过了，那这个时候，你再在这个多模态的数据上，去做一下被确定效果，应该就会好很多。而事实也确实如此，这个stage策略给带来了很大的提升。那接下，我们就先看一下的模型结构什么样，然后快速看一下它的结果。

那我们直接来看文章的图一，首先，我们来看一下图一的左边，也就是VLMo这篇论文的一个核心。

它也是一个transformer encoder的结构，但是，它在每个block里面，做了一些改动，也就是他们提出的这个MoME Transformer。具体来说，其实我都知道。一本标注的transformer blcok里面，就是先有一个layer norm，然后MSA multi-head self-attention，然后再有一个layer norm，再有FFN feed-forward network，最后有一个residual。

这个不是一个network，而是针对不同的这个输入，不同的modality，它有这个vision FFN，language FFN，还有这个vision language FFN。也就是他这里说的这个switching modality expert，从而构建出了的MoME transformer block这个模型结构。

那这里面其实一个比较有意思的点，就是说虽然后面这个FFN层，它没有share 权重，它是各自modality有各自的这个FFN层，但是之前，这个self attention层，是完全share weights的。也就是说，不论你是图像信号，还是这个文本信号，还是图像文本信号，你任何的这个token sequence进来，我的这个self attention的model weight全都是一样的，都是shares的。所以这也就是我为什么觉得，Transform这个结构很好，或者说多模态学习接下来会是一个趋势，因为这个多模态学习，搭配上这个transformer，真的是一个绝佳的组合，Transformer这个自注意操作，它真的是用了最少的这个inductive bais，它不挑输入。基本上我们现在已经看到了很多的这个证据，就是说同样的这个self attention weights它可以用来做不同的，这个图像，文本，音频，视频，很多这样的任务，你是不需要重新去训练这个自注意力参数的。

那接下来，这篇论文在分阶段训练里面，我们还可以看到更强的这个evidence，更加的有意思。

VLMo也是用ITC、ITM、MLM 3个loss去训练的。所以说训练loss，是完全一致的。那至于他是怎么去算这个loss，它的fusion encoder这个到底长什么样，其实跟ALBEF也差不多，只不过更比灵活一些。如说我们这个ITC，就是图像这边，VLMo就化身CLIP模型，就单独只有图像的输入，然后进去了一个ViT，它里面的FFN，都用的是vision FFN。这个L，如果你用的vision transformer base，那就是12层的transformer。那文本这边，就是文本的token，单独进去这个language model，后面用的是这个language expert，就是一个12层的BERT base。所以说如果你只看这个ITC这块，它就是一个CLIP模型。然后当我们去看这个ITM，或者说这个MLM的时候。它又化身成了fusion encoder的形式，就是说这个图像和文本的这个输入，一起进去，一起进这个MSA。

但这里的这个self attention跟之前的self attention，和后面的self attention这些，都是share weights的，都是一样的，不管你是什么modality，自注意力参数，都是不变的，都是share。然后，在前面的L-F层，就在transform block里，它是对这个视觉和文本信号，分别去做模型FFN，就是分别去用这个vision expert和这个language expert。只有在最后的这Fx层，他才去用了这个vision language expert。

在论文的最后的时间细节里，作者说如果你用的是一个transformer base模型，L-F就是前10层，后面这个F，就是2，也就是说后面，只有2层transformer block，去做这个模态之间的融合。然后ITM对吧，就是一个分类任务。然后，Mask language model，就是去预测这些被mask掉的单词。

那我们看完整套的这个模型结构和训练方式之后，我们就会发现，VLMo这篇论文的好处，它就是灵活。那训练的时候，你可以通过这个各种modality，你可以去选择，我到底训练中间哪个modality expert。然后在做推理的时候，你也可以去做选择，因为所有的模型参数都在那里，如果你想做这个检索任务，，你就像CLIP一样，就用这个两个模型就可以了。如果你想做这些vision，这些分类任务，VR，VQA，那你就下面的这个模式就可以。但是，它的灵活也不是白来了，那就像我们在ALBEF里说的一样，因为它有的时候用这个mask的输入，有的时候不用这个mask输入，所以ALBEF里，就要做两次。而在VLMo里面，他应该也是至少做了两次甚至三次的这个前过程。作者在后面说，VLMo，这个base模型，在4m setting下训练，用64 张 32G V100的卡，也要训练两天，所以说比ALBEF要慢。

但总之，这个模型结构，真的是很灵活，也很有趣，所以作者团队，在接下来时间中还在继续打磨。

那讲完了模型结构上的改进，我们就来说一下第二个文章的contribution，就是这个分阶段的训练策略。因为作者，想利用那些大量的这些图片文本，去做这种很好的预训练，提供一个更好的模型初始化，所以说作者，就先去做了这个vision training，去做language training，然后最后，才去做这个vision language training。是modality modeling，那最后，Vision，就是我们刚才说的那三个R目标函数。

但是这里面特别有趣的一个点，就是作者在训练的过程中，到底哪些层是冻住的，哪些层是不冻住的，需要仔细看一下。

那我们看到在做第一阶段的，这个vision的时候，因为你是刚开始训练嘛，你肯定没有什么需要冻住的，因为所有的东西都是随机初始化的。那所以说，这12层的这个transformer block，也就是包括前面这个自注意力，和和后面的这个vision expert，都是打开训练的。但是，当你到第二阶段，去做这个文本的预训练的时候，我们会看到，这个vision，被冻住了，因为你现在是文本数据嘛，你不需要去训练那个vision，所以vision的那个FFN层，参数就固定下来了。我是要去训练这个language expert的。但是非常有意思的事儿，是他把这个self attention给冻住了，意思就是说，我完全拿一个，在视觉数据上，训练好的这么一个模型，在视觉token sequence上，训练好的一个自助力模型，我可以直接拿来，对这个文本数据进行建模。我都不需要fine tune，他这个self attention，就工作的很好，我就能让这个模型，一样能把这个完形填空做得很好。之前也有一些工作也证明可以这样，就是我现在language这上去训练，然后再在vision上冻住去做，好像结果不太好，但是，如果是先用vison训练，然后再在text上直接去用这个self attention，已经在很多工作里证明是有效的。

这个对我而言，很奇怪，也很有趣，如果对这个现象感兴趣的同学，也可以继续去深挖一下，看看是不是真的所有的modality，都能用同样的这个，而且是为什么。

那到了第三阶段，因为这时候做的就是我们想要的这个动作态了，所以说该打开的，就全打开了，不光是这个self attention，还是后面的这三个，就都打开去做。那这个，就是本文所讲的第二个contribution，分阶段的训练策略。

那讲完了方法部分，我们快速的看一下VLMo的这个实验结果。

总之，还是非常有效的，他在4m上这个数据的表，就已经非常亮眼了，他跟ALBEF去做这种公对比的时候，是比ALBEF都要高的，要两到三个点，所以算是很大进步。然后，如果用了更大的模型，或者甚至在更大的数据集上去做预训练完之后，这个性能的提升，就更不用说了。

鉴于BEiT v3，也使用了VLMo这种模型结构，而且它又这么灵活。所以大家可以好好感受一下，如何用很小的改动，就是把一个FFN做成多个，但是就带来了这么巨大的提升，这肯定也是很多经验积累出来的。VLMo这篇论文，其实实验做的也是非常的详尽，他这个分阶段的预训练策略很有效，还有它这个模型，很灵活，所以它在这个单独的视觉数据集上，也取得了很好的效果。

还有去做这种图文检索的时候，也取得了很好的效果，和这个推理时间都很好。

我更想说一下的，是VLMo这篇论文的这个结语部分，作者说了很多，就是说在未来，我们会做很多，继续去提升这个VLMo的方式。作者团队，是真的做到了，而且一一都deliver。

那比如说，第一个最直白的，就是直接去scaling，就是把这个模型变大。这个,作者接下来的BEiT v3里就实现了，他就用了ViT Giant有1.9billion的参数。第二个，就是做更多的这个下游的这个vision language task，比如说其中，有一个更著名的这个image captioning，就是图像字幕。那做captioning，一般是需要一个这个transformer decoder，所以，我们这一期讲了这些和都不太适合去做，那在接下来，作者在这个VL-BEiT，BEiT v3里，都去做了这个尝试。那第三点，作者想说的就是说这个unimodality，能够帮助这个multi-modality，那同样的，Multi-modaality，也有可能能帮助这个unimodality。同样的，在这个BEiT v3的工作里，他把这个文本和这个图像的各个数据集，也全刷了一遍，效果都非常好。那最后，一个更宏观的目标，就是说我不光是想做这个vision language，我肯定有更多的模态，更多的这个应用场景，比如说speech，viedo或者structured knowledge。那其实者团队，也做了很多这方面的工作，比如说speech在这边，有WAVLM。在这个structured konwledge这边，就有Layout LM v1，v2，v3。还有，就是去支持general purpose这种多模态学习，也也是最近比较火，就是统一用这当文本当作一个interface。这样所有的任务，都可以通过一个prompt，然后去生成文本这种结构去实现，那作者团队这边，也出了一个MetaLM的工作。所以算是一步一步把他们之前提出的这个future work全都实现了，这个还是非常难能可贵的。

那这里我更想说的，其实就是做研究，是一点一点积累上来的.作者团队，做了这么多有影响力的工作，其实，也是一步一步迭代出来的，咱们来看看，在22年，这一系列的工作的发展历程。

那这个BEiT，在21年六份就出来了，然后接下来，在21年11份的时候，就出了VLMo这篇论文。

然后因为这个时候，图像也可以用mask modeling去做，文本也可以用mask modeling去做，所以很自然的到22年6月份的时候，作者团队就推出了VL-BEiT，就是同时用mask modeling去做vison language，然后接下来，又过了2个月，这个BEiT v2就出来了。那BEiT v2，其实是BEiT一个升级，还做的是这个视频dataset是不做multi-modality。那同样的月份22年8份，又出了BEiT v3，那BEiT v3，其实就是之前所有这些的一个集大成者，就是一个多模态网络，但是同时也做unimodality。

所以就是在这一步一步的积累过程之中，才能做出来这么多solid的工作。

那在多模态的下期串讲之中，主要就会讲一些最近的，基于这个encoder，decoder的工作来看一下多模态学习，以及它的发展又到了哪个阶段。

摘录

多模态论文串讲·上【论文精读·46】_哔哩哔哩_bilibili

VLMo: Unified Vision-Language Pre-Training with Mixture-of-Modality-Experts

https://arxiv.org/abs/2111.02358

男士护肤品哪个牌子好？十大男士护肤品排行榜高省APP珊珊
很多男生意识到护肤的必要性，开始着手护肤，但不知道该选哪个男士护肤品品牌使用好。目前市面上很多男士护肤品品牌，可谓琳琅满目，让人眼花缭乱。男士挑选护肤品时，根据自己皮肤需求去正规渠道挑选合适的知名护肤品比较放心靠谱。高省APP，是2021年推出的平台，0投资，0风险、高省APP佣金更高，模式更好，终端用户不流失。【高省】是一个自用省钱佣金高，分享推广赚钱多的平台，百度有几百万篇报道，也期待你的加入
《玉骨遥》：大司命为什么不杀朱颜？原因没那么简单 windy天意晚晴
《玉骨遥》里，朱颜就是时影的命劫之人。重明与时影早就知道，他们一直瞒着大司命，如今大司命也知道了真相。可是大司命却没有杀朱颜，而是给朱颜下了诛心咒，还说时影的命劫已经破了，真的如此吗？1、计划总是赶不上变化的大司命从目前剧情来说，大司命还不如时影，他信心十足的事情总会有纰漏。他不让时影见命劫之女，结果时影还是遇上了。他想让时影走火入魔，一心复仇，结果时影在朱颜的劝说下放下了仇恨。大司命让时影开山收
day15｜前端框架学习和算法 universe_01 前端算法笔记
T22括号生成先把所有情况都画出来，然后（在满足什么情况下）把不符合条件的删除。T78子集要画树状图，把思路清晰。可以用暴力法、回溯法和DFS做这个题DFS深度搜索：每个边都走完，再回溯应用：二叉树搜索，图搜索回溯算法=DFS+剪枝T200岛屿数量（非常经典BFS宽度把树状转化成队列形式，lambda匿名函数“一次性的小函数，没有名字”setup语法糖：让代码更简洁好写的语法ref创建：基本类型的
C++ 计数排序、归并排序、快速排序每天搬一点点砖 c++数据结构算法
计数排序：是一种基于哈希的排序算法。他的基本思想是通过统计每个元素的出现次数，然后根据统计结果将元素依次放入排序后的序列中。这种排序算法适用于范围较小的情况，例如整数范围在0到k之间计数排序步骤：1初始化一个长度为最大元素值加1的计数数组，所有元素初始化为02遍历原始数组，将每个元素值作为索引，在计数数组中对应位置加13将数组清空4遍历计数器数组，按照数组中的元素个数放回到元数组中计数排序的优点和
MotionLCM 部署优化踩坑解决bug AI算法网奇 aigc与数字人深度学习宝典文生motion
目录依赖项windowstorchok：渲染黑白图问题解决：humanml3d：sentence-t5-large下载数据：报错：Nomodulenamed'sentence_transformers'继续报错：fromtransformers.integrationsimportCodeCarbonCallback解决方法：推理相关转mesh：module‘matplotlib.cm‘hasno
【C++算法】76.优先级队列_前 K 个高频单词流星白龙优选算法C++c++算法开发语言
文章目录题目链接：题目描述：解法C++算法代码：题目链接：692.前K个高频单词题目描述：解法利用堆来解决TopK问题预处理一下原始的字符串数组，用一个哈希表统计一下每一个单词出现的频次。创建一个大小为k的堆频次：小根堆字典序（频次相同的时候）：大根堆循环让元素依次进堆判断提取结果C++算法代码：classSolution{//定义类型别名，PSI表示对typedefpairPSI;//自定义比较
JVM 内存模型深度解析：原子性、可见性与有序性的实现练习时长两年半的程序员小胡 JVM 深度剖析：从面试考点到生产实践 jvm java 内存模型
在了解了JVM的基础架构和类加载机制后，我们需要进一步探索Java程序在多线程环境下的内存交互规则。JVM内存模型（JavaMemoryModel，JMM）定义了线程和主内存之间的抽象关系，它通过规范共享变量的访问方式，解决了多线程并发时的数据一致性问题。本文将从内存模型的核心目标出发，详解原子性、可见性、有序性的实现机制，以及volatile、synchronized等关键字在其中的作用。一、J
Flowable 实战落地核心：选型决策与坑点破解练习时长两年半的程序员小胡 Flowable 流程引擎实战指南低代码 BPMN 流程引擎 flowable 后端 java
在企业级流程引擎的落地过程中，选型的准确性和坑点的预见性直接决定项目成败。本文聚焦Flowable实战中最关键的“选型决策”与“常见坑点”，结合真实项目经验，提供可落地的解决方案。一、流程引擎选型：从业务本质出发1.1选型的三大核心维度企业在选择流程引擎时，需避免陷入“技术崇拜”，应回归业务本质。评估Flowable是否适用，可从三个维度判断：业务复杂度若流程涉及动态审批链（如按金额自动升级审批）
SpringMVC的执行流程
1、什么是MVCMVC是一种设计模式。MVC的原理图如下所示M-Model模型（完成业务逻辑：有javaBean构成，service+dao+entity）V-View视图（做界面的展示jsp，html……）C-Controller控制器（接收请求—>调用模型—>根据结果派发页面2、SpringMVC是什么SpringMVC是一个MVC的开源框架，SpringMVC=Struts2+Spring，
力扣面试题07 - 旋转矩阵茶猫_ leetcode 矩阵算法 c语言
题目：给你一幅由N×N矩阵表示的图像，其中每个像素的大小为4字节。请你设计一种算法，将图像旋转90度。不占用额外内存空间能否做到？示例1:给定matrix=[[1,2,3],[4,5,6],[7,8,9]],原地旋转输入矩阵，使其变为:[[7,4,1],[8,5,2],[9,6,3]]示例2:给定matrix=[[5,1,9,11],[2,4,8,10],[13,3,6,7],[15,14,12,
Aop +反射实现方法版本动态切换
需求分析在做技术选型的时候一直存在着两个声音，mongo作为数据库比较mysql好，mysql做为该数据比mongo好。当然不同数据库都有有着自己的优势，我们在做技术选型的时候无非就是做到对数据库的扬长避短。mysql最大的优势就是支持事务，事务的五大特性保证的业务可靠性，随之而来的就是事务会产生的问题：脏读、幻读、不可重复度，当然我们也会使用不同的隔离级别来解决。（最典型的业务问题：银行存取钱）
通义万相2.2：开启高清视频生成新纪元 Liudef06小白特殊专栏 AIGC 人工智能人工智能通义万相2.2 图生视频
通义万相2.2：开启高清视频生成新纪元2025年7月28日，中国AI领域迎来里程碑时刻——通义万相团队正式开源其革命性视频生成模型Wan2.2的核心权重，这标志着开源社区首次获得支持720P高清视频生成的先进模型架构。一、架构革新：混合专家系统1.1MoE视频扩散架构通义万相2.2首次将混合专家（MoE）架构引入视频扩散模型，通过双专家系统实现计算效率与模型容量的平衡：classMoEVideoD
模拟退火(SA)：如何“故意走错路”，才能找到最优解？小瑞瑞acd 小瑞瑞学数模模拟退火算法 python 启发式算法算法
模拟退火(SA)：如何“故意走错路”，才能找到最优解？图示模拟退火算法如何通过接受较差解（橙色虚线标注）从局部最优（绿色点）逃逸，最终找到全局最优解（紫色点），展示其跳出局部极小值的能力。大家好，我是小瑞瑞！欢迎回到我的专栏！想象一下，你站在一座连绵不绝的山脉中，目标是找到海拔最低的那个山谷。你手上只有一个高度计，视野被浓雾笼罩，只能看清脚下的一小片区域。如果你是一个“贪心”的登山者，你的策略会非
今晚吃太饱了爱伤心的蚂蚁
今晚吃太饱了，两碗干饭，两碗肉汤，一碗牛奶银耳汤，感觉肚子都顶出来了，圆滚滚的！明早要早起，出发去小蚂蚁家！看着剩下的肉汤，倒掉多可惜，干掉了！看着小蚂蚁熬的银耳汤，倒掉多可惜，于是热了一下，顺便热袋牛奶倒进去，大娃喝点，小蚂蚁喝点，还剩下一大碗，继续干掉！吃的太饱，人也懒洋洋的，躺床上不想动，感受的肚子撑撑的感觉，好久没吃这么饱了！这一晚灌的都是汤汤水水的，天冷的晚上，半夜要睡不安稳咯！哈哈！小
你对待万事万物的态度行靜
昨晚爸爸把洒水壶灌满水，对我说：你也该去浇浇你阳台上的花咯。这么大的天气，几天没浇水都快死了。我才意识到自己容易突然间忽视一些事情。尤其是身旁的一些事，可能它们呆久了，反而习以为常。想想每天的生活状态就是在不断的重复着一些事，有点固定模式。没有什么特别发生。记录我的一天：上班，挤公交，用手机或电脑，吃饭，上课。没有
编程算法：技术创新的引擎与业务增长的核心驱动力
在数字经济时代，算法已成为推动技术创新与业务增长的隐形引擎。从存内计算突破冯·诺依曼瓶颈，到动态规划优化万亿级金融交易，编程算法正在重塑产业竞争格局。一、存内计算：突破冯·诺依曼瓶颈的算法革命1.1存内计算的基本原理传统计算架构中90%的能耗消耗在数据搬运上。存内计算（Processing-in-Memory）通过直接在存储单元执行计算，实现能效10-100倍提升：#传统计算vs存内计算能耗模型i
图论算法经典题目解析：DFS、BFS与拓扑排序实战周童學数据结构与算法深度优先算法图论
图论算法经典题目解析：DFS、BFS与拓扑排序实战图论问题是算法面试中的高频考点，本博客将通过四道LeetCode经典题目（均来自"Top100Liked"题库），深入讲解图论的核心算法思想和实现技巧。涵盖DFS、BFS、拓扑排序和前缀树等知识点，每道题配有Java实现和易错点分析。1.岛屿数量(DFS遍历)问题描述给定一个由'1'(陆地)和'0'(水)组成的二维网格，计算岛屿的数量。岛屿由水平或
承德十大亲子鉴定医院名单(附2024年10所正规医院) 国医基因陈主任
承德哪家医院可以做亲子鉴定？承德市中心医院、中国人民解放军第二六六医院、承德医学院附属医院等都可以做常规亲子鉴定采样采集，一般的医院并不可以为你提供常规亲子鉴定检测的服务。承德亲子鉴定中心地址：承德市西大街路北11号（承德国医基因）。一般只有少数三甲医院可以做亲子鉴定采样，或者当地亲子鉴定中心可以做亲子鉴定。如果想做亲子鉴定，最好直接到亲子鉴定中心内或亲子鉴定医院采样点内进行双方抽血鉴定，这样会更
践行8.0~第六周11.25-12.02 初队长
突破后的喜悦最可怕的不是自己不清楚，而是自己清楚了，却依然不心动，我想这就是我们每个人的惰性存在，在这一周的践行，我发现自己依然是停留在自己的模式当中，不断的恶性的轮回，虽然的话，那再晨间日记方面是纸质的填写，但是对一天的工作没有起到应有的计划和推动的作用而我自己呢，也有些时候的话会处于一个相对来讲放松的一个状态，时间的把控的话也有一些点的消极，所以在这周的间隙，重点是关注自己的三大目标为目标来进
5G基站信号加速器！AD8021ARZ-REEL7亚德诺超低噪声高速电压放大器专利失真消除技术! 深圳市尚想信息技术有限公司 5G通信高速运放 ADI黑科技 8K视频医疗超声
AD8021ARZ-REEL7ADI：重新定义高速放大器的性能极限！一、产品简介AD8021ARZ-REEL7是ADI（亚德诺半导体）推出的超低噪声高速电压反馈放大器，采用XFCB工艺和专利失真消除技术，专为4K/8K视频处理、医疗成像、5G通信等超高频应用设计。以1.8GHz带宽和0.1nV/√Hz超低噪声，成为高速信号调理的终极解决方案！二、五大颠覆性优势军工级信号保真度1.8GHz-3dB带
打造自己的梦想生态系统轻风style
今天听了第5周5.1的梦想系统和随堂练习：梦想仓库与八大关注表。参照老师给出的例子，列出了八大关注对应的自己的梦想。有些写的时候内心都在怀疑，但因为老师有说到，要没有分别心的去列出，不管是近的，远的，小的，大的，自己觉得可以实现的，或者觉得根本不可能实现的，都统统的列出来。就像音频中提到的，林语堂说过的话，梦想无论怎样模糊，总潜伏在我们心底，使我们的心境永远得不到宁静，直到这些梦想成为事实才止；像
我是孩子妈妈，我会让孩子饿着吗？松玲子
回老家过年，就是一场在关于喂养孩子问题上与老人的巅峰对决。前天我们回老家了，他爷爷奶奶就说孩子瘦了，就说我喂的不好，不按时喂，第一天夜里孩子总是睡一会就哭，睡一会就哭，夜里不知醒了多少次，弄得我真是几乎彻夜未眠。一大早，我还没起，我就听见他爷爷奶奶在外边说，今黑夜阳阳怎么老哭，是不是饿的，然后又延伸到我喂养的问题上，说不吃盐不行，不吃盐孩子没劲，吃蛋光吃个蛋黄，吃不饱，给他吃全蛋就行，哎呀我去，我
代码随想录算法训练营第三十五天
01背包问题二维题目链接01背包问题二维题解importjava.util.Scanner;publicclassMain{publicstaticvoidmain(String[]args){Scannersc=newScanner(System.in);intM=sc.nextInt();intN=sc.nextInt();int[]space=newint[M];int[]value=new
心力践行营十二期一阶学习打卡 LX_王彤彤
姓名：王彤彤时间：2021年4月24日一：朗读师父的十大人生哲学二：师父的早安分享感悟很喜欢这句话：所有的行动都是基于目标的尝试，没有所谓的失败，只是不同尝试后得到的不同结果，让我们更好地调整下一次的行动。三：感恩日记1.我太幸福了，我很感恩姑姑，因为姑姑放假又投喂了我，还给我带了饺子回家，这让我感觉很幸福。谢谢，谢谢，谢谢。2.我太幸福了，我很感恩师父晚上的直播，因为听他的分享我知道怎么更好的去
京东中秋节会打折吗？京东中秋节活动力度大吗？高省APP珊珊
京东中秋节会打折，并且活动力度通常是比较大的。以下是具体分析：京东中秋节打折情况降价促销：京东在中秋节期间会推出大规模的降价促销活动，涵盖食品、家居、家电等多个品类，以及众多热门品牌。消费者可以在此期间享受到实实在在的降价优惠。多种优惠形式：除了直接的降价促销，京东还会通过满减优惠、折扣促销、限时秒杀等多种形式的优惠活动来吸引消费者。这些优惠活动通常具有较高的吸引力，能够激发消费者的购买欲望。目前
Android 应用权限管理详解
文章目录1.权限类型2.权限请求机制3.权限组和分级4.权限管理的演进5.权限监控和SELinux强制访问控制6.应用权限审核和GooglePlayProtect7.开发者最佳实践8.用户权限管理9.Android应用沙箱模型10.ScopedStorage（分区存储）11.背景位置权限（BackgroundLocationAccess）12.权限回收和自动清理13.权限请求的用户体验设计14.G
AI模型训练中过拟合和欠拟合的区别是什么？ workflower 人工智能算法人工智能数据分析
在AI模型训练中，过拟合和欠拟合是两种常见的模型性能问题，核心区别在于模型对数据的学习程度和泛化能力：欠拟合（Underfitting）-定义：模型未能充分学习到数据中的规律，对训练数据的拟合程度较差，在训练集和测试集上的表现都不好（如准确率低、损失值高）。-原因：-模型结构过于简单（如用线性模型解决非线性问题）；-训练数据量不足或特征信息不充分；-训练时间太短，模型尚未学到有效模式。-表现：训练
农场种蔬菜赚钱小游戏有哪些五大可以赚钱的小游戏APP 氧惠帮朋友一起省
喜欢种菜吗？我特意带来农场种蔬菜赚钱小游戏排行榜2022，线上汇集了超多模拟种菜玩法，玩家可以免费种植赚钱哦！每天都有大量的种植任务，线上完成就能赚钱哦！快来下载吧！1.氧惠APP购物、看电影、点外卖、用氧惠APP！更优惠！氧惠（全网优惠上氧惠）——是与以往完全不同的抖客+淘客app！2023全新模式，我的直推也会放到你下面，送1:1超级补贴(邀请好友自购多少，你就推广得多少，非常厉害)，欢迎各位
严重的DDoS 攻击澳大利亚主要宽带提供商 Fancy1816575412
本周早些时候，澳大利亚最大的固定无线宽带运营商CirrusCommunications遭受了一次重大的DDoS攻击，导致其一半以上的网络瘫痪。该公司在其网站上声称：“强大的架构、数百个传输站点以及光纤和微波回程的使用使其能够以非常高的正常运行时间提供高速”。CirrusCommunications表示，它覆盖了澳大利亚十大人口中心以及几个主要的区域中心，主要为企业和政府客户提供服务。然而，据The
3次创业身价百亿，2年前却被大众判“死刑”，李想如今怎样了？职心眼儿
他，19岁放弃高考去创业；25岁，成为亿万富豪，被央视评为“80后创业”领军人物；39岁，身价再次暴涨，一夜间闯过200亿大关。他，在3个领域连续创业20年，一家公司市值700亿，一家公司市值2000亿。而他的最高学历，却只有高中。这个人，就是理想汽车的创始人——李想。纵观李想的创业史，可谓是颇为传奇：一个既没背景，又没资金高中毕业生，怎么就让3位互联网巨头（张一鸣、王兴、程维）同时为自己站台？更
Java实现的基于模板的网页结构化信息精准抽取组件：HtmlExtractor yangshangchuan 信息抽取 HtmlExtractor 精准抽取信息采集
HtmlExtractor是一个Java实现的基于模板的网页结构化信息精准抽取组件，本身并不包含爬虫功能，但可被爬虫或其他程序调用以便更精准地对网页结构化信息进行抽取。 HtmlExtractor是为大规模分布式环境设计的，采用主从架构，主节点负责维护抽取规则，从节点向主节点请求抽取规则，当抽取规则发生变化，主节点主动通知从节点，从而能实现抽取规则变化之后的实时动态生效。如
java编程思想 -- 多态百合不是茶 java 多态详解
一: 向上转型和向下转型面向对象中的转型只会发生在有继承关系的子类和父类中（接口的实现也包括在这里）。父类：人子类：男人向上转型： Person p = new Man() ; //向上转型不需要强制类型转化向下转型： Man man =
[自动数据处理]稳扎稳打,逐步形成自有ADP系统体系 comsci dp
对于国内的IT行业来讲,虽然我们已经有了"两弹一星",在局部领域形成了自己独有的技术特征,并初步摆脱了国外的控制...但是前面的路还很长.... 首先是我们的自动数据处理系统还无法处理很多高级工程...中等规模的拓扑分析系统也没有完成,更加复杂的
storm 自定义日志文件商人shang storm cluster logback
Storm中的日志级级别默认为INFO，并且，日志文件是根据worker号来进行区分的，这样，同一个log文件中的信息不一定是一个业务的，这样就会有以下两个需求出现： 1. 想要进行一些调试信息的输出 2. 调试信息或者业务日志信息想要输出到一些固定的文件中不要怕，不要烦恼，其实Storm已经提供了这样的支持，可以通过自定义logback 下的 cluster.xml 来输
Extjs3 SpringMVC使用 @RequestBody 标签问题记录 21jhf
springMVC使用 @RequestBody(required = false) UserVO userInfo 传递json对象数据，往往会出现http 415，400,500等错误，总结一下需要使用ajax提交json数据才行，ajax提交使用proxy，参数为jsonData，不能为params；另外，需要设置Content-type属性为json，代码如下：（由于使用了父类aaa
一些排错方法文强chu 方法
1、java.lang.IllegalStateException: Class invariant violation at org.apache.log4j.LogManager.getLoggerRepository(LogManager.java:199)at org.apache.log4j.LogManager.getLogger(LogManager.java:228) at o
Swing中文件恢复我觉得很难小桔子 swing
我那个草了！老大怎么回事，怎么做项目评估的？只会说相信你可以做的，试一下，有的是时间！用java开发一个图文处理工具，类似word，任意位置插入、拖动、删除图片以及文本等。文本框、流程图等，数据保存数据库，其余可保存pdf格式。ok,姐姐千辛万苦，
php 文件操作 aichenglong PHP 读取文件写入文件
1 写入文件 @$fp=fopen("$DOCUMENT_ROOT/order.txt", "ab"); if(!$fp){ echo "open file error" ; exit; } $outputstring="date:"." \t tire:".$tire."
MySQL的btree索引和hash索引的区别 AILIKES 数据结构 mysql 算法
Hash 索引结构的特殊性，其检索效率非常高，索引的检索可以一次定位，不像B-Tree 索引需要从根节点到枝节点，最后才能访问到页节点这样多次的IO访问，所以 Hash 索引的查询效率要远高于 B-Tree 索引。可能很多人又有疑问了，既然 Hash 索引的效率要比 B-Tree 高很多，为什么大家不都用 Hash 索引而还要使用 B-Tree 索引呢
JAVA的抽象--- 接口 --实现百合不是茶
抽象接口实现接口 //抽象类 ,方法 //定义一个公共抽象的类 ,并在类中定义一个抽象的方法体抽象的定义使用abstract abstract class A 定义一个抽象类例如： //定义一个基类 public abstract class A{ //抽象类不能用来实例化，只能用来继承 //
JS变量作用域实例 bijian1013 作用域
<script> var scope='hello'; function a(){ console.log(scope); //undefined var scope='world'; console.log(scope); //world console.log(b);
TDD实践（二） bijian1013 java TDD
实践题目：分解质因数 Step1：单元测试： package com.bijian.study.factor.test; import java.util.Arrays; import junit.framework.Assert; import org.junit.Before; import org.junit.Test; import com.bijian.
[MongoDB学习笔记一]MongoDB主从复制 bit1129 mongodb
MongoDB称为分布式数据库，主要原因是1.基于副本集的数据备份， 2.基于切片的数据扩容。副本集解决数据的读写性能问题，切片解决了MongoDB的数据扩容问题。事实上，MongoDB提供了主从复制和副本复制两种备份方式，在MongoDB的主从复制和副本复制集群环境中，只有一台作为主服务器，另外一台或者多台服务器作为从服务器。本文介绍MongoDB的主从复制模式，需要指明
【HBase五】Java API操作HBase bit1129 hbase
import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration; import org.apache.hadoop.hbase.HColumnDescriptor; import org.apache.ha
python调用zabbix api接口实时展示数据 ronin47
zabbix api接口来进行展示。经过思考之后，计划获取如下内容： 1、获得认证密钥 2、获取zabbix所有的主机组 3、获取单个组下的所有主机 4、获取某个主机下的所有监控项
jsp取得绝对路径 byalias 绝对路径
在JavaWeb开发中，常使用绝对路径的方式来引入JavaScript和CSS文件，这样可以避免因为目录变动导致引入文件找不到的情况，常用的做法如下：一、使用${pageContext.request.contextPath} 　　代码” ${pageContext.request.contextPath}”的作用是取出部署的应用程序名，这样不管如何部署，所用路径都是正确的。
Java定时任务调度：用ExecutorService取代Timer bylijinnan java
《Java并发编程实战》一书提到的用ExecutorService取代Java Timer有几个理由，我认为其中最重要的理由是：如果TimerTask抛出未检查的异常，Timer将会产生无法预料的行为。Timer线程并不捕获异常，所以 TimerTask抛出的未检查的异常会终止timer线程。这种情况下，Timer也不会再重新恢复线程的执行了;它错误的认为整个Timer都被取消了。此时，已经被
SQL 优化原则 chicony sql
一、问题的提出　在应用系统开发初期，由于开发数据库数据比较少，对于查询SQL语句，复杂视图的的编写等体会不出SQL语句各种写法的性能优劣，但是如果将应用系统提交实际应用后，随着数据库中数据的增加，系统的响应速度就成为目前系统需要解决的最主要的问题之一。系统优化中一个很重要的方面就是SQL语句的优化。对于海量数据，劣质SQL语句和优质SQL语句之间的速度差别可以达到上百倍，可见对于一个系统
java 线程弹球小游戏 CrazyMizzz java 游戏
最近java学到线程，于是做了一个线程弹球的小游戏，不过还没完善这里是提纲 1.线程弹球游戏实现 1.实现界面需要使用哪些API类 JFrame JPanel JButton FlowLayout Graphics2D Thread Color ActionListener ActionEvent MouseListener Mouse
hadoop jps出现process information unavailable提示解决办法 daizj hadoop jps
hadoop jps出现process information unavailable提示解决办法 jps时出现如下信息： 3019 -- process information unavailable3053 -- process information unavailable2985 -- process information unavailable2917 --
PHP图片水印缩放类实现 dcj3sjt126com PHP
<?php class Image{ private $path; function __construct($path='./'){ $this->path=rtrim($path,'/').'/'; } //水印函数，参数：背景图，水印图，位置，前缀,TMD透明度 public function water($b,$l,$pos
IOS控件学习：UILabel常用属性与用法 dcj3sjt126com ios UILabel
参考网站： http://shijue.me/show_text/521c396a8ddf876566000007 http://www.tuicool.com/articles/zquENb http://blog.csdn.net/a451493485/article/details/9454695 http://wiki.eoe.cn/page/iOS_pptl_artile_281
完全手动建立maven骨架 eksliang java eclipse Web
建一个 JAVA 项目： mvn archetype:create -DgroupId=com.demo -DartifactId=App [-Dversion=0.0.1-SNAPSHOT] [-Dpackaging=jar] 建一个 web 项目： mvn archetype:create -DgroupId=com.demo -DartifactId=web-a
配置清单 gengzg 配置
1、修改grub启动的内核版本 vi /boot/grub/grub.conf 将default 0改为1 拷贝mt7601Usta.ko到/lib文件夹拷贝RT2870STA.dat到 /etc/Wireless/RT2870STA/文件夹拷贝wifiscan到bin文件夹，chmod 775 /bin/wifiscan 拷贝wifiget.sh到bin文件夹，chm
Windows端口被占用处理方法 huqiji windows
以下文章主要以80端口号为例，如果想知道其他的端口号也可以使用该方法..........................1、在windows下如何查看80端口占用情况?是被哪个进程占用?如何终止等. 这里主要是用到windows下的DOS工具,点击"开始"--"运行",输入&
开源ckplayer 网页播放器，跨平台(html5, mobile)，flv, f4v, mp4, rtmp协议. webm, ogg, m3u8 ！天梯梦 mobile
CKplayer，其全称为超酷flv播放器，它是一款用于网页上播放视频的软件，支持的格式有：http协议上的flv,f4v,mp4格式，同时支持rtmp视频流格式播放，此播放器的特点在于用户可以自己定义播放器的风格，诸如播放/暂停按钮，静音按钮，全屏按钮都是以外部图片接口形式调用，用户根据自己的需要制作出播放器风格所需要使用的各个按钮图片然后替换掉原始风格里相应的图片就可以制作出自己的风格了，
简单工厂设计模式 hm4123660 java 工厂设计模式简单工厂模式
简单工厂模式（Simple Factory Pattern）属于类的创新型模式，又叫静态工厂方法模式。是通过专门定义一个类来负责创建其他类的实例，被创建的实例通常都具有共同的父类。简单工厂模式是由一个工厂对象决定创建出哪一种产品类的实例。简单工厂模式是工厂模式家族中最简单实用的模式，可以理解为是不同工厂模式的一个特殊实现。
maven笔记 zhb8015 maven
跳过测试阶段： mvn package -DskipTests 临时性跳过测试代码的编译： mvn package -Dmaven.test.skip=true maven.test.skip同时控制maven-compiler-plugin和maven-surefire-plugin两个插件的行为，即跳过编译，又跳过测试。指定测试类 mvn test
非mapreduce生成Hfile，然后导入hbase当中 Stark_Summer map hbase reduce Hfile path实例
最近一个群友的boss让研究hbase，让hbase的入库速度达到5w+/s，这可愁死了，4台个人电脑组成的集群，多线程入库调了好久，速度也才1w左右，都没有达到理想的那种速度，然后就想到了这种方式，但是网上多是用mapreduce来实现入库，而现在的需求是实时入库，不生成文件了，所以就只能自己用代码实现了，但是网上查了很多资料都没有查到，最后在一个网友的指引下，看了源码，最后找到了生成Hfile
jsp web tomcat 编码问题王新春 tomcat jsp pageEncode
今天配置jsp项目在tomcat上，windows上正常，而linux上显示乱码，最后定位原因为tomcat 的server.xml 文件的配置，添加 URIEncoding 属性： <Connector port="8080" protocol="HTTP/1.1" connectionTi

51-11 多模态论文串讲—VLMo 论文精读

你可能感兴趣的:(AutoGPT,自动驾驶大模型,自动驾驶,transformer,gpt-3,智慧城市,迁移学习,算法)