weixin_42653320

2022: Multi-Grained Vision Language Pre-Training: Aligning Texts with Visual Concepts

摘要

大多现有的视觉语言预训练依赖通过对象检测器提取的以对象为中心的特征，并对提取的体征与文本进行细粒度对齐。这些方法对学习多个对象间的关系具有挑战性。为此，我们提出一种新的方法--X-VLM来执行多粒度视觉语言预训练。学习多粒度对齐的关键是在给定相关文本的图像中定位视觉概念，同时将文本与视觉概念对齐，其中对齐是多粒度的。实验结果表示X-VLM有效利用了学习到的多粒度对齐到许多下游的视觉语言任务，并始终由于最先进的方法。

一、介绍

现有的学习视觉语言对齐的方法可以分为两种，如图1，大多数检测图像中的对象，并将文本与细粒度（以对象为中心）的特征对齐。它们要么利用预训练好的对象检测器，或者在预训练过程中进行实时对象检测。其它方法不依赖于目标检测，而是只学习文本和图像的粗粒度特征之间的对齐。

细粒度和粗粒度的方法都有缺点，对象检测识别图像中所有可能的对象，其中一些对象可能与文本无关。以对象为中心的特性不能轻易地表示多个对象间的关系，如"man crossing the street"。此外，预先定义适合于下游任务的对象类别也具有挑战性。另一方面，粗粒度方法不能有效地学习视觉与语言之间的细粒度对齐，如对象级，这已被证明对一些下游任务很关键，如视觉推理、视觉接地和图像标注。

理想情况下，我们希望VLM在预训练中学习视觉与语言之间的多粒度对齐，这并不局限于对象级或图像级，并利用学习到的对齐到下游的V+L任务。而现有方法不能满意地处理视觉和语言之间的多粒度对齐。

本文，我们提出通过将文本描述与图像中相应的视觉概念对齐来进行多粒度视觉语言的预训练。以图1为例，我们有以下数据用于训练：1)描述整个图像的图像标注；2）区域注释，如man wearing backpack等，每个注释都与图像中的一个区域有关，而以前的方法大致将区域描述与整个图像对齐；3）对象标签，如packback，这被以前的方法用来训练对象检测器。我们重新制定数据，这样一个图像可能有多个边界框，并且一个文本直接与每个框中的视觉概念相关联。这种视觉概念可能是一个物体、一个区域或图像本身，如图1(c)的例子。通过这样做，我们的方法学习了与不同文本描述相关的不同的视觉概念，这些概念也不限于对象级或图像级。

我们的多粒度模型--X-VLM，由一个图像编码器用来产生图像的视觉概念（包括图像本身）的表示，一个文本编码器，和一个跨模态编码器用来在视觉特征和语言特征之间进行交叉注意，以学习视觉语言对齐。学习多粒度对齐的关键是通过以下优化X-VLM：1）通过结合框回归损失和共同损失的交集，在给定相关文本的图像中定位视觉概念；2）同时将文本与视觉概念对齐，如通过对比损失，一个匹配损失和一个掩码语言建模损失，其中对齐是多粒度的，如图1(c)所示。在微调和推理中，X-VLM可以利用学习到的多粒度对齐来执行下游的V+L任务，而无需在输入图像中添加便边界框注释。

我们演示了我们的方法在各种下游任务上的有效性。在视觉推理任务中，与VinVL相比，X-VLM在VQA上绝对提高了0.79%，在NLVR2上提高了1.06%(Zhang等人，2021年)，推理速度要快得多。X-VLM的性能也超过了SimVLMbase(Wang等人，2021年)，特别是在NLVR2上的2.4%。

本工作的贡献如下：1）我们建议执行多粒度视觉语言预训练来处理文本与视觉概念之间的对齐；2）我们建议优化模型(X-VLM)，通过在给定相关文本的图像中定位视觉概念，同时将文本与视觉概念对齐，其中对齐是多粒度的；3）我们通过实验验证了我们的方法有效地利用了学习到的多粒度对齐进行微调。X-VLM在许多下游的V+L任务上始终优于现有的最先进的方法。

二、相关工作

现有的视觉语言预训练工作通常可分为两类：细粒度和粗粒度。

大多现有方法属于细粒度方法，依赖于对象检测。如VinVL通过使用一个经过大量图像注释的强大目标检测器，在许多V+L任务上实现了SOTA性能。该方法的挑战是，以对象为中心的特征不能表示多个区域中的多个对象间的关系，而且，预定义对下游V+L任务有用的对象的类别并不容易。

粗粒度的方法通过使用卷积网络或视觉transformer提取和编码整个图像特征来构建VLMs。其性能通常不如细粒度的方法好，虽然以对象为中心的特征只与某些对象相关，但能学习细粒度的对齐，如对象级别，已被证明是一些下游任务的关键，如视觉推理和视觉接地。为解决此问题，SOHO采用在线聚类图像特征获得更全面的表示，ViLT使用更先进的视觉transformer如Swin-Transformer进行图像编码，和ALBEF采用对比学习和动量蒸馏学习图像-文本对齐。然而，这些改进仍然不能缩小与细粒度的方法之间的差距。

最近，出现了一些方法来同时学习对象级和图像级的对齐。然而，这些方法仍然依赖于对象检测器，因此存在上述问题。如VL-BERT将Faster R-CNN整合到预训练中；E2E-VLP增加了一个端到端的对象检测模块（DETR）；Uni-EDEN使用Faster R-CNN作为视觉骨干；KD-VLP依赖外部对象检测器进行对象知识蒸馏。相比之下，X-VLM并不依赖于目标检测。此外，X-VLM学习多粒度的视觉语言对齐，它们并不局限于对象级或图像级。此外，与Uni-EDEN不同的是，它通过对象分类将对象与语言对齐，并通过标题生成将图像与语言对齐，X-VLM以统一的方式学习语言不同粒度上的视觉概念。我们将在实验中展示X-VLM的有效性。

三、方法

3.1 概述

X-VLM包含一个图像编码器(Itrans)、一个文本编码器(Ttrans)、和一个跨模态编码器(Xtrans)。所有的编码器都是基于transformer，跨模态编码器通过在每一层的交叉注意里融合视觉特征和语言特征。

我们重新制定了广泛使用的预训练数据集，这样一个图像可能有多个边界框，每个边界框都与描述一个对象或一个区域的文本相关联，表示为(I,T,{(Vj,Tj)}N)。有些图像没有相关的文本，即T是NaN，有些图像没有边界框，即N=0。这里，Vj是边界框bj=(cx，cy，w，h)中的一个对象或区域，由边界框的归一化中心坐标、宽度和高度表示。当图像本身代表一个视觉概念时，b=（0.5，0.5，1，1）。图2表示X-VLM的架构和预训练目标。

3.2 视觉编码

该图像编码器可以有效地在图像中产生多粒度的视觉概念表示，编码器是基于视觉transformer的。首先将一个图像分割成不重叠的补丁，并线性的嵌入所有的补丁，然后，这些补丁被传递到transformer层，产生{v1，...，vNI}。

我们假设vpi对相应的补丁pi的信息进行编码，因此，我们表示了一个视觉概念Vj（对象、区域或图像），它通过聚合在补丁之间的信息来对应于一组补丁，如图2所示。具体来说，我们在保留补丁特征位置信息的同时，对补丁特征进行重塑，表示为{vpj1，...，vpjM}。{pj1，...，pjM}是Vj的补丁。我们还计算特征的平均值来表示整个视觉概念，表示为vjcls，并预先准备好它。

然后，图像编码器以不同的粒度创建N+1个概念表示，表示为Itrans(Vj)={vjcls，vpj1，...，vpjM}，j∈[0，N]。我们让Itrans(V0)表示所有补丁特征都被利用的图像表示。在下一节中，我们将描述如何在学习多粒度对齐中使用这些表示。

3.2 跨模态建模

如图2所示，我们优化X-VLM，通过在给定相应文本的图像中定位视觉概念，同时对齐文本和视觉概念，其中对齐是多粒度的。

边界框预测 我们让模型预测视觉概念Vj的边界框bj，给定了图像表示和文本表示，其中bj=(cx，cy，w，h)。通过在同一图像中定位不同的视觉概念，我们期望模型更好地学习细粒度的视觉语言对齐。边界框的预测为：

其中sigmoid为归一化，MLP表示多层感知器，xjcls为给定I和Tj的跨模态编码器的输出[CLS]嵌入。

对于边界框预测，l1是最常用的loss。然而，对于小框和大框，它有不同的尺度，即使它们的相对误差是相似的。为了缓解这个问题，我们使用了l1损失和广义联合(IoU)损失的线性组合，这是尺度可变的。整体损失定义为：

同时，我们通过三个广泛应用于视觉语言预训练的目标来对齐文本和视觉概念。我们将目标扩展到在图像中包含多粒度的视觉概念。

对比学习 我们预测（视觉概念，文本）对，表示（V，T），从批内取负。请注意，视觉概念包括对象、区域和图像。与Radford等人（2021年）类似，我们随机抽取一小批N对，并计算成批视觉到文本相似度和文本到视觉相似度。

给定一对(V，T)，T是V的正例，我们将小批处理中的其他(N−1)文本视为否定的例子。我们定义了余弦相似度s(V，T)=gv(vcls)>gw(wcls)。wcls是文本编码器的输出[CLS]嵌入。gv和gw是将[CLS]嵌入映射到规范化的低维表示的转换。然后，我们计算批处理视觉到文本、文本到视觉相似度为：

对比损失定义为p和y之间的交叉熵H：

匹配预测 我们确定一对视觉概念和文本是否匹配。对于小批中的每个视觉概念，我们按照公式3中的pv2t(V)对批内硬负文本进行采样。与该概念更相关的文本更有可能被抽样。我们还为每个文本采样了一个硬否定的视觉概念。我们使用xcls，即跨模态编码器的输出[CLS]嵌入，来预测匹配概率p匹配，损失为：

掩码语言建模 我们根据视觉概念来预测文本中的掩蔽词。我们以25%的概率随机屏蔽输入标记，替换为10%的随机标记，10%不变，80%[MASK]。我们使用跨模态编码器的输出，并附加一个线性层，然后是softmax进行预测。设Tˆ表示一个掩码文本，pj(V，Tˆ)表示掩码标记tj的预测概率。我们将交叉熵的损失最小化：

最终，X-VLM的预训练目标为：

四、实验

4.1 预训练数据集

在4M设置中，我们只使用来自COCO和VG的图像注释，其中包含250万个对象注释和3.7万个区域注释。我们将对象标签作为对象的文本描述，并重新制定图像注释，使一个图像有多个框，每个框与一个文本相关联。文本描述了方框中的视觉概念，它可以是对象、区域或图像本身。

由于大多数下游V+L任务都建立在COCO和VG之上，因此我们排除了所有也出现在下游任务的验证和测试集中的图像，以避免信息泄漏。

4.2 实现细节

X-VLM的图像编码器是视觉transformer（多索维茨基等人，2020），它用Swin transformerbase初始化(Liu等人，2021b)。文本编码器和跨模态编码器分别由6个transformer层组成。文本编码器使用BERTbase的前六层初始化(Devlinetal.，2019)，跨模态编码器使用最后六层初始化。X-VLM总共有215.6M参数用于预训练。

4.3 下游任务

视觉问答 它要求模型预测给定一个图像和一个问题的答案。根据之前的工作，我们使用一个六层transformer解码器来基于跨模态编码器的输出生成答案。我们对模型进行了10个epoch。在推理过程中，我们限制解码器只从3,129个候选答案中生成，以便与现有的方法进行公平的比较。

4.5 在视觉推理上的结果

具有中等模型大小和在较少实例上进行预训练的X-VLM(4M)的性能优于VinVL。具体来说，与VinVL相比，X-VLM(4M)在VQA上实现了1.52%，在NLVR2（平均指标）上实现了0.86%的绝对改进。同时，正如Li等人(2021a)所报道的，X-VLM对没有目标检测过程的图像进行编码，其推理速度比VinVL快10倍。结果表明，我们的X-VLM方法是既有效和高效的。X-VLM的性能也优于SimVLMbase，后者是在内部1.8B数据上进行预训练的，特别是在NLVR2上。

4.8 消融研究

首先，我们评估了视觉概念在不同粒度下的有效性，即w/o对象和w/o区域。结果表明，没有任何一种方法的训练都会影响学习表现，这表明了学习多粒度对齐的必要性。此外，我们可以观察到，w/o区域比w/o对象的性能下降更剧烈。此外，消融研究表明，边界框预测是X-VLM的一个关键组成部分，因为没有bbox损失会导致最低的Meta-Sum。我们还报告了“w/o所有”的结果，其中上面所有的组件都被消融了。虽然在4M设置中，只有210K图像具有密集的注释，但X-VLM可以利用数据来学习多粒度视觉语言对齐，并显著提高下游V+L任务的性能(Meta-Sum从580.6到605.2)。

五、总结和讨论

本文，我们提出了X-VLM，一种强大而高效的执行多粒度视觉语言预训练的方法。模型的训练是通过在给定相关文本的图像中定位视觉概念，并将文本与相关的视觉概念对齐来驱动的，其中对齐是多粒度的。我们用4M和16M的图像预先训练了X-VLM，它们是中等大小的。此外，X-VLM只由216M参数组成。之所以做出这些选择，是因为我们想让我们的实验成为“绿色”(施瓦茨等人，2020；Xu等人，2021b)，并尽可能为更大的人群体使用。对下游V+L任务的实验，包括图像-文本检索、视觉推理、视觉接地和图像标题生成表明，X-VLM优于现有的方法，可以更大和/或在更多的数据上进行预训练。在X-VLM(4M)和X-VLM(16M)之间的比较中表明，添加更多的预训练数据集可能会导致进一步的性能提高。至于应用，X-VLM在理解细粒度的视觉语言对齐方面表现出了更好的性能。例如，它可以生成可能有更多对象细节的图像标题，这使得它成为帮助视力残疾人理解图像的更好的选择。另一方面，中等型号大小的X-VLM也更容易部署。

x86-64汇编语言训练程序与实战十除以十等于一
本文还有配套的精品资源，点击获取简介：汇编语言是一种低级语言，与机器代码紧密相关，特别适用于编写系统级代码及性能要求高的应用。nasm编译器是针对x86和x86-64架构的汇编语言编译器，支持多种语法风格和指令集。项目Euler提供数学和计算机科学问题，鼓励编程技巧应用，前100个问题的答案可共享。x86-64架构扩展了寄存器数量并引入新指令，提升了数据处理效率。学习汇编语言能够深入理解计算机底层
三菱PLC全套学习资料及应用手册 good2know
本文还有配套的精品资源，点击获取简介：三菱PLC作为工业自动化领域的核心设备，其系列产品的学习和应用需要全面深入的知识。本次资料包为学习者提供从基础到进阶的全方位学习资源，包括各种型号PLC的操作手册、编程指南、软件操作教程以及实际案例分析，旨在帮助用户系统掌握PLC的编程语言、指令系统及在各类工业应用中的实施。1.三菱PLC基础知识入门1.1PLC的基本概念可编程逻辑控制器（PLC）是工业自动化
9、汇编语言编程入门：从环境搭建到简单程序实现神经网络酱汇编语言 MEPIS GNU工具链
汇编语言编程入门：从环境搭建到简单程序实现1.数据存储介质问题解决在处理数据存储时，若要使用MEPIS系统，需确保有其可访问的存储介质。目前，MEPIS无法向采用NTFS格式（常用于Windows2000和XP工作站）的硬盘写入数据。不过，若硬盘采用FAT32格式，MEPIS就能进行写入操作。此外，MEPIS还能将文件写入软盘和大多数USB闪存驱动器。若工作站连接到局域网，还可通过FTP协议或挂载
第28章汇编语言--- 异常处理 hummhumm 汇编算法开发语言程序设计高级语言异常处理汇编语言
在汇编语言中，异常处理是一个重要的概念，它涉及到处理器如何响应和处理程序运行时发生的非正常情况。异常可以是硬件错误（例如除零错误、非法指令）或者软件触发的中断（例如系统调用）。当发生异常时，处理器会暂停当前正在执行的程序，并转移到一个预先定义好的位置来处理这个异常。为了详细阐述第28章关于汇编语言中的异常处理，我们可以考虑一个简化的例子，展示异常处理的基本结构。请注意，实际的代码将取决于具体的处理
深入理解汇编语言子程序设计与系统调用网安spinage 汇编语言开发语言汇编算法
本文将全面解析汇编语言中子程序设计的核心技术以及系统调用的实现方法，涵盖参数传递的多种方式、堆栈管理、API调用等关键知识点，并提供实际案例演示。一、子程序设计：参数传递的艺术1.寄存器传参：高效简洁.386.modelflat,stdcalloptioncasemap:none.dataxdd5;定义变量ydd6sumdd?.code;函数定义：addxy1addxy1procpushebpmo
京东家电年销售额是去年的1300%，主要来自于他.... Shanshan小课堂
经过大半个月角逐纠缠，时间终于来到6月18日，618全球年中购物节迎来最高潮。作为国内最大的家电零售平台，京东家电从18日0点开始，便开启了飞速狂奔的模式，仅8分钟销售额就突破20亿元!展现出强劲的增长势头与家电主场的王者霸气的同时，也让各家电品牌实现了爆发式增长，美的、海尔、格力、奥克斯均在3分钟内突破1亿元大关。在今年的618中，除了消费者已经熟悉的网购形式外，线上线下联动的融合模式、社交电商
为了在未来的人工智能世界中取得成功，学生们必须学习人类写作的优点睿邸管家
澳大利亚各地的学生在新学年开始使用铅笔、钢笔和键盘学习写字。在工作场所，机器也在学习写作，如此有效，几年之内，它们可能会写得比人类更好。有时它们已经做到了，就像Grammarly这样的应用程序所展示的那样。当然，人类现在的日常写作可能很快就会由具有人工智能(AI)的机器来完成。手机和电子邮件软件常用的预测文本是无数人每天都在使用的一种人工智能写作形式。据AI行业研究机构称，到2022年，人工智能及
元宇宙中的视觉技术：虚拟化身与场景生成 xcLeigh 计算机视觉CV 元宇宙虚拟化身场景生成 AIGC 数字孪生
元宇宙中的视觉技术：虚拟化身与场景生成前言一、元宇宙与视觉技术的深度关联1.1元宇宙概念深度剖析1.2视觉技术：元宇宙的“灵魂之窗”二、虚拟化身：数字世界的“第二自我”2.1虚拟化身技术的深度解析2.1.1核心技术构成2.1.2技术实现原理与流程2.2虚拟化身的应用领域及案例展示2.2.1游戏娱乐领域2.2.2教育培训领域三、场景生成：构建元宇宙的虚拟天地3.1场景生成技术全景透视3.1.1关键技
C++编程基础与面向对象概念解析侯昂面向对象编程 C++语法函数类与对象继承与多态性
C++编程基础与面向对象概念解析背景简介C++是一种广泛使用的面向对象编程语言，它允许开发者创建高效、灵活且功能强大的程序。本文基于《C++Primer》一书的章节内容，深入解析C++的核心概念和面向对象编程原则，旨在帮助读者构建扎实的C++编程基础。面向对象编程的原则软件危机与进化介绍了软件危机的产生和软件进化的必要性，强调了面向对象编程（OOP）在应对这些问题中的优势。面向对象编程范式讨论了面
手把手教你用C语言实现顺序表
hello，大家好，本篇文章旨在为大家讲解如何使用C语言实现顺序表，还有就是小编自己复习一下相关知识，OK，那我们现在开始。在通讯录中，有增删查改等功能，那么顺序表我们也会对以上功能进行实现。一、创建并初始化顺序表1.创建typedefintSLDataType;#defineINIT_CAPACITY4//动态顺序表--按需申请typedefstructSeqList{SLDataType*a;
Anaconda 和 Miniconda：功能详解与选择建议古月฿ python入门 python conda
Anaconda和Miniconda详细介绍一、Anaconda的详细介绍1.什么是Anaconda？Anaconda是一个开源的包管理和环境管理工具，在数据科学、机器学习以及科学计算领域发挥着关键作用。它以Python和R语言为基础，为用户精心准备了大量预装库和工具，极大地缩短了搭建数据科学环境的时间。对于那些想要快速开展数据分析、模型训练等工作的人员来说，Anaconda就像是一个一站式的“数
MySQL复习题
一.填空题1.关系数据库的标准语言是SQL。2.数据库发展的3个阶段中，数据独立性最高的是阶段数据库系统。3.概念模型中的3种基本联系分别是一对一、一对多和多对多。4.MySQL配置文件的文件名是my.ini或my.cnf。5.在MySQL配置文件中，datadir用于指定数据库文件的保存目录。6.添加IFNOTEXISTS可在创建的数据库已存在时防止程序报错。7.MySQL提供的SHOWCREA
Qwen3 大模型实战：使用 vLLM 部署与函数调用（Function Call）全攻略曦紫沐大模型大模型部署 Qwen3 vLLM 函数调用
文章摘要本文将带你从零开始，深入掌握如何使用Qwen3-8B大语言模型，结合vLLM进行高性能部署，并通过函数调用（FunctionCall）实现模型与外部工具的智能联动。我们将详细讲解部署命令、调用方式、代码示例及实际应用场景，帮助你快速构建基于Qwen3的智能应用。一、Qwen3简介与部署环境准备Qwen3是通义千问系列的最新一代大语言模型，具备强大的自然语言理解和生成能力，尤其在函数调用、工
人工智能应用研究快讯 2021-11-30 峰谷皆平
[HTML]ArtificialIntelligenceforSkinCancerDetection:ScopingReviewATakiddin,JSchneider,YYang,AAbd-Alrazaq...JournalofMedicalInternet...,2021ABSTACT:Background:Skincanceristhemostcommoncancertypeaffectin
学C++的五大惊人好处
为什么要学c++学c++有什么用学习c++的好处有1.中考可以加分2.高考可能直接录取3.就业广且工资高4.在未来30--50年c++一定是一个很受欢迎的职业5.c++成功的例子deepsick等AI智能C++语言兼备编程效率和编译运行效率的语言C++语言是C语言功能增强版,在c语言的基础上添加了面向对象编程和泛型编程的支持既继承了C语言高效，简洁，快速和可移植的传统,又具备类似Java、Go等其
从振动信号到精准预警：AI 如何重塑工业设备健康管理？缘华工业智维人工智能计算机视觉边缘计算信息与通信
在智能制造浪潮席卷全球的当下，工业生产正经历着从传统模式向智能化、数字化转型的深刻变革。在这场变革中，AI驱动的振动分析技术犹如一颗璀璨新星，成为工业设备可靠运行的“健康卫士”。它通过在设备关键部位部署振动传感器，如同医生为患者听诊般实时采集设备运行时的振动信号，再借助强大的人工智能算法对这些“工业脉搏”进行深度解析，从而实现对工业设备从故障预警到寿命预测的全周期精准守护。一、AI振动分析：设备状
基于DeepSeek的下一代大型游戏开发革命：架构、核心技术与项目管理实践 Liudef06小白特殊专栏人工智能 AIGC 架构人工智能 deepseek
基于DeepSeek的下一代大型游戏开发革命：架构、核心技术与项目管理实践DeepSeek大模型正重塑游戏开发范式，本文将深入解析如何利用这一革命性技术构建下一代大型游戏，涵盖从架构设计到项目管理的全流程实践。目录DeepSeek游戏引擎核心架构1.1神经符号系统融合架构1.2动态世界生成引擎智能NPC与剧情系统2.1角色人格建模技术2.2动态叙事生成算法大型项目管理体系3.1敏捷-AI混合开发流
AI 生成虚拟宠物：24 小时陪你聊天解闷大力出奇迹985 人工智能宠物
本文围绕AI生成虚拟宠物展开，介绍这类依托人工智能技术诞生的虚拟伙伴，能实现24小时不间断陪伴聊天，为人们解闷。文中详细阐述其技术基础，包括自然语言处理、机器学习等；分析多样功能，如个性化互动、情绪回应等；探讨在独居人群、压力大者等不同群体中的应用场景，最后总结其为人们生活带来的积极影响及未来发展潜力，展现AI虚拟宠物在陪伴领域的独特价值。一、AI生成虚拟宠物的诞生背景与技术基石在快节奏的现代社会
基于Python的AI健康助手：开发与部署全攻略 AI算力网络与通信 AI算力网络与通信原理 AI人工智能大数据架构 python 人工智能开发语言 ai
基于Python的AI健康助手：开发与部署全攻略关键词：Python、AI健康助手、机器学习、自然语言处理、Flask、部署、健康管理摘要：本文将详细介绍如何使用Python开发一个AI健康助手，从需求分析、技术选型到核心功能实现，再到最终部署上线的完整过程。我们将使用自然语言处理技术理解用户健康咨询，通过机器学习模型提供个性化建议，并展示如何用Flask框架构建Web应用接口。文章包含大量实际代
GPT-4 在 AIGC 中的微调技巧：让模型更懂你的需求 AIGC应用创新大全 AI人工智能与大数据应用开发 MCP&Agent 云算力网络 AIGC ai
GPT-4在AIGC中的微调技巧：让模型更懂你的需求关键词：GPT-4、AIGC、模型微调、监督学习、指令优化、过拟合预防、个性化生成摘要：AIGC（人工智能生成内容）正在重塑内容创作行业，但通用的GPT-4模型可能无法精准匹配你的垂直需求——比如写电商爆款文案时总“跑题”，或生成技术文档时专业术语不够。本文将用“教小朋友学画画”的通俗类比，从微调的底层逻辑讲到实战技巧，带你掌握让GPT-4“更懂
AIGC内容生成实战：如何用ChatGPT+DALL·E打造高转化内容 AI大模型应用工坊 AI大模型开发实战 AIGC chatgpt ai
AIGC内容生成实战：如何用ChatGPT+DALL·E打造高转化内容关键词：AIGC、ChatGPT、DALL·E、内容生成、高转化营销、多模态协同、提示词工程摘要：随着AIGC（人工智能生成内容）技术的爆发式发展，ChatGPT（文本生成）与DALL·E（图像生成）的组合已成为内容创作领域的“黄金搭档”。本文将深度解析二者的协同原理，结合实战案例演示从需求分析到内容落地的全流程，并揭示提升内容
数据分析领域中AI人工智能的发展前景展望 AI大模型应用工坊 AI大模型开发实战数据分析人工智能数据挖掘 ai
数据分析领域中AI人工智能的发展前景展望关键词：数据分析、人工智能、机器学习、深度学习、数据挖掘、预测分析、自动化摘要：本文深入探讨了人工智能在数据分析领域的发展现状和未来趋势。我们将从核心技术原理出发，分析AI如何改变传统数据分析范式，详细讲解机器学习算法在数据分析中的应用，并通过实际案例展示AI驱动的数据分析解决方案。文章还将探讨行业应用场景、工具生态以及未来发展面临的挑战和机遇，为数据分析师
AI人工智能中的数据挖掘：提升智能决策能力
AI人工智能中的数据挖掘：提升智能决策能力关键词：数据挖掘、人工智能、机器学习、智能决策、数据分析、特征工程、模型优化摘要：本文深入探讨了数据挖掘在人工智能领域中的核心作用，重点分析了如何通过数据挖掘技术提升智能决策能力。文章从基础概念出发，详细介绍了数据挖掘的关键算法、数学模型和实际应用场景，并通过Python代码示例展示了数据挖掘的全流程。最后，文章展望了数据挖掘技术的未来发展趋势和面临的挑战
Jupyter Notebook：数据科学的“瑞士军刀” a小胡哦机器学习基础人工智能机器学习
在数据科学的世界里，JupyterNotebook是一个不可或缺的工具，它就像是数据科学家手中的“瑞士军刀”，功能强大且灵活多变。今天，就让我们一起深入了解这个神奇的工具。一、JupyterNotebook是什么？JupyterNotebook是一个开源的Web应用程序，它允许你创建和共享包含实时代码、方程、可视化和解释性文本的文档。它支持多种编程语言，其中Python是最常用的语言之一。Jupy
几张电影票《阿凡达水之道》梅落如雪
夫喜欢视觉和听觉的盛宴，追求极致画面和声音的享受，我却一直不愿意为家里买一个硕大的电视。因为这些年，走在贫农的路线，却始终努力追求高端电视，最终的经验是，买一台好电视--浪费！我说阿凡达出来水之道，他却说如果不去万达的电影院，别的影院去没意思，视觉效果和听觉效果都不好。唉，我摸摸口袋里的三瓜俩枣，心里默默心疼了一下银子。为了几两碎银子，天天上班，我容易嘛。结果这小子追求这个。。。。他说要不不去看了
【三桥君】MCP中台，究竟如何实现多模型、多渠道、多环境的统一管控？如何以MCP为核心设计AI应用架构？三桥君《三桥君 MCP落地方法论》《三桥君 AI大模型落地方法论》#《三桥君 AI产品方法论》人工智能 AI产品经理 MCP API 三桥君系统架构 llama
你好，我是✨三桥君✨本文介绍>>一、引言随着人工智能技术的快速发展，越来越多的企业开始引入大语言模型（LLM）以提升用户体验和运营效率。然而，如何高效、稳定地将这些AI能力落地到生产环境呢？传统的系统架构往往难以应对AI应用的高并发、低延迟和灵活扩展需求，因此，从整体架构角度设计AI应用架构显得尤为重要。本文三桥君将深入探讨以MCP为核心的AI应用架构，并分析多种部署方式的优劣势，为企业在AI落地
August 22，Thursday & Jeudi 转院康复第三天 emmanuelleZHAO
今天是转院康复第三天，已经三天没有做肢体康复了。昨天下午是医生忘记了，今天是我哥忘记了。陪床这十几天，感觉最累的是家人对治病的意见不一致。比如今天，我哥就要出院，才来三天就要出院，开玩笑吧……妈妈现在失语比较厉害，所以练习吞咽的同时还需要练习语言功能。这是一个慢慢恢复的过程，而且即使恢复了，也不会恢复到生病之前到状态。需要有这个心里准备…我这里比较麻烦的事.人在北京，。9月中旬前还可以，9月中旬后
梦，是世界的语言温柔的静子
图片发自App孙彩梦/文梦，是一种世界通用的语言不是你很有想法你就有梦想梦想和想法并不是同一件事人类真正的梦，是与宇宙同步的，和世间万物同频共振的，非常强大，没有敌人它类似一种导航系统，只要有这个装备，所到之处皆是最神圣的目的地对一个人来说，真正的问题不在于如何去实现梦想而是无论发生过什么，你都不能放弃这个梦想，守护它，让它在你的脑里，不被改变，不被迷失一辈子做一个有梦想的人就是自由的，幸福的，充
深入理解卷积神经网络（CNN）与循环神经网络（RNN） CodeJourney. cnn rnn 人工智能
在当今的人工智能领域，神经网络无疑是最为璀璨的明珠之一。而卷积神经网络（ConvolutionalNeuralNetworks，CNN）和循环神经网络（RecurrentNeuralNetworks，RNN）作为神经网络家族中的重要成员，各自有着独特的架构和强大的功能，广泛应用于众多领域。本文将深入探讨这两种神经网络的原理、特点以及应用场景，为对深度学习感兴趣的读者提供全面的知识讲解。一、卷积神经
Python数据可视化：用代码绘制数据背后的故事 AAEllisonPang Python 信息可视化 python 开发语言
引言：当数据会说话在数据爆炸的时代，可视化是解锁数据价值的金钥匙。Python凭借其丰富的可视化生态库，已成为数据科学家的首选工具。本文将带您从基础到高级，探索如何用Python将冰冷数字转化为引人入胜的视觉叙事。一、基础篇：二维可视化的艺术表达1.1Matplotlib：可视化领域的瑞士军刀importmatplotlib.pyplotaspltimportnumpyasnpx=np.linsp
Js函数返回值 _wy_ js return
一、返回控制与函数结果，语法为：return 表达式;作用: 结束函数执行，返回调用函数，而且把表达式的值作为函数的结果二、返回控制语法为：return;作用: 结束函数执行，返回调用函数，而且把undefined作为函数的结果在大多数情况下,为事件处理函数返回false,可以防止默认的事件行为.例如,默认情况下点击一个<a>元素,页面会跳转到该元素href属性
MySQL 的 char 与 varchar bylijinnan mysql
今天发现，create table 时，MySQL 4.1有时会把 char 自动转换成 varchar 测试举例： CREATE TABLE `varcharLessThan4` ( `lastName` varchar(3) ) ; mysql> desc varcharLessThan4; +----------+---------+------+-
Quartz——TriggerListener和JobListener eksliang TriggerListener JobListener quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208624 一.概述 listener是一个监听器对象，用于监听scheduler中发生的事件，然后执行相应的操作；你可能已经猜到了，TriggerListeners接受与trigger相关的事件，JobListeners接受与jobs相关的事件。二.JobListener监听器 j
oracle层次查询 18289753290 oracle；层次查询；树查询
.oracle层次查询(connect by) oracle的emp表中包含了一列mgr指出谁是雇员的经理，由于经理也是雇员，所以经理的信息也存储在emp表中。这样emp表就是一个自引用表，表中的mgr列是一个自引用列，它指向emp表中的empno列，mgr表示一个员工的管理者， select empno,mgr,ename,sal from e
通过反射把map中的属性赋值到实体类bean对象中酷的飞上天空 javaee 泛型类型转换
使用过struts2后感觉最方便的就是这个框架能自动把表单的参数赋值到action里面的对象中但现在主要使用Spring框架的MVC，虽然也有@ModelAttribute可以使用但是明显感觉不方便。好吧，那就自己再造一个轮子吧。原理都知道，就是利用反射进行字段的赋值，下面贴代码主要类如下： import java.lang.reflect.Field; imp
SAP HANA数据存储：传统硬盘的瓶颈问题蓝儿唯美 HANA
SAPHANA平台有各种各样的应用场景，这也意味着客户的实施方法有许多种选择，关键是如何挑选最适合他们需求的实施方案。在《Implementing SAP HANA》这本书中，介绍了SAP平台在现实场景中的运作原理，并给出了实施建议和成功案例供参考。本系列文章节选自《Implementing SAP HANA》，介绍了行存储和列存储的各自特点，以及SAP HANA的数据存储方式如何提升空间压
Java Socket 多线程实现文件传输随便小屋 java socket
高级操作系统作业，让用Socket实现文件传输，有些代码也是在网上找的，写的不好，如果大家能用就用上。客户端类： package edu.logic.client; import java.io.BufferedInputStream; import java.io.Buffered
java初学者路径 aijuans java
学习Java有没有什么捷径?要想学好Java，首先要知道Java的大致分类。自从Sun推出Java以来，就力图使之无所不包，所以Java发展到现在，按应用来分主要分为三大块：J2SE,J2ME和J2EE,这也就是Sun ONE(Open Net Environment)体系。J2SE就是Java2的标准版，主要用于桌面应用软件的编程；J2ME主要应用于嵌入是系统开发，如手机和PDA的编程；J2EE
APP推广 aoyouzi APP 推广
一，免费篇 1，APP推荐类网站自主推荐最美应用、酷安网、DEMO8、木蚂蚁发现频道等,如果产品独特新颖，还能获取最美应用的评测推荐。PS：推荐简单。只要产品有趣好玩，用户会自主分享传播。例如足迹APP在最美应用推荐一次，几天用户暴增将服务器击垮。 2，各大应用商店首发合作老实盯着排期，多给应用市场官方负责人献殷勤。 3，论坛贴吧推广百度知道，百度贴吧，猫扑论坛，天涯社区，豆瓣（
JSP转发与重定向百合不是茶 jsp servlet Java Web jsp转发
在servlet和jsp中我们经常需要请求,这时就需要用到转发和重定向; 转发包括;forward和include 例子;forwrad转发; 将请求装法给reg.html页面关键代码; req.getRequestDispatcher("reg.html
web.xml之jsp-config bijian1013 java web.xml servlet jsp-config
1.作用：主要用于设定JSP页面的相关配置。 2.常见定义： <jsp-config> <taglib> <taglib-uri>URI(定义TLD文件的URI,JSP页面的tablib命令可以经由此URI获取到TLD文件)</tablib-uri> <taglib-location> TLD文件所在的位置
JSF2.2 ViewScoped Using CDI sunjing CDI JSF 2.2 ViewScoped
JSF 2.0 introduced annotation @ViewScoped; A bean annotated with this scope maintained its state as long as the user stays on the same view(reloads or navigation - no intervening views). One problem w
【分布式数据一致性二】Zookeeper数据读写一致性 bit1129 zookeeper
很多文档说Zookeeper是强一致性保证，事实不然。关于一致性模型请参考http://bit1129.iteye.com/blog/2155336 Zookeeper的数据同步协议 Zookeeper采用称为Quorum Based Protocol的数据同步协议。假如Zookeeper集群有N台Zookeeper服务器(N通常取奇数，3台能够满足数据可靠性同时
Java开发笔记白糖_ java开发
1、Map<key,value>的remove方法只能识别相同类型的key值 Map<Integer,String> map = new HashMap<Integer,String>(); map.put(1,"a"); map.put(2,"b"); map.put(3,"c"
图片黑色阴影 bozch 图片
.event{ padding:0; width:460px; min-width: 460px; border:0px solid #e4e4e4; height: 350px; min-heig
编程之美-饮料供货-动态规划 bylijinnan 动态规划
import java.util.Arrays; import java.util.Random; public class BeverageSupply { /** * 编程之美饮料供货 * 设Opt（V’，i）表示从i到n-1种饮料中，总容量为V’的方案中，满意度之和的最大值。 * 那么递归式就应该是：Opt（V’，i）=max{ k * Hi+Op
ajax大参数（大数据）提交性能分析 chenbowen00 Web Ajax 框架浏览器 prototype
近期在项目中发现如下一个问题项目中有个提交现场事件的功能，该功能主要是在web客户端保存现场数据（主要有截屏，终端日志等信息）然后提交到服务器上方便我们分析定位问题。客户在使用该功能的过程中反应点击提交后反应很慢，大概要等10到20秒的时间浏览器才能操作，期间页面不响应事件。根据客户描述分析了下的代码流程，很简单，主要通过OCX控件截屏，在将前端的日志等文件使用OCX控件打包，在将之转换为
[宇宙与天文]在太空采矿,在太空建造 comsci
我们在太空进行工业活动...但是不太可能把太空工业产品又运回到地面上进行加工,而一般是在哪里开采,就在哪里加工,太空的微重力环境,可能会使我们的工业产品的制造尺度非常巨大.... 地球上制造的最大工业机器是超级油轮和航空母舰,再大些就会遇到困难了,但是在空间船坞中,制造的最大工业机器,可能就没
ORACLE中CONSTRAINT的四对属性 daizj oracle CONSTRAINT
ORACLE中CONSTRAINT的四对属性 summary:在data migrate时,某些表的约束总是困扰着我们,让我们的migratet举步维艰,如何利用约束本身的属性来处理这些问题呢?本文详细介绍了约束的四对属性: Deferrable/not deferrable, Deferred/immediate, enalbe/disable, validate/novalidate,以及如
Gradle入门教程 dengkane gradle
一、寻找gradle的历程一开始的时候，我们只有一个工程，所有要用到的jar包都放到工程目录下面，时间长了，工程越来越大，使用到的jar包也越来越多，难以理解jar之间的依赖关系。再后来我们把旧的工程拆分到不同的工程里，靠ide来管理工程之间的依赖关系，各工程下的jar包依赖是杂乱的。一段时间后，我们发现用ide来管理项程很不方便，比如不方便脱离ide自动构建，于是我们写自己的ant脚本。再后
C语言简单循环示例 dcj3sjt126com c
# include <stdio.h> int main(void) { int i; int count = 0; int sum = 0; float avg; for (i=1; i<=100; i++) { if (i%2==0) { count++; sum += i; } } avg
presentModalViewController 的动画效果 dcj3sjt126com controller
系统自带(四种效果)： presentModalViewController模态的动画效果设置： [cpp] view plain copy UIViewController *detailViewController = [[UIViewController al
java 二分查找 shuizhaosi888 二分查找 java二分查找
需求：在排好顺序的一串数字中，找到数字T 一般解法：从左到右扫描数据，其运行花费线性时间O(N)。然而这个算法并没有用到该表已经排序的事实。 /** * * @param array * 顺序数组 * @param t * 要查找对象 * @return */ public stati
Spring Security（07）——缓存UserDetails 234390216 ehcache 缓存 Spring Security
Spring Security提供了一个实现了可以缓存UserDetails的UserDetailsService实现类，CachingUserDetailsService。该类的构造接收一个用于真正加载UserDetails的UserDetailsService实现类。当需要加载UserDetails时，其首先会从缓存中获取，如果缓存中没
Dozer 深层次复制 jayluns VO maven po
最近在做项目上遇到了一些小问题，因为架构在做设计的时候web前段展示用到了vo层，而在后台进行与数据库层操作的时候用到的是Po层。这样在业务层返回vo到控制层，每一次都需要从po-->转化到vo层，用到BeanUtils.copyProperties(source, target)只能复制简单的属性，因为实体类都配置了hibernate那些关联关系，所以它满足不了现在的需求，但后发现还有个很
CSS规范整理（摘自懒人图库） a409435341 html UI css 浏览器
刚没事闲着在网上瞎逛，找了一篇CSS规范整理，粗略看了一下后还蛮有一定的道理，并自问是否有这样的规范，这也是初入前端开发的人一个很好的规范吧。一、文件规范 1、文件均归档至约定的目录中。具体要求通过豆瓣的CSS规范进行讲解：所有的CSS分为两大类：通用类和业务类。通用的CSS文件，放在如下目录中：基本样式库 /css/core
C++动态链接库创建与使用你不认识的休道人 C++dll
一、创建动态链接库 1.新建工程test中选择”MFC [dll]”dll类型选择第二项"Regular DLL With MFC shared linked"，完成 2.在test.h中添加 extern “C” 返回类型 _declspec(dllexport)函数名(参数列表); 3.在test.cpp中最后写 extern “C” 返回类型 _decls
Android代码混淆之ProGuard rensanning ProGuard
Android应用的Java代码，通过反编译apk文件（dex2jar、apktool）很容易得到源代码，所以在release版本的apk中一定要混淆一下一些关键的Java源码。 ProGuard是一个开源的Java代码混淆器（obfuscation）。ADT r8开始它被默认集成到了Android SDK中。官网： http://proguard.sourceforge.net/
程序员在编程中遇到的奇葩弱智问题 tomcat_oracle jquery 编程 ide
　　现在收集一下：　　排名不分先后，按照发言顺序来的。 1、Jquery插件一个通用函数一直报错，尤其是很明显是存在的函数，很有可能就是你没有引入jquery。。。或者版本不对 2、调试半天没变化：不在同一个文件中调试。这个很可怕，我们很多时候会备份好几个项目，改完发现改错了。有个群友说的好：在汤匙
解决maven-dependency-plugin (goals "copy-dependencies","unpack") is not supported xp9802 dependency
解决办法：在plugins之前添加如下pluginManagement，二者前后顺序如下： [html] view plain copy <build> <pluginManagement