AI专题精讲

ViP-LLaVA: 使大型多模态模型理解任意视觉提示

摘要

现有的大型视觉-语言多模态模型主要关注整体图像理解，但在实现区域特定的理解方面仍存在显著差距。目前，使用文本坐标或空间编码的方法通常无法为视觉提示提供用户友好的接口。为了解决这个问题，我们提出了一种新颖的多模态模型，能够解码任意（自由形式）视觉提示。这使得用户可以通过自然提示（如“红色边框”或“指向箭头”）直观地标记图像并与模型互动。我们的简单设计直接将视觉标记叠加在RGB图像上，避免了复杂的区域编码，同时在区域理解任务上，如Visual7W、PointQA和视觉常识推理基准测试中，达到了最先进的性能。此外，我们还提出了ViP-Bench，一个全面的基准测试，评估模型在多个维度上理解视觉提示的能力，为未来在该领域的研究提供了基础。代码、数据和模型均已公开。

1. 引言

近年来，像ChatGPT [32]、GPT-4 [33] 和Bard [12] 等大型语言模型（LLM）因其强大的推理和泛化能力，以及类似人类的对话能力而引起了广泛关注。特别是像GPT-4V(ision) [31] 这样的模型，通过整合视觉信息，展示了人类级别的感知和推理能力 [50]。这推动了类似的开源模型的开发，这些模型旨在复制甚至超越专有模型的性能。

尽管现有模型具备强大的能力，包括像LLaVA [23, 24] 和MiniGPT-4 [56] 等开创性的模型，但它们主要集中于整体图像理解；换句话说，它们缺乏处理复杂场景中区域特定信息的能力。这个局限性在尝试仅通过语言提示描述图像中特定物体时尤为明显，尤其是当图像中存在歧义时（例如，当图像中有多个人，而问题涉及到特定的人物时），如图1所示。

为了解决这一问题，最近的研究探索了在多模态模型中使用空间参考。现有的工作主要集中在使用坐标的文本表示 [4, 5, 9, 53]、学习的位置信息嵌入 [34, 52, 55] 或 ROI 特征 [37, 52] 上。然而，这些方法往往缺乏用户友好性，因为它们仅限于固定格式的视觉参考，如边界框和掩膜轮廓的空间坐标。这些方法中的大多数，包括 Zhang 等人 [52] 和 Chen 等人 [5] 的工作，仅使用边界框输入进行视觉引用。尽管在结构化场景中有效，但这种方法在自然的、由用户驱动的交互中表现较差，在这种交互中，视觉提示可能不符合干净的几何形状。

在本文中，我们提出了一种简单而有效的解决方案：一个可以处理任意视觉提示的大型多模态模型。这使得用户可以直观地标注图像，并使用自然提示如“红色边界框”或“指向箭头”与模型进行交互。我们的模型能够识别这些视觉提示，为将视觉引用集成到语言对话中提供了一种用户友好的方式。基于我们自己的观察和之前的工作 [38]，该工作表明 CLIP 可以理解视觉标记，我们将这些视觉提示直接注入到原始图像空间中，而无需额外的区域特定模型设计。尽管我们的方法看似简单，但却带来了意想不到的好处：我们的模型在需要精确区域感知和复杂推理的任务上，取得了全新的最先进性能。它超越了现有的、使用专门区域编码技术的相关模型，正如我们在 Visual7W [57] 和 PointQA [29] 上的区域推理任务中的优越表现所证明的那样。

为了进一步支持该领域的研究，我们介绍了 ViP-Bench，一个用于评估多模态模型处理任意视觉提示的区域理解能力的基准。通过收集 303 张多样化的图像和问题，我们提供了对视觉理解能力的全面评估，涵盖了六个方面的区域级别：识别、OCR、知识、数学、物体关系推理和语言生成。我们相信，ViP-Bench 将为未来关于多模态模型与任意视觉提示的研究提供坚实的基础。

总之，我们的主要贡献包括：

我们提出了一种新的多模态模型，通过自然语言和任意视觉提示实现直观的图像交互，增强了用户的可访问性和模型的灵活性。
我们开发了一种视觉引用方法，将视觉提示直接覆盖在图像上，简化了模型架构而不影响性能。
我们的模型 ViP-LLaVA 在现有基准上对区域理解任务取得了最先进的成果，超越了专门的区域编码模型。
我们介绍了 ViP-Bench，这是一个用于评估视觉提示解释能力的基准，为未来的研究奠定了基础。

2. 相关工作

大型多模态模型的进展
大型语言模型（LLMs），如 ChatGPT [32]、GPT-4 [33] 和 LLaMA [41]，展示了令人印象深刻的推理和泛化能力。随着 GPT-4V(ision) [31] 等模型的出现，集成视觉信息的 LLMs 在最近的研究中引起了极大关注。在开源 LLM [41, 43] 的基础上，许多多模态视觉-语言模型取得了显著进展，LLaVA [23, 24] 和 MiniGPT-4 [56] 等模型将 LLaMA [41] 的语言能力与基于 CLIP [36] 的图像编码器结合起来。
虽然这些模型在整图理解方面表现优异，但一个关键挑战是在复杂视觉场景中实现区域特定的理解。这导致了在多模态背景下探索空间引用的工作。现有模型使用文本坐标表示 [4, 5, 9, 53]、学习的位置信息嵌入 [34, 52, 55] 或感兴趣区域（ROI）特征 [52] 将语言与特定的图像区域对接。然而，这些方法通常采用刚性的视觉引用格式，用户在使用时并不直观。

作为用户友好解决方案的视觉提示
我们的研究聚焦于使与多模态模型的交互变得更加自然和直观。传统的模型通常采用规则形状来进行视觉提示，但我们的研究受到需要一个能够解释更广泛视觉提示的系统的启发。例如，在视觉感知中，已经提出了可以接收点或涂鸦的交互式分割方法 [17, 58]。受近期研究成果的启发，GPT-4V 展示了理解多种标记的能力 [46]，我们提倡开发能够处理任意视觉提示的模型，如涂鸦和箭头。在我们的模型 ViP-LLaVA 中，我们将这些视觉提示直接覆盖到图像画布上。这是通过在专门为任意视觉提示指令设计的数据集上进行微调来实现的。

评估大型多模态模型的区域理解能力
现有工作 [5, 34, 47, 52] 评估了模型在区域多项选择 [29, 51, 57] 或字幕生成 [18, 49] 任务中的区域理解能力，使用的评价指标包括准确率、召回率和 CIDer [42]。然而，这些指标在评估大型多模态模型在开放世界设置中的视觉对话时存在局限。为了评估大型多模态模型在图像级理解任务中的能力，提出了两类评估方法：多项选择题 [25] 或使用 GPT-4 作为裁判来判断自由形式答案 [24, 50]。然而，评估大型多模态模型理解任意视觉提示的能力仍然存在空白。为了解决这一问题，我们提出了 ViP-Bench，一个全面的基准，旨在评估大型多模态模型在多个维度上对各种视觉提示的理解能力，包括识别、OCR、知识、数学、关系推理和语言生成。

3. 方法

我们的研究基于这样一个前提：一个大型多模态模型不仅应该能够感知图像的视觉内容，还应能够将任意视觉标记解读为用户交互的一部分。在本节中，我们将描述实现这一目标的方法，重点介绍 CLIP 在理解视觉标记中的关键作用，以及为训练 ViP-LLaVA 理解任意视觉提示而构建的新指令调优数据集。

3.1. 通过 CLIP 进行视觉提示嵌入

与先前在区域理解方面的工作 [34, 52] 通过构建新的模块来处理视觉提示不同，我们利用 CLIP [36] 的现有能力来编码图像和叠加的视觉标记。具体来说，CLIP 在对齐视觉和文本数据方面的高效性使其成为此任务的理想候选者，因为最近的研究 [38] 表明，它本身能够关注标记的区域，包括圆形、矩形等。正如我们的实验所示，我们进一步证明了 CLIP 能够将模型的注意力集中在更广泛的视觉提示上，如箭头和任意涂鸦。为了利用这一功能，我们通过 alpha 混合将视觉提示 $P_v$ 与原始图像 $X_v$ 组合，创建一个合并的表示，突出显示兴趣区域：
$\hat { \mathbf { X } } _ { \mathrm { v } } = \alpha \cdot \mathbf { P } _ { \mathrm { v } } + ( 1 - \alpha ) \cdot \mathbf { X } _ { \mathrm { v } }\quad(1)$
其中，α ∈ [0, 1] 表示视觉提示的透明度， $X_v$ 是图像， $P_v$ 是带有视觉提示的图像。注意，我们仅对位于视觉提示下方的像素进行 alpha 混合。然后，合成图像 $\hat { \mathbf { X } } _ { \mathrm { v } }$ 被输入到多模态模型中。

为了有效地识别视觉提示，我们在 ViP-LLaVA 中平衡低级和高级视觉特征。为了应对 CLIP 的深层特征往往忽视低级细节的趋势 [54]，我们选择性地从多个 CLIP 层提取特征。具体来说，我们使用一个较早的层（第6层）来编码详细的几何形状，以及四个较深的层（第15、18、21、24层）来捕捉更广泛的语义信息。然后，这些多级特征被拼接，使用 LayerNorm [2] 进行归一化以保证训练的稳定性，最后通过一个 MLP 层处理。这一过程确保了 ViP-LLaVA 有效地整合了多样的视觉线索，这一策略通过我们在第 5.4 节中的消融实验得到了验证。

我们设计的直接覆盖视觉提示的简便性带来了多个优势。它通过跳过额外的处理模块减少了模型复杂度，并且与自然的人类交互紧密对接，因为用户通常会使用多样且自发的视觉标记。这种灵活性使 ViP-LLaVA 能够解读广泛的用户生成视觉线索，增强了它在现实场景中的适用性。

为了训练 ViP-LLaVA，我们执行自回归语言建模；即，我们最大化生成地面真值答案 Xa 的tokens的可能性：
$\mathbf { X } _ { \mathrm { a } } \mid \hat { \mathbf { X } } _ { \mathrm { v } } , \mathbf { X } _ { \mathrm { i n s t r u c t } } ) = \prod _ { i = 1 } ^ { L } P _ { \theta } ( x _ { i } \mid \hat { \mathbf { X } } _ { \mathrm { v } } , \mathbf { X } _ { \mathrm { i n s t r u c t } } , \mathbf { X } _ { \mathrm { a } , < i } )\quad(2)$
其中， $θ$ 表示可训练参数，Xinstruct 是文本指令，L 是答案 Xa 的序列长度， $\mathbf { X } } _ { \mathrm { a } , < i }$ 表示当前预测 token $x_i $之前的所有答案 token，其中 i 表示文本 token 生成过程中的步数。为了简洁起见，我们在公式中省略了系统消息，尽管它们实际上也是条件的一部分。图2展示了我们的模型架构。

该训练目标使模型能够在理解视觉内容、语言指令和叠加提示的基础上，生成具有上下文关联性的准确回应。它促使模型在图像与视觉标记的统一理解下进行推理，从而提升其处理复杂、区域特定语言问题的能力。这一能力对于需要对视觉元素和用户通过任意视觉提示所表达意图进行细致理解的任务至关重要。

3.2 视觉提示设计

为了训练模型识别和理解任意视觉提示，我们构建了一个全新的视觉提示指令微调数据集，因为目前尚无包含任意视觉提示及其配套指令-输出文本对的数据集可供使用。

我们的数据集由多样化的 52 万对图文样本组成，所有样本均带有视觉提示，来源于多个公开数据集，包括：

（1）单区域推理数据：来自 RefCOCOg [49] 的 8 万条指代理解与生成数据，以及来自 PointQA-LookTwice [29] 的 3.7 万条目标计数数据；
（2）双区域推理数据：来自 Visual Genome [18] 的 8 万条三元组关系数据；
（3）多区域推理数据：来自 Flickr30k Entities [35] 的 3 万条图像描述数据，来自 Visual Commonsense Reasoning 数据集 [51] 的 21.3 万条数据，以及来自 Visual7W [57] 的 8.2 万条数据。

我们为每张图像自动添加了多种视觉提示注释。对于仅提供边界框注释的数据，我们从三类视觉提示中采样：矩形、椭圆和箭头。在这种情况下，我们确保箭头的箭头端位于 $\textstyle { \frac { W } { 2 } } , - \textstyle { \frac { H } { 2 } } ) , ( \textstyle { \frac { W } { 2 } } , \textstyle { \frac { H } { 2 } } ) ]$ 的区域内，其中 W、H 分别是图像的宽度和高度。对于椭圆，其长轴和短轴的长度继承自边界框尺寸，我们将椭圆按照比例 [1,1.5][1, 1.5] 进行放大。

另一方面，对于具有像素级掩码真值标注的区域，我们从以下 8 类视觉提示中采样用于注释：矩形、椭圆、点、三角形、掩码、掩码轮廓、箭头以及使用贝塞尔曲线（Bezier curves）绘制的涂鸦（scribble）；见图 3。我们确保箭头的箭头端、整个点、三角形和涂鸦都完全位于提供的掩码区域内。这些注释方式模拟了人类与图像自然交互的方式，即用户通常通过自发标记来高亮感兴趣区域。

对于涂鸦，我们使用贝塞尔曲线 [8] 来模拟人类风格的绘制过程。该过程首先在目标掩码内随机选取三个点，作为二次贝塞尔曲线的锚点。生成的贝塞尔曲线随后通过前文提到的 alpha blending 技术叠加到图像上，从而得到包含涂鸦视觉提示的合成图像。

人类在现实生活中经常使用各种标记来突出感兴趣的对象。例如，在教育场景中，教师常用箭头或下划线引导学生注意图像或文本中的特定部分；在日常交流中，人们可能会圈出照片中的某个物体以指示重点，或用涂鸦遮盖敏感信息后再分享。通过这样的设计，我们构建了一个符合人类视觉交互方式的视觉指令遵循数据集，从而使模型交互更加直观自然。

3.3 区域级可选指令微调数据

我们的训练数据来自两个来源：(i) 第 3.2 节中描述的区域级视觉提示数据，以及 (ii) 不含视觉提示的图像级数据，这部分数据来源于 LLaVA-1.5 [23]。这种策略使 ViP-LLaVA 能够进行类人对话，主要得益于来自 Liu 等人 [24] 提供的图像级 LLaVA 指令数据。为了进一步增强 ViP-LLaVA 在区域级多模态对话方面的能力，我们借助 GPT-4V 设计了区域特定的指令数据。

以往的方法如 Shikra [5] 尝试使用仅基于文本的模型（如 GPT-4）来生成区域级指令数据。然而，这种方法在处理物体级任务时存在天然限制，因为模型缺乏视觉上下文，无法在同一图像中准确地区分和引用多个同类物体。为了解决这一问题，我们采用了基于 GPT-4V 的指令数据构建方法。与纯文本模型不同，GPT-4V 能够识别图像中显示的视觉提示 [46]。

我们的方法是将两张图像输入给 GPT-4V：一张是原始图像，另一张是标注了视觉提示的修改图像。与此同时，我们还提供原始数据集中对应图像的文本注释（ground-truth）以及系统消息。通过这一过程，我们为第 3.2 节所述数据集构建了大量三元组。

我们引入了一些特定的文本表述方式，如和 (, )，以便 GPT-4V 在单区域或多区域设置中准确识别视觉提示。在训练阶段，我们将这些短语替换为第 3.2 节中介绍的八种可能的视觉提示，从而显著提升了数据集的多样性和泛化能力。最终，我们构建了 13k 条高质量的区域级指令数据，其中包括 7k 条单区域样本和 6k 条多区域样本。在附录中，我们提供了系统消息、输入文本提示和生成文本输出的具体示例。

虽然即使没有这些增强数据，ViP-LLaVA 在标准视觉推理基准上的表现也很出色，但实验表明这些数据有助于进一步提升模型在开放世界场景中进行类人对话的能力。

温馨提示：
阅读全文请访问"AI深语解构" ViP-LLaVA: 使大型多模态模型理解任意视觉提示

英伟达靠什么支撑起了4万亿？AI泡沫还能撑多久？
英伟达市值突破4万亿美元，既是AI算力需求爆发的直接体现，也暗含市场对未来的狂热预期。其支撑逻辑与潜在风险并存，而AI泡沫的可持续性则取决于技术、商业与地缘政治的复杂博弈。⚙️一、英伟达4万亿市值的核心支撑因素技术垄断与生态壁垒硬件优势：英伟达GPU在AI训练市场占有率超87%，H100芯片的FP16算力达1979TFLOPS，领先竞品3-5倍。CUDA生态：400万开发者构建的软件护城河，成为A
Spring进阶 - SpringMVC实现原理之DispatcherServlet处理请求的过程倾听铃的声后端 spring java mvc 开发语言分布式
前文我们有了IOC的源码基础以及SpringMVC的基础，我们便可以进一步深入理解SpringMVC主要实现原理，包含DispatcherServlet的初始化过程和DispatcherServlet处理请求的过程的源码解析。本文是第二篇：DispatcherServlet处理请求的过程的源码解析。@pdaiSpring进阶-SpringMVC实现原理之DispatcherServlet处理请求的
【C++算法】76.优先级队列_前 K 个高频单词流星白龙优选算法C++c++算法开发语言
文章目录题目链接：题目描述：解法C++算法代码：题目链接：692.前K个高频单词题目描述：解法利用堆来解决TopK问题预处理一下原始的字符串数组，用一个哈希表统计一下每一个单词出现的频次。创建一个大小为k的堆频次：小根堆字典序（频次相同的时候）：大根堆循环让元素依次进堆判断提取结果C++算法代码：classSolution{//定义类型别名，PSI表示对typedefpairPSI;//自定义比较
企业级区块链平台Hyperchain核心原理剖析 boyedu 区块链区块链企业级区块链平台 Hyperchain
Hyperchain作为国产自主可控的企业级联盟区块链平台，其核心原理围绕高性能共识、隐私保护、智能合约引擎及可扩展架构展开，通过多模块协同实现企业级区块链网络的高效部署与安全运行。以下从核心架构、关键技术、性能优化、安全机制、应用场景五个维度展开剖析：一、核心架构：分层解耦与模块化设计Hyperchain采用分层架构，将区块链功能解耦为独立模块，支持灵活组合与扩展：P2P网络层由验证节点（VP）
通义万相2.2：开启高清视频生成新纪元 Liudef06小白特殊专栏 AIGC 人工智能人工智能通义万相2.2 图生视频
通义万相2.2：开启高清视频生成新纪元2025年7月28日，中国AI领域迎来里程碑时刻——通义万相团队正式开源其革命性视频生成模型Wan2.2的核心权重，这标志着开源社区首次获得支持720P高清视频生成的先进模型架构。一、架构革新：混合专家系统1.1MoE视频扩散架构通义万相2.2首次将混合专家（MoE）架构引入视频扩散模型，通过双专家系统实现计算效率与模型容量的平衡：classMoEVideoD
2025年SDK游戏盾终极解析：重新定义手游安全的“隐形护甲” 上海云盾商务经理杨杨游戏安全
副标题：从客户端加密到AI反外挂，拆解全链路防护如何重塑游戏攻防天平引言：当传统高防在手游战场“失效”2025年全球手游市场规模突破$2000亿，黑客单次攻击成本却降至$30——某SLG游戏因协议层CC攻击单日流失37%玩家，某开放世界游戏遭低频DDoS瘫痪6小时损失千万。传统高防IP的致命短板暴露无遗：无法识别伪造客户端流量、难防协议篡改、误杀率超15%。而集成于游戏终端的SDK游戏盾，正以“源
LVS+Keepalived实现高可用和负载均衡 2401_84412895 程序员 lvs 负载均衡运维
2、开启网卡子接口配置VIP[root@a~]#cd/etc/sysconfig/network-scripts/[root@anetwork-scripts]#cp-aifcfg-ens32ifcfg-ens32:0[root@anetwork-scripts]#catifcfg-ens32:0BOOTPROTO=staticDEVICE=ens32:0ONBOOT=yesIPADDR=10.1
CodeFoeces-450B ss5smi
题目原题链接：B.JzzhuandSequences题意根据公式公式计算对应fn的值。参考了其他作者的代码和思路。找循环点。负数取余需要加取余数到>0为止才可取余。代码#includeusingnamespacestd;constintmod=1e9+7;intmain(){longlongf[10],x,y,n;cin>>x>>y>>n;x=(x+mod)%mod;y=(y+mod)%mod;f
【异常】使用 LiteFlow 框架时，提示错误ChainDuplicateException: [chain name duplicate] chainName=categoryChallenge 本本本添哥 002 -进阶开发能力 java
一、报错内容Causedby:com.yomahub.liteflow.exception.ChainDuplicateException:[chainnameduplicate]chainName=categoryChallengeatcom.yomahub.liteflow.parser.helper.ParserHelper.lambda$null$0(ParserHelper.java:1
代码随想录算法训练营第三十五天
01背包问题二维题目链接01背包问题二维题解importjava.util.Scanner;publicclassMain{publicstaticvoidmain(String[]args){Scannersc=newScanner(System.in);intM=sc.nextInt();intN=sc.nextInt();int[]space=newint[M];int[]value=new
为了在未来的人工智能世界中取得成功，学生们必须学习人类写作的优点睿邸管家
澳大利亚各地的学生在新学年开始使用铅笔、钢笔和键盘学习写字。在工作场所，机器也在学习写作，如此有效，几年之内，它们可能会写得比人类更好。有时它们已经做到了，就像Grammarly这样的应用程序所展示的那样。当然，人类现在的日常写作可能很快就会由具有人工智能(AI)的机器来完成。手机和电子邮件软件常用的预测文本是无数人每天都在使用的一种人工智能写作形式。据AI行业研究机构称，到2022年，人工智能及
AI模型训练中过拟合和欠拟合的区别是什么？ workflower 人工智能算法人工智能数据分析
在AI模型训练中，过拟合和欠拟合是两种常见的模型性能问题，核心区别在于模型对数据的学习程度和泛化能力：欠拟合（Underfitting）-定义：模型未能充分学习到数据中的规律，对训练数据的拟合程度较差，在训练集和测试集上的表现都不好（如准确率低、损失值高）。-原因：-模型结构过于简单（如用线性模型解决非线性问题）；-训练数据量不足或特征信息不充分；-训练时间太短，模型尚未学到有效模式。-表现：训练
Selenium 特殊控件操作与 ActionChains 实践详解小馋喵知识杂货铺 selenium 测试工具
1.下拉框单选操作(a)使用SeleniumSelect类（标准HTML标签）Selenium提供了内置的Select类用于操作标准下拉框，这种方式简单且直观。fromselenium.webdriver.support.uiimportSelect#定位下拉框dropdown=Select(driver.find_element("id","dropdown_id"))#通过以下三种方式选择单个
Zread.AI：一键将GitHub项目转化为结构化中文手册的AI代码维基工具
Zread.AI：一键将GitHub项目转化为结构化中文手册的AI代码维基工具文章来源：PoixeAI文章目录Zread.AI工具概述核心功能优势亮点典型应用场景上手指南注意事项官网地址Zread.AI由智谱Z.ai推出，是一款面向开发者的AI代码维基工具，可在几秒内把任何公开GitHub仓库转化为结构化中文手册，并通过独家Buzz面板聚合commits、issues与相关新闻，让项目脉搏一目了然
人工智能应用研究快讯 2021-11-30 峰谷皆平
[HTML]ArtificialIntelligenceforSkinCancerDetection:ScopingReviewATakiddin,JSchneider,YYang,AAbd-Alrazaq...JournalofMedicalInternet...,2021ABSTACT:Background:Skincanceristhemostcommoncancertypeaffectin
学C++的五大惊人好处
为什么要学c++学c++有什么用学习c++的好处有1.中考可以加分2.高考可能直接录取3.就业广且工资高4.在未来30--50年c++一定是一个很受欢迎的职业5.c++成功的例子deepsick等AI智能C++语言兼备编程效率和编译运行效率的语言C++语言是C语言功能增强版,在c语言的基础上添加了面向对象编程和泛型编程的支持既继承了C语言高效，简洁，快速和可移植的传统,又具备类似Java、Go等其
Android GreenDao介绍和Generator生成表对象代码
目录(?)[-]介绍创建工程转载请注明：http://blog.csdn.net/sinat_30276961/article/details/50052109最近无意中发现了GreenDao，然后查看了一些资料后，发现这个数据库框架很适合用，于是乎，查看了官网的api，并自己写了一个小应用总结一下它的使用方法。介绍按照国际惯例，在开篇，总要先介绍一下什么是GreenDao吧。首先需要说明的是Gr
从振动信号到精准预警：AI 如何重塑工业设备健康管理？缘华工业智维人工智能计算机视觉边缘计算信息与通信
在智能制造浪潮席卷全球的当下，工业生产正经历着从传统模式向智能化、数字化转型的深刻变革。在这场变革中，AI驱动的振动分析技术犹如一颗璀璨新星，成为工业设备可靠运行的“健康卫士”。它通过在设备关键部位部署振动传感器，如同医生为患者听诊般实时采集设备运行时的振动信号，再借助强大的人工智能算法对这些“工业脉搏”进行深度解析，从而实现对工业设备从故障预警到寿命预测的全周期精准守护。一、AI振动分析：设备状
基于DeepSeek的下一代大型游戏开发革命：架构、核心技术与项目管理实践 Liudef06小白特殊专栏人工智能 AIGC 架构人工智能 deepseek
基于DeepSeek的下一代大型游戏开发革命：架构、核心技术与项目管理实践DeepSeek大模型正重塑游戏开发范式，本文将深入解析如何利用这一革命性技术构建下一代大型游戏，涵盖从架构设计到项目管理的全流程实践。目录DeepSeek游戏引擎核心架构1.1神经符号系统融合架构1.2动态世界生成引擎智能NPC与剧情系统2.1角色人格建模技术2.2动态叙事生成算法大型项目管理体系3.1敏捷-AI混合开发流
魔搭平台实战：手把手教你训练SDXL模型，解锁AI绘画新纪元 Liudef06小白特殊专栏 AIGC 人工智能 AI作画人工智能 AIGC
魔搭平台实战：手把手教你训练SDXL模型，解锁AI绘画新纪元随着多模态AI技术的爆发式发展，StableDiffusionXL（SDXL）等文生图模型正在彻底重塑创意产业工作流。本文将深入解析如何在魔搭平台高效训练SDXL模型，并探讨AI绘画技术对设计行业的革命性影响。一、SDXL模型架构解析1.1双文本编码器设计SDXL采用双文本编码器架构，显著提升提示词理解能力：#SDXL文本编码器结构示意c
AI 生成虚拟宠物：24 小时陪你聊天解闷大力出奇迹985 人工智能宠物
本文围绕AI生成虚拟宠物展开，介绍这类依托人工智能技术诞生的虚拟伙伴，能实现24小时不间断陪伴聊天，为人们解闷。文中详细阐述其技术基础，包括自然语言处理、机器学习等；分析多样功能，如个性化互动、情绪回应等；探讨在独居人群、压力大者等不同群体中的应用场景，最后总结其为人们生活带来的积极影响及未来发展潜力，展现AI虚拟宠物在陪伴领域的独特价值。一、AI生成虚拟宠物的诞生背景与技术基石在快节奏的现代社会
基于Python的AI健康助手：开发与部署全攻略 AI算力网络与通信 AI算力网络与通信原理 AI人工智能大数据架构 python 人工智能开发语言 ai
基于Python的AI健康助手：开发与部署全攻略关键词：Python、AI健康助手、机器学习、自然语言处理、Flask、部署、健康管理摘要：本文将详细介绍如何使用Python开发一个AI健康助手，从需求分析、技术选型到核心功能实现，再到最终部署上线的完整过程。我们将使用自然语言处理技术理解用户健康咨询，通过机器学习模型提供个性化建议，并展示如何用Flask框架构建Web应用接口。文章包含大量实际代
GPT-4 在 AIGC 中的微调技巧：让模型更懂你的需求 AIGC应用创新大全 AI人工智能与大数据应用开发 MCP&Agent 云算力网络 AIGC ai
GPT-4在AIGC中的微调技巧：让模型更懂你的需求关键词：GPT-4、AIGC、模型微调、监督学习、指令优化、过拟合预防、个性化生成摘要：AIGC（人工智能生成内容）正在重塑内容创作行业，但通用的GPT-4模型可能无法精准匹配你的垂直需求——比如写电商爆款文案时总“跑题”，或生成技术文档时专业术语不够。本文将用“教小朋友学画画”的通俗类比，从微调的底层逻辑讲到实战技巧，带你掌握让GPT-4“更懂
AIGC内容生成实战：如何用ChatGPT+DALL·E打造高转化内容 AI大模型应用工坊 AI大模型开发实战 AIGC chatgpt ai
AIGC内容生成实战：如何用ChatGPT+DALL·E打造高转化内容关键词：AIGC、ChatGPT、DALL·E、内容生成、高转化营销、多模态协同、提示词工程摘要：随着AIGC（人工智能生成内容）技术的爆发式发展，ChatGPT（文本生成）与DALL·E（图像生成）的组合已成为内容创作领域的“黄金搭档”。本文将深度解析二者的协同原理，结合实战案例演示从需求分析到内容落地的全流程，并揭示提升内容
数据分析领域中AI人工智能的发展前景展望 AI大模型应用工坊 AI大模型开发实战数据分析人工智能数据挖掘 ai
数据分析领域中AI人工智能的发展前景展望关键词：数据分析、人工智能、机器学习、深度学习、数据挖掘、预测分析、自动化摘要：本文深入探讨了人工智能在数据分析领域的发展现状和未来趋势。我们将从核心技术原理出发，分析AI如何改变传统数据分析范式，详细讲解机器学习算法在数据分析中的应用，并通过实际案例展示AI驱动的数据分析解决方案。文章还将探讨行业应用场景、工具生态以及未来发展面临的挑战和机遇，为数据分析师
AI人工智能中的数据挖掘：提升智能决策能力
AI人工智能中的数据挖掘：提升智能决策能力关键词：数据挖掘、人工智能、机器学习、智能决策、数据分析、特征工程、模型优化摘要：本文深入探讨了数据挖掘在人工智能领域中的核心作用，重点分析了如何通过数据挖掘技术提升智能决策能力。文章从基础概念出发，详细介绍了数据挖掘的关键算法、数学模型和实际应用场景，并通过Python代码示例展示了数据挖掘的全流程。最后，文章展望了数据挖掘技术的未来发展趋势和面临的挑战
2018年中南大学中英翻译某翁
参考：20180827235856533.jpg【1】机器学习理论表明，机器学习算法能从有限个训练集样本上得到较好的泛化【1】Machinelearningtheoryshowsthatmachinelearningalgorithmcangeneralizewellfromfinitetrainingsetsampleslimited有限的infinite无限的【2】这似乎违背了一些基本的逻辑准
重复文件清理工具，附免费链接 mixiumixiu 其他
链接:https://pan.baidu.com/s/1s_Zx1eHp5Y-XnbbGldIgvw?pwd=kjex提取码:kjex复制这段内容后打开百度网盘手机App，操作更方便哦
【三桥君】AI技术发展下，单智能体局限性凸显，如何通过MCP和A2A协议实现智能体团队协作转变？
你好，我是✨三桥君✨本文介绍>>一、引言在AI技术突飞猛进的今天，单智能体的局限性正日益暴露，而智能体（AIAgents）协作已然成为不可逆转的趋势。你是否曾思考过，如何通过MCP和A2A协议实现智能体从单兵作战到团队协作的革命性转变？本文三桥君将深入探讨MCP和A2A协议的核心功能与优势，帮助你全面理解智能体协作的无限可能。二、A2A与MCP协议作用MCP（ModelControlProtoco
【三桥君】MCP中台，究竟如何实现多模型、多渠道、多环境的统一管控？如何以MCP为核心设计AI应用架构？三桥君《三桥君 MCP落地方法论》《三桥君 AI大模型落地方法论》#《三桥君 AI产品方法论》人工智能 AI产品经理 MCP API 三桥君系统架构 llama
你好，我是✨三桥君✨本文介绍>>一、引言随着人工智能技术的快速发展，越来越多的企业开始引入大语言模型（LLM）以提升用户体验和运营效率。然而，如何高效、稳定地将这些AI能力落地到生产环境呢？传统的系统架构往往难以应对AI应用的高并发、低延迟和灵活扩展需求，因此，从整体架构角度设计AI应用架构显得尤为重要。本文三桥君将深入探讨以MCP为核心的AI应用架构，并分析多种部署方式的优劣势，为企业在AI落地
ztree异步加载 3213213333332132 JavaScript Ajax json Web ztree
相信新手用ztree的时候,对异步加载会有些困惑，我开始的时候也是看了API花了些时间才搞定了异步加载，在这里分享给大家。我后台代码生成的是json格式的数据，数据大家按各自的需求生成，这里只给出前端的代码。设置setting，这里只关注async属性的配置 var setting = { //异步加载配置
thirft rpc 具体调用流程 BlueSkator 中间件 rpc thrift
Thrift调用过程中，Thrift客户端和服务器之间主要用到传输层类、协议层类和处理类三个主要的核心类，这三个类的相互协作共同完成rpc的整个调用过程。在调用过程中将按照以下顺序进行协同工作：（1）将客户端程序调用的函数名和参数传递给协议层（TProtocol），协议
异或运算推导, 交换数据 dcj3sjt126com PHP 异或 ^
/* * 5 0101 * 9 1010 * * 5 ^ 5 * 0101 * 0101 * ----- * 0000 * 得出第一个规律: 相同的数进行异或, 结果是0 * * 9 ^ 5 ^ 6 * 1010 * 0101 * ---- * 1111 * * 1111 * 0110 * ---- * 1001
事件源对象周华华 JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
MySql配置及相关命令 g21121 mysql
MySQL安装完毕后我们需要对它进行一些设置及性能优化，主要包括字符集设置，启动设置，连接优化，表优化，分区优化等等。一修改MySQL密码及用户
[简单]poi删除excel 2007超链接 53873039oycg Excel
采用解析sheet.xml方式删除超链接，缺点是要打开文件2次,代码如下: public void removeExcel2007AllHyperLink(String filePath) throws Exception { OPCPackage ocPkg = OPCPac
Struts2添加 open flash chart 云端月影
准备以下开源项目： 1. Struts 2.1.6 2. Open Flash Chart 2 Version 2 Lug Wyrm Charmer (28th, July 2009) 3. jofc2，这东西不知道是没做好还是什么意思，好像和ofc2不怎么匹配，最好下源码，有什么问题直接改。 4. log4j 用eclipse新建动态网站，取名OFC2Demo，将Struts2 l
spring包详解 aijuans spring
下载的spring包中文件及各种包众多，在项目中往往只有部分是我们必须的，如果不清楚什么时候需要什么包的话，看看下面就知道了。 aspectj目录下是在Spring框架下使用aspectj的源代码和测试程序文件。Aspectj是java最早的提供AOP的应用框架。 dist 目录下是Spring 的发布包，关于发布包下面会详细进行说明。 docs&nb
网站推广之seo概念 antonyup_2006 算法 Web 应用服务器搜索引擎 Google
持续开发一年多的b2c网站终于在08年10月23日上线了。作为开发人员的我在修改bug的同时，准备了解下网站的推广分析策略。所谓网站推广，目的在于让尽可能多的潜在用户了解并访问网站，通过网站获得有关产品和服务等信息，为最终形成购买决策提供支持。网站推广策略有很多，seo，email，adv
单例模式,sql注入,序列百合不是茶单例模式序列 sql注入预编译
序列在前面写过有关的博客,也有过总结,但是今天在做一个JDBC操作数据库的相关内容时需要使用序列创建一个自增长的字段居然不会了,所以将序列写在本篇的前面 1,序列是一个保存数据连续的增长的一种方式; 序列的创建; CREATE SEQUENCE seq_pro 2 INCREMENT BY 1 -- 每次加几个 3
Mockito单元测试实例 bijian1013 单元测试 mockito
Mockito单元测试实例： public class SettingServiceTest { private List<PersonDTO> personList = new ArrayList<PersonDTO>(); @InjectMocks private SettingPojoService settin
精通Oracle10编程SQL(9)使用游标 bijian1013 oracle 数据库 plsql
/* *使用游标 */ --显示游标 --在显式游标中使用FETCH...INTO语句 DECLARE CURSOR emp_cursor is select ename,sal from emp where deptno=1; v_ename emp.ename%TYPE; v_sal emp.sal%TYPE; begin ope
【Java语言】动态代理 bit1129 java语言
JDK接口动态代理 JDK自带的动态代理通过动态的根据接口生成字节码(实现接口的一个具体类)的方式，为接口的实现类提供代理。被代理的对象和代理对象通过InvocationHandler建立关联 package com.tom; import com.tom.model.User; import com.tom.service.IUserService;
Java通信之URL通信基础白糖_ java jdk webservice 网络协议 ITeye
java对网络通信以及提供了比较全面的jdk支持，java.net包能让程序员直接在程序中实现网络通信。在技术日新月异的现在，我们能通过很多方式实现数据通信，比如webservice、url通信、socket通信等等，今天简单介绍下URL通信。学习准备：建议首先学习java的IO基础知识 URL是统一资源定位器的简写，URL可以访问Internet和www，可以通过url
博弈Java讲义 - Java线程同步 (1) boyitech java 多线程同步锁
在并发编程中经常会碰到多个执行线程共享资源的问题。例如多个线程同时读写文件，共用数据库连接，全局的计数器等。如果不处理好多线程之间的同步问题很容易引起状态不一致或者其他的错误。同步不仅可以阻止一个线程看到对象处于不一致的状态，它还可以保证进入同步方法或者块的每个线程，都看到由同一锁保护的之前所有的修改结果。处理同步的关键就是要正确的识别临界条件（cri
java-给定字符串，删除开始和结尾处的空格，并将中间的多个连续的空格合并成一个。 bylijinnan java
public class DeleteExtraSpace { /** * 题目：给定字符串，删除开始和结尾处的空格，并将中间的多个连续的空格合并成一个。 * 方法1.用已有的String类的trim和replaceAll方法 * 方法2.全部用正则表达式，这个我不熟 * 方法3.“重新发明轮子”，从头遍历一次 */ public static v
An error has occurred.See the log file错误解决！ Kai_Ge MyEclipse
今天早上打开MyEclipse时，自动关闭！弹出An error has occurred.See the log file错误提示！很郁闷昨天启动和关闭还好着！！！打开几次依然报此错误，确定不是眼花了！打开日志文件！找到当日错误文件内容： --------------------------------------------------------------------------
[矿业与工业]修建一个空间矿床开采站要多少钱? comsci
地球上的钛金属矿藏已经接近枯竭........... 我们在冥王星的一颗卫星上面发现一些具有开采价值的矿床..... 那么,现在要编制一个预算,提交给财政部门..
解析Google Map Routes dai_lm google api
为了获得从A点到B点的路劲，经常会使用Google提供的API，例如 [url] http://maps.googleapis.com/maps/api/directions/json?origin=40.7144,-74.0060&destination=47.6063,-122.3204&sensor=false [/url] 从返回的结果上，大致可以了解应该怎么走，但
SQL还有多少“理所应当”？ datamachine sql
转贴存档，原帖地址：http://blog.chinaunix.net/uid-29242841-id-3968998.html、http://blog.chinaunix.net/uid-29242841-id-3971046.html！ ------------------------------------华丽的分割线--------------------------------
Yii使用Ajax验证时，如何设置某些字段不需要验证 dcj3sjt126com Ajax yii
经常像你注册页面,你可能非常希望只需要Ajax去验证用户名和Email,而不需要使用Ajax再去验证密码,默认如果你使用Yii 内置的ajax验证Form,例如: $form=$this->beginWidget('CActiveForm', array( 'id'=>'usuario-form',&
使用git同步网站代码 dcj3sjt126com crontab git
转自:http://ued.ctrip.com/blog/?p=3646?tn=gongxinjun.com 管理一网站，最开始使用的虚拟空间，采用提供商支持的ftp上传网站文件，后换用vps，vps可以自己搭建ftp的，但是懒得搞，直接使用scp传输文件到服务器，现在需要更新文件到服务器，使用scp真的很烦。发现本人就职的公司，采用的git+rsync的方式来管理、同步代码，遂
sql基本操作蕃薯耀 sql sql基本操作 sql常用操作
sql基本操作 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月1日 17:30:33 星期一 &
Spring4+Hibernate4+Atomikos3.3多数据源事务管理 hanqunfeng Hibernate4
Spring3+后不再对JTOM提供支持，所以可以改用Atomikos管理多数据源事务。Spring2.5+Hibernate3+JTOM参考：http://hanqunfeng.iteye.com/blog/1554251Atomikos官网网站：http://www.atomikos.com/ 一.pom.xml <dependency> <
jquery中两个值得注意的方法one()和trigger()方法 jackyrong trigger
在jquery中，有两个值得注意但容易忽视的方法，分别是one()方法和trigger()方法,这是从国内作者<<jquery权威指南》一书中看到不错的介绍 1） one方法 one方法的功能是让所选定的元素绑定一个仅触发一次的处理函数，格式为 one(type,${data},fn) &nb
拿工资不仅仅是让你写代码的 lampcy 工作面试咨询
这是我对团队每个新进员工说的第一件事情。这句话的意思是，我并不关心你是如何快速完成任务的，哪怕代码很差，只要它像救生艇通气门一样管用就行。这句话也是我最喜欢的座右铭之一。这个说法其实很合理：我们的工作是思考客户提出的问题，然后制定解决方案。思考第一，代码第二，公司请我们的最终目的不是写代码，而是想出解决方案。话粗理不粗。付你薪水不是让你来思考的，也不是让你来写代码的，你的目的是交付产品
架构师之对象操作----------对象的效率复制和判断是否全为空 nannan408 架构师
1.前言。如题。 2.代码。 (1)对象的复制，比spring的beanCopier在大并发下效率要高，利用net.sf.cglib.beans.BeanCopier Src src=new Src(); BeanCopier beanCopier = BeanCopier.create(Src.class, Des.class, false);
ajax 被缓存的解决方案 Rainbow702 JavaScript jquery Ajax cache 缓存
使用jquery的ajax来发送请求进行局部刷新画面，各位可能都做过。今天碰到一个奇怪的现象，就是，同一个ajax请求，在chrome中，不论发送多少次，都可以发送至服务器端，而不会被缓存。但是，换成在IE下的时候，发现，同一个ajax请求，会发生被缓存的情况，只有第一次才会被发送至服务器端，之后的不会再被发送。郁闷。解决方法如下： ① 直接使用 JQuery提供的 “cache”参数，
修改date.toLocaleString()的警告 tntxia String
我们在写程序的时候，经常要查看时间，所以我们经常会用到date.toLocaleString()，但是date.toLocaleString()是一个过时的API，代替的方法如下： package com.tntxia.htmlmaker.util; import java.text.SimpleDateFormat; import java.util.
项目完成后的小总结 xiaomiya js 总结项目
项目完成了，突然想做个总结但是有点无从下手了。做之前对于客户端给的接口很模式。然而定义好了格式要求就如此的愉快了。先说说项目主要实现的功能吧 1，按键精灵 2，获取行情数据 3，各种input输入条件判断 4，发送数据（有json格式和string格式） 5，获取预警条件列表和预警结果列表， 6，排序， 7，预警结果分页获取 8，导出文件（excel，text等） 9，修