AI专题精讲

MOBILEVIT: 轻量级、通用且适用于移动设备的视觉Transformer

摘要

轻量级卷积神经网络（CNN）是移动视觉任务的事实标准。它们的空间归纳偏置使得它们能够在不同的视觉任务中以较少的参数学习表示。然而，这些网络在空间上是局部的。为了学习全局表示，基于自注意力的视觉Transformer（ViT）被采用。与CNN不同，ViT是重量级的。本文提出了以下问题：是否有可能将CNN和ViT的优势结合起来，构建一个适用于移动视觉任务的轻量级低延迟网络？为此，我们介绍了MobileViT，一个适用于移动设备的轻量级通用视觉Transformer。MobileViT为信息的全局处理提供了一个不同的视角。我们的结果表明，MobileViT在不同任务和数据集上显著超越了基于CNN和ViT的网络。在ImageNet-1k数据集上，MobileViT在约600万参数下达到了78.4%的Top-1准确率，比MobileNetv3（基于CNN）和DeIT（基于ViT）提高了3.2%和6.2%，且参数数量相似。在MS-COCO目标检测任务上，MobileViT比MobileNetv3高出5.7%的准确率，且参数数量相似。我们的源代码是开源的，链接：https://github.com/apple/ml-cvnets。

1. 引言

基于自注意力的模型，特别是视觉Transformer（ViT；图1a；Dosovitskiy等，2021），是卷积神经网络（CNN）的替代方案，用于学习视觉表示。简而言之，ViT将图像分割成一系列不重叠的块，然后使用多头自注意力机制在Transformer中学习这些块之间的表示（Vaswani等，2017）。总体趋势是增加ViT网络中的参数数量，以提高性能（例如，Touvron等，2021a；Graham等，2021；Wu等，2021）。然而，这些性能的提升是以模型大小（网络参数）和延迟为代价的。许多现实世界的应用（例如，增强现实和自动轮椅）需要在资源受限的移动设备上及时运行视觉识别任务（例如，目标检测和语义分割）。为了有效运行，这类任务的ViT模型应当是轻量级且快速的。即使将ViT模型的模型大小缩减到与移动设备的资源限制匹配，其性能也明显不如轻量级的CNN。例如，对于大约500万到600万参数的预算，DeIT（Touvron等，2021a）比MobileNetv3（Howard等，2019）低了3%的准确率。因此，设计轻量级ViT模型的需求变得迫切。

轻量级CNN已经支持了许多移动视觉任务。然而，基于ViT的网络仍然远未在这些设备上得到应用。与轻量级CNN不同，ViT模型较为重量级（例如，ViT-B/16与MobileNetv3：86百万参数与7.5百万参数），优化难度较大（Xiao等，2021），需要广泛的数据增强和L2正则化以防止过拟合（Touvron等，2021a；Wang等，2021），并且在下游任务中尤其是密集预测任务中需要昂贵的解码器。例如，基于ViT的分割网络（Ranftl等，2021）学习了约345百万个参数，并且在性能上与基于CNN的网络DeepLabv3（Chen等，2017）相似，而后者的参数量为59百万。ViT模型需要更多参数的原因可能是它们缺乏CNN固有的图像特定归纳偏置（Xiao等，2021）。为了构建强大且高效的ViT模型，结合卷积和Transformer的混合方法正在受到关注（Xiao等，2021；d’Ascoli等，2021；Chen等，2021b）。然而，这些混合模型仍然是重量级的，并且对数据增强非常敏感。例如，去除CutMix（Zhong等，2020）和DeIT风格（Touvron等，2021a）的数据增强会导致Heo等（2021）在ImageNet上的准确率从78.1%下降到72.4%。

将 CNN 和 transformer 的优势结合起来，构建适用于移动视觉任务的 ViT 模型仍然是一个开放问题。移动视觉任务需要轻量、低延迟且精确的模型，以满足设备的资源限制，并且要具备通用性，能够应用于不同的任务（例如，分割和检测）。需要注意的是，浮点运算（FLOPs）对于移动设备上的低延迟并不充分，因为 FLOPs 忽略了几个与推理相关的重要因素，如内存访问、并行度和平台特性（Ma 等人，2018）。例如，Heo 等人（2021）提出的基于 ViT 的方法 PiT，其 FLOPs 比 DeIT（Touvron 等人，2021a）少 3 倍，但在移动设备上的推理速度相似（DeIT vs. PiT 在 iPhone-12 上：10.99 毫秒 vs. 10.56 毫秒）。因此，本文的重点并非优化 FLOPs，而是专注于设计一个轻量、通用且低延迟的网络，用于移动视觉任务。我们通过 MobileViT 实现了这一目标，MobileViT 结合了 CNN（例如，空间归纳偏置和对数据增强的较低敏感性）和 ViT（例如，输入自适应加权和全局处理）的优势。具体来说，我们引入了 MobileViT 块，它能有效地在张量中编码局部和全局信息（图 1b）。与 ViT 及其变种（有卷积和无卷积的情况）不同，MobileViT 提出了一个不同的视角来学习全局表示。标准卷积包括三个操作：展开、局部处理和折叠。MobileViT 块将卷积中的局部处理替换为使用 transformer 进行的全局处理。这使得 MobileViT 块具有类似于 CNN 和 ViT 的特性，从而帮助其以更少的参数和简单的训练方案（例如，基本的数据增强）学习更好的表示。根据我们的最佳知识，这是首个展示轻量级 ViT 可以通过简单的训练方案，在不同移动视觉任务中实现轻量级 CNN 水平性能的工作。在大约 500-600 万个参数预算下，MobileViT 在 ImageNet-1k 数据集（Russakovsky 等人，2015）上的 top-1 准确率为 78.4%，比 MobileNetv3 高出 3.2%，并且使用了简单的训练方案（MobileViT vs. MobileNetv3：300 vs. 600 轮；1024 vs. 4096 批量大小）。我们还观察到，当 MobileViT 被用作高度优化的移动视觉任务特定架构中的特征骨干时，性能显著提升。将 MNASNet（Tan 等人，2019）替换为 MobileViT 作为 SSDLite（Sandler 等人，2018）中的特征骨干，结果是更好的（+1.8% mAP）且更小（1:8×）的检测网络（图 2）。

2 相关工作

轻量级 CNN

CNN 的基本构建层是标准卷积层。由于该层计算开销大，提出了几种基于因式分解的方法来使其轻量化并适应移动设备（例如，Jin 等人，2014；Chollet，2017；Mehta 等人，2020）。其中，Chollet（2017）的可分离卷积引起了广泛关注，并被广泛应用于移动视觉任务的最先进轻量级 CNN 中，包括 MobileNets（Howard 等人，2017；Sandler 等人，2018；Howard 等人，2019），ShuffleNetv2（Ma 等人，2018），ESPNetv2（Mehta 等人，2019），MixNet（Tan & Le，2019b），和 MNASNet（Tan 等人，2019）。这些轻量级 CNN 灵活且易于训练。例如，这些网络可以轻松替代现有任务特定模型中的重量级骨干（例如，ResNet（He 等人，2016）），从而减少网络大小并提高延迟性能。尽管这些方法有许多优点，但其中一个主要缺点是它们在空间上是局部的。本文将 transformer 视为卷积，从而能够利用卷积（例如，灵活且简单的训练）和 transformer（例如，全局处理）的优点来构建轻量级（§3）和通用（§4.1 和 §4.2）ViT。

视觉 transformer

Dosovitskiy 等人（2021）将 Vaswani 等人（2017）的 transformer 应用于大规模图像识别，并展示了在极大规模数据集（例如，JFT-300M）上，ViT 能够在没有图像特定归纳偏置的情况下实现 CNN 水平的精度。通过广泛的数据增强、重 L2 正则化和蒸馏，ViT 可以在 ImageNet 数据集上训练，并实现 CNN 水平的性能（Touvron 等人，2021a；b；Zhou 等人，2021）。然而，与 CNN 不同，ViT 显示出次优的可优化性，并且训练困难。随后的一些工作（例如，Graham 等人，2021；Dai 等人，2021；Liu 等人，2021；Wang 等人，2021；Yuan 等人，2021b；Chen 等人，2021b）表明，这种次优的可优化性是由于 ViT 缺乏空间归纳偏置。通过在 ViT 中结合卷积，能够提高其稳定性和性能。为了充分利用卷积和 transformer 的优势，已经探索了不同的设计。例如，Xiao 等人（2021）的 ViT-C 在 ViT 中加入了早期卷积层。CvT（Wu 等人，2021）修改了 transformer 中的多头注意力，并使用深度可分离卷积替代线性投影。BoTNet（Srinivas 等人，2021）在 ResNet 的瓶颈单元中用多头注意力替代了标准的 3×3 卷积。ConViT（d’Ascoli 等人，2021）通过门控位置自注意力结合了软卷积归纳偏置。PiT（Heo 等人，2021）通过深度可分离卷积池化层扩展了 ViT。尽管这些模型能够通过广泛的增强达到与 CNN 相当的性能，但大多数模型仍为重量级。例如，PiT 和 CvT 的参数量分别是 EfficientNet（Tan & Le，2019a） 6:1 和 1:7 的倍数，并且在 ImageNet-1k 数据集上的表现相似（top-1 准确率约为 81.6%）。此外，当这些模型被缩小以构建轻量级 ViT 模型时，它们的性能明显不如轻量级 CNN。在大约 600 万个参数预算下，PiT 在 ImageNet-1k 数据集上的准确率比 MobileNetv3 少了 2.2%。

讨论

将卷积和transformer结合起来，能够得到比原始ViT更强大和高效的ViT模型。然而，这里存在一个开放性问题：如何将卷积和transformer的优势结合起来，构建轻量化的网络，以适应移动视觉任务？本文专注于设计轻量化的ViT模型，这些模型能够在简单的训练方案下超越现有的最先进模型。为此，我们提出了MobileViT，结合了CNN和ViT的优势，构建一个轻量化、通用且适用于移动设备的网络。MobileViT带来了几个新颖的观察结果：(i) 更好的性能：在给定参数预算的情况下，MobileViT模型在不同的移动视觉任务中表现优于现有的轻量级CNN (§4.1和§4.2)。(ii) 泛化能力：泛化能力是指训练和评估指标之间的差距。对于两个训练指标相似的模型，具有更好评估指标的模型具有更强的泛化能力，因为它能在未见过的数据集上做出更好的预测。与先前的ViT变体（有和没有卷积）相比，尽管进行了大量的数据增强，但它们的泛化能力较差，MobileViT表现出了更好的泛化能力（图3）。(iii) 鲁棒性：一个好的模型应该对超参数（例如数据增强和L2正则化）具有鲁棒性，因为调整这些超参数既费时又费资源。与大多数基于ViT的模型不同，MobileViT模型使用基础的数据增强进行训练，并且对L2正则化的敏感度较低（§C）。

3 MobileViT: 一种轻量化的Transformer模型

一个标准的ViT模型，如图1a所示，将输入 $\mathbf{X} \in \mathbb{R}^{H \times W \times C}$ 重新组织成一个展开的补丁序列 $\mathbf{X}_f \in \mathbb{R}^{N \times P C}$ ，并将其投影到一个固定的 $d$ 维空间 $\mathbf{X}_p \in \mathbb{R}^{N \times d}$ ，然后通过堆叠L个Transformer块来学习补丁间的表示。Vision Transformers (ViT) 中自注意力的计算成本为 $O(N^2 d)$ 。这里， $C$ 、 $H$ 和 $W$ 分别表示张量的通道数、高度和宽度， $P = w h$ 是补丁中像素的数量（补丁的高度为 $h$ ，宽度为 $w$ ）， $N$ 是补丁的数量。由于这些模型忽略了CNN中固有的空间归纳偏置，它们需要更多的参数来学习视觉表示。例如，基于ViT的网络DPT（Dosovitskiy等，2021）相比于基于CNN的DeepLabv3（Chen等，2017），需要学习6倍更多的参数，才能提供相似的分割性能（DPT vs. DeepLabv3: 345M vs. 59M）。与CNN相比，这些模型在优化上表现较差，它们对L2正则化敏感，并且需要大量的数据增强来防止过拟合（Touvron等，2021a；Xiao等，2021）。

本文介绍了一种轻量化的ViT模型——MobileViT。其核心思想是通过Transformer学习全局表示，同时借助卷积的优势。这样，我们能够在网络中隐式地加入类似卷积的特性（例如空间偏置），通过简单的训练策略（例如基础的数据增强）学习表示，并且可以轻松地将MobileViT与下游架构（例如用于分割的DeepLabv3）集成。

3.1 MobileViT架构

MobileViT块
MobileViT块，如图1b所示，旨在通过更少的参数对输入张量中的局部和全局信息进行建模。形式上，对于给定的输入张量 $\mathbf{X} \in \mathbb{R}^{H \times W \times C}$ ，MobileViT首先通过1x1卷积层产生 $\mathbf{X}_L \in \mathbb{R}^{H \times W \times d}$ 。该n×n卷积层对局部空间信息进行编码，而逐点卷积通过学习输入通道的线性组合将张量投影到一个高维空间（或d维空间，其中 $d > C$ ）。

通过MobileViT，我们希望在具有 $\times W$ 的有效感受野的同时建模长程的非局部依赖。为了建模长程依赖性，一种常见的方法是使用扩张卷积。然而，这种方法需要小心选择扩张率，否则权重将应用于填充的零，而不是有效的空间区域（Yu & Koltun, 2016；Chen等，2017；Mehta等，2018）。另一种有前景的解决方案是自注意力（Wang等，2018；Ramachandran等，2019；Bello等，2019；Dosovitskiy等，2021）。在所有自注意力方法中，带有多头自注意力的Vision Transformers（ViTs）已被证明在视觉识别任务中有效。然而，ViTs模型通常比较重，并且在优化性上表现不佳，因为它们缺少空间归纳偏置（Xiao等，2021；Graham等，2021）。

为了使MobileViT能够在具有空间归纳偏置的情况下学习全局表示，我们将 $\mathbf{X}_L$ 展开为N个不重叠的展开补丁 $\mathbf{X}_U \in \mathbb{R}^{P \times N \times d}$ 。这里， $P = w h$ ， $\frac{HW}{P}$ 是补丁的数量， $\leq n$ 和 $\leq n$ 分别是补丁的高度和宽度。对于 $\in \{1, \cdots, P\}$ ，有：

$\mathbf{X}_G(p) = \text{Transformer}(\mathbf{X}_U(p)), \quad 1 \leq p \leq P \quad（1）$

温馨提示：
阅读全文请访问"AI深语解构" MOBILEVIT: 轻量级、通用且适用于移动设备的视觉Transformer

MotionLCM 部署优化踩坑解决bug AI算法网奇 aigc与数字人深度学习宝典文生motion
目录依赖项windowstorchok：渲染黑白图问题解决：humanml3d：sentence-t5-large下载数据：报错：Nomodulenamed'sentence_transformers'继续报错：fromtransformers.integrationsimportCodeCarbonCallback解决方法：推理相关转mesh：module‘matplotlib.cm‘hasno
为了在未来的人工智能世界中取得成功，学生们必须学习人类写作的优点睿邸管家
澳大利亚各地的学生在新学年开始使用铅笔、钢笔和键盘学习写字。在工作场所，机器也在学习写作，如此有效，几年之内，它们可能会写得比人类更好。有时它们已经做到了，就像Grammarly这样的应用程序所展示的那样。当然，人类现在的日常写作可能很快就会由具有人工智能(AI)的机器来完成。手机和电子邮件软件常用的预测文本是无数人每天都在使用的一种人工智能写作形式。据AI行业研究机构称，到2022年，人工智能及
人工智能应用研究快讯 2021-11-30 峰谷皆平
[HTML]ArtificialIntelligenceforSkinCancerDetection:ScopingReviewATakiddin,JSchneider,YYang,AAbd-Alrazaq...JournalofMedicalInternet...,2021ABSTACT:Background:Skincanceristhemostcommoncancertypeaffectin
从振动信号到精准预警：AI 如何重塑工业设备健康管理？缘华工业智维人工智能计算机视觉边缘计算信息与通信
在智能制造浪潮席卷全球的当下，工业生产正经历着从传统模式向智能化、数字化转型的深刻变革。在这场变革中，AI驱动的振动分析技术犹如一颗璀璨新星，成为工业设备可靠运行的“健康卫士”。它通过在设备关键部位部署振动传感器，如同医生为患者听诊般实时采集设备运行时的振动信号，再借助强大的人工智能算法对这些“工业脉搏”进行深度解析，从而实现对工业设备从故障预警到寿命预测的全周期精准守护。一、AI振动分析：设备状
AI 生成虚拟宠物：24 小时陪你聊天解闷大力出奇迹985 人工智能宠物
本文围绕AI生成虚拟宠物展开，介绍这类依托人工智能技术诞生的虚拟伙伴，能实现24小时不间断陪伴聊天，为人们解闷。文中详细阐述其技术基础，包括自然语言处理、机器学习等；分析多样功能，如个性化互动、情绪回应等；探讨在独居人群、压力大者等不同群体中的应用场景，最后总结其为人们生活带来的积极影响及未来发展潜力，展现AI虚拟宠物在陪伴领域的独特价值。一、AI生成虚拟宠物的诞生背景与技术基石在快节奏的现代社会
GPT-4 在 AIGC 中的微调技巧：让模型更懂你的需求 AIGC应用创新大全 AI人工智能与大数据应用开发 MCP&Agent 云算力网络 AIGC ai
GPT-4在AIGC中的微调技巧：让模型更懂你的需求关键词：GPT-4、AIGC、模型微调、监督学习、指令优化、过拟合预防、个性化生成摘要：AIGC（人工智能生成内容）正在重塑内容创作行业，但通用的GPT-4模型可能无法精准匹配你的垂直需求——比如写电商爆款文案时总“跑题”，或生成技术文档时专业术语不够。本文将用“教小朋友学画画”的通俗类比，从微调的底层逻辑讲到实战技巧，带你掌握让GPT-4“更懂
AIGC内容生成实战：如何用ChatGPT+DALL·E打造高转化内容 AI大模型应用工坊 AI大模型开发实战 AIGC chatgpt ai
AIGC内容生成实战：如何用ChatGPT+DALL·E打造高转化内容关键词：AIGC、ChatGPT、DALL·E、内容生成、高转化营销、多模态协同、提示词工程摘要：随着AIGC（人工智能生成内容）技术的爆发式发展，ChatGPT（文本生成）与DALL·E（图像生成）的组合已成为内容创作领域的“黄金搭档”。本文将深度解析二者的协同原理，结合实战案例演示从需求分析到内容落地的全流程，并揭示提升内容
数据分析领域中AI人工智能的发展前景展望 AI大模型应用工坊 AI大模型开发实战数据分析人工智能数据挖掘 ai
数据分析领域中AI人工智能的发展前景展望关键词：数据分析、人工智能、机器学习、深度学习、数据挖掘、预测分析、自动化摘要：本文深入探讨了人工智能在数据分析领域的发展现状和未来趋势。我们将从核心技术原理出发，分析AI如何改变传统数据分析范式，详细讲解机器学习算法在数据分析中的应用，并通过实际案例展示AI驱动的数据分析解决方案。文章还将探讨行业应用场景、工具生态以及未来发展面临的挑战和机遇，为数据分析师
AI人工智能中的数据挖掘：提升智能决策能力
AI人工智能中的数据挖掘：提升智能决策能力关键词：数据挖掘、人工智能、机器学习、智能决策、数据分析、特征工程、模型优化摘要：本文深入探讨了数据挖掘在人工智能领域中的核心作用，重点分析了如何通过数据挖掘技术提升智能决策能力。文章从基础概念出发，详细介绍了数据挖掘的关键算法、数学模型和实际应用场景，并通过Python代码示例展示了数据挖掘的全流程。最后，文章展望了数据挖掘技术的未来发展趋势和面临的挑战
【三桥君】MCP中台，究竟如何实现多模型、多渠道、多环境的统一管控？如何以MCP为核心设计AI应用架构？三桥君《三桥君 MCP落地方法论》《三桥君 AI大模型落地方法论》#《三桥君 AI产品方法论》人工智能 AI产品经理 MCP API 三桥君系统架构 llama
你好，我是✨三桥君✨本文介绍>>一、引言随着人工智能技术的快速发展，越来越多的企业开始引入大语言模型（LLM）以提升用户体验和运营效率。然而，如何高效、稳定地将这些AI能力落地到生产环境呢？传统的系统架构往往难以应对AI应用的高并发、低延迟和灵活扩展需求，因此，从整体架构角度设计AI应用架构显得尤为重要。本文三桥君将深入探讨以MCP为核心的AI应用架构，并分析多种部署方式的优劣势，为企业在AI落地
深入理解卷积神经网络（CNN）与循环神经网络（RNN） CodeJourney. cnn rnn 人工智能
在当今的人工智能领域，神经网络无疑是最为璀璨的明珠之一。而卷积神经网络（ConvolutionalNeuralNetworks，CNN）和循环神经网络（RecurrentNeuralNetworks，RNN）作为神经网络家族中的重要成员，各自有着独特的架构和强大的功能，广泛应用于众多领域。本文将深入探讨这两种神经网络的原理、特点以及应用场景，为对深度学习感兴趣的读者提供全面的知识讲解。一、卷积神经
今年校招竞争真激烈 12_05
程序员满大街，都要找不到工作了。即使人工智能满大街，我也后悔当初没学机器学习，后悔当初没学Java。C++真难找工作。难道毕了业就失业吗？好担心！
时序预测 | MATLAB实现贝叶斯优化CNN-GRU时间序列预测(股票价格预测) Matlab机器学习之心 matlab cnn gru
✅作者简介：热爱数据处理、数学建模、仿真设计、论文复现、算法创新的Matlab仿真开发者。更多Matlab代码及仿真咨询内容点击主页：Matlab科研工作室个人信条：格物致知，期刊达人。内容介绍股票价格预测一直是金融领域一个极具挑战性的课题。其内在的非线性、随机性和复杂性使得传统的预测方法难以取得令人满意的效果。近年来，深度学习技术，特别是卷积神经网络(CNN)和门控循环单元(GRU)的结合，为时
时序预测 | MATLAB实现BO-CNN-GRU贝叶斯优化卷积门控循环单元时间序列预测 Matlab算法改进和仿真定制工程师 matlab cnn gru
✅作者简介：热爱数据处理、数学建模、算法创新的Matlab仿真开发者。更多Matlab代码及仿真咨询内容点击：Matlab科研工作室个人信条：格物致知。内容介绍时间序列预测在各个领域都具有重要的应用价值，例如金融市场预测、气象预报、交通流量预测等。准确地预测未来趋势对于决策制定至关重要。近年来，深度学习技术在时间序列预测领域取得了显著进展，其中卷积神经网络(CNN)和门控循环单元(GRU)由于其强
Python Gradio：实现交互式图像编辑 PythonAI编程架构实战家 Python编程之道 python 开发语言 ai
PythonGradio：实现交互式图像编辑关键词：Python,Gradio,交互式图像编辑,计算机视觉,深度学习,图像处理,Web应用摘要：本文将深入探讨如何使用Python的Gradio库构建交互式图像编辑应用。我们将从基础概念开始，逐步介绍Gradio的核心功能，并通过实际代码示例展示如何实现各种图像处理功能。文章将涵盖图像滤镜应用、对象检测、风格迁移等高级功能，同时提供完整的项目实战案例
如何运用深度学习打造高效AI人工智能系统 AI智能探索者 AI Agent 智能体开发实战人工智能深度学习 ai
如何运用深度学习打造高效AI人工智能系统关键词：深度学习、AI系统、神经网络、模型优化、实战开发摘要：本文将从深度学习的核心概念出发，结合生活实例和代码实战，系统讲解如何构建高效AI系统。我们会拆解数据准备、模型设计、训练优化、部署落地的全流程，揭秘“数据-模型-训练-推理”的协同机制，并通过具体案例演示从0到1开发AI系统的关键技巧，帮助开发者掌握打造高效AI系统的底层逻辑。背景介绍目的和范围在
非欧空间计算加速：图神经网络与微分几何计算的GPU优化（流形数据的内存布局优化策略）九章云极AladdinEdu 空间计算神经网络人工智能 gpu算力算法 java 开发语言
一、非欧空间计算的革命性意义与核心挑战在三维形状分析、社交网络建模、分子动力学模拟等领域，非欧几里得空间数据（流形数据）的处理正推动人工智能技术向更复杂的几何结构迈进。传统欧式空间优化方法在处理流形数据时面临根本性局限：黎曼度量导致距离计算失效、局部坐标系动态变化引发内存访问模式混乱、曲率变化影响并行计算效率。本文提出基于分块流形存储（BlockedManifoldStorage,BMS）与层次化
响应式编程实践：Spring Boot WebFlux构建高性能非阻塞服务 fanxbl957 Web spring boot 后端 java
博主介绍：Java、Python、js全栈开发“多面手”，精通多种编程语言和技术，痴迷于人工智能领域。秉持着对技术的热爱与执着，持续探索创新，愿在此分享交流和学习，与大家共进步。全栈开发环境搭建运行攻略：多语言一站式指南(环境搭建+运行+调试+发布+保姆级详解)感兴趣的可以先收藏起来，希望帮助更多的人响应式编程实践：SpringBootWebFlux构建高性能非阻塞服务一、引言在当今数字化时代，互
企业级RAG的数据方案选择 - 向量数据库、图数据库和知识图谱南七小僧 AI技术产品经理网站开发人工智能数据库知识图谱人工智能
如何为企业RAG选择合适的数据存储方式摘要:本文讨论了矢量数据库、图数据库和知识图谱在解决信息检索挑战方面的重要性，特别是针对企业规模的检索增强生成（RAG）。看看海外人工智能企业Writer是如何利用知识图谱增强企业级RAG。要点概要：矢量数据库高效存储数据，但缺乏上下文和关联信息。图数据库优先考虑数据点之间的关系，受益于关系结构。知识图谱在语义存储方面表现出色，由于其能够编码丰富的上下文信息，
【人工智能入门必看的最全Python编程实战（1）】 DFCED 人工智能 python 开发语言深度学习找工作就业
--------------------------------------------------------------------------------------------------------------------1.AIGC未来发展前景未完持续…1.1人工智能相关科研重要性拥有一篇人工智能科研论文及专利软著竞赛是保研考研留学深造以及找工作的关键门票！！！拥有一篇人工智能科研论文
基于深度学习的目标检测算法综述：从RCNN到YOLOv13，一文看懂十年演进！人工智能教程深度学习目标检测算法人工智能自动驾驶 YOLO 机器学习
一、引言：目标检测的十年巨变2012年AlexNet拉开深度学习序幕，2014年RCNN横空出世，目标检测从此进入“深度时代”。十年间，算法从两阶段到单阶段，从Anchor-base到Anchor-free，从CNN到Transformer，从2D到3D，从监督学习到自监督学习，迭代速度之快令人目不暇接。本文将系统梳理基于深度学习的目标检测算法，带你全面了解技术演进、核心思想、代表算法、工业落地与
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现不同水果的检测识别（C#代码，UI界面版）
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现不同水果的检测识别（C#代码，UI界面版））工业相机使用YoloV8模型实现不同水果的检测识别工业相机通过YoloV8模型实现不同水果的检测识别的技术背景在相机SDK中获取图像转换图像的代码分析工业相机图像转换Bitmap图像格式和Mat图像重要核心代码本地文件图像转换Bitmap图像格式和Mat图像重要核心代码Mat图像导入Yo
2025毫米波雷达技术白皮书：智能汽车与物联网的感知核心
随着人工智能、物联网（IoT）和智能汽车产业的迅猛发展，毫米波雷达技术正成为感知领域的核心驱动力。毫米波雷达凭借其高精度、全天候和强抗干扰能力，广泛应用于智能汽车的自动驾驶、物联网的环境感知以及工业自动化。2025年，毫米波雷达技术在性能、应用场景和市场规模上都达到了一个全新的高度。本白皮书将深入探讨毫米波雷达技术的核心优势、发展趋势及其在智能汽车与物联网中的应用前景，同时推荐各大品牌的领先产品方
从零开始构建深度学习环境：基于Pytorch、CUDA与cuDNN的虚拟环境搭建与实践（适合初学者）荣华富贵8 程序员的知识储备2 程序员的知识储备3 深度学习 pytorch 人工智能
摘要：深度学习正在引领人工智能技术的革新，而对于初学者来说，正确搭建深度学习环境是迈向AI研究与应用的第一步。本文将为读者提供一套详尽的教程，指导如何在本地环境中搭建Pytorch、CUDA与cuDNN，以及如何利用Anaconda和PyCharm进行高效开发。内容涵盖从环境配置、常见错误修正，到基础的深度学习模型构建及训练。我们旨在为深度学习零基础的入门者提供一个全面且易于理解的“保姆级”教程，
人工智能概念之九：深度学习概述
文章目录相关文章一、深度学习的定位：AI时代的基石技术1.1技术生态全景图1.2技术革命的催化剂二、深度学习的双面性：性能优势与技术挑战2.1技术优势全景扫描2.2技术挑战深度剖析三、技术演进时间轴：70年的厚积薄发四、主流框架生态对比五、未来演进方向相关文章人工智能概念之二：人工智能核心概念：网页链接一、深度学习的定位：AI时代的基石技术1.1技术生态全景图深度学习处于人工智能（AI）技术金字塔
H800核心技术突破与行业应用实战智能计算研究中心其他
内容概要在人工智能技术持续迭代的背景下，H800芯片凭借自主架构优化与算力跃升，成为推动行业场景化落地的关键驱动力。本文将从技术路径、性能突破与行业应用三个维度，系统解析H800如何在高并发计算与低延时响应领域实现底层架构创新。首先聚焦其自主架构优化的核心技术路径，包括动态资源调度算法与异构计算单元的深度协同设计，揭示其在能效比与计算密度上的突破逻辑；进一步结合算力跃升的具体表现，探讨该芯片如何通
智慧建筑：科技引领房地产与建筑业的未来 RedPhoenix45
最新接入DeepSeek-V3模型，点击下载最新版本InsCodeAIIDE智慧建筑：科技引领房地产与建筑业的未来随着科技的飞速发展，人工智能（AI）和智能化工具正以前所未有的速度改变着各行各业。在房地产与建筑领域，这种变革尤为显著。从建筑设计到施工管理，再到物业管理，智能化技术正在重塑行业的每一个环节。本文将探讨如何利用先进的智能化工具提升房地产与建筑行业的效率，并介绍一款革命性的开发工具——它
学苑教育杂志《学苑教育》杂志社学苑教育编辑部2025年第21期目录 QQ296078736 人工智能
专题研究推进“教-学-评”一体化，打造小学语文高效课堂刘月兰;4-6教育管理新高考制度下普通高中生涯教育课程设计的研究霍亚贞;马玲;7-9课堂教学核心素养下小学数学深度学习课堂的构建策略康贵景;10-12“双减”背景下初中英语教学的课堂模式高燕;13-15小学低年级数学说理课堂构建策略玉洁;16-18基于法治观念培育的道法课项目式教学策略许静;19-21“双师课堂”在初中语文写作教学中的实践孙巧玲
智慧施工：AI技术赋能建筑安全监测新纪元
开发AI智能应用，就下载InsCodeAIIDE，一键接入DeepSeek-R1满血版大模型！智慧施工：AI技术赋能建筑安全监测新纪元在现代建筑行业中，施工安全始终是核心关注点之一。随着科技的飞速发展，人工智能（AI）和大数据分析逐渐成为提升施工安全的重要工具。本文将探讨如何利用智能化软件和大模型API来构建高效的施工安全监测系统，并介绍一款强大的开发工具——InsCodeAIIDE的应用场景及其
智慧工地系统：建筑行业数字化变革的引领者青云智慧园区 java
在建筑行业积极迈向数字化转型的浪潮中，智慧工地系统凭借“数据驱动、智能管控、协同增效”的核心优势，深度融合物联网、大数据、人工智能等前沿技术，构建起覆盖工程项目全生命周期的精细化管理体系。以下将从系统架构、核心功能模块、应用价值以及未来展望等方面，全方位剖析智慧工地系统如何实现施工全过程的智能化、高效化管理。一、系统架构：打造一体化协同管理平台智慧工地系统采用先进的分层架构设计，以底层的数据采集层
iOS http封装 374016526 ios 服务器交互 http 网络请求
程序开发避免不了与服务器的交互，这里打包了一个自己写的http交互库。希望可以帮到大家。内置一个basehttp，当我们创建自己的service可以继承实现。 KuroAppBaseHttp *baseHttp = [[KuroAppBaseHttp alloc] init]; [baseHttp setDelegate:self]; [baseHttp
lolcat ：一个在 Linux 终端中输出彩虹特效的命令行工具 brotherlamp linux linux教程 linux视频 linux自学 linux资料
那些相信 Linux 命令行是单调无聊且没有任何乐趣的人们，你们错了，这里有一些有关 Linux 的文章，它们展示着 Linux 是如何的有趣和“淘气” 。在本文中，我将讨论一个名为“lolcat”的小工具 – 它可以在终端中生成彩虹般的颜色。何为 lolcat ? Lolcat 是一个针对 Linux，BSD 和 OSX 平台的工具，它类似于 cat 命令，并为 cat
MongoDB索引管理（1）——[九] eksliang mongodb MongoDB管理索引
转载请出自出处：http://eksliang.iteye.com/blog/2178427 一、概述数据库的索引与书籍的索引类似，有了索引就不需要翻转整本书。数据库的索引跟这个原理一样，首先在索引中找，在索引中找到条目以后，就可以直接跳转到目标文档的位置，从而使查询速度提高几个数据量级。不使用索引的查询称
Informatica参数及变量 18289753290 Informatica 参数变量
下面是本人通俗的理解，如有不对之处，希望指正 info参数的设置：在info中用到的参数都在server的专门的配置文件中（最好以parma）结尾下面的GLOBAl就是全局的，$开头的是系统级变量，$$开头的变量是自定义变量。如果是在session中或者mapping中用到的变量就是局部变量，那就把global换成对应的session或者mapping名字。 [GLOBAL] $Par
python 解析unicode字符串为utf8编码字符串酷的飞上天空 unicode
php返回的json字符串如果包含中文，则会被转换成\uxx格式的unicode编码字符串返回。在浏览器中能正常识别这种编码，但是后台程序却不能识别，直接输出显示的是\uxx的字符，并未进行转码。转换方式如下 >>> import json >>> q = '{"text":"\u4
Hibernate的总结永夜-极光 Hibernate
1.hibernate的作用,简化对数据库的编码,使开发人员不必再与复杂的sql语句打交道做项目大部分都需要用JAVA来链接数据库，比如你要做一个会员注册的页面，那么获取到用户填写的基本信后，你要把这些基本信息存入数据库对应的表中，不用hibernate还有mybatis之类的框架，都不用的话就得用JDBC，也就是JAVA自己的，用这个东西你要写很多的代码，比如保存注册信
SyntaxError: Non-UTF-8 code starting with '\xc4' 随便小屋 python
刚开始看一下Python语言，传说听强大的，但我感觉还是没Java强吧！写Hello World的时候就遇到一个问题，在Eclipse中写的，代码如下 ''' Created on 2014年10月27日 @author: Logic ''' print("Hello World!"); 运行结果 SyntaxError: Non-UTF-8
学会敬酒礼仪不做酒席菜鸟 aijuans 菜鸟
俗话说，酒是越喝越厚，但在酒桌上也有很多学问讲究，以下总结了一些酒桌上的你不得不注意的小细节。细节一：领导相互喝完才轮到自己敬酒。敬酒一定要站起来，双手举杯。细节二：可以多人敬一人，决不可一人敬多人，除非你是领导。细节三：自己敬别人，如果不碰杯，自己喝多少可视乎情况而定，比如对方酒量，对方喝酒态度，切不可比对方喝得少，要知道是自己敬人。细节四：自己敬别人，如果碰杯，一
《创新者的基因》读书笔记 aoyouzi 读书笔记《创新者的基因》
创新者的基因创新者的“基因”，即最具创意的企业家具备的五种“发现技能”：联想，观察，实验，发问，建立人脉。第一部分破坏性创新，从你开始第一章破坏性创新者的基因如何获得启示：发现以下的因素起到了催化剂的作用：(1) -个挑战现状的问题；(2)对某项技术、某个公司或顾客的观察；(3) -次尝试新鲜事物的经验或实验；(4)与某人进行了一次交谈，为他点醒
表单验证技术百合不是茶 JavaScript DOM对象 String对象事件
js最主要的功能就是验证表单,下面是我对表单验证的一些理解,贴出来与大家交流交流 ,数显我们要知道表单验证需要的技术点, String对象,事件,函数一:String对象;通常是对字符串的操作; 1,String的属性; 字符串.length;表示该字符串的长度; var str= "java"
web.xml配置详解之context-param bijian1013 java servlet web.xml context-param
一.格式定义： <context-param> <param-name>contextConfigLocation</param-name> <param-value>contextConfigLocationValue></param-value> </context-param> 作用：该元
Web系统常见编码漏洞（开发工程师知晓） Bill_chen sql PHP Web fckeditor 脚本
1.头号大敌：SQL Injection 原因：程序中对用户输入检查不严格，用户可以提交一段数据库查询代码，根据程序返回的结果，获得某些他想得知的数据，这就是所谓的SQL Injection，即SQL注入。本质: 对于输入检查不充分，导致SQL语句将用户提交的非法数据当作语句的一部分来执行。示例： String query = "SELECT id FROM users
【MongoDB学习笔记六】MongoDB修改器 bit1129 mongodb
本文首先介绍下MongoDB的基本的增删改查操作，然后，详细介绍MongoDB提供的修改器，以完成各种各样的文档更新操作 MongoDB的主要操作 show dbs 显示当前用户能看到哪些数据库 use foobar 将数据库切换到foobar show collections 显示当前数据库有哪些集合 db.people.update，update不带参数，可
提高职业素养，做好人生规划白糖_ 人生
培训讲师是成都著名的企业培训讲师，他在讲课中提出的一些观点很新颖，在此我收录了一些分享一下。注：讲师的观点不代表本人的观点，这些东西大家自己揣摩。 1、什么是职业规划：职业规划并不完全代表你到什么阶段要当什么官要拿多少钱，这些都只是梦想。职业规划是清楚的认识自己现在缺什么，这个阶段该学习什么，下个阶段缺什么，又应该怎么去规划学习，这样才算是规划。
国外的网站你都到哪边看？ bozch 技术网站国外
学习软件开发技术，如果没有什么英文基础，最好还是看国内的一些技术网站，例如：开源OSchina，csdn，iteye,51cto等等。个人感觉如果英语基础能力不错的话，可以浏览国外的网站来进行软件技术基础的学习，例如java开发中常用的到的网站有apache.org 里面有apache的很多Projects,springframework.org是spring相关的项目网站,还有几个感觉不错的
编程之美-光影切割问题 bylijinnan 编程之美
package a; public class DisorderCount { /**《编程之美》“光影切割问题” * 主要是两个问题： * 1.数学公式（设定没有三条以上的直线交于同一点）： * 两条直线最多一个交点，将平面分成了4个区域； * 三条直线最多三个交点，将平面分成了7个区域； * 可以推出：N条直线 M个交点，区域数为N+M+1。
关于Web跨站执行脚本概念 chenbowen00 Web 安全跨站执行脚本
跨站脚本攻击(XSS)是web应用程序中最危险和最常见的安全漏洞之一。安全研究人员发现这个漏洞在最受欢迎的网站,包括谷歌、Facebook、亚马逊、PayPal,和许多其他网站。如果你看看bug赏金计划,大多数报告的问题属于 XSS。为了防止跨站脚本攻击,浏览器也有自己的过滤器,但安全研究人员总是想方设法绕过这些过滤器。这个漏洞是通常用于执行cookie窃取、恶意软件传播,会话劫持,恶意重定向。在
[开源项目与投资]投资开源项目之前需要统计该项目已有的用户数 comsci 开源项目
现在国内和国外,特别是美国那边,突然出现很多开源项目,但是这些项目的用户有多少,有多少忠诚的粉丝,对于投资者来讲,完全是一个未知数,那么要投资开源项目,我们投资者必须准确无误的知道该项目的全部情况,包括项目发起人的情况,项目的维持时间..项目的技术水平,项目的参与者的势力,项目投入产出的效益.....
oracle alert log file（告警日志文件） daizj oracle 告警日志文件 alert log file
The alert log is a chronological log of messages and errors, and includes the following items: All internal errors (ORA-00600), block corruption errors (ORA-01578), and deadlock errors (ORA-00060)
关于 CAS SSO 文章声明 denger SSO
由于几年前写了几篇 CAS 系列的文章，之后陆续有人参照文章去实现，可都遇到了各种问题，同时经常或多或少的收到不少人的求助。现在这时特此说明几点： 1. 那些文章发表于好几年前了，CAS 已经更新几个很多版本了，由于近年已经没有做该领域方面的事情，所有文章也没有持续更新。 2. 文章只是提供思路，尽管 CAS 版本已经发生变化，但原理和流程仍然一致。最重要的是明白原理，然后
初二上学期难记单词 dcj3sjt126com english word
lesson 课 traffic 交通 matter 要紧；事物 happy 快乐的，幸福的 second 第二的 idea 主意；想法；意见 mean 意味着 important 重要的，重大的 never 从来，决不 afraid 害怕的 fifth 第五的 hometown 故乡，家乡 discuss 讨论；议论 east 东方的 agree 同意；赞成 bo
uicollectionview 纯代码布局, 添加头部视图 dcj3sjt126com Collection
#import <UIKit/UIKit.h> @interface myHeadView : UICollectionReusableView { UILabel *TitleLable; } -(void)setTextTitle; @end #import "myHeadView.h" @implementation m
N 位随机数字串的 JAVA 生成实现 FX夜归人 java Math 随机数 Random
/** * 功能描述随机数工具类<br /> * @author FengXueYeGuiRen * 创建时间 2014-7-25<br /> */ public class RandomUtil { // 随机数生成器 private static java.util.Random random = new java.util.R
Ehcache（09）——缓存Web页面 234390216 ehcache 页面缓存
页面缓存目录 1 SimplePageCachingFilter 1.1 calculateKey 1.2 可配置的初始化参数 1.2.1 cach
spring中少用的注解@primary解析 jackyrong primary
这次看下spring中少见的注解@primary注解，例子 @Component public class MetalSinger implements Singer{ @Override public String sing(String lyrics) { return "I am singing with DIO voice
Java几款性能分析工具的对比 lbwahoo java
Java几款性能分析工具的对比摘自：http://my.oschina.net/liux/blog/51800 在给客户的应用程序维护的过程中，我注意到在高负载下的一些性能问题。理论上，增加对应用程序的负载会使性能等比率的下降。然而，我认为性能下降的比率远远高于负载的增加。我也发现，性能可以通过改变应用程序的逻辑来提升，甚至达到极限。为了更详细的了解这一点，我们需要做一些性能
JVM参数配置大全 nickys jvm 应用服务器
JVM参数配置大全 /usr/local/jdk/bin/java -Dresin.home=/usr/local/resin -server -Xms1800M -Xmx1800M -Xmn300M -Xss512K -XX:PermSize=300M -XX:MaxPermSize=300M -XX:SurvivorRatio=8 -XX:MaxTenuringThreshold=5 -
搭建 CentOS 6 服务器(14) - squid、Varnish rensanning varnish
（一）squid 安装 # yum install httpd-tools -y # htpasswd -c -b /etc/squid/passwords squiduser 123456 # yum install squid -y 设置 # cp /etc/squid/squid.conf /etc/squid/squid.conf.bak # vi /etc/
Spring缓存注解@Cache使用 tom_seed spring
参考资料 http://www.ibm.com/developerworks/cn/opensource/os-cn-spring-cache/ http://swiftlet.net/archives/774 缓存注解有以下三个： @Cacheable @CacheEvict @CachePut
dom4j解析XML时出现"java.lang.noclassdeffounderror: org/jaxen/jaxenexception"错误 xp9802
java.lang.NoClassDefFoundError: org/jaxen/JaxenExc 关键字: java.lang.noclassdeffounderror: org/jaxen/jaxenexception 使用dom4j解析XML时，要快速获取某个节点的数据，使用XPath是个不错的方法，dom4j的快速手册里也建议使用这种方式执行时却抛出以下异常： Exceptio

MOBILEVIT: 轻量级、通用且适用于移动设备的视觉Transformer

摘要

1. 引言

2 相关工作

3 MobileViT: 一种轻量化的Transformer模型

3.1 MobileViT架构

你可能感兴趣的:(Paper阅读,transformer,深度学习,人工智能,计算机视觉)