LuH1124

【论文阅读笔记】Taming Transformers for High-Resolution Image Synthesis

Taming Transformers for High-Resolution Image Synthesis

记录
前置知识
Abstract
Introduction
Related Work
Method
- Learning an Effective Codebook of Image Constituents for Use in Transformers
- Learning the Composition of Images with Transformers
- - 条件合成
  - 合成高分辨率图像
实验
- Attention Is All You Need in the Latent Space
- A Unified Model for Image Synthesis Tasks
- - 高分辨率合成
- Building Context-Rich Vocabularies、
- Benchmarking Image Synthesis Results
- - Class-Conditional Synthesis on ImageNet
结论
附录

paper：https://arxiv.org/abs/2012.09841
code：https://github.com/CompVis/taming-transformers.git
affiliation：德国海德堡大学图像处理实验室 CompVis
project：https://compvis.github.io/taming-transformers

记录

简单来说就是使用VQGAN对图像进行压缩为离散的序列（存储于codebook），在codebook空间训练了一个基于transformer的自回归模型。
充分利用了CNN对于图像的编码能力和局部感知，再通过transformer建模每个局部的全局关系。减少了transformer随图片分辨率增长导致的平方倍内存消耗和计算需求。

前置知识

Abstract

旨在学习序列数据的远程交互，transformer继续在各种任务中展示最先进的结果。与 CNN 相比，它们不包含优先考虑局部交互的归纳偏差。这使得它们具有表现力，但对于长序列(如高分辨率图像)也在计算上是不可行的。
我们演示了如何将cnn的归纳偏差与变压器的表达能力相结合，使它们能够建模，从而合成高分辨率图像。
我们展示了如何 (i) 使用 CNN 来学习图像成分的上下文丰富的词汇
进而 (ii) 利用transformer有效地对它们在高分辨率图像中的组成进行建模。
我们的方法可以很容易地应用于条件合成任务，其中非空间信息，如对象类和空间信息，如分割，都可以控制生成的图像。特别是，我们展示了使用变压器语义引导合成百万像素图像的第一个结果。

Introduction

transformer表达能力的提高伴随着对计算资源的提高，这在合成百万像素图像上带来了挑战
作者假设low level图像结构可以用CNN架构很好地描述，但在更高语义层面上失效。此外，还提到了CNN表现出强烈的局部偏见和空间不变性的偏见，这使它们在需要更全面理解输入时变得无效。
我们获得有效和富有表现力的模型的关键见解是，将卷积和转换器架构一起建模我们的视觉世界的组合性质
- 使用CNN来有效地学习上下文丰富的视觉部分的codebook，然后Transformer学习它们的全局组合模型
- 利用对抗性方法来确保局部部分的字典捕获了感知上重要的局部结构，以减轻使用 Transformer 架构对低级统计数据进行建模的需要
- 允许变压器专注于其独特的优势来建模远程关系
- 可通过调节有关所需对象类或空间布局的信息来直接控制生成的图像
- 最后，实验表明，我们的方法优于以前基于codebook的基于卷积架构的最先进方法，保留了Transformer的优势

Related Work

Transformer在序列化任务中考虑全局取得了SOTA，但开销随着序列的长度线性增长，面对图像力不从心
CNN考虑局部，产生严重的归纳偏执，本文结合Transformer和CNN的优势进行建模
介绍了类似的二阶段方法，首先学习数据的编码，然后在第二阶段学习这种编码的概率模型

Method

高分辨率图像合成需要一个模型来理解图像的全局组合，使其能够生成局部逼真和全局一致的模式。

我们的方法使用卷积神经网络VQGAN来学习上下文丰富的视觉部分的码本，其组合随后使用自回归transormer架构建模。
离散码本提供了这些体系结构和基于补丁的鉴别器之间的接口，可以在保持高感知质量的同时实现强大的压缩。
该方法引入CNN提高了基于transormer的高分辨率图像合成的效率。

Learning an Effective Codebook of Image Constituents for Use in Transformers

直观理解，提前设定了一个长度为 $n_z$ ，数量为 $K$ 的codebook存储离散编码；对输入图像(HW3)使用VQGAN的encoder得到当前的编码 $\hat{z}$ (hw $n_z$ );根据最近邻搜索codebook中的离散编码并替换得到 $z_q$ (hw $n_z$ ),经过decoder得到输出 $\hat{x}$ 。
note: 实际替换的公式： $z_q = z + (z_q-z).detach()$ ，将解码器输入 $z_q$ 的梯度复制到编码器输出 $z$ 。
loss定义为：
$\begin{aligned} \mathcal{L}_{\mathrm{VQ}}(E, G, \mathcal{Z})=\|x-\hat{x}\|^{2} & +\left\|\operatorname{sg}[E(x)]-z_{\mathbf{q}}\right\|_{2}^{2} \\ & +\beta\left\|\operatorname{sg}\left[z_{\mathbf{q}}\right]-E(x)\right\|_{2}^{2} \end{aligned}$

第一项约束图像层面的重建loss
第二项根据VAVAEVQ 目标使用 l2 误差将嵌入向量 z_q 移动到编码器输出z
第三项由于嵌入空间的体积是无量纲的，如果嵌入 $z_q$ 不像编码器参数那样快地训练，它可以任意增长。为了确保编码器嵌入并且其输出不会增长，我们添加了一个承诺损失。（我理解是限制编码器的更新速度，确保每一次encode的编码能够找到codebook中的编码，还望大佬请教）

解码器仅优化第一个损失项，编码器优化第一个和最后一个损失项，嵌入 $z_q$ 由中间损失项优化。

为了获得感知丰富的codebook，添加了GAN对抗性loss和感知LPIPSloss来替换一般的mse重建loss
ganloss的权重自适应：

$\mathcal{L}_{\mathrm{GAN}}(\{E, G, \mathcal{Z}\}, D)=[\log D(x)+\log (1-D(\hat{x}))]$

$\begin{aligned} \mathcal{Q}^{*}=\underset{E, G, \mathcal{Z}}{\arg \min } \max _{D} \mathbb{E}_{x \sim p(x)}\left[\mathcal{L}_{\mathrm{VQ}}(E, G, \mathcal{Z})\right. \\ \left.+\lambda \mathcal{L}_{\mathrm{GAN}}(\{E, G, \mathcal{Z}\}, D)\right] \end{aligned}$

$\lambda=\frac{\nabla_{G_{L}}\left[\mathcal{L}_{\mathrm{rec}}\right]}{\nabla_{G_{L}}\left[\mathcal{L}_{\mathrm{GAN}}\right]+\delta}$

Learning the Composition of Images with Transformers

图像经过encoder之后的编码在codebook中对应的索引假设为s。在选择索引的某种排序后（对应着图像encoder后的编码），图像生成可以表述为自回归下一个索引预测：

给定索引 s
将完整表示的可能性计算为 p(s) = ∏i p(si|s $\mathcal{L}_{\text {Transformer }}=\mathbb{E}_{x \sim p(x)}[-\log p(s)]$

条件合成

任务是在给定此信息 c 的情况下学习序列的可能性：

$\mid c)=\prod_{i} p\left(s_{i} \mid s_{p(s∣c)=∏ip(si∣s<i,c)$

如果条件信息 c 具有空间范围，我们首先学习另一个 VQGAN 再次获得基于索引的表示 r ∈ {0,…, |Zc|−1}hc ×wc 与新获得的码本 Zc 由于变压器的自回归结构，我们可以简单地将 r 前置到 s 并将负对数似然的计算限制为条目 p(si|s

合成高分辨率图像

为了生成百万像素范围内的图像，因此我们必须处理补丁和裁剪图像，以在训练期间将 s 的长度限制为最大可行的大小。为了对图像进行采样，我们以滑动窗口的方式使用Transformer。
我们的VQGAN 确保可用的上下文仍然足以忠实地对图像进行建模，只要数据集的统计数据近似空间不变或空间条件信息可用。

实验

我们通常设置|Z|=1024，并训练所有后续的transformers模型来预测长度为16·16的序列

Attention Is All You Need in the Latent Space

transormers在很多任务上包括自回归图像生成取得了sota，那么现在的结构是否还能保证比CNN更强？

相比于SOTA的卷积自回归方法，相同epochs或者相同时间下的Transformer取得了更的负对数似然

A Unified Model for Image Synthesis Tasks

考察有条件生成，使用了类标签或分割图等附加信息c，目标是学习如式 $\mid c)=\prod_{i} p\left(s_{i} \mid s_{p(s∣c)=∏ip(si∣s<i,c)$

(i)：语义图像合成，我们以ADE20K[72]、网络抓取景观数据集(S-FLCKR)和COCO-Stuff的语义分割掩码为条件。结果如图4、5和图6所示。

(ii)：结构到图像，我们使用深度或边缘信息从 RIN 和 IN 合成图像（参见第 4.1 节）。得到的深度图像和边缘到图像转换如图4和图6所示。

(iii)：姿势引导合成：图 4 显示了与之前实验相同的方法可用于在 DeepFashion 数据集上构建形状条件生成模型，而不是使用分割或深度图的语义丰富的信息。

(iv)：随机超分辨率，其中低分辨率图像用作条件信息，从而进行上采样。我们在 ImageNet 上训练我们的模型上采样因子为 8，结果如图 6 所示。

(v)：类条件图像合成：在这里，条件信息 c 是描述感兴趣类标签的单个索引。RIN 数据集的条件采样结果如图 4 所示。

高分辨率合成

第3.2节介绍的滑动窗口方法使图像合成超出256 × 256像素的分辨率。我们在LSUN-CT和FacesHQ上的无条件图像生成上评估我们的方法(见第4.3节)，并在DRIN、COCO-Stuff和S-FLCKR上进行条件合成，我们在图1、6和补充中显示了结果(图17-27)。请注意，这种方法原则上可以用于生成任意比率和大小的图像，因为感兴趣的数据集的图像统计信息大致是空间不变的，或者空间信息是可用的。通过将该方法应用于S-FLCKR上语义布局的图像生成，可以获得令人印象深刻的结果，其中m = 5可以学习强VQGAN，使其码本和条件信息为变压器提供了足够的上下文，用于百万像素区域的图像生成。

Building Context-Rich Vocabularies、

为了研究这个问题，我们进行了 Transformer 架构保持固定的实验，而编码到第一阶段表示的上下文数量通过我们的 VQGAN 的下采样块的数量而变化。

我们根据图像输入和结果表示之间的边长的减少因子来指定编码的上下文量，即将大小为 H × W 的图像编码为大小为 H/f × W/f 的离散代码的第一阶段用因子 f 表示。对于 f = 1，我们重现的方法，并用 k = 512 的 RGB 值的 k-means 聚类替换我们的 VQGAN。在训练期间，我们总是裁剪图像以获得变压器大小为 16 × 16 的输入，即在第一阶段用因子 f 对图像进行建模时，我们使用大小为 16f × 16f 的裁剪。为了从模型中采样，我们总是以滑动窗口的方式应用它们，如第 3 节所述。

图7显示了FacesHQ上人脸无条件合成的结果，CelebA-HQ和FFHQ的组合。它通过增加变压器的有效感受野清楚地展示了强大的VQGAN的好处。对于小感受野，或者等效地小 f ，模型无法捕获连贯的结构。对于f = 8的中间值，可以近似图像的整体结构，但出现了半胡须脸和图像不同部位视点等面部特征的不一致。只有我们的完整模型off = 16可以合成高保真样本。对于 S-FLCKR 的条件设置中的类似结果，我们参考附录（图 10 和 Sec. B）。

为了定量评估我们方法的有效性，我们比较了**直接在像素上训练转换器的结果，并在具有固定计算预算的 VQGAN 潜在代码之上对其进行训练。**学习 CIFAR10 上 512 个 RGB 值字典，直接在像素空间上操作，并在我们的 VQGAN 之上训练相同的变压器架构，潜在代码大小为 16 × 16 = 256。我们观察到 FID 的改进为 18.63%，图像采样速度快 14.08×。

Benchmarking Image Synthesis Results

Class-Conditional Synthesis on ImageNet

结论

本文解决了以前将transformer限制在低分辨率图像中的基本挑战。我们提出了一种将图像表示为感知丰富的图像成分的组合的方法，从而克服了直接在像素空间中建模图像时不可行的二次复杂度。使用 CNN 架构及其与 Transformer 架构的组合建模成分利用了它们互补优势的全部潜力，从而允许我们使用基于转换器的架构表示高分辨率图像合成的第一个结果。在实验中，**我们的方法通过合成百万像素范围内的图像，证明了CNN归纳偏差和transformer的表达能力，并优于最先进的卷积方法。**配备了条件合成的一般机制，它为新的神经渲染方法提供了许多机会。

附录

40页的俘虏就不摆放啦，做了非常多的实验，可以细看论文

MotionLCM 部署优化踩坑解决bug AI算法网奇 aigc与数字人深度学习宝典文生motion
目录依赖项windowstorchok：渲染黑白图问题解决：humanml3d：sentence-t5-large下载数据：报错：Nomodulenamed'sentence_transformers'继续报错：fromtransformers.integrationsimportCodeCarbonCallback解决方法：推理相关转mesh：module‘matplotlib.cm‘hasno
AIGC内容生成实战：如何用ChatGPT+DALL·E打造高转化内容 AI大模型应用工坊 AI大模型开发实战 AIGC chatgpt ai
AIGC内容生成实战：如何用ChatGPT+DALL·E打造高转化内容关键词：AIGC、ChatGPT、DALL·E、内容生成、高转化营销、多模态协同、提示词工程摘要：随着AIGC（人工智能生成内容）技术的爆发式发展，ChatGPT（文本生成）与DALL·E（图像生成）的组合已成为内容创作领域的“黄金搭档”。本文将深度解析二者的协同原理，结合实战案例演示从需求分析到内容落地的全流程，并揭示提升内容
深入理解卷积神经网络（CNN）与循环神经网络（RNN） CodeJourney. cnn rnn 人工智能
在当今的人工智能领域，神经网络无疑是最为璀璨的明珠之一。而卷积神经网络（ConvolutionalNeuralNetworks，CNN）和循环神经网络（RecurrentNeuralNetworks，RNN）作为神经网络家族中的重要成员，各自有着独特的架构和强大的功能，广泛应用于众多领域。本文将深入探讨这两种神经网络的原理、特点以及应用场景，为对深度学习感兴趣的读者提供全面的知识讲解。一、卷积神经
时序预测 | MATLAB实现贝叶斯优化CNN-GRU时间序列预测(股票价格预测) Matlab机器学习之心 matlab cnn gru
✅作者简介：热爱数据处理、数学建模、仿真设计、论文复现、算法创新的Matlab仿真开发者。更多Matlab代码及仿真咨询内容点击主页：Matlab科研工作室个人信条：格物致知，期刊达人。内容介绍股票价格预测一直是金融领域一个极具挑战性的课题。其内在的非线性、随机性和复杂性使得传统的预测方法难以取得令人满意的效果。近年来，深度学习技术，特别是卷积神经网络(CNN)和门控循环单元(GRU)的结合，为时
时序预测 | MATLAB实现BO-CNN-GRU贝叶斯优化卷积门控循环单元时间序列预测 Matlab算法改进和仿真定制工程师 matlab cnn gru
✅作者简介：热爱数据处理、数学建模、算法创新的Matlab仿真开发者。更多Matlab代码及仿真咨询内容点击：Matlab科研工作室个人信条：格物致知。内容介绍时间序列预测在各个领域都具有重要的应用价值，例如金融市场预测、气象预报、交通流量预测等。准确地预测未来趋势对于决策制定至关重要。近年来，深度学习技术在时间序列预测领域取得了显著进展，其中卷积神经网络(CNN)和门控循环单元(GRU)由于其强
论文阅读：《针对多目标优化和应用的 NSGA-II 综述》一些关于优化算法的简介行然梦实优化算法论文阅读算法数学建模
前言提醒：文章内容为方便作者自己后日复习与查阅而进行的书写与发布，其中引用内容都会使用链接表明出处（如有侵权问题，请及时联系）。其中内容多为一次书写，缺少检查与订正，如有问题或其他拓展及意见建议，欢迎评论区讨论交流。内容由AI辅助生成，仅经笔者审核整理，请甄别食用。文章目录前言一些关于优化算法的缩写优化算法Ma,Haiping&Zhang,Yajing&Sun,Shengyi&Liu,Ting&S
基于深度学习的目标检测算法综述：从RCNN到YOLOv13，一文看懂十年演进！人工智能教程深度学习目标检测算法人工智能自动驾驶 YOLO 机器学习
一、引言：目标检测的十年巨变2012年AlexNet拉开深度学习序幕，2014年RCNN横空出世，目标检测从此进入“深度时代”。十年间，算法从两阶段到单阶段，从Anchor-base到Anchor-free，从CNN到Transformer，从2D到3D，从监督学习到自监督学习，迭代速度之快令人目不暇接。本文将系统梳理基于深度学习的目标检测算法，带你全面了解技术演进、核心思想、代表算法、工业落地与
视觉Transformer还有哪些点可以研究？怎么应用？计算机视觉工坊 3D视觉从入门到精通学习算法开源
0.这篇文章干了啥？今天笔者为大家推荐一篇最新的综述，详细总结了Transformer的网络架构、优化策略、发展方向，还会定期更新Github，研究注意力机制的小伙伴一定不要错过。注意机制有助于人类视觉系统有效地分析和理解复杂场景，它能够聚焦于图像的关键区域，同时忽略无关紧要的部分。受此概念启发，注意机制已经被引入到计算机视觉（CV）中，以动态地为图像中的不同区域分配权重。这使得神经网络能够专注于
《目标法则》：如何找到你的明确首要目标？女朱姝涵
我们每个人都想找到自己最终要确定的目标，但是很多人终其一生都在寻找中，都没有找到自己最需要的目标。在一本书中，结合成功学之父拿破仑•希尔里面的理念，可以助力你找到自己最终的目标。该书就是《目标法则—大师的积极思维课》。作者是米奇•霍洛维茨，作家，企鹅出版社编辑，著有《隐秘美国》《神奇俱乐部》等获奖图书。是很多时报的专栏作家，更是CNN，哥伦比亚广播等有声书讲师，一生在研究拿破仑•希尔的思想。什么是
【AI大模型：前沿】43、Mamba架构深度解析：为什么它是Transformer最强挑战者？无心水架构 transformer Mamba Mamba架构 AI大模型系统开发实战 AI大模型高手开发 AI大模型系统实战
Transformer架构自2017年诞生以来，一直是NLP、计算机视觉等领域的“统治级”模型架构。但随着序列长度需求的增长（如128K长文本处理、基因组学超长序列分析），其自注意力机制的O(n2)O(n^2)O(n2)计算复杂度成为难以逾越的瓶颈。2023年底，由AlbertGu和TriDao等人提出的Mamba架构，通过创新的“选择性状态空间模型（SelectiveSSM）”实现了线性复杂度（
【YOLO系列】YOLOv1详解：模型结构、损失函数、训练方法及代码实现一碗白开水一 yolo系列助你拿捏AI算法 YOLO 人工智能目标检测计算机视觉
YOLOv1（YouOnlyLookOnce）：实时目标检测的革命性突破✨motivation在目标检测领域，传统方法如R-CNN系列存在计算冗余、推理速度慢的问题。2016年提出的YOLO（YouOnlyLookOnce）首次实现端到端单阶段检测，将检测速度提升至45FPS（FasterR-CNN仅7FPS），彻底改变了实时目标检测的格局。其核心思想是将检测视为回归问题，实现"看一眼即知全貌"的
Llama 2 模型架构深度解析：Transformer的进化 SuperAGI架构师的AI实验室 AI大模型应用开发宝典 llama 架构 transformer ai
Llama2模型架构深度解析：Transformer的进化关键词：Llama2、Transformer、模型架构、进化、人工智能摘要：本文将深入剖析Llama2的模型架构，探讨它作为Transformer进化版本的独特之处。从背景知识的介绍，到核心概念的解释，再到算法原理、实战案例以及实际应用场景等方面，为读者全面展现Llama2的魅力和价值。通过通俗易懂的语言，让即使是对技术不太熟悉的读者也能理
图像质量评价2 JXH_SHU
本次介绍的是2018CVPR另一篇图像质量评价的论文——BlindPredictingSimilarQualityMapforImageQualityAssessment。这篇采用的思路与之前那篇2018CVPR相近，同样是采用了质量图像生成的方法。这篇论文主要的特点是以全参考的相似图来作为生成网络的label，生成网络的结构采用了之前U-net架构，同时这篇论文还采用了一种集成的思想，即用多种的
基于深度学习的图像分类：使用ShuffleNet实现高效分类 Blossom.118 机器学习与人工智能深度学习分类人工智能机器学习数据挖掘 python 目标检测
前言图像分类是计算机视觉领域中的一个基础任务，其目标是将输入的图像分配到预定义的类别中。近年来，深度学习技术，尤其是卷积神经网络（CNN），在图像分类任务中取得了显著的进展。ShuffleNet是一种轻量级的深度学习架构，专为移动和嵌入式设备设计，能够在保持较高分类精度的同时，显著减少计算量和模型大小。本文将详细介绍如何使用ShuffleNet实现高效的图像分类，从理论基础到代码实现，带你一步步掌
实时检测延迟超200ms？陌讯新框架FPS提速50%揭晓 2501_92474779 目标跟踪人工智能计算机视觉机器学习算法视觉检测
开篇痛点在现代安防监控场景中，实时目标检测（Real-timeObjectDetection）至关重要，但传统算法如FasterR-CNN或YOLOv5往往面临严峻挑战。实测数据显示：复杂环境下（如夜间低光照、人群密集区），漏检率（MissRate）高达15-20%，导致安全隐患；同时，检测延迟（Latency）常超过200ms，影响应急响应。例如，某城市交通监控系统报告，在雨雾天气中的车辆误报率
【Python】Python+sentence-transformers框架实现相似文本识别宅男很神经 python 开发语言
第一章：文本相似度与语义表示概述在深入sentence-transformers框架之前，我们首先需要对文本相似度计算及其背后的核心概念——语义表示，有一个清晰且全面的理解。这构成了后续所有讨论的基础。1.1什么是文本相似度？1.1.1定义与重要性文本相似度（TextSimilarity）是指衡量两段文本（可以是词、短语、句子、段落或整个文档）在意义或内容上相近程度的指标。这种相近可以是字面上的（
风格迁移（Style Transfer）
1.什么是风格迁移（StyleTransfer）：简单介绍风格迁移的概念，指的是将一张图像的内容与另一张图像的艺术风格结合起来，从而生成一个新的图像。例如，将一张风景图像的内容与一幅著名艺术作品（如梵高的《星夜》）的风格结合。应用场景：风格迁移常用于图像生成、艺术创作和增强现实等领域。目标：本文将讲解如何使用PyTorch和VGG19模型实现风格迁移，并展示其核心代码。2.风格迁移的原理在这一部分
揭秘Transformer架构：残差流与隐藏层的关系 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python transformer 深度学习人工智能 linux 算法
在Transformer架构的LLM中，“残差流”（residualstream）和“隐藏层”（hiddenlayers）是密切相关但不同的概念，前者是层间流动的核心数据，后者是处理这些数据的结构单元。1.残差流（ResidualStream）：层间传递的“信息流”残差流指的是在Transformer层之间传递的核心张量，它是模型中“流动”的数据载体。其本质是通过“残差连接”（residualco
MATLAB实现基于GA-CNN-BiLSTM-Attention遗传算法（GA）优化卷积双向长短期记忆神经网络融合注意力机制进行多变量时序预测的详细项目实例（含模型描述及示例代码） nantangyuxi MATLAB 含模型描述及示例代码神经网络 matlab cnn 支持向量机人工智能大数据深度学习
目录MATLAB实现基于GA-CNN-BiLSTM-Attention遗传算法（GA）优化卷积双向长短期记忆神经网络融合注意力机制进行多变量时序预测的详细项目实例...2项目背景介绍...2项目目标与意义...31.提高多变量时序预测的准确性...32.弥补传统方法的局限性...33.提高模型训练效率...3
GWO-CNN-BiLSTM-Attention多变量多步时间序列预测 | Matlab实现灰狼算法优化卷积双向长短期记忆融合注意力机制
✅作者简介：热爱数据处理、数学建模、仿真设计、论文复现、算法创新的Matlab仿真开发者。更多Matlab代码及仿真咨询内容点击主页：Matlab科研工作室个人信条：格物致知，期刊达人。内容介绍摘要:时间序列预测在各个领域具有广泛的应用，而多变量多步时间序列预测由于其复杂性和挑战性，一直是研究热点。本文提出了一种基于灰狼算法(GreyWolfOptimizer,GWO)优化的卷积神经网络(Conv
【代码问题】【模型部署】部署千问时，ImportError: Cannot import available module of Qwen2_5_VLForConditionalGeneration Catching Star python pytorch 开发语言
多半是环境的问题，最主要的是python版本要高python==3.12.9accelerate==1.8.1pipinstallqwen-vl-utils[decord]==0.0.8peft==0.14.0transformers==4.52.3torch==2.7.0torchvision==0.22.0modelscope==1.27.1
14、基于无人机与CNN技术的森林研究：原木识别与冠层空隙分析 Sunny 计算科学前沿：ICCSA 2021精选无人机 CNN 原木识别
基于无人机与CNN技术的森林研究：原木识别与冠层空隙分析基于CNN的原木识别研究近年来，基于单根原木追踪圆木的方法备受关注。此前的研究提出了一种基于原木端面图像的物理自由方法，借鉴了指纹和虹膜识别的技术，在使用真实分割数据时取得了不错的效果。但在实际应用中，需要一个完全自动化的系统。为了填补这一空白，研究采用了基于卷积神经网络（CNN）的分割方法与原木识别方法相结合的方式，并与传统原木识别方法在自
基于孪生网络 (Siamese Network) 的人脸识别系统 DeniuHe Pytorch pytorch
上一个帖子记录了基于普通CNN的人脸识别系统。但是，测试准确率实在太低了只有30%。这次使用孪生网络（SiameseNet）进行实现。代码实现使用了VGG19预训练模型作为特征提取器，通过对比学习来判断两张人脸图像是否属于同一人。整个代码分为数据准备、模型构建、训练和测试四个主要部分。importmatplotlib.pyplotaspltimporttorchfromtorchimportnnf
创建全景图像的完整指南：Make-Panorama-Image实战教程色空空色
本文还有配套的精品资源，点击获取简介：在IT领域，全景图像创建技术用于合并多张连续拍摄的照片以获得宽广视角。本教程将介绍使用Python和JupyterNotebook实现全景图像生成的步骤，包括图像对齐、融合、扭曲校正和裁剪调整。通过学习OpenCV、PIL/Pillow和scikit-image等库的使用，你将掌握创建和处理全景图像的技术。1.全景图像生成的步骤与原理全景图像（Panorama
人工智能自然语言处理：Transformer 模型详解大力出奇迹985 人工智能自然语言处理 transformer
一、Transformer模型的诞生背景在自然语言处理的漫长征程中，早期的传统模型，如循环神经网络（RNN）及其变体长短时记忆网络（LSTM），曾占据主导地位。RNN试图通过依次处理序列中的每个元素，来捕捉上下文信息。但它存在一个致命弱点，在处理长序列时，会面临梯度消失或梯度爆炸的问题，就像一个长途跋涉的旅人，随着路程的增加，逐渐忘记了出发时的目标和重要信息。LSTM虽然在一定程度上缓解了这个问题
服务器生成图片
服务器生成图片通常是指通过服务器端的程序、算法或模型，根据输入的指令、参数或数据自动创建图像的过程。这种技术广泛应用于人工智能绘图、动态图像生成、数据可视化等领域。以下从常见实现方式、技术原理和应用场景三个方面详细介绍：一、常见实现方式基于AI模型的生成这是目前最主流的方式，通过训练好的深度学习模型（如扩散模型、GAN等）生成图片。典型模型：StableDiffusion、DALL・E、Midjo
基于深度学习的图像分类：使用Inception-v3实现高效分类 Blossom.118 机器学习与人工智能深度学习分类人工智能机器学习数据挖掘计算机视觉 python
前言图像分类是计算机视觉领域中的一个基础任务，其目标是将输入的图像分配到预定义的类别中。近年来，深度学习技术，尤其是卷积神经网络（CNN），在图像分类任务中取得了显著的进展。Inception-v3是一种高效的深度学习架构，通过引入多尺度特征提取和模块化设计，显著提高了模型的性能和效率。本文将详细介绍如何使用Inception-v3实现高效的图像分类，从理论基础到代码实现，带你一步步掌握基于Inc
LightGBM+Transformer-LSTM多变量回归交通流量预测,附模型研究报告(Matlab) matlab科研助手 transformer lstm 回归
✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。往期回顾关注个人主页：Matlab科研工作室个人信条：格物致知,完整Matlab代码及仿真咨询内容私信。内容介绍交通流量预测作为智能交通系统（ITS）的核心组成部分，对城市规划、交通管理、交通诱导和出行决策具有至关重要的意义。准确、可靠的流量预测能够有效缓解交通拥堵，提高道路利用率，降
探秘VCSI：一款创新的视觉内容识别工具
探秘VCSI：一款创新的视觉内容识别工具是一个基于深度学习的开源项目，其主要目标是帮助开发者和数据科学家进行高效、精确的视觉内容识别。在这个数字时代，我们每天都被大量的图像和视频所包围，VCSI提供了强大的工具，使得机器能够理解这些媒体内容，从而打开了一扇全新的应用之门。技术解析VCSI基于现代神经网络架构，特别是卷积神经网络（CNNs），用于图像特征提取。它利用预训练模型，如VGG16和ResN
周三 2020-01-01 09:30 - 23:00 多云 03h35m 么得感情的日更机器
南昌。二〇二〇年一月一日基本科研[1]:1.论文阅读论文--小时2.论文实现论文编写--实验--小时3.数学SINS推导回顾--O分4.科研参考书【】1)的《》看0/0页-5.科研文档1)组织工作[1]:开题报告--英语能力[2]:1.听力--十分2.单词--三分3.口语--五分4.英语文档1)编程能力[2]:1.编程语言C语言--O分2.数据结构与算法C语言数据结构--O分3.编程参考书1)陈正
集合框架天子之骄 java 数据结构集合框架
集合框架集合框架可以理解为一个容器，该容器主要指映射(map)、集合(set)、数组(array)和列表(list)等抽象数据结构。从本质上来说，Java集合框架的主要组成是用来操作对象的接口。不同接口描述不同的数据类型。简单介绍： Collection接口是最基本的接口，它定义了List和Set，List又定义了LinkLi
Table Driven（表驱动）方法实例 bijian1013 java enum Table Driven 表驱动
实例一： /** * 驾驶人年龄段 * 保险行业，会对驾驶人的年龄做年龄段的区分判断 * 驾驶人年龄段：01-[18,25);02-[25,30);03-[30-35);04-[35,40);05-[40,45);06-[45,50);07-[50-55);08-[55,+∞) */ public class AgePeriodTest { //if...el
Jquery 总结 cuishikuan java jquery Ajax Web jquery方法
1.$.trim方法用于移除字符串头部和尾部多余的空格。如：$.trim(' Hello ') // Hello2.$.contains方法返回一个布尔值，表示某个DOM元素（第二个参数）是否为另一个DOM元素（第一个参数）的下级元素。如：$.contains(document.documentElement, document.body); 3.$
面向对象概念的提出麦田的设计者 java 面向对象面向过程
面向对象中，一切都是由对象展开的，组织代码，封装数据。在台湾面向对象被翻译为了面向物件编程，这充分说明了，这种编程强调实体。下面就结合编程语言的发展史，聊一聊面向过程和面向对象。 c语言由贝尔实
linux网口绑定被触发 linux
刚在一台IBM Xserver服务器上装了RedHat Linux Enterprise AS 4，为了提高网络的可靠性配置双网卡绑定。一、环境描述我的RedHat Linux Enterprise AS 4安装双口的Intel千兆网卡，通过ifconfig -a命令看到eth0和eth1两张网卡。二、双网卡绑定步骤： 2.1 修改/etc/sysconfig/network
XML基础语法肆无忌惮_ xml
一、什么是XML？ XML全称是Extensible Markup Language，可扩展标记语言。很类似HTML。XML的目的是传输数据而非显示数据。XML的标签没有被预定义，你需要自行定义标签。XML被设计为具有自我描述性。是W3C的推荐标准。二、为什么学习XML？用来解决程序间数据传输的格式问题做配置文件充当小型数据库三、XML与HTM
为网页添加自己喜欢的字体知了ing 字体秒表 css
@font-face { font-family: miaobiao;//定义字体名字 font-style: normal; font-weight: 400; src: url('font/DS-DIGI-e.eot');//字体文件 } 使用： <label style="font-size:18px;font-famil
redis范围查询应用-查找IP所在城市矮蛋蛋 redis
原文地址： http://www.tuicool.com/articles/BrURbqV 需求根据IP找到对应的城市原来的解决方案 oracle表（ip_country）：查询IP对应的城市： 1.把a.b.c.d这样格式的IP转为一个数字，例如为把210.21.224.34转为3524648994 2. select city from ip_
输入两个整数，计算百分比 alleni123 java
public static String getPercent(int x, int total){ double result=(x*1.0)/(total*1.0); System.out.println(result); DecimalFormat df1=new DecimalFormat("0.0000%");
百合——————>怎么学习计算机语言百合不是茶 java 移动开发
对于一个从没有接触过计算机语言的人来说，一上来就学面向对象，就算是心里上面接受的了，灵魂我觉得也应该是跟不上的，学不好是很正常的现象，计算机语言老师讲的再多，你在课堂上面跟着老师听的再多，我觉得你应该还是学不会的，最主要的原因是你根本没有想过该怎么来学习计算机编程语言，记得大一的时候金山网络公司在湖大招聘我们学校一个才来大学几天的被金山网络录取，一个刚到大学的就能够去和
linux下tomcat开机自启动 bijian1013 tomcat
方法一：修改Tomcat/bin/startup.sh 为: export JAVA_HOME=/home/java1.6.0_27 export CLASSPATH=$CLASSPATH:$JAVA_HOME/lib/tools.jar:$JAVA_HOME/lib/dt.jar:. export PATH=$JAVA_HOME/bin:$PATH export CATALINA_H
spring aop实例 bijian1013 java spring AOP
1.AdviceMethods.java package com.bijian.study.spring.aop.schema; public class AdviceMethods { public void preGreeting() { System.out.println("--how are you!--"); } } 2.beans.x
[Gson八]GsonBuilder序列化和反序列化选项enableComplexMapKeySerialization bit1129 serialization
enableComplexMapKeySerialization配置项的含义 Gson在序列化Map时，默认情况下，是调用Key的toString方法得到它的JSON字符串的Key，对于简单类型和字符串类型，这没有问题，但是对于复杂数据对象，如果对象没有覆写toString方法，那么默认的toString方法将得到这个对象的Hash地址。 GsonBuilder用于
【Spark九十一】Spark Streaming整合Kafka一些值得关注的问题 bit1129 Stream
包括Spark Streaming在内的实时计算数据可靠性指的是三种级别： 1. At most once，数据最多只能接受一次，有可能接收不到 2. At least once, 数据至少接受一次，有可能重复接收 3. Exactly once 数据保证被处理并且只被处理一次，具体的多读几遍http://spark.apache.org/docs/lates
shell脚本批量检测端口是否被占用脚本 ronin47
#!/bin/bash cat ports |while read line do#nc -z -w 10 $line nc -z -w 2 $line 58422>/dev/null2>&1if[ $?-eq 0]then echo $line:ok else echo $line:fail fi done 这里的ports 既可以是文件
java-2.设计包含min函数的栈 bylijinnan java
具体思路参见：http://zhedahht.blog.163.com/blog/static/25411174200712895228171/ import java.util.ArrayList; import java.util.List; public class MinStack { //maybe we can use origin array rathe
Netty源码学习-ChannelHandler bylijinnan java netty
一般来说，“有状态”的ChannelHandler不应该是“共享”的，“无状态”的ChannelHandler则可“共享” 例如ObjectEncoder是“共享”的, 但 ObjectDecoder 不是因为每一次调用decode方法时，可能数据未接收完全（incomplete），它与上一次decode时接收到的数据“累计”起来才有可能是完整的数据，是“有状态”的 p
java生成随机数 cngolon java
方法一： /** * 生成随机数 * @author [email protected] * @return */ public synchronized static String getChargeSequenceNum(String pre){ StringBuffer sequenceNum = new StringBuffer(); Date dateTime = new D
POI读写海量数据 ctrain 海量数据
import java.io.FileOutputStream; import java.io.OutputStream; import org.apache.poi.xssf.streaming.SXSSFRow; import org.apache.poi.xssf.streaming.SXSSFSheet; import org.apache.poi.xssf.streaming
mysql 日期格式化date_format详细使用 daizj mysql date_format 日期格式转换日期格式化
日期转换函数的详细使用说明 DATE_FORMAT(date,format) Formats the date value according to the format string. The following specifiers may be used in the format string. The&n
一个程序员分享8年的开发经验 dcj3sjt126com 程序员
在中国有很多人都认为IT行为是吃青春饭的，如果过了30岁就很难有机会再发展下去!其实现实并不是这样子的，在下从事.NET及JAVA方面的开发的也有8年的时间了，在这里在下想凭借自己的亲身经历，与大家一起探讨一下。明确入行的目的很多人干IT这一行都冲着“收入高”这一点的，因为只要学会一点HTML, DIV+CSS，要做一个页面开发人员并不是一件难事，而且做一个页面开发人员更容
android欢迎界面淡入淡出效果 dcj3sjt126com android
很多Android应用一开始都会有一个欢迎界面，淡入淡出效果也是用得非常多的，下面来实现一下。主要代码如下： package com.myaibang.activity; import android.app.Activity;import android.content.Intent;import android.os.Bundle;import android.os.CountDown
linux 复习笔记之常见压缩命令 eksliang tar解压 linux系统常见压缩命令 linux压缩命令 tar压缩
转载请出自出处:http://eksliang.iteye.com/blog/2109693 linux中常见压缩文件的拓展名 *.gz gzip程序压缩的文件 *.bz2 bzip程序压缩的文件 *.tar tar程序打包的数据，没有经过压缩 *.tar.gz tar程序打包后，并经过gzip程序压缩 *.tar.bz2 tar程序打包后，并经过bzip程序压缩 *.zi
Android 应用程序发送shell命令 gqdy365 android
项目中需要直接在APP中通过发送shell指令来控制lcd灯，其实按理说应该是方案公司在调好lcd灯驱动之后直接通过service送接口上来给APP，APP调用就可以控制了，这是正规流程，但我们项目的方案商用的mtk方案，方案公司又没人会改，只调好了驱动，让应用程序自己实现灯的控制，这不蛋疼嘛！！！！发就发吧！一、关于shell指令：我们知道，shell指令是Linux里面带的
java 无损读取文本文件 hw1287789687 读取文件无损读取读取文本文件 charset
java 如何无损读取文本文件呢？以下是有损的 @Deprecated public static String getFullContent(File file, String charset) { BufferedReader reader = null; if (!file.exists()) { System.out.println("getFull
Firebase 相关文章索引 justjavac firebase
Awesome Firebase 最近谷歌收购Firebase的新闻又将Firebase拉入了人们的视野，于是我做了这个 github 项目。 Firebase 是一个数据同步的云服务，不同于 Dropbox 的「文件」，Firebase 同步的是「数据」，服务对象是网站开发者，帮助他们开发具有「实时」（Real-Time）特性的应用。开发者只需引用一个 API 库文件就可以使用标准 RE
C++学习重点 lx.asymmetric C++笔记
1.c++面向对象的三个特性：封装性，继承性以及多态性。 2.标识符的命名规则：由字母和下划线开头，同时由字母、数字或下划线组成；不能与系统关键字重名。 3.c++语言常量包括整型常量、浮点型常量、布尔常量、字符型常量和字符串性常量。 4.运算符按其功能开以分为六类：算术运算符、位运算符、关系运算符、逻辑运算符、赋值运算符和条件运算符。 &n
java bean和xml相互转换 q821424508 java bean xml xml和bean转换 java bean和xml转换
这几天在做微信公众号做的过程中想找个java bean转xml的工具，找了几个用着不知道是配置不好还是怎么回事，都会有一些问题，然后脑子一热谢了一个javabean和xml的转换的工具里，自己用着还行，虽然有一些约束吧，还是贴出来记录一下顺便你提一下下，这个转换工具支持属性为集合、数组和非基本属性的对象。 packag
C 语言初级位运算 1140566087 位运算 c
第十章位运算 1、位运算对象只能是整形或字符型数据，在VC6.0中int型数据占4个字节 2、位运算符：运算符作用 ~ 按位求反 << 左移 >> 右移 & 按位与 ^ 按位异或 | 按位或他们的优先级从高到低； 3、位运算符的运算功能： a、按位取反： ~01001101 = 101
14点睛Spring4.1-脚本编程 wiselyman spring4
14.1 Scripting脚本编程脚本语言和java这类静态的语言的主要区别是:脚本语言无需编译,源码直接可运行; 如果我们经常需要修改的某些代码,每一次我们至少要进行编译,打包,重新部署的操作,步骤相当麻烦; 如果我们的应用不允许重启,这在现实的情况中也是很常见的; 在spring中使用脚本编程给上述的应用场景提供了解决方案,即动态加载bean; spring支持脚本