微醺的水

Autoregressive Visual Tracking（ARTrack）CVPR2023学习笔记

Autoregressive Visual Tracking

论文地址：http://openaccess.thecvf.com//content/CVPR2023/papers/Wei_Autoregressive_Visual_Tracking_CVPR_2023_paper.pdf

动机：

这篇论文的研究动机是传统的视觉目标跟踪方法通常将跟踪视为每帧模板匹配问题，忽略了视频帧之间的时序依赖性。本文的作者提出了一种新的框架，将跟踪视为坐标序列解释任务，通过学习一个简单的端到端模型来进行直接轨迹估计。该方法可以建模轨迹的时序演变，以保持跟踪结果的连贯性。相比现有的基于模板匹配的跟踪器，该方法可以更好地处理目标变形、尺度变化、遮挡和干扰等问题，并且不需要定制的定位头和后处理步骤。

贡献：

这篇论文提出了一个基于自回归模型的视觉目标跟踪框架ARTrack，将跟踪视为坐标序列解释任务，并通过前面的状态影响当前的跟踪结果，从而提高了跟踪的精度。ARTrack相对于现有的基于模板匹配的跟踪器更加简单和直接，避免了定制化的本地化头和后处理。

1、Tracking as Sequence Interpretation

我们把视觉跟踪作为一个连续的坐标解释任务，以条件概率的形式表述：
$P\left(Y^t|Y^{t-N:t-1},(C,Z,X^t)\right),$
其中 $Z$ 和 $X_t$ 是时间步 $t$ 的给定模板和搜索图像， $C$ 是命令标记， $Y$ 表示与 $X$ 关联的目标序列。模板 $Z$ 也可以通过更新机制在每个时间步长进行更新，或者干脆作为初始模板。

可以看出，我们将跟踪制定为一个时间自回归过程，其中当前的结果是最近 $N$ 的过去的函数，以模板和搜索图像为条件。这是一个阶数为 $N$ 的自回归模型，简称为 $A R (N)$ 模型。具体来说，当 $N = 0$ 时，式(1)退化为不以先前状态为条件的逐帧模型 $P(Y t |C, Z, X^t)$ 。引入的自回归模型与视觉跟踪是兼容的，因为它本身就是一个序列预测的任务。当前帧中的估计目标状态受到相邻的先前目标状态的影响，并且还影响后续帧。我们将此跟踪框架称为 ARTrack，它由以下主要组件组成。

序列构建：给定一个视频序列和一个初始物体框，视觉跟踪器预测一个边界框的序列。它们被映射到一个统一的坐标系中，并被转换成具有共享词汇的离散标记序列。
网络架构：我们使用编解码器架构，编码器嵌入视觉特征，解码器解释目标序列。
目标函数：该模型在视频帧上进行训练，用一个结构化的损失函数来最大化目标序列的对数可能性。我们还探索了一个特定任务的目标来提高性能。

1.1、Sequence Construction from Object Trajectory

我们将物体的轨迹描述为具有共享词汇的离散标记序列。

Tokenization

受Pix2Seq框架的启发，我们对连续坐标进行离散化，以避免描述连续坐标所需的大量参数，这称为标记化。具体来说，时间步骤 $t$ 的对象框由四个标记组成，即 $[x^t_{min} , y^t_{min} , x^t_{max} , y^t_{max}]$ ，每个标记是 $1, n_{bins}]$ 之间的整数。当 $bin$ 的数量大于或等于图像解析时，可以实现零量化误差。然后我们使用量化项来索引可学习的词汇表以获得与坐标相对应的标记。这允许模型根据离散标记来描述对象的位置，并允许语言模型中现成的解码器用于坐标回归。这种新的回归避免了从图像特征到坐标的直接非线性映射，这通常是困难的。在去标记化中，我们将输出的标记特征与共享词汇相匹配，以找到最可能的位置。

Trajectory coordinate mapping

大多数跟踪器裁剪搜索区域以减少计算成本，而不是在全分辨率帧上进行跟踪。这意味着该网络输出当前帧中物体的坐标，相对于搜索区域而言。为了获得统一的表示，需要将不同帧的框映射到同一个坐标系中。在我们的方法中，我们将前面 $N$ 帧的盒子坐标缓存在全局坐标系中，并在搜索区域被裁剪后将其映射到当前坐标系中。但是，如果我们使用整帧进行搜索，则不再需要这个坐标映射步骤。

Representation range of vocabulary

词汇表的表示范围可以根据搜索区域的大小设置，但由于对象移动快速，前面的轨迹序列有时可能超出搜索区域的边界。为了解决这个问题，我们将表示范围扩展为搜索区域范围的倍数（例如，如果搜索区域范围是 $[0.0, 1.0]$ ，我们将其扩展为 $[- 0.5, 1.5]$ )。这使得词汇表能够包含位于搜索区域之外的坐标，这反过来又允许模型捕获更多前面的运动线索来跟踪和预测超出搜索区域的边界框。

1.2、Network Architecture

考虑到目标序列是由目标轨迹构建的，我们使用编码器-解码器结构进行学习和推理。

Encoder

编码器可以是一个通用的图像编码器，它将像素编码为隐藏特征表示，例如ConvNet， vision Transformer (ViT)，或者混合架构。在这项工作中，我们使用与OSTrack相同的ViT编码器进行视觉特征编码。模板和搜索图像首先被分割成小块，被平面化和投影以生成一系列的标记嵌入。然后我们将模板和搜索标记加上位置和身份嵌入，串联起来，并将它们送入一个普通的ViT骨干网，以编码视觉特征。

Decoder

我们使用Transformer解码器生成目标序列。它以前面的坐标标记、命令标记和视觉特征为条件，逐步解码整个序列。命令标记 $（ C ）$ 提供了一个轨迹建议，然后将模板 $（ Z ）$ 与搜索 $X_t）$ 相匹配，以获得更准确的坐标预测 $Y_t）$ 。这种简单的解码方法消除了现代视觉跟踪器架构的复杂性和自定义性，例如，定位头和后处理，因为坐标可以立即从共享词汇表中去标记化。解码器需要两种注意力。自注意力（带有因果掩码）在坐标标记之间执行以传达时空信息。交叉注意将运动线索与视觉线索相结合以进行最终预测。两个操作在每个解码器层交替执行，以混合两种嵌入。我们在图 3a 中说明了解码器的结构。为了提高跟踪效率，我们通过修改解码器层来研究修改后的解码器。具体来说，self-和cross-attention层分别解耦和堆叠。这样，我们可以并行对视觉特征进行交叉注意，这是解码器中最耗时的计算。修改后的解码器如图 3b 所示。

1.3、Training and Inference

ARTrack 是一个简单的框架，可以实现端到端的训练和推理。

Training

除了每一帧的训练和优化，ARTrack还通过视频序列进行学习。它采用了一个结构化的目标，即用一个softmax交叉熵损失函数使标记序列的对数可能性最大化：
$\text{maximize}\sum\limits_{t=1}^T\log P\left(Y^t|Y^{t-N;t-1},(C,Z,X^t)\right),$
其中， $T$ 是目标序列的长度。这种学习方法统一了训练和推理之间的任务目标，即保持跨视频帧的定位精度。在启动时 $（ t \leq N ）$ ，缓存的时空提示 $Y^{t-N:t-1})$ ，并逐由初始的 $Y_1)$ 填充，并逐渐用新的预测进行更新。

这是一个通用的目标函数，忽略了令牌的物理属性，例如坐标的空间关系。尽管我们发现这样的与任务无关的目标对于训练模型是有效的，但我们研究了如何结合任务知识来提高性能。具体来说，我们引入了 SIoU 损失来更好地测量预测边界框和地面实况边界框之间的空间相关性。我们首先从估计的概率分布中获取坐标标记。由于采样是不可微的，我们应用分布的期望来表示坐标。然后我们得到预测的边界框，并用ground truth计算它的SIoU。整个损失函数可以写成：
$\mathcal{L}=\mathcal{L}_{\mathrm{ce}}+\lambda\mathcal{L}_{\mathrm{SIoU}},$
其中 $\mathcal{L}_{\mathrm{ce}}$ 和 $\mathcal{L}_{\mathrm{SIoU}}$ 分别为交叉熵损失和SIoU损失， $\lambda$ 为平衡两个损失项的权重。

Inference

在推理时间，我们使用 $a r g ma x$ 抽样法从模型可能性 $P\left(Y^t|Y^{t-N:t-1},(C,Z,X^t)\right)$ 中进行采样。我们发现其他随机抽样技术或期望的性能与 argmax 采样相当。不需要额外的 EOS 令牌结束序列预测，因为序列长度在我们的问题中是固定的。在获得离散标记后，我们将它们去量化以获得连续坐标。

你可能感兴趣的:(目标跟踪,目标跟踪,计算机视觉,transformer,深度学习)

MotionLCM 部署优化踩坑解决bug AI算法网奇 aigc与数字人深度学习宝典文生motion
目录依赖项windowstorchok：渲染黑白图问题解决：humanml3d：sentence-t5-large下载数据：报错：Nomodulenamed'sentence_transformers'继续报错：fromtransformers.integrationsimportCodeCarbonCallback解决方法：推理相关转mesh：module‘matplotlib.cm‘hasno
数据分析领域中AI人工智能的发展前景展望 AI大模型应用工坊 AI大模型开发实战数据分析人工智能数据挖掘 ai
数据分析领域中AI人工智能的发展前景展望关键词：数据分析、人工智能、机器学习、深度学习、数据挖掘、预测分析、自动化摘要：本文深入探讨了人工智能在数据分析领域的发展现状和未来趋势。我们将从核心技术原理出发，分析AI如何改变传统数据分析范式，详细讲解机器学习算法在数据分析中的应用，并通过实际案例展示AI驱动的数据分析解决方案。文章还将探讨行业应用场景、工具生态以及未来发展面临的挑战和机遇，为数据分析师
深入理解卷积神经网络（CNN）与循环神经网络（RNN） CodeJourney. cnn rnn 人工智能
在当今的人工智能领域，神经网络无疑是最为璀璨的明珠之一。而卷积神经网络（ConvolutionalNeuralNetworks，CNN）和循环神经网络（RecurrentNeuralNetworks，RNN）作为神经网络家族中的重要成员，各自有着独特的架构和强大的功能，广泛应用于众多领域。本文将深入探讨这两种神经网络的原理、特点以及应用场景，为对深度学习感兴趣的读者提供全面的知识讲解。一、卷积神经
时序预测 | MATLAB实现贝叶斯优化CNN-GRU时间序列预测(股票价格预测) Matlab机器学习之心 matlab cnn gru
✅作者简介：热爱数据处理、数学建模、仿真设计、论文复现、算法创新的Matlab仿真开发者。更多Matlab代码及仿真咨询内容点击主页：Matlab科研工作室个人信条：格物致知，期刊达人。内容介绍股票价格预测一直是金融领域一个极具挑战性的课题。其内在的非线性、随机性和复杂性使得传统的预测方法难以取得令人满意的效果。近年来，深度学习技术，特别是卷积神经网络(CNN)和门控循环单元(GRU)的结合，为时
时序预测 | MATLAB实现BO-CNN-GRU贝叶斯优化卷积门控循环单元时间序列预测 Matlab算法改进和仿真定制工程师 matlab cnn gru
✅作者简介：热爱数据处理、数学建模、算法创新的Matlab仿真开发者。更多Matlab代码及仿真咨询内容点击：Matlab科研工作室个人信条：格物致知。内容介绍时间序列预测在各个领域都具有重要的应用价值，例如金融市场预测、气象预报、交通流量预测等。准确地预测未来趋势对于决策制定至关重要。近年来，深度学习技术在时间序列预测领域取得了显著进展，其中卷积神经网络(CNN)和门控循环单元(GRU)由于其强
Python Gradio：实现交互式图像编辑 PythonAI编程架构实战家 Python编程之道 python 开发语言 ai
PythonGradio：实现交互式图像编辑关键词：Python,Gradio,交互式图像编辑,计算机视觉,深度学习,图像处理,Web应用摘要：本文将深入探讨如何使用Python的Gradio库构建交互式图像编辑应用。我们将从基础概念开始，逐步介绍Gradio的核心功能，并通过实际代码示例展示如何实现各种图像处理功能。文章将涵盖图像滤镜应用、对象检测、风格迁移等高级功能，同时提供完整的项目实战案例
如何运用深度学习打造高效AI人工智能系统 AI智能探索者 AI Agent 智能体开发实战人工智能深度学习 ai
如何运用深度学习打造高效AI人工智能系统关键词：深度学习、AI系统、神经网络、模型优化、实战开发摘要：本文将从深度学习的核心概念出发，结合生活实例和代码实战，系统讲解如何构建高效AI系统。我们会拆解数据准备、模型设计、训练优化、部署落地的全流程，揭秘“数据-模型-训练-推理”的协同机制，并通过具体案例演示从0到1开发AI系统的关键技巧，帮助开发者掌握打造高效AI系统的底层逻辑。背景介绍目的和范围在
基于深度学习的目标检测算法综述：从RCNN到YOLOv13，一文看懂十年演进！人工智能教程深度学习目标检测算法人工智能自动驾驶 YOLO 机器学习
一、引言：目标检测的十年巨变2012年AlexNet拉开深度学习序幕，2014年RCNN横空出世，目标检测从此进入“深度时代”。十年间，算法从两阶段到单阶段，从Anchor-base到Anchor-free，从CNN到Transformer，从2D到3D，从监督学习到自监督学习，迭代速度之快令人目不暇接。本文将系统梳理基于深度学习的目标检测算法，带你全面了解技术演进、核心思想、代表算法、工业落地与
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现不同水果的检测识别（C#代码，UI界面版）
Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现不同水果的检测识别（C#代码，UI界面版））工业相机使用YoloV8模型实现不同水果的检测识别工业相机通过YoloV8模型实现不同水果的检测识别的技术背景在相机SDK中获取图像转换图像的代码分析工业相机图像转换Bitmap图像格式和Mat图像重要核心代码本地文件图像转换Bitmap图像格式和Mat图像重要核心代码Mat图像导入Yo
从零开始构建深度学习环境：基于Pytorch、CUDA与cuDNN的虚拟环境搭建与实践（适合初学者）荣华富贵8 程序员的知识储备2 程序员的知识储备3 深度学习 pytorch 人工智能
摘要：深度学习正在引领人工智能技术的革新，而对于初学者来说，正确搭建深度学习环境是迈向AI研究与应用的第一步。本文将为读者提供一套详尽的教程，指导如何在本地环境中搭建Pytorch、CUDA与cuDNN，以及如何利用Anaconda和PyCharm进行高效开发。内容涵盖从环境配置、常见错误修正，到基础的深度学习模型构建及训练。我们旨在为深度学习零基础的入门者提供一个全面且易于理解的“保姆级”教程，
人工智能概念之九：深度学习概述
文章目录相关文章一、深度学习的定位：AI时代的基石技术1.1技术生态全景图1.2技术革命的催化剂二、深度学习的双面性：性能优势与技术挑战2.1技术优势全景扫描2.2技术挑战深度剖析三、技术演进时间轴：70年的厚积薄发四、主流框架生态对比五、未来演进方向相关文章人工智能概念之二：人工智能核心概念：网页链接一、深度学习的定位：AI时代的基石技术1.1技术生态全景图深度学习处于人工智能（AI）技术金字塔
学苑教育杂志《学苑教育》杂志社学苑教育编辑部2025年第21期目录 QQ296078736 人工智能
专题研究推进“教-学-评”一体化，打造小学语文高效课堂刘月兰;4-6教育管理新高考制度下普通高中生涯教育课程设计的研究霍亚贞;马玲;7-9课堂教学核心素养下小学数学深度学习课堂的构建策略康贵景;10-12“双减”背景下初中英语教学的课堂模式高燕;13-15小学低年级数学说理课堂构建策略玉洁;16-18基于法治观念培育的道法课项目式教学策略许静;19-21“双师课堂”在初中语文写作教学中的实践孙巧玲
视觉Transformer还有哪些点可以研究？怎么应用？计算机视觉工坊 3D视觉从入门到精通学习算法开源
0.这篇文章干了啥？今天笔者为大家推荐一篇最新的综述，详细总结了Transformer的网络架构、优化策略、发展方向，还会定期更新Github，研究注意力机制的小伙伴一定不要错过。注意机制有助于人类视觉系统有效地分析和理解复杂场景，它能够聚焦于图像的关键区域，同时忽略无关紧要的部分。受此概念启发，注意机制已经被引入到计算机视觉（CV）中，以动态地为图像中的不同区域分配权重。这使得神经网络能够专注于
使用 PyTorch 和 Pandas 进行 Kaggle 房价预测 Clang's Blog AI pytorch pandas 人工智能
文章目录1、环境设置2、数据下载3、数据预处理4、模型构建5、训练和验证6、训练模型并生成预测结果7、完整代码在本篇博文中，我们将探索如何使用PyTorch和Pandas库，构建一个用于Kaggle房价预测的模型。我们将详细讨论数据加载、预处理、模型构建、训练、验证及最终预测的全过程。1、环境设置我们首先需要导入所需的库，包括用于数据处理的pandas和numpy，以及用于深度学习的torch。i
Python_day54Inception网络及其思考且慢.589 Python_60 python 开发语言
一、inception网络介绍今天我们介绍inception，也就是GoogleNet传统计算机视觉的发展史从上面的链接，可以看到其实inceptionnet是在resnet之前的，那为什么我今天才说呢？因为他要引出我们后面的特征融合和特征并行处理这些思想。Inception网络，也被称为GoogLeNet，是Google团队在2014年提出的经典卷积神经网络架构。它的核心设计理念是“并行的多尺度
AI 绘画 + 编程：10 分钟生成个性化艺术作品大力出奇迹985 人工智能
本文围绕Python+OpenCV实现自动人脸识别门禁系统展开，先概述系统的基本构成与作用，再从系统核心技术、开发实现步骤、功能扩展方向、实际应用场景及优化改进策略五个方面详细阐述，最后总结系统的价值与发展前景，为相关开发和应用提供全面参考。一、系统核心技术解析人脸识别技术是门禁系统的核心，其关键在于对人脸特征的精准提取与匹配。OpenCV作为开源计算机视觉库，提供了丰富的人脸检测算法，如Haar
使用中转API在Python中调用大型语言模型 (LLM) 的实践** qq_37836323 python 语言模型开发语言
**在人工智能技术中，大型语言模型(LLM)已成为自然语言处理(NLP)和生成任务的重要工具。然而，由于网络限制，直接访问OpenAI的API在中国可能面临挑战。因此，本文将介绍如何使用中转API地址http://api.wlai.vip来调用LLM，并提供相关的demo代码。什么是大型语言模型(LLM)？大型语言模型是一种深度学习模型，训练于大量文本数据上，能够生成、总结、翻译和回答问题等。Op
【免费下载】探索PlantVillage-Dataset：深度学习在植物病害检测中的革命性突破
探索PlantVillage-Dataset：深度学习在植物病害检测中的革命性突破在这个数字化时代，人工智能正逐步改变我们的生活，其中深度学习在农业领域的应用尤其引人注目。PlantVillage-Dataset是一个开放源代码的项目，它提供了一个庞大的植物病害识别数据集，旨在帮助开发人员和研究者利用机器学习技术改善农作物健康状况的监测。本文将深入探讨该项目的技术细节、应用价值及其独特之处。项目简
Python爬虫【五十八章】Python数据清洗与分析全攻略：从Pandas到深度学习的异常检测进阶程序员_CLUB Python入门到进阶 python 爬虫 pandas
目录背景与需求分析第一章：结构化数据清洗实战（Pandas核心技法）1.1数据去重策略矩阵1.2智能缺失值处理体系第二章：深度学习异常检测进阶2.1自动编码器异常检测（时序数据）2.2图神经网络异常检测（关系型数据）第三章：综合案例实战案例1：金融交易反欺诈系统案例2：工业传感器异常检测第四章：性能优化与工程实践4.1大数据处理加速技巧4.2模型部署方案第五章：方法论总结与展望5.1方法论框架5.
【AI大模型：前沿】43、Mamba架构深度解析：为什么它是Transformer最强挑战者？无心水架构 transformer Mamba Mamba架构 AI大模型系统开发实战 AI大模型高手开发 AI大模型系统实战
Transformer架构自2017年诞生以来，一直是NLP、计算机视觉等领域的“统治级”模型架构。但随着序列长度需求的增长（如128K长文本处理、基因组学超长序列分析），其自注意力机制的O(n2)O(n^2)O(n2)计算复杂度成为难以逾越的瓶颈。2023年底，由AlbertGu和TriDao等人提出的Mamba架构，通过创新的“选择性状态空间模型（SelectiveSSM）”实现了线性复杂度（
大模型【进阶】（一）MoE（mixture of experts）混合专家结构 ReinaXue 人工智能笔记语言模型神经网络
什么是MoE结构？MoE（MixtureofExperts，专家混合模型）是一种深度学习模型架构，通常用于处理大规模模型和计算资源效率的挑战。在MoE结构中，模型由多个“专家”组成，每个专家处理不同的任务或输入数据的不同部分，而不是让所有专家都参与每次计算。这种方式提高了计算效率，并在某些情况下有助于增强模型的表现。MoE结构的核心思想专家：在MoE模型中，专家通常指的是网络中的子模型，每个专家具
【三维目标检测】Complex-Yolov4详解（二）：模型结构 Coding的叶子 Python三维点云实战宝典 Complex-Yolo Complex-Yolov4 三维目标检测目标检测 python
本文为博主原创文章，未经博主允许不得转载。本文为专栏《python三维点云从基础到深度学习》系列文章，地址为“https://blog.csdn.net/suiyingy/article/details/124017716”。Complex-Yolo网络模型的核心思想是用鸟瞰图BEV替换Yolo网络输入的RGB图像。因此，在完成BEV处理之后，模型的训练和推理过程基本和Yolo完全一致。Yolov
《揭秘AI应用架构师在智能虚拟人设计系统中的创新思维》 SuperAGI架构师的AI实验室人工智能 ai
揭秘AI应用架构师在智能虚拟人设计系统中的创新思维关键词：AI应用架构师、智能虚拟人、系统设计、创新思维、自然语言处理、计算机视觉、实时交互摘要：智能虚拟人已从科幻走进现实，无论是直播间的虚拟主播、手机里的智能助手，还是元宇宙中的数字分身，它们背后都离不开AI应用架构师的“隐形设计”。本文将以“总设计师视角”，用生活化的比喻和实例，拆解AI应用架构师在智能虚拟人系统设计中的创新思维——从“让虚拟人
Llama 2 模型架构深度解析：Transformer的进化 SuperAGI架构师的AI实验室 AI大模型应用开发宝典 llama 架构 transformer ai
Llama2模型架构深度解析：Transformer的进化关键词：Llama2、Transformer、模型架构、进化、人工智能摘要：本文将深入剖析Llama2的模型架构，探讨它作为Transformer进化版本的独特之处。从背景知识的介绍，到核心概念的解释，再到算法原理、实战案例以及实际应用场景等方面，为读者全面展现Llama2的魅力和价值。通过通俗易懂的语言，让即使是对技术不太熟悉的读者也能理
AI人工智能为空间智能领域带来的科技革新 AI云原生与云计算技术学院 AI云原生与云计算人工智能科技 ai
AI人工智能为空间智能领域带来的科技革新关键词：人工智能、空间智能、计算机视觉、SLAM、空间计算、增强现实、自动驾驶摘要：本文将深入探讨人工智能如何革新空间智能领域。我们将从基本概念出发，逐步分析AI在空间感知、理解和交互方面的突破性进展，包括SLAM技术、3D重建、空间计算等核心应用。通过生动的比喻和实际案例，揭示AI如何赋予机器"空间思维"能力，并展望这一技术融合的未来发展趋势。背景介绍目的
基于深度学习的图像分类：使用ShuffleNet实现高效分类 Blossom.118 机器学习与人工智能深度学习分类人工智能机器学习数据挖掘 python 目标检测
前言图像分类是计算机视觉领域中的一个基础任务，其目标是将输入的图像分配到预定义的类别中。近年来，深度学习技术，尤其是卷积神经网络（CNN），在图像分类任务中取得了显著的进展。ShuffleNet是一种轻量级的深度学习架构，专为移动和嵌入式设备设计，能够在保持较高分类精度的同时，显著减少计算量和模型大小。本文将详细介绍如何使用ShuffleNet实现高效的图像分类，从理论基础到代码实现，带你一步步掌
《零基础入门AI：从图像梯度到凸包特征检测（OpenCV图像特征提取）》竹子_23 OpenCV入门 opencv 人工智能计算机视觉
一、图像梯度处理：理解像素变化的本质1.1图像梯度基础图像梯度是计算机视觉中的核心概念，它描述了图像中像素强度的变化情况：梯度方向：像素值变化最剧烈的方向（垂直于边缘）梯度幅度：像素值变化的强度（值越大表示边缘越明显）物理意义：就像地形图中的等高线，梯度大的地方相当于陡坡，梯度小的地方相当于平地1.2垂直边缘提取垂直边缘是图像中物体左右边界形成的线条：特征：水平方向上像素值发生突变应用场景：文档扫
OpenCV基础02_图像预处理白槿_cha 计算机视觉基础 opencv 人工智能计算机视觉笔记
图像预处理在计算机视觉和图像处理领域，图像预处理是一个重要的步骤，它能够提高后续处理（如特征提取、目标检测等）的准确性和效率。OpenCV提供了许多图像预处理的函数和方法，一些常见的图像预处理操作：图像色彩空间转换图像大小调整图像仿射变换图像翻转图像裁剪图像二值化处理图像去噪边缘检测图像平滑处理图像形态学一、图像翻转cv2.flip是OpenCV库中的一个函数，用于翻转图像。翻转可以是水平翻转、垂
AI人工智能领域深度学习的在线学习方法 AI智能探索者 AI Agent 智能体开发实战人工智能深度学习学习方法 ai
AI人工智能领域深度学习的在线学习方法关键词：深度学习、在线学习、AI教育、实战项目、知识体系摘要：本文为想系统学习深度学习的初学者/转行者量身打造，通过拆解深度学习的核心概念、梳理在线学习的科学路径、提供可落地的实战案例与资源清单，帮你用“游戏通关”的思路高效掌握这门技术。无论你是学生、程序员还是跨行者，都能找到适合自己的学习节奏，避免“看视频就会，动手就废”的陷阱。背景介绍目的和范围深度学习是
AI人工智能深度学习的模型评估与选择 AI大模型应用之禅人工智能深度学习 ai
AI人工智能深度学习的模型评估与选择关键词：AI、人工智能、深度学习、模型评估、模型选择摘要：本文聚焦于AI人工智能深度学习中的模型评估与选择。在深度学习迅猛发展的当下，构建一个有效的模型并非易事，而准确评估和恰当选择模型对于模型性能的发挥和应用效果至关重要。文章将详细介绍模型评估与选择的相关背景知识，深入剖析核心概念与联系，阐述核心算法原理及具体操作步骤，运用数学模型和公式进行详细讲解并举例说明
SQL的各种连接查询 xieke90 UNION ALL UNION 外连接内连接 JOIN
一、内连接概念：内连接就是使用比较运算符根据每个表共有的列的值匹配两个表中的行。内连接（join 或者inner join ） SQL语法： select * fron
java编程思想--复用类百合不是茶 java 继承代理组合 final类
复用类看着标题都不知道是什么,再加上java编程思想翻译的比价难懂,所以知道现在才看这本软件界的奇书一:组合语法:就是将对象的引用放到新类中即可代码: package com.wj.reuse; /** * * @author Administrator 组
[开源与生态系统]国产CPU的生态系统 comsci cpu
计算机要从娃娃抓起...而孩子最喜欢玩游戏.... 要让国产CPU在国内市场形成自己的生态系统和产业链,国家和企业就不能够忘记游戏这个非常关键的环节.... 投入一些资金和资源,人力和政策,让游
JVM内存区域划分Eden Space、Survivor Space、Tenured Gen，Perm Gen解释商人shang jvm内存
jvm区域总体分两类，heap区和非heap区。heap区又分：Eden Space（伊甸园）、Survivor Space(幸存者区)、Tenured Gen（老年代-养老区）。非heap区又分：Code Cache(代码缓存区)、Perm Gen（永久代）、Jvm Stack(java虚拟机栈)、Local Method Statck(本地方法栈)。 HotSpot虚拟机GC算法采用分代收
页面上调用 QQ oloz qq
<A href="tencent://message/?uin=707321921&Site=有事Q我&Menu=yes"> <img style="border:0px;" src=http://wpa.qq.com/pa?p=1:707321921:1></a>
一些问题文强chu 问题
1.eclipse 导出 doc 出现“The Javadoc command does not exist.” javadoc command 选择 jdk/bin/javadoc.exe 2.tomcate 配置 web 项目 ..... SQL:3.mysql * 必须得放前面否则 select&nbs
生活没有安全感小桔子生活孤独安全感
圈子好小，身边朋友没几个，交心的更是少之又少。在深圳，除了男朋友，没几个亲密的人。不知不觉男朋友成了唯一的依靠，毫不夸张的说，业余生活的全部。现在感情好，也很幸福的。但是说不准难免人心会变嘛，不发生什么大家都乐融融，发生什么很难处理。我想说如果不幸被分手(无论原因如何)，生活难免变化很大，在深圳，我没交心的朋友。明
php 基础语法 aichenglong php 基本语法
1 .1 php变量必须以$开头 <?php $a=” b”; echo ?> 1 .2 php基本数据库类型 Integer float/double Boolean string 1 .3 复合数据类型数组array和对象 object 1 .4 特殊数据类型 null 资源类型(resource) $co
mybatis tools 配置详解 AILIKES mybatis
MyBatis Generator中文文档 MyBatis Generator中文文档地址： http://generator.sturgeon.mopaas.com/ 该中文文档由于尽可能和原文内容一致，所以有些地方如果不熟悉，看中文版的文档的也会有一定的障碍，所以本章根据该中文文档以及实际应用，使用通俗的语言来讲解详细的配置。本文使用Markdown进行编辑，但是博客显示效
继承与多态的探讨百合不是茶 JAVA面向对象继承对象
继承 extends 多态继承是面向对象最经常使用的特征之一：继承语法是通过继承发、基类的域和方法 //继承就是从现有的类中生成一个新的类，这个新类拥有现有类的所有extends是使用继承的关键字：在A类中定义属性和方法； class A{ //定义属性 int age； //定义方法 public void go
JS的undefined与null的实例 bijian1013 JavaScript JavaScript
<form name="theform" id="theform"> </form> <script language="javascript"> var a alert(typeof(b)); //这里提示undefined if(theform.datas
TDD实践（一） bijian1013 java 敏捷 TDD
一.TDD概述 TDD：测试驱动开发，它的基本思想就是在开发功能代码之前，先编写测试代码。也就是说在明确要开发某个功能后，首先思考如何对这个功能进行测试，并完成测试代码的编写，然后编写相关的代码满足这些测试用例。然后循环进行添加其他功能，直到完全部功能的开发。
[Maven学习笔记十]Maven Profile与资源文件过滤器 bit1129 maven
什么是Maven Profile Maven Profile的含义是针对编译打包环境和编译打包目的配置定制，可以在不同的环境上选择相应的配置，例如DB信息，可以根据是为开发环境编译打包，还是为生产环境编译打包，动态的选择正确的DB配置信息 Profile的激活机制 1.Profile可以手工激活，比如在Intellij Idea的Maven Project视图中可以选择一个P
【Hive八】Hive用户自定义生成表函数(UDTF) bit1129 hive
1. 什么是UDTF UDTF，是User Defined Table-Generating Functions，一眼看上去，貌似是用户自定义生成表函数，这个生成表不应该理解为生成了一个HQL Table，貌似更应该理解为生成了类似关系表的二维行数据集 2. 如何实现UDTF 继承org.apache.hadoop.hive.ql.udf.generic
tfs restful api 加auth 2.0认计 ronin47
　　目前思考如何给tfs的ngx-tfs api增加安全性。有如下两点：　　一是基于客户端的ip设置。这个比较容易实现。　　二是基于OAuth2.0认证，这个需要lua，实现起来相对于一来说，有些难度。　　现在重点介绍第二种方法实现思路。　　前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGe
jdk环境变量配置 byalias java jdk
进行java开发，首先要安装jdk，安装了jdk后还要进行环境变量配置： 1、下载jdk（http://java.sun.com/javase/downloads/index.jsp），我下载的版本是：jdk-7u79-windows-x64.exe 2、安装jdk-7u79-windows-x64.exe 3、配置环境变量：右击"计算机"-->&quo
《代码大全》表驱动法-Table Driven Approach-2 bylijinnan java
package com.ljn.base; import java.io.BufferedReader; import java.io.FileInputStream; import java.io.InputStreamReader; import java.util.ArrayList; import java.util.Collections; import java.uti
SQL 数值四舍五入小数点后保留2位 chicony 四舍五入
1.round() 函数是四舍五入用，第一个参数是我们要被操作的数据，第二个参数是设置我们四舍五入之后小数点后显示几位。 2.numeric 函数的2个参数，第一个表示数据长度，第二个参数表示小数点后位数。例如：　　select cast(round(12.5,2) as numeric(5,2))
c++运算符重载 CrazyMizzz C++
一、加+，减-，乘*，除/ 的运算符重载 Rational operator*(const Rational &x) const{ return Rational(x.a * this->a); } 在这里只写乘法的，加减除的写法类似二、<<输出,>>输入的运算符重载 &nb
hive DDL语法汇总 daizj hive 修改列 DDL 修改表
hive DDL语法汇总１、对表重命名 hive> ALTER TABLE table_name RENAME TO new_table_name; 2、修改表备注 hive> ALTER TABLE table_name SET TBLPROPERTIES ('comment' = new_comm
jbox使用说明 dcj3sjt126com Web
参考网址：http://www.kudystudio.com/jbox/jbox-demo.html jBox v2.3 beta [ 点击下载] 技术交流QQGroup：172543951 100521167 [2011-11-11] jBox v2.3 正式版 - [调整&修复] IE6下有iframe或页面有active、applet控件
UISegmentedControl 开发笔记 dcj3sjt126com
// typedef NS_ENUM(NSInteger, UISegmentedControlStyle) { // UISegmentedControlStylePlain, // large plain &
Slick生成表映射文件 ekian scala
Scala添加SLICK进行数据库操作，需在sbt文件上添加slick-codegen包 "com.typesafe.slick" %% "slick-codegen" % slickVersion 因为我是连接SQL Server数据库，还需添加slick-extensions，jtds包 "com.typesa
ES-TEST gengzg test
package com.MarkNum; import java.io.IOException; import java.util.Date; import java.util.HashMap; import java.util.Map; import javax.servlet.ServletException; import javax.servlet.annotation
为何外键不再推荐使用 hugh.wang mysql DB
表的关联，是一种逻辑关系，并不需要进行物理上的“硬关联”，而且你所期望的关联，其实只是其数据上存在一定的联系而已，而这种联系实际上是在设计之初就定义好的固有逻辑。在业务代码中实现的时候，只要按照设计之初的这种固有关联逻辑来处理数据即可，并不需要在数据库层面进行“硬关联”，因为在数据库层面通过使用外键的方式进行“硬关联”，会带来很多额外的资源消耗来进行一致性和完整性校验，即使很多时候我们并不
领域驱动设计 julyflame VO DAO 设计模式 DTO po
概念： VO（View Object）：视图对象，用于展示层，它的作用是把某个指定页面（或组件）的所有数据封装起来。 DTO（Data Transfer Object）：数据传输对象，这个概念来源于J2EE的设计模式，原来的目的是为了EJB的分布式应用提供粗粒度的数据实体，以减少分布式调用的次数，从而提高分布式调用的性能和降低网络负载，但在这里，我泛指用于展示层与服务层之间的数据传输对
单例设计模式 hm4123660 java Singleton 单例设计模式懒汉式饿汉式
单例模式是一种常用的软件设计模式。在它的核心结构中只包含一个被称为单例类的特殊类。通过单例模式可以保证系统中一个类只有一个实例而且该实例易于外界访问，从而方便对实例个数的控制并节约系统源。如果希望在系统中某个类的对象只能存在一个，单例模式是最好的解决方案。 &nb
logback zhb8015 log logback
一、logback的介绍 Logback是由log4j创始人设计的又一个开源日志组件。logback当前分成三个模块：logback-core,logback- classic和logback-access。logback-core是其它两个模块的基础模块。logback-classic是log4j的一个改良版本。此外logback-class
整合Kafka到Spark Streaming——代码示例和挑战 Stark_Summer spark storm zookeeper PARALLELISM processing
作者Michael G. Noll是瑞士的一位工程师和研究员，效力于Verisign，是Verisign实验室的大规模数据分析基础设施（基础Hadoop）的技术主管。本文，Michael详细的演示了如何将Kafka整合到Spark Streaming中。期间， Michael还提到了将Kafka整合到 Spark Streaming中的一些现状，非常值得阅读，虽然有一些信息在Spark 1.2版
spring-master-slave-commondao 王新春 DAO spring dataSource slave master
互联网的web项目，都有个特点：请求的并发量高，其中请求最耗时的db操作，又是系统优化的重中之重。为此，往往搭建 db的一主多从库的数据库架构。作为web的DAO层，要保证针对主库进行写操作，对多个从库进行读操作。当然在一些请求中，为了避免主从复制的延迟导致的数据不一致性，部分的读操作也要到主库上。（这种需求一般通过业务垂直分开，比如下单业务的代码所部署的机器，读去应该也要从主库读取数

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他