NineDays66

行人重识别

在人的感知系统所获得的信息中，视觉信息大约占到80%～85%。行人重识别（person re-identification）是近几年智能视频分析领域兴起的一项新技术，属于在复杂视频环境下的图像处理和分析范畴，是许多监控和安防应用中的主要任务，并且在计算机视觉领域获得了越来越多的关注。下面我们就仔细来聊聊行人重识别(ReID)。

1.什么是行人重识别

行人重识别（Person Re-identification也称行人再识别，简称为ReID，是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术；或者说，行人重识别是指在已有的可能来源与非重叠摄像机视域的视频序列中识别出目标行人。广泛被认为是一个图像检索的子问题。给定一个监控行人图像，检索跨设备下的该行人图像。在监控视频中，由于相机分辨率和拍摄角度的缘故，通常无法得到质量非常高的人脸图片。当人脸识别失效的情况下，ReID就成为了一个非常重要的替代品技术。ReID有一个非常重要的特性就是跨摄像头，所以学术论文里评价性能的时候，是要检索出不同摄像头下的相同行人图片。ReID已经在学术界研究多年，但直到最近几年随着深度学习的发展，才取得了非常巨大的突破。

2.行人重识别研究的背景、意义及现状

我们先以一个小故事来说明一下:荷马史诗 (Odyssey iv:412)，Mennelaus 被告知，如果想要众神息怒并平安回家，就要在特洛伊战争的回家路上抓到 Proteus，让他告诉自己躲避的方法。虽然Proteus变成了狮子，巨蛇，豹，甚至水和大树，Mennelaus最终还是在海边的海豹群中抓住了他，并知晓了自己平安回家的方法。这大概是最早的重识别的成功案例。
相对于行人检测来说，行人重识别的研究还不算成熟，但早在1996年，就有学者关注行人重识别问题，在2006年，行人重识别的概念第一次在CVPR上提出后，相关的研究不断涌现。2007年Gray提出一个对于行人重识别的研究具有重大意义的数据库VIPeR。此后越来越多的学者开始关注行人重识别的研究。图1是ReID从1997年到2016年间几个里程碑的发展事件。

图1 近些年，每年在国际顶级的会议以及顶级期刊上关于行人重识别的工作不在少数。2012年，第一个行人重识别研讨会在ECCV会议上召开；2013年，Gong等出版第一本行人重识别的专著；2014年后，深度学习被应用到行人重识别领域；2016年，行人重识别迎来井喷式的增长，在各大计算机视觉的会议中出现了几十篇相关论文，尤其是基于深度神经网络的方法引起了广泛的关注；图2是2008年到2016年间CV三大顶会的ReID论文接受情况；同时，相关数据集在不断地扩充，在各个数据集上的结果也获得很大的提升，到目前，行人重识别问题已成为计算机视觉的一个热点问题。

图2 传统的行人重识别从特征提取和距离度量学习两个方面进行研究。2014年后，越来越多的研究者尝试将行人重识别的研究与深度学习结合在一起，深度学习不仅应用于提取高层特征，也为度量学习的研究带来了革新。即使深度学习在规模较小的数据集上的结果没有很明显的提升，但随着研究方法的成熟以及较大规模的数据集的出现，深度学习在行人重识别领域越来越受研究者们青睐。行人重识别最开始是在基于图片的情况下，即在每个数据集中每个摄像机视角下只有一幅或者几幅行人图像。但是视频相较于图像而言拥有更多信息，并且基于视频的研究更符合视频监控环境下的现实情况，因此我们很自然地考虑处理基于视频的行人重识别问题。从2010年后，很多学者开始对基于视频的行人重识别进行研究

3.行人重识别的应用和目前存在的问题

3.1 图3是ReID在显示场景中的几个例子。

图3 行人重识别的研究面临着诸如图像分辨率低、视角变化、姿态变化、光线变化以及遮挡等带来的诸多挑战。比如，1）监控视频的画面一般比较模糊，分辨率也比较低，如图4(a)所示，所以利用人脸识别等方式无法进行重识别的工作，只能利用头部之外的人体外观信息进行识别，而不同行人的体型和衣着服饰有可能相同，这为行人重识别的准确度带来了极大的挑战；此外实际视频监控下的场景非常复杂，周边杂物较多，场景复杂，画面很容易出现遮挡等情况，如图4(b), 这种时候靠步态等特征就很难进行重识别。行人重识别的图像往往采自于不同的摄像机，由于拍摄场景、摄像参数不同，行人重识别工作一般存在光照变化及视角变化等问题，如图4(c)、(d)所示，这导致同一个行人在不同摄像机下存在较大的差异，不同行人的外貌特征可能比同一个人的外貌特征更相似；进行重识别的行人图像可能拍摄于不同的时间，行人姿态、衣着会有不同程度的改变。此外在不同的光照条件下，行人的外观特征也会有很大的差异，如图4(e)。以上情况都给行人重识别的研究带来了巨大的挑战，因此目前的研究距离实际应用层面还有很大的距离。

图4 除了以上的问题还存在着无正脸照、配饰、服装搭配、穿衣风格以及由于不同的数据集之间存在着域的偏移问题，使得在源数据集下训练的模型在目标数据集下很难取得好的性能，泛化性能不强。

3.2 由于存在这上述的问题那么我们是否可以考虑从其他方向来ReID

1. 能不能用人脸识别做重识别？ 理论上是可以的。但是有两个原因导致人脸识别较难应用：首先，广泛存在后脑勺和侧脸的情况，做正脸的人脸识别难。其次，摄像头拍摄的像素可能不高，尤其是远景摄像头里面人脸截出来很可能都没有32x32的像素。所以人脸识别在实际的重识别应用中很可能有限。

2. 有些人靠衣服的颜色就可以判断出来了，还需要行人重识别么？ 衣服颜色确实是行人重识别做出判断一个重要因素，但光靠颜色是不足的。首先，摄像头之间是有色差，并且会有光照的影响。其次，有撞衫（颜色相似）的人怎么办，要找细节，但比如颜色直方图这种统计的特征就把细节给忽略了。在多个数据集上的测试表明，光用颜色特征是难以达到50%的top1正确率的。

3. 使用图像检索的指标来衡量行人重识别的结果是否合适？ 在早期，行人重识别数据集是由两个摄像头采集的比如viper，每个query只有一个正确的retrieval目标。所以往往使用top1比较。但在近期，随着大数据集的提出，数据集中往往包含多个摄像头的多个正确目标。光使用top1的话，不能反应模型的真实能力。所以类似图像检索，重识别加入了mAP作为衡量标准，将top2,top3...topn都考虑进去。

4.行人重识别目前所采用的方法

行人重识别算法我们将从以下五各方面来叙述:
①基于表征学习的ReID方法: 基于表征学习(Representation learning)的方法是一类非常常用的行人重识别方法。这主要得益于深度学习，尤其是卷积神经网络(Convolutional neural network, CNN)的快速发展。由于CNN可以自动从原始的图像数据中根据任务需求自动提取出表征特征(Representation)，所以有些研究者把行人重识别问题看做分类(Classification/Identification)问题或者验证(Verification)问题：
（1）分类问题是指利用行人的ID或者属性等作为训练标签来训练模型；（2）验证问题是指输入一对（两张）行人图片，让网络来学习这两张图片是否属于同一个行人。
利用Classification/Identification loss和verification loss来训练网络，其网络示意图如下图5所示。网络输入为若干对行人图片，包括分类子网络(Classification Subnet)和验证子网络(Verification Subnet)。分类子网络对图片进行ID预测，根据预测的ID来计算分类误差损失。验证子网络融合两张图片的特征，判断这两张图片是否属于同一个行人，该子网络实质上等于一个二分类网络。经过足够数据的训练，再次输入一张测试图片，网络将自动提取出一个特征，这个特征用于行人重识别任务。

图5 但是也有论文认为光靠行人的ID信息不足以学习出一个泛化能力足够强的模型。在这些工作中，它们额外标注了行人图片的属性特征，例如性别、头发、衣着等属性。通过引入行人属性标签，模型不但要准确地预测出行人ID，还要预测出各项正确的行人属性，这大大增加了模型的泛化能力，多数论文也显示这种方法是有效的。

基于特征表示的方法重点在于设计鲁棒可靠的行人图像特征表示模型，即能够区分不同行人，同时能够不受光照和视角变化的影响，将其主要分为以下几类进行介绍, 典型特征总结见表1。表1

1)底层视觉特征：这种方法基本上都是将图像划分成多个区域，对每个区域提取多种不同的底层视觉特征，组合后得到鲁棒性更好的特征表示形式。最常用的就是颜色直方图，多数情况下行人的衣服颜色结构简单，因此颜色表示是有效的特征，通常用RGB、HSV直方图表示。把RGB空间的图像转化成HSL和YCbCr颜色空间，观察对数颜色空间中目标像素值的分布，颜色特征在不同光照或角度等行人识别的不适环境中具有一定的不变性。以及局部特征，如局部不变特征–尺度不变特征变换（scale-invariant feature transform，SIFT），SURF和Covariance描述子ELF（ensemble of localized features）方法中，结合RGB、YCbCr、HS颜色空间的颜色直方图，具有旋转不变性的Schmid和Gabor滤波器计算纹理直方图。还有纹理特征、Haar-like Represention、局部二值模式（LBP）、Gabor滤波器、共生矩阵（Co-occurrence Matrics）。

2)中层语义属性：可以通过语义信息来判断两张图像中是否属于同一行人，比如颜色、衣服以及携带的包等信息。相同的行人在不同视频拍摄下，语义属性很少变化。有的采用15种语义来描述行人，包括鞋子、头发颜色长短、是否携带物品等，分类器用SVM定义每幅行人图像的以上语义属性。结合语义属性重要性加权以及与底层特征融合，最终描述行人图像。对图像超像素划分，最近分割算法对图像块定义多种特征属性，颜色、位置和SIFT特征，效果有提高。

3)高级视觉特征：特征的选择技术对行人再识别的识别率的性能进行提升，如Fisher向量[编码；提取颜色或纹理直方图，预先定义块或条纹形状的图像区域；或者编码区域特征描述符来建立高级视觉特征。用某种描述符对密集轨迹、纹理、直方图进行编码，突出重要信息。受到多视角行为识别研究和Fisher向量编码的影响，一种捕获软矩阵的方法，即DynFV（dynamic fisher vector）特征和捕获步态和移动轨迹的Fisher向量编码的密集短轨迹时间金字塔特征被提出。Fisher向量编码方法是首先用来解决大尺度图像分类的方法，也能改善行为识别的性能。有的对行人的每个图像分成6个水平条带，在每个条带上计算纹理和颜色直方图。在YCbCr、HSV、白化的RGB颜色空间计算直方图建立颜色描述符，并用local fisher disrciminant analysis（LFDA）降维。学习出的矩阵把特征转换到新的空间，LFDA能在嵌入过程中使特征的局部结构适用于图像遮挡，背景变化和光照变化的情况，最后把计算变换空间中的特征向量的均值作为这个行人最终的特征向量表示。T. Matsukawa提出GOG（Gaussian Of Gaussian），把一幅图像分成水平条带和局部块，每个条带用一个高斯分布建模。每个条带看作一系列这样的高斯分布，然后用一个单一的高斯分布总体表示。GOG特征提取的方法好表现在用像素级特征的一个局部高斯分布来描述全局颜色和纹理分布，并且GOG是局部颜色和纹理结构的分层模型，可以从一个人的衣服的某些部分得到。此外，深度学习也被应用于行人重识别的特征提取中，在AlexNet-Finetune中，开始在ImageNet数据集上预训练的基于AlexNet结构的CNN，并用这个数据集对数据进行微调。在微调过程中，不修改卷积层的权重，训练后两个全连接层。McLaughlin等采用了类似的方法，对图像提取颜色和光流特征，采用卷积神经网络（CNN）处理得到高层表征，然后用循环神经网络（RNN）捕捉时间信息，然后池化得到序列特征。T对来自各个领域的数据训练出同一个卷积神经网络（CNN），有些神经元学习各个领域共享的表征，而其他的神经元对特定的某个区域有效，得到鲁棒的CNN特征表示。

②基于度量学习的ReID方法:度量学习(Metric learning)是广泛用于图像检索领域的一种方法。不同于特征学习，度量学习旨在通过网络学习出两张图片的相似度。在行人重识别问题上，具体为同一行人的不同图片相似度大于不同行人的不同图片。最后网络的损失函数使得相同行人图片（正样本对）的距离尽可能小，不同行人图片（负样本对）的距离尽可能大。常用的度量学习损失方法有对比损失(Contrastive loss)、三元组损失(Triplet loss)、 四元组损失(Quadruplet loss)、难样本采样三元组损失(Triplet hard loss with batch hard mining, TriHard loss)。

首先，假如有两张输入图片${I_1}$和${I_2}$，通过网络我们可以得到他们的特征${f_{{I_1}}}$和${f_{{I_2}}}$。我们定义这两张图片特征向量的欧式距离为：$${d_{{I_1},{I_2}}} = {\left\| {{f_{{I_1}}} - {f_{{I_1}}}} \right\|2}$$ 1）对比损失(Contrastive loss)
对比损失用于训练孪生网络(Siamese network),其结构图如上图6所示。孪生网络的输入为一对（两张）图片${x_1}$和${x_2}$，这两张图片可以为同一行人，也可以为不同行人。每一对训练图片都有一个标签 $y$，其中$y = 1$，表示两张图片属于同一个行人（正样本对），反之$y = 0$表示它们属于不同行人（负样本对）。之后，对比损失函数写作:$${L_c} = yE_w^2 + (1 - y)(\alpha - {E_w}) + ^2$$，其中$${E_w} = \left\| {{G_w}({x_1}) - {G_w}({x_2})} \right\|$$

图6

其中${(z) + }$表示$\max (z,0)$, $\alpha$是根据实际需求设计的阈值参数。为了最小化损失函数，当网络输入一对正样本对，${E_w}$会逐渐变小，即相同ID的行人图片会逐渐在特征空间形成聚类。反之，当网络输入一对负样本对时，${E_w}$ 会逐渐变大直到超过设定的$\alpha$,通过最小化${L_c}$，最后可以使得正样本对之间的距离逐渐变小，负样本对之间的距离逐渐变大，从而满足行人重识别任务的需要。
（2）三元组损失(Triplet loss):三元组损失是一种被广泛应用的度量学习损失，之后的大量度量学习方法也是基于三元组损失演变而来。顾名思义，三元组损失需要三张输入图片。和对比损失不同，一个输入的三元组（Triplet）包括一对正样本对和一对负样本对。三张图片分别命名为固定图片(Anchor) $a$，正样本图片(Positive)$p$和负样本图片(Negative)$n$。图片$a$ 和图片 $p$ 为一对正样本对，图片$a$ 和图片$n$ 为一对负样本对。则三元组损失表示为：$${L_t}{\rm{ = (}}{{\rm{d}}{a,p}}{\rm{ - }}{{\rm{d}}{a,n}}{\rm{ + }}\alpha {{\rm{)}} + }$$如下图7所示，三元组可以拉近正样本对之间的距离，推开负样本对之间的距离，最后使得相同ID的行人图片在特征空间里形成聚类，达到行人重识别的目的。

图7 原版的Triplet loss只考虑正负样本对之间的相对距离，而并没有考虑正样本对之间的绝对距离，为此提出改进三元组损失(Improved triplet loss)：

$${L_t}{\rm{t = }}{{\rm{d}}{a,p}} + {{\rm{(}}{{\rm{d}}{a,p}}{\rm{ - }}{{\rm{d}}{a,n}}{\rm{ + }}\alpha {\rm{)}} + }$$公式添加${{\rm{d}}{a,p}}$$项，保证网络不仅能够在特征空间把正负样本推开，也能保证正样本对之间的距离很近。
（3）四元组损失(Quadruplet loss)：四元组损失是三元组损失的另一个改进版本。顾名思义，四元组(Quadruplet)需要四张输入图片，和三元组不同的是多了一张负样本图片。即四张图片为固定图片(Anchor) $a$，正样本图片(Positive) $p$ ,负样本图片1(Negative1) $n1$ 和负样本图片2(Negative2) $n2$ 。其中 $n1$和$n2$ 是两张不同行人ID的图片，其结构则四元组损失表示为：$$q{\rm{ = (}}{{\rm{d}}{a,p}} - {{\rm{d}}{a,{n_1}}}{\rm{ + }}\alpha {{\rm{)}} + } + {{\rm{(}}{{\rm{d}}{a,p}} - {{\rm{d}}{a,{n_2}}}{\rm{ + }}\beta {\rm{)}} + }$$其中 $\alpha$ 和 $\beta$ 是手动设置的正常数，通常设置 $\beta$ 小于$ \alpha$ ，前一项称为强推动，后一项称为弱推动。相比于三元组损失只考虑正负样本间的相对距离，四元组添加的第二项不共享ID，所以考虑的是正负样本间的绝对距离。因此，四元组损失通常能让模型学习到更好的表征。
（4）难样本采样三元组损失(Triplet loss with batch hard mining, TriHard loss):难样采样三元组损失（本文之后用TriHard损失表示）是三元组损失的改进版。传统的三元组随机从训练数据中抽样三张图片，这样的做法虽然比较简单，但是抽样出来的大部分都是简单易区分的样本对。如果大量训练的样本对都是简单的样本对，那么这是不利于网络学习到更好的表征。大量论文发现用更难的样本去训练网络能够提高网络的泛化能力，而采样难样本对的方法很多。之前提出了一种基于训练批量(Batch)的在线难样本采样方法——TriHard Loss。TriHard损失的核心思想是：对于每一个训练batch，随机挑选 $P$ 个ID的行人，每个行人随机挑选 $K$ 张不同的图片，即一个batch含有 $P \times K$ 张图片。之后对于batch中的每一张图片 $a$ ，我们可以挑选一个最难的正样本和一个最难的负样本和 $a$ 组成一个三元组。首先我们定义和 $a$ 为相同ID的图片集为$A$ ，剩下不同ID的图片图片集为 $B$，则TriHard损失表示为：$${L{th}} = {1 \over {P \times K}}{\sum\limits_{a \in batch} {(\mathop {\max }\limits_{p \in A} {d_{a,p}} - \mathop {\min }\limits_{n \in B} {d_{a,n}} + \alpha )} _ + }$$其中 $\alpha$ 是人为设定的阈值参数。TriHard损失会计算 $a$ 和batch中的每一张图片在特征空间的欧式距离，然后选出与 $a$ 距离最远（最不像）的正样本 $p$ 和距离最近（最像）的负样本 $n$ 来计算三元组损失。通常TriHard损失效果比传统的三元组损失要好。
③基于局部特征的ReID方法:早期的ReID研究大家还主要关注点在全局的global feature上，就是用整图得到一个特征向量进行图像检索。但是后来大家逐渐发现全局特征遇到了瓶颈，于是开始渐渐研究起局部的local feature。常用的提取局部特征的思路主要有图像切块、利用骨架关键点定位以及姿态矫正等等。（1）图片8切块是一种很常见的提取局部特征方式。如下图所示，图片被垂直等分为若干份，因为垂直切割更符合我们对人体识别的直观感受，所以行人重识别领域很少用到水平切割。

图8 为了解决图像不对齐情况下手动图像切片失效的问题，一些论文利用一些先验知识先将行人进行对齐，这些先验知识主要是预训练的人体姿态(Pose)和骨架关键点(Skeleton) 模型。论文先用姿态估计的模型估计出行人的关键点，然后用仿射变换使得相同的关键点对齐。如下图9所示，一个行人通常被分为14个关键点，这14个关键点把人体结果分为若干个区域。为了提取不同尺度上的局部特征，作者设定了三个不同的PoseBox组合。之后这三个PoseBox矫正后的图片和原始为矫正的图片一起送到网络里去提取特征，这个特征包含了全局信息和局部信息。特别提出，这个仿射变换可以在进入网络之前的预处理中进行，也可以在输入到网络后进行。如果是后者的话需要需要对仿射变换做一个改进，因为传统的仿射变化是不可导的。为了使得网络可以训练，需要引入可导的近似放射变化，在本文中不赘述相关知识。

图9（3）CVPR2017的工作Spindle Net也利用了14个人体关键点来提取局部特征。和论文(1)不同的是，Spindle Net并没有用仿射变换来对齐局部图像区域，而是直接利用这些关键点来抠出感兴趣区域(Region of interest, ROI)。Spindle Net网络如下图10所示，首先通过骨架关键点提取的网络提取14个人体关键点，之后利用这些关键点提取7个人体结构ROI。网络中所有提取特征的CNN（橙色表示）参数都是共享的，这个CNN分成了线性的三个子网络FEN-C1、FEN-C2、FEN-C3。对于输入的一张行人图片，有一个预训练好的骨架关键点提取CNN（蓝色表示）来获得14个人体关键点，从而得到7个ROI区域，其中包括三个大区域（头、上身、下身）和四个四肢小区域。这7个ROI区域和原始图片进入同一个CNN网络提取特征。原始图片经过完整的CNN得到一个全局特征。三个大区域经过FEN-C2和FEN-C3子网络得到三个局部特征。四个四肢区域经过FEN-C3子网络得到四个局部特征。之后这8个特征按照图示的方式在不同的尺度进行联结，最终得到一个融合全局特征和多个尺度局部特征的行人重识别特征。

图10（4）图11提出了一种全局-局部对齐特征描述子(Global-Local-Alignment Descriptor, GLAD)，来解决行人姿态变化的问题。与Spindle Net类似，GLAD利用提取的人体关键点把图片分为头部、上身和下身三个部分。之后将整图和三个局部图片一起输入到一个参数共享CNN网络中，最后提取的特征融合了全局和局部的特征。为了适应不同分辨率大小的图片输入，网络利用全局平均池化(Global average pooling, GAP)来提取各自的特征。和Spindle Net略微不同的是四个输入图片各自计算对应的损失，而不是融合为一个特征计算一个总的损失。

图11(5）以上所有的局部特征对齐方法都需要一个额外的骨架关键点或者姿态估计的模型。而训练一个可以达到实用程度的模型需要收集足够多的训练数据，这个代价是非常大的。为了解决以上问题，AlignedReID提出基于SP距离的自动对齐模型如图12，在不需要额外信息的情况下来自动对齐局部特征。而采用的方法就是动态对齐算法，或者也叫最短路径距离。这个最短距离就是自动计算出的local distance。

图12 较新的可以看看PCB和EAnet

④基于视频序列的ReID方法:目前单帧的ReID研究还是主流，因为相对来说数据集比较小，哪怕一个单GPU的PC做一次实验也不会花太长时间。但是通常单帧图像的信息是有限的，因此有很多工作集中在利用视频序列来进行行人重识别方法的研究。基于视频序列的方法最主要的不同点就是这类方法不仅考虑了图像的内容信息，还考虑了帧与帧之间的运动信息等。

基于单帧图像的方法主要思想是利用CNN来提取图像的空间特征，而基于视频序列的方法主要思想是利用CNN 来提取空间特征的同时利用递归循环网络(Recurrent neural networks, RNN)来提取时序特征。13图是非常典型的思路，网络输入为图像序列。每张图像都经过一个共享的CNN提取出图像空间内容特征，之后这些特征向量被输入到一个RNN网络去提取最终的特征。最终的特征融合了单帧图像的内容特征和帧与帧之间的运动特征。而这个特征用于代替前面单帧方法的图像特征来训练网络。

图13 视频序列类的代表方法之一是累计运动背景网络(Accumulative motion context network, AMOC)。AMOC输入的包括原始的图像序列和提取的光流序列。通常提取光流信息需要用到传统的光流提取算法，但是这些算法计算耗时，并且无法与深度学习网络兼容。为了能够得到一个自动提取光流的网络，作者首先训练了一个运动信息网络(Motion network, Moti Nets)。这个运动网络输入为原始的图像序列，标签为传统方法提取的光流序列。如图14所示，原始的图像序列显示在第一排，提取的光流序列显示在第二排。网络有三个光流预测的输出，分别为Pred1，Pred2，Pred3，这三个输出能够预测三个不同尺度的光流图。最后网络融合了三个尺度上的光流预测输出来得到最终光流图，预测的光流序列在第三排显示。通过最小化预测光流图和提取光流图的误差，网络能够提取出较准确的运动特征。

图14

AMOC的核心思想在于网络除了要提取序列图像的特征，还要提取运动光流的运动特征。AMOC拥有空间信息网络(Spatial network, Spat Nets)和运动信息网络两个子网络。图像序列的每一帧图像都被输入到Spat Nets来提取图像的全局内容特征。而相邻的两帧将会送到Moti Nets来提取光流图特征。之后空间特征和光流特征融合后输入到一个RNN来提取时序特征。通过AMOC网络，每个图像序列都能被提取出一个融合了内容信息、运动信息的特征。网络采用了分类损失和对比损失来训练模型。融合了运动信息的序列图像特征能够提高行人重识别的准确度。
论文从另外一个角度展示了多帧序列弥补单帧信息不足的作用，目前大部分video based ReID方法还是不管三七二十一的把序列信息输给网络，让网络去自己学有用的信息，并没有直观的去解释为什么多帧信息有用。则很明确地指出当单帧图像遇到遮挡等情况的时候，可以用多帧的其他信息来弥补，直接诱导网络去对图片进行一个质量判断，降低质量差的帧的重要度。如图15，文章认为在遮挡较严重的情况下，如果用一般的pooling会造成attention map变差，遮挡区域的特征会丢失很多。而利用论文的方法每帧进行一个质量判断，就可以着重考虑那些比较完整的几帧，使得attention map比较完整。而关键的实现就是利用一个pose estimation的网络，论文叫做landmark detector。当landmark不完整的时候就证明存在遮挡，则图片质量就会变差。之后pose feature map和global feature map都同时输入到网络，让网络对每帧进行一个权重判断，给高质量帧打上高权重，然后对feature map进行一个线性叠加。思路比较简单但是还是比较让人信服的。

图15⑤基于局部特征的ReID方法:ReID有一个非常大的问题就是数据获取困难，截止CVPR18 deadline截稿之前，最大的ReID数据集也就小几千个ID，几万张图片（序列假定只算一张）。因此在ICCV17 GAN造图做ReID挖了第一个坑之后，就有大量GAN的工作涌现，尤其是在CVPR18 deadline截稿之后arxiv出现了好几篇很好的paper。

论文是第一篇用GAN做ReID的文章，发表在ICCV17会议，虽然论文比较简单，但是作为挖坑鼻祖引出一系列很好的工作。如下图16，这篇论文生成的图像质量还不是很高，甚至可以用很惨来形容。另外一个问题就是由于图像是随机生成的，也就是说是没有可以标注label可以用。为了解决这个问题，论文提出一个标签平滑的方法。实际操作也很简单，就是把label vector每一个元素的值都取一样，满足加起来为1。反正也看不出属于哪个人，那就一碗水端平。生成的图像作为训练数据加入到训练之中，由于当时的baseline还不像现在这么高，所以效果还挺明显的，至少数据量多了过拟合能避免很多。

图16ReID还有个问题就是数据集存在bias，这个bias很大一部分原因就是环境造成的。为了克服这个bias，使用GAN把一个数据集的行人迁移到另外一个数据集。为了实现这个迁移，GAN的loss稍微设计了一下，一个是前景的绝对误差loss，一个是正常的判别器loss。判别器loss是用来判断生成的图属于哪个域，前景的loss是为了保证行人前景尽可能逼真不变。这个前景mask使用PSPnet来得到的，还有就是提出了一个MSMT17数据集，是个挺大的数据集，已经public出来。

ReID的其中一个难点就是姿态的不同，为了克服这个问题论文使用GAN造出了一系列标准的姿态图片。论文总共提取了8个pose，这个8个pose基本涵盖了各个角度。每一张图片都生成这样标准的8个pose，那么pose不同的问题就解决。最终用这些图片的feature进行一个average pooling得到最终的feature，这个feature融合了各个pose的信息，很好地解决的pose bias问题。无论从生成图还是从实验的结果来看，这个工作都是很不错的。这个工作把single query做成了multi query，但是你没法反驳，因为所有的图都是GAN生成的。除了生成这些图需要额外的时间开销以外，并没有利用额外的数据信息。当然这个工作也需要一个预训练的pose estimation网络来进行pose提取。

5.行人重识别数据集

在行人重识别中所使用到的数据集可以参考Person re-indentification datasets

6.行人重识别的评价指标

Reid论文中常用的评测指标有mAP、CMC、ROC等，下面一一分析。

1.ROC

ROC曲线是检测、分类、识别任务中很常用的一项评价指标。曲线上每个点反映着对同一信号刺激的感受性。具体到识别任务中就是，ROC曲线上的每一点反映的是不同的阈值对应的FP（false positive）和TP（true positive）之间的关系,如图17所示。

图17通常情况下，ROC曲线越靠近（0，1）坐标表示性能越好。

2.CMC

CMC曲线是算一种top-k的击中概率，主要用来评估闭集中rank的正确率。举个很简单的例子，假如在人脸识别中，底库中有100个人，现在来了1个待识别的人脸（假如label为m1），与底库中的人脸比对后将底库中的人脸按照得分从高到低进行排序，我们发现：

2.1.如果识别结果是m1、m2、m3、m4、m5……，则此时rank-1的正确率为100%；rank-2的正确率也为100%；rank-5的正确率也为100%；
2.2.如果识别结果是m2、m1、m3、m4、m5……，则此时rank-1的正确率为0%；rank-2的正确率为100%；rank-5的正确率也为100%；
2.3.如果识别结果是m2、m3、m4、m5、m1……，则此时rank-1的正确率为0%；rank-2的正确率为0%；rank-5的正确率为100%；
同理，当待识别的人脸集合有很多时，则采取取平均值的做法。例如待识别人脸有3个（假如label为m1，m2，m3），同样对每一个人脸都有一个从高到低的得分，

2-1.比如人脸1结果为m1、m2、m3、m4、m5……，人脸2结果为m2、m1、m3、m4、m5……，人脸3结果m3、m1、m2、m4、m5……，则此时rank-1的正确率为（1+1+1）/3=100%；rank-2的正确率也为（1+1+1）/3=100%；rank-5的正确率也为（1+1+1）/3=100%；
2-2.比如人脸1结果为m4、m2、m3、m5、m6……，人脸2结果为m1、m2、m3、m4、m5……，人脸3结果m3、m1、m2、m4、m5……，则此时rank-1的正确率为（0+0+1）/3=33.33%；rank-2的正确率为（0+1+1）/3=66.66%；rank-5的正确率也为（0+1+1）/3=66.66%；
3.Precision & Recall & mAP

一般来说，Precision就是检索出来的条目（比如：文档、网页等）有多少是准确的，Recall就是所有准确的条目有多少被检索出来了。

正确率 = 提取出的正确信息条数 / 提取出的信息条数

召回率 = 提取出的正确信息条数 / 样本中的信息条数准确率和召回率都是针对同一类别来说的，并且只有当检索到当前类别时才进行计算，比如在person re-id中，一个人的label为m1，在测试集中包含3张此人的图像，检索出来的图像按照得分从高到低顺序为m1、m2、m1、m3、m4、m1….，此时

3.1.第一次检索到m1，提取出的正确信息条数=1，提取出的信息条数=1，样本中的信息条数=3，正确率=1/1=100%，召回率=1/3=33.33%；
3.2.第二次检索到m1，提取出的正确信息条数=2，提取出的信息条数=3，样本中的信息条数=3，正确率=2/3=66.66%，召回率=2/3=66.66%；
3.3.第三次检索到m1，提取出的正确信息条数=3，提取出的信息条数=6，样本中的信息条数=3，正确率=3/6=50%，召回率=3/3=100%；

平均正确率AP=（100%+66.66%+50%）/3=72.22%
而当需要检索的不止一个人时，此时正确率则取所有人的平均mAP。
4.F-Score
从上面准确率和召回率之间的关系可以看出，一般情况下，$Precision$高，$Recall$就低，$Recall$高，$Precision$就低。所以在实际中常常需要根据具体情况做出取舍，例如一般的搜索情况，在保证召回率的条件下，尽量提升精确率。很多时候我们需要综合权衡这2个指标，这就引出了一个新的指标$F-scor$e。这是综合考虑$Precision$和$Recall$的调和值。

$$F - Score = (1 + {\beta ^2}){{\Pr ecision{\mathop{\rm Re}\nolimits} call} \over {{\beta ^2}\Pr ecision + {\mathop{\rm Re}\nolimits} call}}$$ 当$β=1$时，称为$F1-score$，这时，精确率和召回率都很重要，权重相同。当有些情况下，我们认为精确率更重要些，那就调整β的值小于1，如果我们认为召回率更重要些，那就调整β的值大于1。

比如在上面的例子中，在第三次检索到m1时的争取率为50%，召回率为100%，则F1-score=（20.51）/（0.5+1）=66.66%，而F0.5-score=（1.250.51）/（0.25*0.5+1）=55.56%

7.行人重识别测试

主要有两种方案：
a.测试的输入是一对行人，输出为这对行人的相似度，然后再按相似度排序；
b.输入单个人，提取特征，再计算与其他人的欧式距离，然后再按距离排序。
第一种方案的优点是，判断两个人是不是一个人，简单的二分类（是／否）。但缺点是如果我们搜索库中有m张图片，那么与目标图片组成m对图片对。每一对都要进一次模型，估算相似度，这极大的增加了测试的时间。如果我们有n个query，那么我们要计算nm次相似度（而m往往很大）。另一种方案是，预先提取行人的特征，我们只要预先提好n+m次特征。之后只要比较就好了，比较特征可以简单的用矩阵乘法实现。目前两种方案都有在用，但是后一种更接近实际中图像搜索的要求，用特征来快速检索。

参考自:
http://html.rhhz.net/tis/html/201706084.htm
https://blog.csdn.net/weixin_41427758/article/details/81188164
https://blog.csdn.net/Gavinmiaoc/article/details/80774199>
https://blog.csdn.net/baidu_18891025/article/details/79202249
https://zhuanlan.zhihu.com/p/26

行人重识别(Person re-identification)概述 - 知乎

你可能感兴趣的:(人工智能)

为了在未来的人工智能世界中取得成功，学生们必须学习人类写作的优点睿邸管家
澳大利亚各地的学生在新学年开始使用铅笔、钢笔和键盘学习写字。在工作场所，机器也在学习写作，如此有效，几年之内，它们可能会写得比人类更好。有时它们已经做到了，就像Grammarly这样的应用程序所展示的那样。当然，人类现在的日常写作可能很快就会由具有人工智能(AI)的机器来完成。手机和电子邮件软件常用的预测文本是无数人每天都在使用的一种人工智能写作形式。据AI行业研究机构称，到2022年，人工智能及
人工智能应用研究快讯 2021-11-30 峰谷皆平
[HTML]ArtificialIntelligenceforSkinCancerDetection:ScopingReviewATakiddin,JSchneider,YYang,AAbd-Alrazaq...JournalofMedicalInternet...,2021ABSTACT:Background:Skincanceristhemostcommoncancertypeaffectin
从振动信号到精准预警：AI 如何重塑工业设备健康管理？缘华工业智维人工智能计算机视觉边缘计算信息与通信
在智能制造浪潮席卷全球的当下，工业生产正经历着从传统模式向智能化、数字化转型的深刻变革。在这场变革中，AI驱动的振动分析技术犹如一颗璀璨新星，成为工业设备可靠运行的“健康卫士”。它通过在设备关键部位部署振动传感器，如同医生为患者听诊般实时采集设备运行时的振动信号，再借助强大的人工智能算法对这些“工业脉搏”进行深度解析，从而实现对工业设备从故障预警到寿命预测的全周期精准守护。一、AI振动分析：设备状
AI 生成虚拟宠物：24 小时陪你聊天解闷大力出奇迹985 人工智能宠物
本文围绕AI生成虚拟宠物展开，介绍这类依托人工智能技术诞生的虚拟伙伴，能实现24小时不间断陪伴聊天，为人们解闷。文中详细阐述其技术基础，包括自然语言处理、机器学习等；分析多样功能，如个性化互动、情绪回应等；探讨在独居人群、压力大者等不同群体中的应用场景，最后总结其为人们生活带来的积极影响及未来发展潜力，展现AI虚拟宠物在陪伴领域的独特价值。一、AI生成虚拟宠物的诞生背景与技术基石在快节奏的现代社会
GPT-4 在 AIGC 中的微调技巧：让模型更懂你的需求 AIGC应用创新大全 AI人工智能与大数据应用开发 MCP&Agent 云算力网络 AIGC ai
GPT-4在AIGC中的微调技巧：让模型更懂你的需求关键词：GPT-4、AIGC、模型微调、监督学习、指令优化、过拟合预防、个性化生成摘要：AIGC（人工智能生成内容）正在重塑内容创作行业，但通用的GPT-4模型可能无法精准匹配你的垂直需求——比如写电商爆款文案时总“跑题”，或生成技术文档时专业术语不够。本文将用“教小朋友学画画”的通俗类比，从微调的底层逻辑讲到实战技巧，带你掌握让GPT-4“更懂
AIGC内容生成实战：如何用ChatGPT+DALL·E打造高转化内容 AI大模型应用工坊 AI大模型开发实战 AIGC chatgpt ai
AIGC内容生成实战：如何用ChatGPT+DALL·E打造高转化内容关键词：AIGC、ChatGPT、DALL·E、内容生成、高转化营销、多模态协同、提示词工程摘要：随着AIGC（人工智能生成内容）技术的爆发式发展，ChatGPT（文本生成）与DALL·E（图像生成）的组合已成为内容创作领域的“黄金搭档”。本文将深度解析二者的协同原理，结合实战案例演示从需求分析到内容落地的全流程，并揭示提升内容
数据分析领域中AI人工智能的发展前景展望 AI大模型应用工坊 AI大模型开发实战数据分析人工智能数据挖掘 ai
数据分析领域中AI人工智能的发展前景展望关键词：数据分析、人工智能、机器学习、深度学习、数据挖掘、预测分析、自动化摘要：本文深入探讨了人工智能在数据分析领域的发展现状和未来趋势。我们将从核心技术原理出发，分析AI如何改变传统数据分析范式，详细讲解机器学习算法在数据分析中的应用，并通过实际案例展示AI驱动的数据分析解决方案。文章还将探讨行业应用场景、工具生态以及未来发展面临的挑战和机遇，为数据分析师
AI人工智能中的数据挖掘：提升智能决策能力
AI人工智能中的数据挖掘：提升智能决策能力关键词：数据挖掘、人工智能、机器学习、智能决策、数据分析、特征工程、模型优化摘要：本文深入探讨了数据挖掘在人工智能领域中的核心作用，重点分析了如何通过数据挖掘技术提升智能决策能力。文章从基础概念出发，详细介绍了数据挖掘的关键算法、数学模型和实际应用场景，并通过Python代码示例展示了数据挖掘的全流程。最后，文章展望了数据挖掘技术的未来发展趋势和面临的挑战
【三桥君】MCP中台，究竟如何实现多模型、多渠道、多环境的统一管控？如何以MCP为核心设计AI应用架构？三桥君《三桥君 MCP落地方法论》《三桥君 AI大模型落地方法论》#《三桥君 AI产品方法论》人工智能 AI产品经理 MCP API 三桥君系统架构 llama
你好，我是✨三桥君✨本文介绍>>一、引言随着人工智能技术的快速发展，越来越多的企业开始引入大语言模型（LLM）以提升用户体验和运营效率。然而，如何高效、稳定地将这些AI能力落地到生产环境呢？传统的系统架构往往难以应对AI应用的高并发、低延迟和灵活扩展需求，因此，从整体架构角度设计AI应用架构显得尤为重要。本文三桥君将深入探讨以MCP为核心的AI应用架构，并分析多种部署方式的优劣势，为企业在AI落地
深入理解卷积神经网络（CNN）与循环神经网络（RNN） CodeJourney. cnn rnn 人工智能
在当今的人工智能领域，神经网络无疑是最为璀璨的明珠之一。而卷积神经网络（ConvolutionalNeuralNetworks，CNN）和循环神经网络（RecurrentNeuralNetworks，RNN）作为神经网络家族中的重要成员，各自有着独特的架构和强大的功能，广泛应用于众多领域。本文将深入探讨这两种神经网络的原理、特点以及应用场景，为对深度学习感兴趣的读者提供全面的知识讲解。一、卷积神经
今年校招竞争真激烈 12_05
程序员满大街，都要找不到工作了。即使人工智能满大街，我也后悔当初没学机器学习，后悔当初没学Java。C++真难找工作。难道毕了业就失业吗？好担心！
如何运用深度学习打造高效AI人工智能系统 AI智能探索者 AI Agent 智能体开发实战人工智能深度学习 ai
如何运用深度学习打造高效AI人工智能系统关键词：深度学习、AI系统、神经网络、模型优化、实战开发摘要：本文将从深度学习的核心概念出发，结合生活实例和代码实战，系统讲解如何构建高效AI系统。我们会拆解数据准备、模型设计、训练优化、部署落地的全流程，揭秘“数据-模型-训练-推理”的协同机制，并通过具体案例演示从0到1开发AI系统的关键技巧，帮助开发者掌握打造高效AI系统的底层逻辑。背景介绍目的和范围在
非欧空间计算加速：图神经网络与微分几何计算的GPU优化（流形数据的内存布局优化策略）九章云极AladdinEdu 空间计算神经网络人工智能 gpu算力算法 java 开发语言
一、非欧空间计算的革命性意义与核心挑战在三维形状分析、社交网络建模、分子动力学模拟等领域，非欧几里得空间数据（流形数据）的处理正推动人工智能技术向更复杂的几何结构迈进。传统欧式空间优化方法在处理流形数据时面临根本性局限：黎曼度量导致距离计算失效、局部坐标系动态变化引发内存访问模式混乱、曲率变化影响并行计算效率。本文提出基于分块流形存储（BlockedManifoldStorage,BMS）与层次化
响应式编程实践：Spring Boot WebFlux构建高性能非阻塞服务 fanxbl957 Web spring boot 后端 java
博主介绍：Java、Python、js全栈开发“多面手”，精通多种编程语言和技术，痴迷于人工智能领域。秉持着对技术的热爱与执着，持续探索创新，愿在此分享交流和学习，与大家共进步。全栈开发环境搭建运行攻略：多语言一站式指南(环境搭建+运行+调试+发布+保姆级详解)感兴趣的可以先收藏起来，希望帮助更多的人响应式编程实践：SpringBootWebFlux构建高性能非阻塞服务一、引言在当今数字化时代，互
企业级RAG的数据方案选择 - 向量数据库、图数据库和知识图谱南七小僧 AI技术产品经理网站开发人工智能数据库知识图谱人工智能
如何为企业RAG选择合适的数据存储方式摘要:本文讨论了矢量数据库、图数据库和知识图谱在解决信息检索挑战方面的重要性，特别是针对企业规模的检索增强生成（RAG）。看看海外人工智能企业Writer是如何利用知识图谱增强企业级RAG。要点概要：矢量数据库高效存储数据，但缺乏上下文和关联信息。图数据库优先考虑数据点之间的关系，受益于关系结构。知识图谱在语义存储方面表现出色，由于其能够编码丰富的上下文信息，
【人工智能入门必看的最全Python编程实战（1）】 DFCED 人工智能 python 开发语言深度学习找工作就业
--------------------------------------------------------------------------------------------------------------------1.AIGC未来发展前景未完持续…1.1人工智能相关科研重要性拥有一篇人工智能科研论文及专利软著竞赛是保研考研留学深造以及找工作的关键门票！！！拥有一篇人工智能科研论文
2025毫米波雷达技术白皮书：智能汽车与物联网的感知核心
随着人工智能、物联网（IoT）和智能汽车产业的迅猛发展，毫米波雷达技术正成为感知领域的核心驱动力。毫米波雷达凭借其高精度、全天候和强抗干扰能力，广泛应用于智能汽车的自动驾驶、物联网的环境感知以及工业自动化。2025年，毫米波雷达技术在性能、应用场景和市场规模上都达到了一个全新的高度。本白皮书将深入探讨毫米波雷达技术的核心优势、发展趋势及其在智能汽车与物联网中的应用前景，同时推荐各大品牌的领先产品方
从零开始构建深度学习环境：基于Pytorch、CUDA与cuDNN的虚拟环境搭建与实践（适合初学者）荣华富贵8 程序员的知识储备2 程序员的知识储备3 深度学习 pytorch 人工智能
摘要：深度学习正在引领人工智能技术的革新，而对于初学者来说，正确搭建深度学习环境是迈向AI研究与应用的第一步。本文将为读者提供一套详尽的教程，指导如何在本地环境中搭建Pytorch、CUDA与cuDNN，以及如何利用Anaconda和PyCharm进行高效开发。内容涵盖从环境配置、常见错误修正，到基础的深度学习模型构建及训练。我们旨在为深度学习零基础的入门者提供一个全面且易于理解的“保姆级”教程，
人工智能概念之九：深度学习概述
文章目录相关文章一、深度学习的定位：AI时代的基石技术1.1技术生态全景图1.2技术革命的催化剂二、深度学习的双面性：性能优势与技术挑战2.1技术优势全景扫描2.2技术挑战深度剖析三、技术演进时间轴：70年的厚积薄发四、主流框架生态对比五、未来演进方向相关文章人工智能概念之二：人工智能核心概念：网页链接一、深度学习的定位：AI时代的基石技术1.1技术生态全景图深度学习处于人工智能（AI）技术金字塔
H800核心技术突破与行业应用实战智能计算研究中心其他
内容概要在人工智能技术持续迭代的背景下，H800芯片凭借自主架构优化与算力跃升，成为推动行业场景化落地的关键驱动力。本文将从技术路径、性能突破与行业应用三个维度，系统解析H800如何在高并发计算与低延时响应领域实现底层架构创新。首先聚焦其自主架构优化的核心技术路径，包括动态资源调度算法与异构计算单元的深度协同设计，揭示其在能效比与计算密度上的突破逻辑；进一步结合算力跃升的具体表现，探讨该芯片如何通
智慧建筑：科技引领房地产与建筑业的未来 RedPhoenix45
最新接入DeepSeek-V3模型，点击下载最新版本InsCodeAIIDE智慧建筑：科技引领房地产与建筑业的未来随着科技的飞速发展，人工智能（AI）和智能化工具正以前所未有的速度改变着各行各业。在房地产与建筑领域，这种变革尤为显著。从建筑设计到施工管理，再到物业管理，智能化技术正在重塑行业的每一个环节。本文将探讨如何利用先进的智能化工具提升房地产与建筑行业的效率，并介绍一款革命性的开发工具——它
智慧施工：AI技术赋能建筑安全监测新纪元
开发AI智能应用，就下载InsCodeAIIDE，一键接入DeepSeek-R1满血版大模型！智慧施工：AI技术赋能建筑安全监测新纪元在现代建筑行业中，施工安全始终是核心关注点之一。随着科技的飞速发展，人工智能（AI）和大数据分析逐渐成为提升施工安全的重要工具。本文将探讨如何利用智能化软件和大模型API来构建高效的施工安全监测系统，并介绍一款强大的开发工具——InsCodeAIIDE的应用场景及其
智慧工地系统：建筑行业数字化变革的引领者青云智慧园区 java
在建筑行业积极迈向数字化转型的浪潮中，智慧工地系统凭借“数据驱动、智能管控、协同增效”的核心优势，深度融合物联网、大数据、人工智能等前沿技术，构建起覆盖工程项目全生命周期的精细化管理体系。以下将从系统架构、核心功能模块、应用价值以及未来展望等方面，全方位剖析智慧工地系统如何实现施工全过程的智能化、高效化管理。一、系统架构：打造一体化协同管理平台智慧工地系统采用先进的分层架构设计，以底层的数据采集层
AGI和AIGC傻傻分不清楚，一篇文章告诉你如何分辨！
Look！我们的大模型商业化落地产品更多AI资讯请关注Free三天集训营助教在线为您火热答疑‍什么是AGI(人工通用智能)?AGI是ArtificialGeneralIntelligence的缩写，中文翻译为“通用人工智能”，该术语指的是机器能够完成人类能够完成的任何智力任务的能力。与狭义的人工智能(ANI)不同，狭义的人工智能是为特定领域或问题而设计的，而AGI旨在实现一般的认知能力，能够适应任
新一代数据库：融合多模智能，重塑数据价值
一、场景重塑产业格局：数据库“融合进化”AI浪潮奔涌而至，数字产业格局加速重构。云计算、移动互联、万物互联（IoT）、人工智能（AI）等技术的深度融合与快速落地，正以前所未有的速度重塑着企业的应用形态。新业务场景层出不穷——从高并发的在线交易、实时精准的分析决策，到海量物联网设备监控、基于图关系的风控反欺诈，再到AI驱动的智能推荐与内容生成，应用场景的多样性与复杂性已突破传统数据库的能力边界。这对
基于知识图谱技术增强大模型RAG知识库应用效果罗伯特之技术屋知识图谱人工智能
【摘要】本文是AI落地实践的优秀案例，利用RAG技术（Retrieval-AugmentedGeneration，检索增强生成）的知识库实践为背景，介绍了RAG技术的发展及存在的不足，以及知识图谱相关的知识，利用RAG技术去完善和智能化知识图谱。在AI技术大量涌现，但应用不足的情况下，指明了现有应用场景、技术与AI结合的具体做法。1.引言随着人工智能技术的加速演进，AI大模型如雨后春笋般纷纷涌现，
BGE-M3模型结合Milvus向量数据库强强联合实现混合检索
在基于生成式人工智能的应用开发中，通过关键词或语义匹配的方式对用户提问意图进行识别是一个很重要的步骤，因为识别的精准与否会影响后续大语言模型能否检索出合适的内容作为推理的上下文信息（或选择合适的工具）以给出用户最符合预期的回答。在本篇文章中，我将尽可能详细地介绍想达成准确识别用户提问意图的解决方案之一，即基于功能强大的BGE-M3模型和Milvus向量数据库实现混合检索（稠密向量densevect
朋友圈发的原力元宇宙项目到底能不能挣钱口碑信息传播者
原力元宇宙项目正如其名，是一场前所未有的数字化革命，融合了虚拟现实（VR）、人工智能（AI）、区块链（Blockchain）等前沿技术，开辟了全新的商业模式和赚钱机会。在朋友圈中频繁看到对该项目的推广宣传，确实反映了其在赚钱方面的潜力。本文将从多个角度解析原力元宇宙项目的盈利机制，揭示其中的商机所在。13分钟视频内容讲明白原力元宇宙创富项目，中国区运营服务对接微信：ForceZen激发兴趣的独特魅
构建高效 RAG 流程的七个关键点及其落地实践 charles666666 搜索引擎大数据需求分析交互笔记数据库
人工智能应用浪潮中，检索增强生成（RAG）技术凭借着结合大型语言模型（LLMs）的生成能力和信息检索系统的独特优势，成为了各企业挖掘数据价值、提升业务智能化水平的关键手段之一。然而，构建一个高效且精准的RAG流程并非易事，其中存在着诸多关键点和挑战。作为一名非资深IT技术顾问，我将基于丰富的实战经验，为大家深入剖析构建高效RAG流程的七个关键点及其落地实践。一、文档解析：混合格式的“第一道坎”在企
智能网关芯片：物联网连接的核心引擎
在物联网（IoT）生态系统中，智能网关芯片扮演着至关重要的角色，它是实现设备互联、数据转换和边缘计算的核心硬件。随着5G、人工智能（AI）和低功耗通信技术的快速发展，智能网关芯片的性能和功能不断提升，推动着智慧家居、工业物联网（IIoT）、智慧城市等领域的创新。智能网关芯片的关键技术智能网关芯片的核心能力在于其多协议支持能力。由于物联网设备采用不同的通信标准（如Wi-Fi、蓝牙、Zigbee、Lo
js动画html标签（持续更新中） 843977358 html js 动画 media opacity
1.jQuery 效果 - animate() 方法改变 "div" 元素的高度： $(".btn1").click(function(){ $("#box").animate({height:"300px
springMVC学习笔记 caoyong springMVC
1、搭建开发环境 a>、添加jar文件，在ioc所需jar包的基础上添加spring-web.jar,spring-webmvc.jar b>、在web.xml中配置前端控制器 <servlet> &nbs
POI中设置Excel单元格格式 107x poi style 列宽合并单元格自动换行
引用：http://apps.hi.baidu.com/share/detail/17249059 POI中可能会用到一些需要设置EXCEL单元格格式的操作小结：先获取工作薄对象: HSSFWorkbook wb = new HSSFWorkbook(); HSSFSheet sheet = wb.createSheet(); HSSFCellStyle setBorder = wb.
jquery 获取A href 触发js方法的this参数无效的情况一炮送你回车库 jquery
html如下： <td class=\"bord-r-n bord-l-n c-333\"> <a class=\"table-icon edit\" onclick=\"editTrValues(this);\">修改</a> </td>" j
md5 3213213333332132 MD5
import java.security.MessageDigest; import java.security.NoSuchAlgorithmException; public class MDFive { public static void main(String[] args) { String md5Str = "cq
完全卸载干净Oracle11g sophia天雪 orale数据库卸载干净清理注册表
完全卸载干净Oracle11g A、存在OUI卸载工具的情况下：第一步：停用所有Oracle相关的已启动的服务；第二步：找到OUI卸载工具：在“开始”菜单中找到“oracle_OraDb11g_home”文件夹中 &
apache 的access.log 日志文件太大如何解决 darkranger apache
CustomLog logs/access.log common 此写法导致日志数据一致自增变大。直接注释上面的语法 #CustomLog logs/access.log common 增加： CustomLog "|bin/rotatelogs.exe -l logs/access-%Y-%m-d.log
Hadoop单机模式环境搭建关键步骤 aijuans 分布式
Hadoop环境需要sshd服务一直开启，故，在服务器上需要按照ssh服务，以Ubuntu Linux为例，按照ssh服务如下： sudo apt-get install ssh sudo apt-get install rsync 编辑HADOOP_HOME/conf/hadoop-env.sh文件，将JAVA_HOME设置为Java
PL/SQL DEVELOPER 使用的一些技巧 atongyeye java sql
1 记住密码这是个有争议的功能，因为记住密码会给带来数据安全的问题。但假如是开发用的库，密码甚至可以和用户名相同，每次输入密码实在没什么意义，可以考虑让PLSQL Developer记住密码。位置：Tools菜单－－Preferences－－Oracle－－Logon HIstory－－Store with password 2 特殊Copy 在SQL Window
PHP：在对象上动态添加一个新的方法 bardo 方法动态添加闭包
有关在一个对象上动态添加方法，如果你来自Ruby语言或您熟悉这门语言，你已经知道它是什么...... Ruby提供给你一种方式来获得一个instancied对象，并给这个对象添加一个额外的方法。好！不说Ruby了，让我们来谈谈PHP PHP未提供一个“标准的方式”做这样的事情，这也是没有核心的一部分... 但无论如何，它并没有说我们不能做这样
ThreadLocal与线程安全 bijian1013 java java多线程 threadLocal
首先来看一下线程安全问题产生的两个前提条件： 1.数据共享，多个线程访问同样的数据。 2.共享数据是可变的，多个线程对访问的共享数据作出了修改。实例：定义一个共享数据： public static int a = 0;
Tomcat 架包冲突解决征客丶 tomcat Web
环境： Tomcat 7.0.6 win7 x64 错误表象：【我的冲突的架包是：catalina.jar 与 tomcat-catalina-7.0.61.jar 冲突，不知道其他架包冲突时是不是也报这个错误】严重: End event threw exception java.lang.NoSuchMethodException: org.apache.catalina.dep
【Scala三】分析Spark源代码总结的Scala语法一 bit1129 scala
Scala语法 1. classOf运算符 Scala中的classOf[T]是一个class对象，等价于Java的T.class,比如classOf[TextInputFormat]等价于TextInputFormat.class 2. 方法默认值 defaultMinPartitions就是一个默认值，类似C++的方法默认值
java 线程池管理机制 BlueSkator java线程池管理机制
编辑 Add Tools jdk线程池一、引言第一：降低资源消耗。通过重复利用已创建的线程降低线程创建和销毁造成的消耗。第二：提高响应速度。当任务到达时，任务可以不需要等到线程创建就能立即执行。第三：提高线程的可管理性。线程是稀缺资源，如果无限制的创建，不仅会消耗系统资源，还会降低系统的稳定性，使用线程池可以进行统一的分配，调优和监控。
关于hql中使用本地sql函数的问题（问-答） BreakingBad HQL 存储函数
转自于：http://www.iteye.com/problems/23775 问：我在开发过程中，使用hql进行查询（mysql5）使用到了mysql自带的函数find_in_set()这个函数作为匹配字符串的来讲效率非常好，但是我直接把它写在hql语句里面（from ForumMemberInfo fm,ForumArea fa where find_in_set(fm.userId,f
读《研磨设计模式》-代码笔记-迭代器模式-Iterator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.Arrays; import java.util.List; /** * Iterator模式提供一种方法顺序访问一个聚合对象中各个元素，而又不暴露该对象内部表示 * * 个人觉得，为了不暴露该
常用SQL chenjunt3 oracle sql C++c C#
--NC建库 CREATE TABLESPACE NNC_DATA01 DATAFILE 'E:\oracle\product\10.2.0\oradata\orcl\nnc_data01.dbf' SIZE 500M AUTOEXTEND ON NEXT 50M EXTENT MANAGEMENT LOCAL UNIFORM SIZE 256K ; CREATE TABLESPA
数学是科学技术的语言 comsci 工作活动领域模型
从小学到大学都在学习数学，从小学开始了解数字的概念和背诵九九表到大学学习复变函数和离散数学，看起来好像掌握了这些数学知识，但是在工作中却很少真正用到这些知识，为什么？最近在研究一种开源软件-CARROT2的源代码的时候，又一次感觉到数学在计算机技术中的不可动摇的基础作用，CARROT2是一种用于自动语言分类（聚类）的工具性软件，用JAVA语言编写，它
Linux系统手动安装rzsz 软件包 daizj linux sz rz
1、下载软件 rzsz-3.34.tar.gz。登录linux，用命令 wget http://freeware.sgi.com/source/rzsz/rzsz-3.48.tar.gz下载。 2、解压 tar zxvf rzsz-3.34.tar.gz 3、安装 cd rzsz-3.34 ; make posix 。注意：这个软件安装与常规的GNU软件不
读源码之:ArrayBlockingQueue dieslrae java
ArrayBlockingQueue是concurrent包提供的一个线程安全的队列,由一个数组来保存队列元素.通过 takeIndex和 putIndex来分别记录出队列和入队列的下标,以保证在出队列时不进行元素移动. //在出队列或者入队列的时候对takeIndex或者putIndex进行累加,如果已经到了数组末尾就又从0开始,保证数
C语言学习九枚举的定义和应用 dcj3sjt126com c
枚举的定义 # include <stdio.h> enum WeekDay { MonDay, TuesDay, WednesDay, ThursDay, FriDay, SaturDay, SunDay }; int main(void) { //int day; //day定义成int类型不合适 enum WeekDay day = Wedne
Vagrant 三种网络配置详解 dcj3sjt126com vagrant
Forwarded port Private network Public network Vagrant 中一共有三种网络配置，下面我们将会详解三种网络配置各自优缺点。端口映射(Forwarded port)，顾名思义是指把宿主计算机的端口映射到虚拟机的某一个端口上，访问宿主计算机端口时，请求实际是被转发到虚拟机上指定端口的。Vagrantfile中设定语法为： c
16.性能优化-完结 frank1234 性能优化
性能调优是一个宏大的工程，需要从宏观架构(比如拆分，冗余，读写分离，集群，缓存等)，软件设计（比如多线程并行化，选择合适的数据结构），数据库设计层面（合理的表设计，汇总表，索引，分区，拆分，冗余等）以及微观（软件的配置，SQL语句的编写，操作系统配置等）根据软件的应用场景做综合的考虑和权衡，并经验实际测试验证才能达到最优。性能水很深，笔者经验尚浅，赶脚也就了解了点皮毛而已，我觉得
Word Search hcx2013 search
Given a 2D board and a word, find if the word exists in the grid. The word can be constructed from letters of sequentially adjacent cell, where "adjacent" cells are those horizontally or ve
Spring4新特性——Web开发的增强 jinnianshilongnian spring spring mvc spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装配置tengine并设置开机启动 liuxingguome centos
yum install gcc-c++ yum install pcre pcre-devel yum install zlib zlib-devel yum install openssl openssl-devel Ubuntu上可以这样安装 sudo aptitude install libdmalloc-dev libcurl4-opens
第14章工具函数（上） onestopweb 函数
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Xelsius 2008 and SAP BW at a glance blueoxygen BO Xelsius
Xelsius提供了丰富多样的数据连接方式，其中为SAP BW专属提供的是BICS。那么Xelsius的各种连接的优缺点比较以及Xelsius是如何直接连接到BEx Query的呢？以下Wiki文章应该提供了全面的概览。 http://wiki.sdn.sap.com/wiki/display/BOBJ/Xcelsius+2008+and+SAP+NetWeaver+BW+Co
oracle表空间相关 tongsh6 oracle
在oracle数据库中，一个用户对应一个表空间，当表空间不足时，可以采用增加表空间的数据文件容量，也可以增加数据文件，方法有如下几种： 1.给表空间增加数据文件 ALTER TABLESPACE "表空间的名字" ADD DATAFILE '表空间的数据文件路径' SIZE 50M; &nb
.Net framework4.0安装失败 yangjuanjava .net windows
上午的.net framework 4.0，各种失败，查了好多答案，各种不靠谱，最后终于找到答案了和Windows Update有关系，给目录名重命名一下再次安装，即安装成功了！下载地址：http://www.microsoft.com/en-us/download/details.aspx?id=17113 方法： 1.运行cmd，输入net stop WuAuServ 2.点击开