论文地址：http://www.eng.tau.ac.il/~avidan/papers/CoTM.pdf
cvpr2018
1030 待修改

Abstract

我们提出了一种用于基于co-occurrence statistics来匹配像素的新错误度量。该度量依赖于一个co-occurrence matrix，该矩阵对一个窗口内像素值对共出现的次数进行计数。匹配一对像素引起的误差与它们的值同时出现的概率成反比，而不与它们的色差成反比。此度量也可用于颜色以外的其他功能，例如深层特征。我们证明，这可以提高标准基准上模板匹配的最新性能。
然后，我们提出了一种嵌入方案，该方案将输入图像映射到嵌入图像，以使嵌入空间中像素值之间的欧几里得距离类似于原始空间中的共现统计。这使我们能够在嵌入式图像上运行现有的视觉算法，并免费享受共现统计的强大功能。我们在两种算法上演示了这一点：Lucas-Kanade图像配准和核化相关过滤器（KCF）跟踪器。实验表明，每种算法的性能提高了约10％。

1. Introduction

测量像素之间的相似度是计算机视觉的基本任务。例如，立体声匹配算法使用模板匹配来测量潜在匹配的相似性。纹理合成算法依赖于补丁相似度来填充漏洞，而跟踪算法则需要从一帧到下一帧匹配对象的外观。

让我们专注于模板匹配作为依赖像素相似性度量的规范应用程序。可以说，最流行的度量是平方和差（SSD），它基于模板中相应像素值与候选窗口之间的欧式距离。

但是SSD对小变形非常敏感。为了解决这个问题，人们经常使用补丁级别表示法，例如SIFT [18]，HOG [3]或深度网络的第一层[26]。这些表示使用一个小的邻域来收集局部统计信息，以增加像素表示对较小的未对准和变形的鲁棒性，但会损失精确的像素定位。用于比较这些特征的度量通常是欧几里得度量。

本文的主要贡献是引入了一种基于共现统计的像素值之间新的相似性度量。共现统计信息在整个图像平面上收集，并测量一对像素值在小窗口内共现的概率。我们认为匹配像素的成本与像素值同时出现的概率成反比。为什么？

因为共现统计数据早已用于捕获纹理。图像中经常出现的像素值可能是纹理区域的一部分。因此，此措施隐式捕获了纹理相似性的一些概念。这与实际像素值无关，仅与它们的共现统计有关。换句话说，我们从数据中学习像素相似度，而不是在其上施加欧几里得距离。

共现统计与前面提到的基于补丁的表示形式不同。基于补丁的方法收集本地统计信息，而共现方法则收集全局统计信息。两种方法相辅相成，我们可以收集RGB值以及其他更复杂的特征（例如深度特征）的共现统计信息。实验表明，将两种方法结合起来可以大大提高标准模板匹配基准上模板匹配的性能。

然后，我们提出了一种将输入图像的像素值映射到新空间的嵌入方案。嵌入将频繁出现的像素值映射到嵌入空间中的邻近点，其中邻近度基于欧几里得距离。这样做有几个原因。

首先，它允许我们在嵌入式图像上运行现有的模板匹配实现，而无需进行任何修改。
其次，由于现有的模板匹配算法可实现亚像素精度，因此我们免费获得此精度。通过直接与共现统计直接工作来实现亚像素精度的替代方法并非易事。
第三，以亚像素精度工作使我们能够扩展模板匹配算法，以处理不属于整数像素坐标（即旋转，2D仿射）的更一般的变换。

不利的一面是，与直接使用共现统计数据相比，在嵌入式空间中工作会降低模板匹配的准确性。尽管如此，使用嵌入式映像产生的结果要比使用SSD产生的结果要好得多。

最后，没有必要将自己局限于模板匹配。我们可以在嵌入式图像上运行任何视觉算法。我们通过两种算法对此进行演示。 Lucas-Kanade图像配准算法[19]和核相关过滤器（KCF）跟踪器[11]。

LK算法执行梯度下降，这在欧几里得空间中很容易做到，但是在直接处理共现统计时却不那么容易。 KCF跟踪器将跟踪视为二进制分类问题，并通过在频域中进行有效解决。同样，在欧几里得空间上执行FFT很容易，但是尚不清楚如何计算具有共现误差量度的空间的傅立叶变换。

一旦我们嵌入图像，这些问题就会消失。实验表明，仅对嵌入式图像进行处理，这两种算法都可以将性能提高10％，而无需对实际算法本身进行任何修改。总而言之，我们介绍了一种基于共现统计的新错误度量。这项新措施对失准和变形具有鲁棒性，可以快速计算，并且可以处理不同的像素值，例如RGB颜色或深色特征。然后，我们提出了一种嵌入方案，并表明其他视觉算法可以从共现误差度量中受益。在几个数据集上进行的广泛实验的结果证明了我们方法的潜力。

3. Method

基于SSD的模板匹配最小化下面的公式：

image.png

其中，T是模板，R⊆I是图像I中与T大小相同的区域，p是像素位置。
而基于共生的模板匹配（CoTM）会最大化下面的公式：

image.png

其中M是从图像数据中学习的（规范化）共现矩阵。一旦计算出M，就可以使用它来给出将像素值Tp与像素值Rp匹配的成本。
对于多通道图像（即彩色或深层特征），我们使用k-means将图像量化为固定数量的k簇。接下来，我们定义共现矩阵并讨论其属性。

3.1 Co-occurrence Matrix

共现矩阵C（a，b）对两个像素值a和b一起出现在图像中的次数进行计数。值为其在像平面中的距离。

公式（1）.png

p和q是像素位置，Ip是图像I中像素p的值，Z是归一化因子。 σ是用户指定的参数，如果括号内的值为true，则[·]等于1，否则为0。使用高斯权重可以使我们相信，像平面中相邻的像素对更为重要。实际上，我们仅考虑与σ成比例的窗口内的像素。
如等式1所述，共现会提升图像中经常出现的像素值。为了保留图像中很少出现的像素值（因此我们认为很重要），我们将C除以它们的先验概率，以获得点向互信息（PMI）矩阵：

公式（2）.png

其中h（a）是观察图像中像素值a的概率（h是像素值的标准化直方图）。同时出现可以提升经常出现在图像中的像素值，而PMI会对其进行惩罚。

图1显示了查询图像及其PMI矩阵M。为了更好地可视化，我们仅显示矩阵的有意义的行/列。沿着PMI矩阵轴的色标表示群集的颜色。矩阵的项以反灰度给出，因此，明亮的颜色表示较低的PMI得分，而深色的意味着较高的得分。 M（A）指定棕色和蓝色的PMI。由于棕色和蓝色很少同时出现，因此其PMI较低。另一方面，橙色和白色频繁出现，因此它们的PMI值M（B）高。这与棕色和蓝色与橙色和白色之间的强度差异无关。影响M的唯一因素是像素值的出现频率。矩阵中另一个有趣的条目是浅绿色和深绿色M（C）之一。即使它们频繁发生，其PMI值也很低。这是因为图像中浅绿色和深绿色的先验概率很高。

图（1）.png

图1.共现统计：（左）查询图像。（右）它是对应的PMI矩阵M。为实现更好的可视化，我们仅显示M的重要行/列。我们根据等式从查询图像中收集共现统计信息。 2. M（A）的分数较低，因为图像中很少同时出现棕色和蓝色。另一方面，白色和橙色频繁出现，因此它们对应的条目M（B）高。浅绿色和深绿色同时出现，但它们的分数M（C）较低，因为它们中的每一个都频繁出现在图像中。

当尝试将模板中具有很多背景像素的模板匹配时，M的此属性将派上用场（见图2）。在这种情况下，我们将具有不同大小的两个模板匹配到同一张图像。结果表明，在两种情况下，仅属于对象的像素具有较高的权重，并且匹配结果几乎相同。

图（2）.png

图2.背景影响：（a）小（顶部）和大（底部）模板。（b）查询图片，我们用实线（虚线）标记与小（大）模板最匹配的补丁。（c）每像素分数M（Tp，Qp）。请注意，添加更多背景像素并不会明显改变整体得分。

3.2 Template matching

给定模板T和区域R⊆I，R匹配T的概率是多少？假设高斯独立像素噪声，则（对数）概率为：

公式（3）.png

高斯密度函数.png

最后一个表达式是差平方和（SSD）。最小化它会最大化区域R匹配T的可能性。
高斯噪声假设非常强。假定用于将模板扭曲到图像的几何变换就足够了，因此所有噪声都归因于强度误差（使用高斯建模）。实际上，我们使用的转换模型可能不足以捕获模板的真实变形。
高斯噪声假设的另一个问题是，它对异常值非常敏感。例如，如果T或R中的某些像素属于背景或被遮挡，则它们的错误将对匹配结果产生非常强烈的负面影响。
我们使用同现统计来解决这些问题。具体来说，我们将相同的目标函数最大化，但假设使用不同的噪声模型。假设像素在本地独立移动，则有：

公式（4）.png

在这里我们删除

image.png

因为它仅取决于固定的模板。可以看出，在高斯模型中，我们最小化平方距离的总和，而在等式中。 4我们使联合概率的总和最大化。算法1概述了该算法。

算法1.png

3.3 Embedding

在Sec3.2中，我们展示了如何使用共现统计信息来将模板与图像匹配。现在，我们扩展此方法来解决其某些局限性。

首先，目前尚不清楚如何使用此方案来与子像素精度匹配。可能会建议对输入图像进行插值并在共现矩阵中使用插值。由于同现不是线性运算，因此这显然是错误的。
其次，亚像素精度将使我们能够扩展模板匹配，以处理不适用于整数像素坐标（即旋转，2D仿射）的更一般的变换。
第三，我们想利用现有的模板匹配算法，而不必修改它们。

最重要的是，我们希望其他视觉应用程序能够利用共现措施。例如，LK [19]使用一阶泰勒近似来导出梯度下降过程以配准一对图像。这假设图像是可区分的。不幸的是，矩阵M是不可微的，这使事情变得复杂。
另一个示例是核相关过滤器（KCF）跟踪器[11]。 KCF将跟踪视为在频域中有效解决的二进制分类问题。但是，尚不清楚如何对具有共现相似度的空间应用傅立叶变换。

为了解决这些问题，我们建议将像素值嵌入具有常规欧几里德度量的新空间中。然后，我们可以在新的空间中执行Lucas-Kanade，KCF跟踪或任何其他视觉算法。为此，我们假设共现矩阵是亲和矩阵。我们的目标是将具有高亲和力（即高共现值）的点映射到嵌入式欧几里得空间中的附近点。

我们使用多维缩放（MDS）进行嵌入。 MDS将距离矩阵作为输入。然后，它使用特征值分解来找到到给定d维空间的映射，以使该空间中的L2距离生成一个距离矩阵，该距离矩阵尽可能接近输入距离矩阵。形式上，我们寻找点{y1，...，yk}，yi∈Rd，使得：

公式（5）& 公式（6）.png

以这种方式操纵C可以确保D对称于其对角线1上具有零。

给定等式6中定义的距离矩阵D，我们使用MDS将其嵌入d维空间。现在为每个像素分配了相应的向量。图3说明了嵌入过程。我们将嵌入结果显示为1D（即灰度）和3D（即RGB图像）。观察输入图像中的纹理区域如何在嵌入空间中映射为恒定的颜色。特别是在3D情况下，不同的纹理被映射为红色，绿色和蓝色，它们在颜色空间中相距甚远。
现在，任何视觉算法都可以对嵌入式图像进行操作。我们使用模板匹配，Lucas-Kanade和KCF跟踪对此进行了演示。嵌入的优点是现有的视觉管道保持完整。

4. Results

我们在两个公共基准数据集上评估了CoTM。第一个是Dekel等人[5]从OTB数据集的35个带注释的彩色视频序列中创建的[31]。由于遮挡，非刚性变形，面内/面外旋转，亮度变化，比例差异等原因，这些视频极具挑战性。数据集包含105个模板图像对。每个图像对包括帧f和f + 20，其中f是随机选择的。对于每对框架，模板是框架f中带注释的地面真假边界框，而查询图像是框架f + 20。

由于Oron等人，我们还在相似但更大的数据集上评估了我们的方法。 [21]。该基准是从OTB数据集生成的，包括彩色和灰度视频。数据集包含三个数据集。每个数据集包括270个模板图像对，每个图像对由帧f和f + ∆f组成，其中f是随机选择的，而∆f∈{25，50，100} 2。

评估指标：IoU。曲线下面积（AUC）用于比较不同的方法。

我们使用预训练的VGG网络[26]以类似于[21]和[27]的方式生成深度特征。具体来说，我们将conv1 2的64个特征与conv3 4的256个特征串联在一起，每个像素等于320个特征。在两个维度上，conv3 4的尺寸均为原始图像的1/4。我们使用双线性插值将其调整为图像大小。

4.1 Evaluation

我们将彩色和深层特征图像上的CoTM与模板匹配的两种最新技术进行了比较：可变形多样性相似度[27]（DDIS）和最佳伙伴相似度[5]（BBS）。此外，我们将我们的方法与SSD进行了比较。图4给出了105种模板-图像对基准上所有方法的成功图。

图（4）.png

图4.准确性：以[5]为基准的评估：105个模板-图像对。左：评估深层特征。右：颜色特征评估。图例中显示了AUC。

一些评论是按顺序进行的。使用彩色像素值和标准SSD测量值进行模板匹配的AUC得分很差，为0.43。用深色特征替换颜色特征，但保留SSD错误度量，将分数提高到0.55。但是，用同现统计代替SSD相似性度量，同时保留颜色特征，将得分提高到0.62。换句话说，使用简单的RGB值的共现统计比使用具有标准SSD措施的深层功能获得更好的结果。将深层特征和共现相似性度量相结合可使得分达到0.67。

CoTM的示例如图5所示。可以看出，CoTM的热图通常是干净的，在正确的位置具有非常强的局部峰值。

图（5）.png

我们在[22]的（更大）数据集上重复了我们的实验，并将结果报告在表1中。可以看出，Talmi等人[27]在色彩特征方面胜过我们，而在深色特征方面胜过我们。将每个像素的颜色和深层特征连接起来，并使用共现统计，我们得出的AUC得分为0.69，这是该基准报告的最高得分。

表（1）.png

表1. [22]上的结果：270对带∆frame∈{25，50，100}。我们将我们的方法（CoTM）与[27]（DDIS）的方法进行了比较。 “ -C”表示颜色特征，“-D”表示深色特征。我们还在颜色和深层特征（称为“ -DC”）的级联特征向量上运行我们的方法。对于最后两行（-DU，-CU），我们在外部图像集上计算了k-means原型，而不是按图像计算它们。可以看出，性能变化不大。

我们还评估了原型（即k均值量化步骤的聚类中心）对性能的重要性。为此，我们从一些外部图像数据集中计算出一套通用的k均值原型，并使用它们代替在每个图像上运行k均值。结果以CoTM-DU和CoTM-CU的形式记录在表1中。可以看出，准确性变化不大。

我们的方法快速，易于实现，并且不需要使用“近似最近邻居”程序包。我们的未优化MATLAB代码平均需要2.7秒，才能在具有32GB内存的i7 Windows机器上使用色彩功能处理单个模板图像对。这不包括需要花费几秒钟时间的k均值步骤。

4.2 Evaluation of CoTM Embedding

接下来，我们使用Eq6评估了105个数据集上用于模板匹配的MDS嵌入方案。特别是，我们评估嵌入到3维以及256维空间中。嵌入模板和图像后，我们将使用标准SSD错误度量标准进行模板匹配。检测结果总结在图6中。我们发现共现嵌入模板匹配（CoETM）

图（6）.png

为了证明嵌入的功能，我们将其与Lucas-Kanade注册算法结合使用，并在105个数据集上进行了评估。对于每一对，我们都在距地面真相一半边界框距离之内生成了一个初始猜测。我们使用此猜测来初始化4级金字塔LK算法。对彩色和嵌入式图像测试了完全相同的算法。我们使用相同的IoU指标来衡量成功。对于嵌入，我们使用尺寸为3的MDS方案。

图7显示具有CoE的LK（即嵌入图像上的CoTM）收敛到比常规LK更好的最终边界框。一些例子如图8所示。特别是，请注意图中的最后一个示例显示了具有2D平移+旋转的LK。如何扩展Dekel等人[5]或Talmi等人[27]的工作来支持这种运动模型还不是很明显。

图（7）.png

图（8）.png

图8.共生Luckas Kanade：左：模板。中心：常规LK的结果。虚线的白色矩形是最初的猜测。蓝色矩形是最终结果。右：嵌入图像上LK的结果。虚线的白色矩形是最初的猜测。红色矩形是最终结果。我们的结果与初始矩形相差甚远，表明吸引盆更大，收敛性更好。

我们还在OTB数据集[30]上运行了一个开箱即用的KCF跟踪器[11]，并在图9中报告了结果。可以看出，使用共现嵌入可将结果提高约10％，而无需修改原始KCF算法。为了加快运行时间，我们仅使用每个序列中的第一个帧来计算共现嵌入，并将其应用于该序列中的其余帧。

图（9）.png

4.3 Limitations

CoTM受到许多限制。首先，我们发现灰色像素值的共现效果不好。我们还发现，当模板的像素值频繁出现在背景中时，性能会下降。这是因为在这种情况下，背景像素不会降低权重。最后，我们尚未解决照明方面的变化，并将其留待将来研究。故障示例如图10所示。通过处理深层特征，可以减轻许多此类故障情况。

图（10）.png

图10.局限性：显示了我们的失败案例。左：模板。右：查询图像。在图像上，我们将地面真值位置标记为绿色，并将检测结果分别使用颜色特征和深度特征标记为黄色和红色。

5.Conclusions

我们提出了一种基于共现统计的像素相似度新度量。代替测量像素值之间的强度差，我们测量它们的共现分数。经常出现的像素值要比经常出现的像素值少受到惩罚。这是因为共现在某种程度上捕获了纹理。因此，来自相同纹理区域的像素值可能具有较高的共现分数。共现统计信息捕获全局图像统计信息，而不是通过各种面片表示捕获的局部图像统计信息。将共现统计（捕获全局统计信息）与深度特征（捕获局部统计信息）结合起来，可以得出标准数据集上模板匹配的最新结果。

然后，我们建议采用一种嵌入方案，将输入空间中的像素值映射到新空间，以便将经常出现的像素值映射到嵌入空间中的附近点。这样，任何视觉算法都可以通过处理嵌入式图像而不是原始图像来激发共现统计的功能。我们在Lucas-Kanade图像配准算法和Kernelized Correlation Filter（KCF）跟踪器上展示了这种嵌入的强大功能。仅对嵌入式图像（而不是原始图像）进行处理，这两种算法都将性能提高了10％。

参考文献

详见论文

论文翻译及笔记-Matching Pixels using Co-Occurrence Statistics

Abstract

1. Introduction

3. Method

3.1 Co-occurrence Matrix

3.2 Template matching

3.3 Embedding

4. Results

4.1 Evaluation

4.2 Evaluation of CoTM Embedding

4.3 Limitations

5.Conclusions

参考文献

你可能感兴趣的:(论文翻译及笔记-Matching Pixels using Co-Occurrence Statistics)