【论文笔记】Effect of Attention Mechanism in Deep Learning-Based Remote Sensing Image Processing:A S...

注意机制在基于深度学习的遥感图像处理中的作用:系统文献综述

综述:

概述了已开发的注意力机制以及如何将它们与不同的深度学习神经网络架构集成。 此外,它旨在研究注意力机制对基于深度学习的 RS 图像处理的影响。
分析了相应的基于注意力机制的深度学习(At-DL)方法的进展。 进行了系统的文献回顾,以确定出版物、出版商、改进的 DL 方法、使用的数据类型、使用的注意力类型、使用 At-DL 方法实现的总体准确度的趋势,并提取当前的研究方向、弱点和未解决的问题,以提供对未来研究的见解和建议。
为此,以从文献中提取所需的数据和信息,制定了五个主要研究问题。
此外,对有关 RS 图像处理任务(例如图像分类、对象检测和变化检测)的论文进行了分类,并讨论了每组中的结果。 共检索到 270 篇论文,其中 176 篇根据定义的排除标准进行了进一步分析和详细审查。 结果表明,当使用深度学习方法中的注意力机制进行图像分类、图像分割、变化检测和使用遥感图像的对象检测时,大多数论文报告了整体准确度的提高。

1 介绍

遥感图像已被用作农业 [1-4]、城市规划 [5-7] 和灾害风险管理 [8-10] 等许多领域的主要数据源,并已被证明是一种有效且关键的工具 提供信息。 因此,处理遥感(RS)图像对于从这些应用中提取有用信息至关重要。 RS 图像处理任务包括图像分类、对象检测、变化检测和图像融合 [11]。 开发了不同的处理方法来解决这些问题,它们旨在提高解决 RS 图像处理方法的性能和准确性。 机器学习方法,例如支持向量机和集成分类器(例如,随机森林和梯度提升)对于不同的 RS 处理任务 [12,13],获得了相当高的准确性。 特别是,深度学习 (DL) 方法最近已成为 RS 图像处理和从 RS 图像中自动提取所需信息的最先进方法 [14,15]。 自从深度学习进入这一领域以来,研究人员试图通过开发新技术和不同的架构设计来提高性能并提高其准确性,例如各种卷积神经网络 (CNN) [16,17]、生成对抗网络 (GAN) [18] ,图神经网络(GNN)[19]。 最近,Bahdanau 等人提出了注意力机制。 [20] 最初用于机器翻译应用,旨在通过提供焦点和突出重要特征同时最小化其他特征来指导深度神经网络方法。 此后,它被用于不同的应用,包括计算机视觉 [21] 和 RS 图像处理 [22-24]。 因此,大多数研究报告了在注意力机制的指导下,DL 方法的性能有所提高 [25-27]。

近年来,研究人员主要从一般角度 [11,28] 或专注于一个应用,例如图像分类 [15] 来回顾 RS 文献中开发/使用的 DL 方法等。 [14] 回顾了 RS 大数据处理中的 DL 方法,并提供了有关最先进方法的技术教程。 [28] 回顾了应用于 RS 数据分析的 DL 方法,并研究了 DL 在 RS 应用中的挑战。 他们还提供了用于 DL-RS 数据分析的综合资源列表。 等人。 [15] 对已开发的用于 RS 图像分类的 DL 方法进行了调查研究。 他们还分析和比较了不同深度学习方法的性能。 此外,Li 等人回顾了深度学习在像素级图像融合方面的最新进展。 [29]。 马,等人。 [11] 对 DL 在 RS 上的应用进行了系统的文献回顾,他们对 DL 方法进行了全面的回顾和分类。 此外,牛,等人。 [21] 从一般的角度回顾了与 DL 结合使用的注意机制的不同架构设计,并提供了一些应用领域。 然而,这种机制对 DL 方法在 RS 图像处理中的影响尚未得到审查和研究。 因此,在本研究中,通过对具有用于 RS 图像处理应用的嵌入式注意机制的 DL 方法进行结构化回顾,进行了系统的文献回顾。 因此,系统地审查文献以回应预先确定的研究问题,而不是总结论文。 本研究的主要目的是提取注意力机制对基于深度学习的 RS (DL-RS) 图像处理性能的影响。 此外,还提取了出版物中的当前趋势、成就和应用,使用基于注意力机制的深度学习(At-DL)方法和 RS 图像处理应用,为未来的研究提供见解和指导。

本文的其余部分安排如下。 第 2 节提供了有关注意机制、其不同类型以及它如何在 DL 方法中使用的背景信息。第 3 节介绍并描述了注意机制与不同深度神经网络架构的集成,以解决 RS 图像处理任务。 第 4 节解释了执行系统文献综述的步骤。然后,第 5 节呈现和可视化定量结果并根据定义的研究问题进行讨论,并揭示注意力机制在 DL-RS 图像性能中的影响 加工。 最后,第 6 节总结了本文。

2. 深度学习中的注意力机制

与其他基于神经网络的方法一样,注意力机制试图模仿人脑/视觉来处理数据。 人类视觉不会一次处理整个图像; 但是,它只关注特定的部分。 这样,人类视野空间的焦点部分以“高分辨率”被感知,而周围环境则以“低分辨率”被感知。 换句话说,它赋予相关部分更高的权重,同时最小化不相关的部分,赋予它们更低的权重。 这使大脑能够准确有效地处理和关注最重要的部分,而不是处理整个视图空间。 人类视觉的这一特性激发了研究人员开发 注意力机制。 它最初是在 2014 年为自然语言处理应用程序开发的 [20],从那时起它已被广泛用于不同的应用程序 [30],特别是计算机视觉任务 [21,31]。 已经报道了它增强大多数基于 CNN 的方法的潜力 [32]。 此外,它已与循环神经网络模型 [33-36] 和图神经网络 [37,38] 结合使用。 注意力机制背后的主要思想是对不同的信息赋予不同的权重。 因此,赋予相关信息更高的权重会吸引 DL 模型对它们的关注 [39]。 注意力机制方法可以根据四个标准进行分组(图 1)[21]:注意力机制。

图 1. 典型注意力机制方法概述

(1) 注意的软性:
[20]提出的初始注意力机制是一个软版本,也称为确定性注意力。 该网络考虑所有输入元素(计算每个权重的平均值)来计算最终的上下文向量。 上下文向量是输入元素或输入元素序列的高维向量表示,通常注意力机制旨在添加更多上下文信息来计算最终的上下文向量。 然而,硬注意力,也称为随机注意力,从样本元素中随机选择来计算最终的上下文向量 [40]。 因此,这减少了计算时间。 此外,还有另一种经常用于计算机视觉任务和 RS 图像处理的分类,即全局和局部注意力 [41,42]。 全局注意力类似于软注意力,因为它也考虑所有输入元素。 然而,全局注意力通过使用当前时间步的输出而不是前一个时间步的输出来简化软注意力,而局部注意力是软注意力和硬注意力的结合。 这种方法一次考虑输入元素的一个子集,因此克服了硬注意力的限制,即不可微分,同时计算成本较低
(2)形式的输入特征:
关注机制可以基于他们的输入需求分组:item-wise和位置方面。Item-wise注意力需要显式输入已知的模型或生产预处理[43-45]。然而,位置方面的关注并不一定需要已知输入,在这种情况下,模型需要处理输入项是很难区分的。由于RS图像的特点和特征和目标任务,位置方面的注意力通常用于RS图像处理(42,46-48)
(3) 输入表示:
有单输入和多输入注意模型 [49,50]。 此外,输入的一般处理过程也因开发的模型而异。 当前大多数注意力网络都使用单输入,模型以两个独立的序列(即独特模型)处理它们。 共同注意模型是一个多输入注意网络,它在两个不同的源上并行实现注意机制,但最终将它们合并[50]。 这使得它适用于从 RS 图像进行变化检测 [51]。 自注意力网络仅根据模型输入计算注意力,因此,它减少了对外部信息的依赖[52-54]。 这允许模型通过更多地关注目标区域[55],在具有复杂背景的图像中表现更好。 分层注意机制根据原始输入计算权重,并投入和不同水平/规模的投入[56]。 这种注意力机制也称为图像分类的细粒度注意力。
(4) 输出表示:
单输出是注意力机制中常用的输出表示。 它一次处理一个特征并计算权重分数。 还有另外两种多维和多头注意力机制[21]。 多头注意力在多个子集中线性处理输入,最后将它们合并以计算最终的注意力权重 [58],在将注意力机制与 CNN 方法结合使用时特别有用 [59-61]。 多维注意力主要用于自然语言处理,它基于特征的矩阵表示而不是向量来计算权重 [62,63]

上述注意机制在原理上是相同的,并且是由研究人员开发的,以采用或改进其任务的基本注意机制。 此外,并非所有这些都用于计算机视觉,因此也用于 RS 图像处理。 在基于深度学习的图像处理中,这种机制通常用于关注特定特征(特征层)或图像的某个位置或方面[64-67]。 因此,它可以分为两大类:通道注意力和空间注意力

图2说明了简单的通道和空间注意类型:(a)频道关注网络旨在提振功能层(频道)传达的信息更重要的特征映射和沉默的其他功能层(渠道);(b)的空间注意网络突显出感兴趣的区域特征空间和封面的背景区域。这两个注意力机制可以单独或结合在DL方法提供关注重要特征层和感兴趣的区域的位置。论文在综述根据这两类分类

图 2. 通道和空间注意力类型/网络的简单说明,以及它们对特征图的影响

3. 关注 RS 图像处理的深度神经网络架构

在本节中,我们描述并提供了四种不同的深度神经网络架构 (即CNN,GAN,RNN和GNN) 的示例,这些架构使用注意机制来解决RS图像处理。CNN是通常用于图像处理以及RS应用的主要方法。空间和渠道注意都嵌入了CNN,具有不同的注意网络设计。对于cnn,信道注意力通常在每次卷积之后实现,但空间注意力主要集中在网络的末端[68-71]。然而,在基于UNet的网络中,空间注意力通常被添加到解码/上采样部分的每一层[72–74]。图3显示了在暹罗模型中使用空间和通道注意的示例,尤其是共同注意网络,用于基于建筑物的变化检测[51]。所提出的共同注意网络基于初始关联过程和最终注意模块。对于基于编码和解码模块的GAN网络,添加注意网络的过程与CNN的过程相同,CNN可根据目标任务在对抗性和/或歧视性网络中使用[75](图4)。

图 3. 将注意力网络(即共同注意力)添加到 CNN 模块(即连体网络)以进行基于建筑物的变化检测的示例 [51]。 CoA——共同注意模块,At——注意网络,CR——变化残差模块。

RNN 是第一个通过注意力机制 [20] 改进的用于自然语言处理任务的深度学习网络。 由于图像的固有特性,RNN 在图像处理方面不如 CNN 流行。 然而,RNN 经常与 CNN 一起用于 RS 图像处理 [34,76–78]。 这也允许将注意力机制与 RNN 集成到 RS 应用程序中。 例如,参考。 [79] 开发了一个双向 RNN 模块来提供通道注意并将结果权重添加到基于 CNN 的模块中,该模块由空间注意网络支持,用于高光谱图像分类(图 5)。

图4。向GAN模块添加空间和通道注意事项的示例,用于从航空图像检测建筑物[75]。A-max池层;B-卷积+批量归一化+校正线性单元(ReLU)层;C-上采样层;D-串联运算;空间注意机制;CA通道注意机制;RS整形手术。
图5。向用于高光谱图像分类的RNN+CNN模块添加注意网络(即空间和通道注意)的示例[79]。主成分分析。

GNN 是与 GNN 结合使用的另一种网络架构,是与 CNN 一起用于 RS 图像处理的另一种网络架构。 因此,该机制用于关注最网络的重要图节点。 GNN 与 CNN 的典型集成是在基于 CNN 的图像分割之后实现 GNN,以产生最终的 RS 图像分类结果 [80,81]。 因此,注意力网络通过图卷积层调整每个图节点的权重(图 6)[82]。

图 6. 将注意力网络添加到 GNN 模块以进行多标签 RS 图像分类的示例 [82]。

4. 方法

我们跟着Kitchenham提供的指导方针,等。[83]系统地rereview文献和报告结果。因此,我们开发了一个审查协议在研究的开始和之前进行评审,以减少偏见。作为发达的第一步的协议,一组研究问题定义(4.1节)根据本文研究的目的(即。,审查和调查引起深刻的学习方法对于遥感图像处理应用程序)。此后,搜索策略包括搜索数据库,字符串,并创造制定自动找到相关的出版物(4.2节)。最后一组系统综述论文的选择通过手动筛选论文根据预定义的排除标准(4.3节)。然后,数据抽取策略(4.4节)和形式(附录表A1)是发达国家从文件中提取所需的信息。合成了提取的数据和信息,并给出了相关的结果和讨论来回答研究的问题。

4.1. 研究问题

一共有五个主要研究问题(rq)定义为解决这一研究的目的。rq是专门选择提取的最先进的和有趣的方面开发了DL方法与注意机制应用到遥感图像处理,包括在他们的表现的影响这样的机制。审查和进一步结构化分析是建立在这些中移动。
RQ1。 基于注意力的深度学习解决了遥感图像处理的具体目标是什么?
RQ2。 遥感图像处理中通过注意力机制改进的深度学习算法有哪些?
RQ3。 遥感图像处理的深度学习方法中使用了哪些类型的注意机制?
RQ4。 用于遥感图像处理的基于注意力的深度学习方法中使用了哪些数据集/类型?
RQ4.1。 使用什么样的遥感影像?
RQ4.2。 使用的遥感影像的空间分辨率是多少?
RQ5。 注意机制对遥感图像处理中深度学习方法的性能有何影响?
RQ5.1。 基于注意力的深度学习方法的准确度是多少?
RQ5.2。 注意机制对深度学习方法的准确度有什么影响?

4.2. 搜索策略

通常使用两个主要属性来定义系统文献综述的搜索范围:出版日期和平台。 我们在知名且被广泛接受的平台(即 ISI Web of Knowledge 和 Scopus)上对已发布的数据进行了无限制的搜索。 我们制定了以下搜索字符串,并在选定的出版平台的搜索引擎上自动执行,以搜索论文的标题、摘要和关键字。

搜索字符串:
((“注意机制”或“注意引导”或“注意嵌入”或“注意包含”或“基于注意”或“有注意”或“注意辅助”或“注意网络”或“注意” ) AND (“遥感”或“卫星图像”或“无人机图像”或“高光谱图像”或“航拍图像*”或“SAR”) AND (“CNN”或“深度学习”))

定义的搜索查询由三个主要部分组成,由术语“AND”分隔。 第一部分旨在找到使用注意力机制(例如,注意力机制)的出版物。 第二部分旨在查找有关他们使用的遥感图像(例如卫星图像)的相关出版物,第三部分旨在查找使用深度学习方法(例如CNN)的论文。

4.3. 研究选择标准

在使用定义的搜索查询从所选平台自动提取出版物后,我们手动过滤论文以选择最合适的最终列表。 为此,我们主要通过阅读它们的摘要和引言部分并根据根据本次审查的目标特别定义的一组排除标准(表 1)来筛选出版物。
全文不可用的论文
论文不是用英文写的
论文的目的不是直接为遥感图像处理做出贡献
论文没有直接在 DL 方法中使用注意力机制
论文没有验证提议的研究
论文提供了一般性总结,但没有 明确的贡献
审查、会议和社论论文


表 1. 排除标准。
4.4. 数据提取

为了正确回答定义的研究问题,首先,我们需要从检索到的论文中提取必要的数据和信息。 为此,设计并创建了一个数据提取表(附录 A—表 A1)。 该表格由一组属性组成,用于从论文中提取一般信息(例如,出版年份和出版商),以及包括论文研究目标、开发的 DL 方法、使用的注意力机制类型和准确率在内的详细信息 在有和没有注意机制的情况下采用/开发的 DL 方法。 在这里,我们只使用了按照上述说明进行此分析的论文,或者将它们产生的 At-DL 结果与不使用注意力机制的最先进的 DL 方法进行了比较。 此外,仅使用整体准确度指标来比较论文,因为这是大多数论文中使用的唯一性能指标。 一般数据是通过对论文的初步筛选提取的,而更详细的数据是通过仔细阅读和审查论文提取的。

4.5. 数据综合

数据综合步骤是回答研究问题,综合提取的数据并呈现结果。 因此,这是系统文献综述中最重要的一步。 在此步骤中,根据提取的数据将论文分组到定义的组中,以回答相应的研究问题,并对结果进行总结和可视化。 提供对所呈现结果的详细讨论,以引出和突出每个研究问题的重点。 此外,还提供了当前研究方向、使用注意力机制提高 DL 方法在 RS 图像处理应用中的性能方面取得的成就、未解决的问题以及对未来研究的建议等主要发现。

5.结果和讨论

最终选择了 176 篇论文进行详细审查。以下小节提供了主要统计数据和论文概述。此外,在接下来的小节中,给出了详细的结果,并为每个研究问题提供了相应的讨论。

5.1. 审稿综述

At-DL方法进入RS图像处理2018年,同时2014年开发注意力机制 [20]。然而,只有2020年,大多数研究 (即141篇论文) 将该技术用于不同的RS图像处理应用,这揭示了近年来对该技术的重大兴趣 (图7)。就在2021年,47篇论文发表了,知道从在线数据库进行的搜索是在2021年3月进行的。

图7。论文的年度分类,并根据所使用的关注机制类型进行分类。

表 2 显示了至少有两篇论文的期刊名称,其余只有一篇论文的期刊名称汇总在“其他”类别中。 这些论文发表在 30 种不同的期刊上,这表明 At-DL 在从水管理 [84,85] 到城市研究 [86] 的广泛 RS 图像处理应用中的有用性。 最受欢迎的期刊是“Remote Sensing”期刊,有44篇论文,第二是“IEEE Transactions on Geoscience and Remote Sensing”期刊,有33篇论文(表2)。 此外,17 种期刊只有一篇论文(表 2 中的“其他”类别)。 这些统计数据表明,大多数论文发表在技术 RS 期刊上,而不是特定主题的期刊上。

表 2. RSIP 的基于注意力机制的 DL 中的期刊名称及其对应的论文数量。
5.2. RQ1。 基于注意力的深度学习在遥感图像处理中的具体目标是什么?

这些论文根据其研究目标进行分组,类似于 [11] 中使用的类别:图像分类、图像分割、图像融合、对象检测、变化检测等(图 8)。

(i) 图像分类:
是指使用训练样本(例如土地覆盖和土地利用分类)标记 RS 图像中的一组像素(对象或块)。 这是作为流程起点的各种应用领域中最常用的 RS 图像处理任务之一 [87-89]。 图像分类在文献中也称为场景分类 [88] 或土地覆盖和土地利用分类 [90],具体取决于研究中使用的目标和数据。 AtDL 中大约一半的论文涉及从不同传感器获取的图像的图像分类任务,例如多光谱卫星 [67,91,92]、高光谱 [71,93] 和无人机 (UAV) [34,94] 图像 . 大量免费提供的基准数据集和这方面的有组织的竞赛吸引了研究人员在该主题领域开发 DL 方法。
(ii) 物体检测:
指检测图像中的不同物体。 这是使用 At-DL 解决的第二个最流行的任务,包括从 RS 图像 [46,60,95] 检测一般对象/目标或检测特定对象和特征,如建筑物 [74,96]、船舶 [97 ,98]、山体滑坡 [99]、云 [53,100]、机场 [101]、道路 [72] 和树木 [102]。
(iii) 图像分割:
也称为语义分割,是指对图像中的每个像素进行标记,通常使用端到端的 At-DL 方法。 在 At-DL 论文中,有 17 篇论文涉及图像分割 [103–105]。
(iv) 图像融合:
通常被称为 RS 领域的基本预处理,旨在产生更高的光谱和空间分辨率。 在 13 篇论文中使用 At-DL 解决了两个主要的图像融合任务。 一种是全色锐化,旨在将粗分辨率多光谱图像与相应的高分辨率全色图像融合,以产生高分辨率多光谱图像 [106-108]。 另一种是图像超分辨率,它是指使用 At-DL 方法提高原始图像的分辨率 [106,107,109]。
(v)变化检测:
指检测和量化多时相RS图像的变化。 这是具有挑战性的任务之一,随着多时相 RS 图像数量的增加,它变得越来越流行。 At-DL 在 7 篇论文中用于检测一般 [110,111]、建筑物 [51] 或任何其他对象 [81,112] 的变化。 (vi) 在 9 篇论文中使用 At-DL 解决了其他任务,例如图像去雾 [113]、数字高程模型 (DEM) 空隙填充 [114] 和 SAR 图像去斑 [115]。

5.3. RQ2。 用于遥感图像处理的注意力机制改进的深度学习算法有哪些?

图9显示了针对每种DL算法采用注意机制的论文数量。因此,卷积神经网络 (CNN) 算法是主要的DL方法,该方法通过注意机制来解决RS图像处理,该方法应用于176篇评论论文中的154篇 [69,116-120]。这是预期的结果,因为CNN是一般计算机视觉和图像处理中最常用的DL方法。递归神经网络 (RNN),如长短期记忆 (LSTM) 方法,是第二常用的DL方法,由注意机制支持的RS图像处理18篇论文 [121-123],该算法也是第一个用注意力机制改进的DL方法 [20]。此外,观察到大多数RNN方法与CNN方法结合使用 [76,78,124]。生成对抗网络 (GAN) [53,125,126],图神经网络 (GNN) [80,82] 和其他DL方法,包括胶囊网络 [72] 和自动编码器 [61],分别是12、5和4篇论文中使用的其他DL算法。

图 8. 不同研究目标的出版物数量。

图 9. 论文中具有注意力机制的改进 DL 算法。
5.4. RQ3。 遥感图像处理的深度学习方法中使用了哪些类型的注意机制?

At-DL 方法可以分类 At-DL 方法可以根据使用的注意类型(即通道和空间注意网络)进行分类,如第 2 节所述(图 10)。 通道和空间注意机制的组合使用是论文中最常用的类型[59,127,128]。 此外,主要用于高光谱图像处理的通道类型 [129-131] 和空间类型 [47,132,133] 也分别在 41 篇和 33 篇论文中单独使用。 根据研究的目的,可以选择注意力类型; 然而,由于在 RS 图像中,对象/特征的特征/通道和空间位置都很重要,因此使用组合类型是论文中研究人员的主要选择。

图 10.论文中使用的注意力机制类型。
5.5.问题 4。用于遥感图像处理的基于注意力的深度学习方法中使用的数据集/类型是什么?

多光谱卫星图像是使用AtDL方法处理的最受欢迎的图像(81篇论文)[91,92134](图11)。这主要是由于免费提供了一些MS卫星图像及其广泛的应用。在55篇、43篇和24篇论文中,航空图像[54135136]、高光谱图像[137–139]和SAR图像[97140141]也分别使用At DL方法进行了处理。然而,只有三篇论文使用了无人机图像[34,94142]。这是一个出人意料的低数字;然而,由于无人机图像的分辨率非常高,注意机制可以显著提高DL方法的性能。

图 11. 论文中使用的数据集。

处理后的RS图像也根据处理后的图像的空间分辨率进行分组(图12)。高分辨率和中分辨率图像分别是157和58篇论文的主要处理图像。低分辨率图像(空间分辨率超过30m) 仅在4篇论文中使用。

图 12. 论文中使用的 RS 图像的空间分辨率。
5.6. RQ5。注意机制对遥感图像处理深度学习方法性能的影响?

使用At DL论文的n模型(DEM)空隙填充具有低于90%准确度值的中值。为对象检测等应用提供基准RS图像和训练样本将有助于吸引研究人员的注意并开发更先进的方法。然而,可以采用大多数用于图像分类的At DL方法。

图13。本文针对不同任务开发的At DL方法的准确性
图 14. 在论文中不同任务的准确率方面,DL 算法中注意力机制的使用效果。

图 13 显示了用于变化检测、图像分类、图像分割、对象检测和其他任务的论文中产生的结果的总体准确度的箱线图。 图像分类和变化检测具有最高的中值准确率(~97%)。 原因之一是此类应用程序的基准数据集的可用性,鼓励研究人员在此类数据集和任务上测试他们提出的方法。 然而,图像分类是 RS 图像处理中的基础和有价值的应用之一,可以用作包括农业、自然灾害在内的其他科学领域的基础,因此,已经达到高精度水平是使用 At- DL。 随着多时相 RS 图像可用性的增加,变化检测在不同领域变得很重要 [143-145]。 尽管结果显示 At-DL 在进行变化检测方面具有高性能,但只有 7 篇论文并不是一个可靠的论文数量,不能得出一般性的结论,即 At-DL 产生了 95% 以上的准确率,因此,还需要做更多的工作 对此。 图像分割和目标检测的中值准确率约为 91%,比前两个图像处理任务低约 5%。 此外,其他任务,例如使用 At-DL 论文的数字高程模型 (DEM) 空隙填充,其准确度值的中位数低于 90%。 为目标检测等应用提供基准 RS 图像和训练样本将有助于吸引研究人员的注意力并开发更先进的方法。 然而,大多数在图像分类中使用的 At-DL 方法可以用于其他任务,包括对象检测。

图 14 显示了注意机制对变化检测、图像分类图像分割、对象检测和其他任务的论文中生成结果的整体准确度的影响的箱线图。 大多数论文报告了在 DL 方法中使用注意力机制时的增加。 只有一篇论文指出,使用注意力机制并没有对 DL 方法的性能产生积极影响 [146]。 所有班级的增长率中位数均低于 5%。 鉴于大多数类别的总体准确率已经超过 90%,因此这一增加的比率显着提高了整体准确率。 最高的中值率也显示出最高的准确度提高属于目标检测类,约为 5%。 与其他方法相比,在目标检测类的 DL 方法中使用注意力机制的增长率最高的原因之一是这些方法的固有特性需要对目标进行定位,而注意力机制,特别是空间类型,具有 通过提供对重要特征的空间位置的关注来达到相同的目的。 图像分类、图像分割和变化检测类的总体准确率几乎相同,增幅约为 3-4%。 增加约 1% 的“其他”类别的增幅最低。

5.7. 对本评论有效性的威胁

由于发表偏倚、数据提取和分类等一些限制,每个系统的文献综述都可能存在偏差。 对我们审查有效性的主要威胁讨论如下:

构建有效性:本研究旨在通过回顾使用 At-DL 方法进行 RS 图像处理的现有文献,来检验注意力机制对 RS 图像处理的深度学习算法的影响,从而为未来的研究提供见解和建议。 我们采用了应用于 ISI Web of Knowledge [147] 和 Scopus 网站的自动搜索查询。 因此,使用这些数据库作为出版物的唯一来源可能会导致错过本研究未包括的其他相关出版物。 然而,这项研究旨在提供高质量出版物的概述。 因此,在 ISI 和 Scopus 中进行索引是一种公认且广泛使用的查找相应高质量论文的方法。 此外,可能缺少可能影响最终结果的术语。 然而,我们试图保持搜索范围广泛(最初的论文数量为 270 篇)并多次修改搜索查询以减少对我们结果的影响。

内部效度:在系统的文献综述中,在数据提取阶段可能会出现系统性错误,导致提取的数据与数据之间的关系不完整发现。 在当前的研究中,我们精确定义了研究问题,以从 At-DL 研究中调查和提取所有必需的数据和必要信息。 因此,本研究的结果得到了适当的解释,并与提取和呈现的结果相关联。

外部有效性:本研究回顾了使用 At-DL 方法进行 RS 图像处理应用的出版物。 然而,所有现有的 DL 方法都没有通过注意力机制进行改进或尚未用于 RS 图像处理应用程序,并且所有可能的 RS 图像处理应用程序都没有通过 At-DL 解决,因此本研究未包括或讨论 . 此外,我们仅审查了将 At-DL 用于 RS 图像处理应用的出版物,因此我们无法判断 At-DL 在更广泛的范围或其他应用中的使用和效果。

结论有效性:我们根据系统文献综述研究的公认结构和方案进行了审查[83]。 此外,论文第 4 节对结构审查过程的步骤进行了全面说明,并提供了使用的搜索字符串、数据提取表(附录 A)和提取的论文作为补充材料。 因此,使用给定的信息,本研究的结果是可重复的。

6。结论

本研究回顾了使用基于注意力机制的深度学习 (At-DL) 方法处理 RS 图像的遥感 (RS) 文献。 我们研究了 At-DL 方法的使用进展,以及考虑其不同类型的注意力机制对 DL 方法在 RS 图像处理中的性能的影响。 因此,提出了当前的研究方向和挑战,并为未来的研究提供了见解和建议。 使用系统的文献综述,这不是 RS 综述论文中众所周知和使用的策略,使我们进行了全面的综述,并准确地回答了预定义的研究问题并有助于本研究的目标。 结果清楚地证明了注意力机制对 DL 方法在 RS 图像处理中的性能的积极影响,因此,它是可用于改进此类应用中的 DL 方法的强大方法之一。 此外,审查结果显示,在 RS 图像处理中使用 At-DL 方法的趋势正在增加。 然而,虽然图像分类吸引了大部分注意力,但其他 RS 图像处理任务,如对象检测和变化检测,仍需要更多的研究来充分了解注意力机制对 DL 方法性能的影响。 甚至还有一些重要的任务尚未使用这种机制解决,包括面向对象的图像分析。 结果还表明,CNN 方法是注意力机制最常改进的算法,这主要是由于其普遍有用性; 一般来说,它是用于不同计算机视觉任务的流行方法。 然而,当与 StarGAN [148] 和 AttentionGAN [149] 等注意力机制相结合时,最近生成的对抗网络 (GAN) 已成为不同计算机视觉任务中最先进的方法。 因此,它们可以在未来的研究中用于 RS 图像处理应用。 此外,我们基于整体准确度指标研究了 At-DL 方法的性能,该指标广泛用于 RS 应用并在论文中提供。 但是,DL 方法的准确性取决于使用的数据集和目标任务。 此外,应使用其他重要指标(例如计算时间)来研究 At-DL 方法的性能。

image.png

你可能感兴趣的:(【论文笔记】Effect of Attention Mechanism in Deep Learning-Based Remote Sensing Image Processing:A S...)