NEAR：新生儿EEG数据的伪迹去除流程

文章来源于微信公众号（茗创科技），欢迎有兴趣的朋友搜索关注。

导读

EEG对于研究新生儿神经认知功能很有价值。但目前很难记录到高质量的新生儿EEG数据。相较于成人和大一点的婴儿，新生儿注意力持续时间有限，数据更短；而且由不可控的运动导致的伪迹更多，数据噪声也更大。因此，研究者提出了一种专为新生儿设计的EEG伪迹去除方法（NEAR），NEAR基于两个关键步骤：①基于局部异常因子（LOF）的坏导检测工具，一种稳定的异常值检测算法；②采用伪迹子空间重建算法（ASR），适用于新生儿EEG的参数校准方法。此方法开发用于去除成人移动EEG的伪迹。对模拟数据的测试结果表明：NEAR在去除新生儿EEG中有代表性的非典型伪迹方面，优于现有方法。NEAR在两个不同实验设计（频率标记和ERP）记录的两个发展性群体（新生儿和9个月大的婴儿）上进行了验证。结果表明：NEAR伪迹去除方法能成功地提取噪声数据中的EEG信号，且此方法的统计显著性高于现有的伪迹去除方法。基于EEGLAB的NEAR伪迹去除方法可在https://github.com/vpKumaravel/NEAR免费获得。

引言

在人类新生儿出生后的头几天进行研究，有助于我们了解人类在与外界互动之前所具有的神经认知倾向。虽然该领域大部分是行为学研究，但最近适用于新生儿高质量EEG系统的可用性，为越来越多关于这种倾向的神经基础的EEG研究开辟了道路。

然而，要分析新生儿EEG数据是一项具有挑战性的任务，特别是有视觉刺激的情况下。有两个主要的影响因素：1）新生儿注意持续时间有限，导致他们的有效注意刺激数据的时长非常短；2）新生儿不受约束，他们的各种运动（头部、手臂、皱眉、吮吸）会产生不规律的伪迹。这些因素导致新生儿EEG数据的伪迹去除带有很大的主观性且耗时较长。基于ICA的方法在成人或较大婴儿中较为有效，因为ICA能捕获较典型有明显特征的伪迹；但由于（新生儿）大多数的伪迹都不是典型的，所以基于ICA的去除方法可能不会同样有效。

伪迹子空间重建算法（ASR）是一个矫正非典型伪迹的很有潜力的工具，该算法专门用于去除任何性质的瞬时或大幅度的伪迹。然而，ASR的性能取决于一些用户定义的参数，这些参数还没有在发展性数据中建立和使用。此外，ASR和ICA都需要初步检测坏通道，就像研究者在本文中展示的，几种最先进的方法对分析新生儿EEG数据来说过于严格，尤其是相较于ERP设计，频率标记范式受伪迹影响较小。

本文研究者提出了NEAR（新生儿EEG伪影去除），一种从原始新生儿EEG数据中有效去除伪迹的方法。和现有的去除伪迹方法相比，NEAR引入了两个新功能：1）基于局部异常值（LOF）的新型坏导检测工具——一种稳定、基于密度的局部异常值检测算法。2）将ASR中两个由使用者定义的关键参数校准到新生儿EEG数据的标准程序中：ASR参数k和ASR处理模式，可以校正或删除检测到的坏段。

在本文中，研究者详细地解释了NEAR预处理步骤，将原始数据转换为可供分析的无伪迹数据。该流程的校准程序包括坏导检测、坏段校正/删除。

用于测试NEAR性能的三个步骤如下：

1）使用模拟工具箱SEREEGA作为概念验证，研究者在模拟的、合乎神经生理学的EEG数据上测试了NEAR，包括主要在新生儿和婴儿EEG数据中发现的瞬时、大幅度的伪迹。

2）在基于频率标记范式的新生儿EEG数据上测试了NEAR，一种周期性的时间刺激，并在刺激频率下测量与EEG振幅有关的刺激相关反应的实验设计。这种设计越来越多地用于婴儿和新生儿，因为它比事件相关电位（ERP）设计有更高的信噪比。

3）为了验证NEAR在较大的婴儿数据中的性能，研究者使用ERP范式和在另一个实验室记录的数据，即研究者评估了用ERP范式记录的9个月大婴儿的EEG数据中使用NEAR的效果。

研究者在测试集上校准NEAR参数，以便在真实数据上进行测试，并在独立数据集上验证NEAR性能。

验证方法也包括与最先进的方法做比较：EEGLAB的clean_rawdata函数（仅用于坏通道检测）和两个为发展性研究设计的自动去除伪迹流程——HAPPE和MADE。

NEAR脚本和示例数据集可供大家免费使用。附录中提供了逐步使用NEAR的教程。

材料和方法

2.1训练和测试数据****2.1.1.新生儿数据

新生儿训练和测试数据集都用125导的EGI EEG系统采集记录，头皮电压以顶点为参考，采样率为250Hz。实验中的视觉刺激通过正弦周期动态呈现（每个刺激的可见性相对于灰色背景从周期开始时的 0%逐渐上升到周期中期的100%，然后逐渐降到0%），频率为0.8Hz（频率标记范式）。

训练数据集实验中的视觉刺激由一组4 或 12 种颜色的简单几何形状组成，以 50s为单位呈现或直到被试不再注意；形状、数量和空间排列在每个block内是恒定的，在block是随机变化的。

测试数据集中的视觉刺激由包含三个黑色正方形的白色头部形状组成，其不同之处在于三个方块的空间形态，以形成三种刺激形态（正立面孔、倒立面孔和杂乱面孔）。刺激以 50s为单位呈现，或直到被试不再注意。

2.1.2.婴儿数据集

婴儿训练和测试数据集使用125导的EGI放大器，以500 Hz的采样率和200Hz的低通滤波器获得。

这两个数据集，每个试次都以一个由实验者(训练数据集)或婴儿的母亲(测试数据集)提供的真实听觉刺激开始，同时在遮挡器上呈现一个动态的固定刺激(一个彩色矩形343×363像素)。在实时听觉刺激结束后，固定刺激停止移动，显示屏静止600–800ms。然后固定刺激消失，遮挡器开始向前倾斜露出其后面的物体。该物体位于黑色背景上，在遮挡器开始上升之前1000ms内完全可见，再次隐藏该物体。随后是一个持续1100–300ms的试次间隔。

2.2.NEAR

NEAR预处理流程由一组自定义MATLAB脚本组成，可以在EEGLAB框架内作为全自动EEG预处理执行。其核心的创新部分包括伪迹去除：坏通道阈值检测（LOF）和ASR截止参数的初步校准，用LOF算法检测坏导和用ASR校正/删除坏段，两者都可以对原始结果进行可视化。此外，研究者提供了一个从原始数据到干净数据的全自动EEG预处理的（基于EEGLAB的）脚本：原始数据的载入和滤波，插值坏导和重参考。可根据实际应用的需求，对这些步骤进行修改。

图1展示了NEAR预处理的流程。之后几节将详细解释每个步骤，附录中提供了逐步的教程，包括讲解NEAR去除伪迹的主要步骤。

图1.NEAR流程示意图。绿色框表示伪迹去除部分。

2.2.1.导入原始数据

NEAR支持四种主要格式的导入功能：.mff、.raw、.set 和.edf。研究者考虑这些格式是因为大多发展性EEG原始数据都有这些类别。至于其他格式，可以使用EEGLAB工具导入，并在生成的EEGLAB格式.set上使用NEAR。

2.2.2.带通滤波

带通滤波的基本原则是：便于后续分析,且保留要分析的信号的频率范围，并滤掉较高和较低的频率，尤其是那些可能包含伪迹的频段。在高频段，最好使用截止频率低于交流电工频频率（50Hz或60Hz）的低通滤波器，避免工频干扰。在低频段，即低于1Hz的频段，这些EEG信号通常包含眼动、呼吸和心跳等伪迹。因此研究者建设使用保留感兴趣信号最高频段的高通滤波器，注意滤波器衰减的宽度。在ERP设计的情况下，要考虑虚假效应的情况。对于新生儿数据，研究者使用截止频率为40 Hz的低通FIR滤波器（使用 EEGLAB 的默认滤波器）。考虑到分析内容，需要将频率成分保持在0.5Hz以下（详见神经测量：FTR部分），使用了0.15和0.3Hz之间的非因果高通滤波器和80dB的阻带衰减。婴儿数据使用默认的 EEGLAB 滤波器在0.3-30Hz之间进行带通滤波。

2.2.3.数据分段

对于涉及刺激范式的研究，识别新生儿/婴儿EEG中记录的相关数据的关键预处理步骤是，将数据分析限制在新生儿/婴儿有效关注刺激的时间间隔内。因此，研究者建议根据刺激对数据进行分段（即对连续刺激的刺激周期进行分段，或者在事件相关设计的情况下对事件相关进行分段）。除此之外，对于视觉刺激，研究者建议使用相机或眼动仪来记录新生儿/婴儿，并且需要良好的光线条件以确保清晰地监测眼球运动，特别注意确定有效的观看时间。这个预处理步骤至关重要，因为不仅可以最大程度减少数据中的噪声，而且还删除了（被试）没有注意的数据段。这些数据段的删除带有很大的主观性，可能会导致后续伪迹分析出现偏差。出于这个原因，此步骤是在检测坏导和分段之前完成。

对于静息态EEG研究，可以对脚本自行调整，以保留已知先验数据的好段（或删除坏段）。详见附录第4步。

2.2.4.坏导检测

在新生儿/婴儿的EEG数据里检测坏导很有挑战性，由于降低电极阻抗时间短和频繁的运动伪迹，（新生儿/婴儿的）电极接触的稳定性远低于成人数据。特别是对数据进行初步检测后，研究者意识到现有的坏导检测方法对新生儿EEG数据过于严格。为了克服此问题，研究者实现了一种算法，其核心步骤为基于LOF的新型坏导检测方法，LOF是一种稳固健全的数据驱动的异常值检测器。算法三步骤如下：

2.2.4.1.平直信号

由于与头皮接触不良或者与记录设备断开，有时电极会记录平直信号，为了删去这些通道，研究者采用EEGLAB clean_rawdata插件中的函数clean_flatlines(https://github.com/sccn/clean_rawdata)。如果通道连续记录平直信号超过5s，则该情况下默认将通道标记为平直。

2.2.4.2.局部异常值
传统的居于均值、中位数、IQR或平均绝对偏差等统计指标的异常值检测方法，对于新生儿EEG的异常值过于敏感。为了应对此挑战，研究者（首次在EEG数据分析背景下）引入了一种名为局部异常值（LOF）的稳固无监督方法，这是一种基于密度的数据驱动法，来检测和删除坏导。该技术在多维通道空间中运行，其中通道之间的“距离”被计算为与每个通道相关的活动向量（即每个EEG信号的时间序列）之间的稳固距离估计（平方欧式距离（MATLAB中的“seuclidean”））（不要与通道之间的物理距离相混淆）。准确来说，它分配了每个通道一定程度上取决于相对于其K个相邻通道的独立程度的“局部异常值”。为了证实 LOF 算法的效率，研究者展示了包含样本数据簇的图2。假设 C1和 C2是两个主要簇，O1和 O2是两个附加对象。如图2所示，对象 O1和 O2都是各自簇 C1和 C2的异常值。虽然大多数基于统计和基于距离的算法都能正确地将 O1捕获为异常值，但 LOF 作为一种基于局部密度的方法也能够识别像 O2这样的异常值。1）对于每个通道p，LOF算法根据距离度量（默认情况下， NEAR 流程中的平方欧式距离）识别k近邻。2）计算通道p和每个相邻点之间的可达距离。比如考虑通道o，它位于通道p的k个相邻点内。然后，p和o之间的可达距离计算如下：

其中d(p,o)是两个通道向量之间的实际距离。直观地说，如果通道 p 离 o 很远，那么可达距离为它们的实际距离。相反，如果它们“足够”接近，则实际距离将替换为通道o的k距离。

3）计算出每个通道相对于其相邻点的可达距离后，局部可达密度（LRD）确定如下：

换句话说，通道p的LRD是基于p的k近邻的平均可达距离的倒数。直观地说，如果通道p是异常（即坏）通道，则其LRD将较低，因为它不容易被它的相邻通道达到。4）局部异常值 (LOF) 计算如下：

通道p的LOF是p的LRD与p的k近邻LRD之比的平均值。p的LRD越低，p的k近邻的LRD越高，p的LOF值就越高（因此可能是一个异常值）。换句话说，与相邻通道（平均）相比，离群通道的LRD较低（因此距离较大）。

图2.包含两组数据（C1和C2）和两个异常对象（O1和O2）的样本数据集。

可以注意到k是LOF计算中的超参数。在此项工作中，研究者使用自然领域算法来计算数据驱动的k值。研究者调整了基于MATLAB的LOF算法实现（基于密度的异常值检测算法，https://github.com/BlueBirdHouse/DDoutlier）以使其与EEGLAB数据结构兼容。此外，在对应用LOF的EEG数据进行系统研究后，发现标准化欧式距离度量（在 MATLAB 中定义为“seuclidean”）在计算 k距离（knnsearch 函数，MATLAB）方面优于默认欧氏距离。

一旦为给定数据集中的所有通道计算了LOF，就必须设置一个阈值，将内部通道与异常通道分开。在最初的理论中，如果一个通道的 LOF大于 1.5将被视为异常通道。考虑到这项工作中 EEG 数据的应用，研究者提出了一种自适应方法，通过基于坏通道的标准评分从训练数据集中估计 LOF的最佳阈值（参见第 3.2.1 节)。

2.2.4.3.周期图分析

为了检测主要记录运动相关伪迹的通道，这些伪迹表现为Beta范围内功率的增加，以及Delta和Alpha范围内功率的降低，研究者实施了一种基于光谱测量（周期图函数，MATLAB）的坏导道检测方法。对于本文分析的数据集，研究者注意到虽然这种方法捕获了最重要的坏导，但它们至少已经被前两个步骤中的一个检测到。因此，研究者在NEAR的坏导检测插件中将此方法作为可选方法（参见附录中的图A1）。

2.2.5.使用伪迹子空间重建（ASR）去除伪迹

ASR是一种自动伪迹去除技术，用于检测/去除连续EEG数据中的瞬时高振幅伪迹。它是一个开源的EEGLAB插件函数clean_rawdata。ASR 已经在模拟数据和使用移动设置的成人被试获取的真实EEG上进行了广泛测试。由于它高效的伪迹消除，ASR现在被认为是EEGLAB框架内默认的预处理算法之一。然而，迄今为止，ASR仅根据成人EEG数据进行评估。在这项工作中，研究者第一次在噪声较大的发展性EEG数据上评估ASR，并将其作为流程中的核心模块之一。此外，研究者还提出了一个校准程序，使ASR算法适应发展性数据。ASR按照以下三步骤处理伪迹：

2.2.5.1. ASR算法1）首先，ASR根据预定义的EEG类数据的稳定统计分布识别更干净的数据部分。

2）然后，ASR对获得的干净数据段进行主成分分析（PCA），以提取拒绝阈值，定义如下：

其中i是主成分 (PC) 指数，μ和σ是相应的均值和方差，k是使用者定义的乘法SD因子（也称为ASR截止参数）。3）使用提取的阈值T，ASR识别原始数据上的伪迹子空间，并使用根据数据更清晰的部分获得的统计数据重建。

为了将 ASR 校准到新生儿/婴儿EEG数据，研究者分析了ASR两个关键的用户定义参数：

2.2.5.2. ASR截止参数(k)

ASR 根据数据的较干净部分中提取的PC 的均值和方差，定义了上限阈值来代表类EEG 成分的PC。所以超过此阈值的成分很可能是伪迹。阈值按照上一小节的步骤 2)中的定义进行计算。可观察到，较低的k值意味着较低的阈值，也意味着严格的伪迹检测（即检测到更多伪迹）；更高的k值意味着对数据的检测更宽松（即检测到的伪迹更少）。对于成人EEG，最佳k值在20到30之间。但ASR 参数k从未在发展性数据上进行过评估。

2.2.5.3. 处理模式

使用 clean_rawdata 插件，ASR可以在两种不同的模式下运行：ASR校正（以下简写为 ASR_C），其中数据的不良部分被校正为“类EEG”的数据，以及 ASR 去除（简写为ASR_R），其中检测到的不良部分从数据中删除。为了将这两个参数校准到新生儿 EEG 数据中使用，在训练数据集上执行了网格搜索（见结果）。

2.2.6. 插值坏导

使用 EEGLAB 的函数 pop_interp 从相邻通道中对移除的通道进行插值。正如 EEGLAB 开发人员建议的那样，研究者使用球面插值。如果使用NEAR流程，可以使用其他所支持的技术，例如v4。

2.2.7. 重参考

对于重参考，NEAR提供了平均重参考（推荐且最常用于发展性EEG研究）和特定于通道（例如Cz）的重参考。此步骤中，NEAR使用 EEGLAB的 pop_reref 函数。

2.2.8. 伪迹去除标准

NEAR 的一个关键特征是对其伪迹去除参数（LOF坏导阈值、 ASR参数k和ASR处理模式）的初步校准。研究者为此校准提供脚本，并且强烈建议使用NEAR的人在以前分析的数据集上执行它，这些数据集来自相同的设置和实验设计，因为这些参数会影响预处理的质量（参见第3.2.1节NEAR参数校准）。

2.2.9. NEAR的其他功能

NEAR支持单被试处理和批处理（在多个被试的情况下）。这些功能的相关脚本可以在存储库中找到。最后，NEAR支持保存功能并提供综合报告，能够概括对每个输入 EEG文件进行的预处理。该报告有助于查看预处理对原始EEG的影响。

2.3. 验证工具

2.3.1. 模拟数据

使用基于Matlab 的工具箱——SEREEGA生成模拟数据。它模拟出的EEG 数据集，包括神经生理学上真实的连续/事件相关的大脑活动。研究者生成了两个数据集，分别模拟了带有频率标记刺激和事件相关刺激的新生儿EEG数据。更具体地说，研究者生成了一个包含以下成分的64导EEG数据集：

2.3.1.1. 成分1

刺激响应，频率标记刺激为正弦稳态视觉诱发电位(SSVEP)（刺激频率=0.8 Hz），事件相关刺激为事件相关电位（潜伏期=300 ms）。这两种响应均位于早期视觉皮层的双侧源（MNI坐标：[-8-76 10]和[8-76 10]）。

2.3.1.2. 成分2

与事件无关的持续EEG活动，源自62个随机选择的皮层源加上位于早期视觉皮层第一个成分的双侧源。这样的活动为了模仿在新生儿中观察到的布朗噪声（功率谱增加为 1/f²，f→0）的形式生成的。重要的是，成分1和成分2之间的信噪比和真实、无伪迹的新生儿EEG数据上测量的信噪比具有相同量级。

2.3.1.3. 成分3

（5个随机选择的）单个通道中的伪迹，包括间歇性电位偏移、模拟电不连续性的平直信号、模拟局部不良接触和运动伪迹的低频波动（0-10Hz）；

2.3.1.4. 成分4

涉及所有通道的瞬态高幅伪迹，以间歇性突发电位偏移或更平滑的类似高斯波动的形式出现，其中每个通道的每个瞬态伪迹的幅度和持续时间随机变化（平均持续时间1.6s）。持续时间和幅度与在真实新生儿数据中观察到的数量级相同。该成分模拟了新生儿常见运动伪迹。

图3展示了该模拟很好地代表了新生儿EEG持续活动和伪迹的主要特征。生成模拟数据集的脚本可在https://github.com/vpKumar avel/中获得；结果中描述的模拟数据集可在此处获得：https://osf.io/79mzg/

图3.上图：新生儿EEG数据；下图：模拟EEG数据。数据以蝶形模式显示（所有电极信号重叠）。

2.3.2. 标准的半自动专业伪迹去除程序

用专家执行的标准半自动伪迹处理（以下简称为标准）作为参考，研究者报告了一些原始论文中执行的伪迹去除的原始程序，这些论文采集了新生儿和婴儿数据集。他们的坏导评分将作为校准和验证NEAR坏导检测算法的参考标准评分。

2.3.2.1. 新生儿

在带通滤波和分段后，在两个数据集上都检测到了坏导。如果通道有以下情况，则被标记为坏导：

1)标准偏差（用TrimOutlier工具箱计算整个数据长度:https://sccn.ucsd.edu/wiki/TrimOutlier）高于150μV（检测具有高振幅伪迹的通道）或低于1μV（检测平坦或响应较弱的通道）；

2)在对可疑通道的时间进程和功率谱图进行准确的目视检查并与其相邻通道进行比较后，显示出伪迹形式。

删除坏导后，坏段的检测基于 1) 振幅突变超过200μV；2）目视检查EEG数据的时间过程和地形中的突发性伪迹。

2.3.2.2. 婴儿

这两个婴儿数据集都是自动和手动处理的。在任何通道内80 ms滑动窗口的平均振幅超过±200μV时，对运动伪迹和眼动自动拒绝。将至少40%的时段被标记为拒绝的通道视为坏导。坏导会在小于10%有伪迹的情况下自动插值；包含超过10%伪迹的被自动拒绝。然后通过对每个时刻点的目视检查手动处理数据。

2.3.3. 其他坏导检测方法

为了验证NEAR拒绝坏导相对现有方法的效果，研究者考虑了以下三种最先进的拒绝坏导方法：

1）EEGLAB默认函数clean_rawdata (CRD，https://github.com/sccn/clean_rawdata) 检测平直信号通道、被高频噪声污染的通道以及与相邻通道无关的通道。

HAPPE使用 EEGLAB的pop_rejchan 函数，根据振幅和频谱阈值（z分数阈值=3而不是EEGLAB默认值5）检测坏导，运行两次以避免有残留的坏导。

3）FASTER通过计算通道之间的时间相关性、方差和基于赫斯特指数的分数来检测坏导。

2.3.4. 用于去除发展性EEG数据中伪迹的其他自动流程

2.3.4.1. MADE

Maryland的发展EEG分析 (MADE) 是专为发展性人群开发的自动化、标准化的预处理流程。MADE使用FASTER删除坏导和ICA 以修正数据中的伪迹。不良ICs可以使用Adjusted-ADJUST来自动分类，这是专为婴儿数据开发的改进的ADJUST版本。通过使用预定义的振幅阈值，去除残留的眼动伪迹。MADE已在1岁至儿童期（3-6岁）和青春期晚期（16岁）的数据上得到验证。

2.3.4.2. HAPPE

哈佛EEG自动处理流程（HAPPE）是用于含高度的伪迹且记录时间短的发展性EEG的标准化自动化流程。HAPPE流程由9个步骤组成，包括使用pop_rejchan.m和小波集成ICA分解来恢复伪迹片段。坏ICs使用MARA 。HAPPE已在静息态发展性（年龄在3至36个月之间）EEG数据上得到验证。由于HAPPE不适合于事件相关的设计，研究者仅在连续数据集上将其与NEAR进行比较。

2.3.5. 用于校准和验证的神经测量

2.3.5.1. 频率标记设计：FTR

为了通过校准ASR参数和整个NEAR验证，计算刺激相关EEG响应的信噪比，研究者使用定义中相同的测量。EEG数据分段成部分重叠的10s时间段（重叠在时间段长度的一半到四分之三之间变化，以适应干净数据片段的可变长度）。对于每个电极，使用快速傅里叶变换算法（MATLAB函数FFT）计算每个时间段的傅里叶变换F（f）。为了避免拒绝短于10s但可能包含相关神经信号的数据段，在FFT之前，对5~10s之间的数据段应用10s的零填充。短于5s的数据段将被丢弃。功率谱是根据这些傅里叶系数计算的，所有段中的单段功率谱均值：

将标记频率（0.8 Hz）下的频率标记响应（FTR）计算为标记频率处的功率谱与背景功率之间的比率，即从六个相邻频率单元（0.3 Hz）估计的功率谱的在0.8 Hz 处的幂律拟合值，其中幂律拟合是通将六个相邻频率条柱处拟合一条线来计算的（MATLAB的Polyfit函数）。

2.3.5.2. 事件相关电位设计：SNR（ERP）

作为用于ASR参数校准的ERP的信噪比（SNR），研究者根据最近提出的标准化测量误差（SME）计算了该信噪比。SME是基于其逐个试次变异性对ERP评分（在一个时间窗口和一组电极上计算）测量值中噪声的估计：

其中，SD（ERPtr）表示单个试次ERP在一个时间窗口和一组电极上的平均标准差（跨试次），N是分段数。对于每个受试者，SNR（ERP）是ERP（试次平均）与SME之间的比率。

结果

3.1. 模拟数据上的 NEAR 验证

研究者在两个合成EEG数据集上验证了NEAR，模拟的EEG信号了包含0.8 Hz的SSVEP（类似于频率标记数据集）和ERP响应（类似于ERP数据集）。两个数据集都包括新生儿/婴儿EEG数据的三个关键组成部分：模拟布朗噪声的背景EEG，模仿不良或不稳定电极接触点的单通道伪迹，模拟运伪迹的在多数通道的瞬态高振幅波幅。信噪比、数据持续时间和伪迹比例与真实数据相似。由于很难在模拟数据内整合足够的变异性，来生成真实不同的训练和测试数据集，研究者将 NEAR 参数设置为预定义的值：LOF阈值=2和ASR参数k=20。

3.1.1. 频率标记数据集

真实值数据（SSVEP加类布朗噪声的背景EEG）显示，在刺激频率（0.8 Hz）处，功率谱中有一个明显的峰值，该峰值与背景EEG功率谱不同（图4，蓝线）。相关FTR在0.8 Hz时，地形图显示内侧后部整体激活（图4，下图）与模拟中生成的早期视觉皮层源完全兼容（详见第2.3.1节）。伪迹导致低频功率谱出现大规模的正向漂移，几乎完全掩盖了SSVEP响应峰值（图4，红线）。因此，在0.8 Hz时其FTR的地形图没有显示出任何显著的后部激活（图4，下图）。NEAR坏导检测算法有效地捕获了模拟的5个坏导。ASR_R非常有效地从数据中删除了所有瞬态伪迹段：功率谱中刺激频率处产生的峰值几乎与真实值数据的峰值重叠（图4，黄线），并且其FTR在0.8 Hz时的地形图与真实值数据（图4，下图）非常相似。ASR_C效果稍差：在恢复功率谱峰值时，其振幅低于真实值数据，低频下功率谱整体向下偏移（图4，红线）。这可能由于：虽然ASR正确检测并删除了所有瞬态伪迹，但也校正了SSVEP和背景EEG的一部分。然而，即使振幅略低，其FTR地形图与真实值数据的地形图非常相似（图4，下图）。为了与最先进的伪影去除方法进行比较，研究者还测试了MADE和HAPPE。MADE几乎无法校准或删除任何瞬态伪迹，其功率谱（图4，绿线）及 0.8 Hz地形图（图4，下图），都与受污染的数据非常相似。HAPPE则更成功：它纠正了大多数低频伪迹（图4，天蓝色线），在FTR（地形图）中显示与基本事实相似的后部激活，尽管在两种功率谱中均具有比真实值数据情况和使用ASR的NEAR处理低得多的振幅（图4，下图）。正如作者强调的，这种总体振幅减小的基本原理可能是由于基于小波的ICA阈值。

图4.上图：模拟频率标记数据集0.5和1.1Hz之间的功率谱，电极点平均后显示，在真实值数据（PO3、POz、PO4）上的FTR振幅最大。下图：0.8 Hz（刺激频率）时的FTR地形图。

3.1.2. ERP数据集

ERP数据集的结果与频率标记数据集的结果非常相似。真实值数据的ERP在0到200ms附近轻微波动，然后在300ms（峰值潜伏期）上升，之后再次下降（图5上图的蓝线）。其峰值潜伏期的集中位于地形图后方（图5，下图）。伪迹导致ERP甚至在刺激开始之前就虚假上升，尽管在后侧电极中可看到ERP峰值（图5上图的红线），但峰值潜伏期的地形图有很多噪声（图5，下图）。NEAR的坏导检测算法有效地捕获了模拟的5个坏导。在这种情况下， ASR_R从数据中去除所有瞬态伪迹：300ms处的ERP峰值几乎与真实值数据重叠，即使ERP轮廓在更高的延迟下有噪声（图5上图的黄线），可能是试次数量较少的原因。300 ms处的地形图与真实值地形图非常相似（图5，下图）。ASR_C的ERP峰值振幅低于真实值，但峰值外的ERP轮廓非常干净，零点左右波动较小（图5，红线）。300ms处的ERP波形与真实值的波形一样干净（图5，下图）。相比之下，在这种情况下，MADE也无法去除电极上显示的后部激活伪迹（图5上图的绿色）。尽管在300ms处的波形显示出，在去除电极的其他伪迹有一定程度上的成功，但远不如NEAR（图5，下图）。

图5.上图：模拟刺激开始前后的ERP，电极点平均后显示出，在真实值数据（PO3，POz，PO4）中的ERP幅值最大。下图：ERP地形图分布平均在275到325ms之间。

3.2. 在新生儿数据上验证NEAR

3.2.1. NEAR参数校准

研究者首先在训练数据集上校准了坏导检测算法和ASR的参数。

3.2.1.1. 校准LOF坏导检测

对NEAR的坏导检测算法（平直信号+LOF）的测试，通过将其与原论文中实现的标准坏导检测分数进行比较（详见第2.3.2节），质量指标 F1 分数定义为

其中 TP、 FP 和 FN 分别表示准确、误报和漏报的数量。通过将LOF阈值从1更改为10，步长为0.1，研究者发现最大F1分数的阈值为2.5（图6）。因此，研究者选择此值对新生儿的测试数据集执行坏导检测。

图6.使用 F1分数作为新生儿训练数据集的评估指标，来调整 LOF到最佳阈值。阈值为2.5 时，F1得分最高。

3.2.1.2. ASR的校准

为了确定最佳的ASR参数k和处理模式，研究者在新生儿训练数据集上应用ASR，同时系统地将ASR参数k在1和100之间变化，用于两种处理模式（坏段去除（ASR_R）和校正（ASR_C））。通过目测检查初步去除坏段后，研究者在枕部发现了广泛电极簇，显示出视觉反应（图7）；然后，研究者计算了每个k和处理模式的预定义枕部簇中的平均视觉反应FTR（参见材料和方法）。结果表明，两种处理模式的FTR最大值相似，但两种模式的k值不同：k=24用于去除模式，k=13用于校正模式。这种差异可能是因为，虽然k在20~30时校正不是很有效，而k<15时，去除模式会拒绝许多段，导致样本太少，无法可靠地计算FTR。由于两种处理模式在其最佳的k值提供了等效的结果，研究者将在验证阶段测试这两种模式。

3.2.2. NEAR验证

3.2.2.1. NEAR坏导检测

通过校准确定了最佳参数后，研究者使用它们来验证新生儿测试数据集上的NEAR伪迹去除。首先，通过评估NEAR与原始研究中实施的坏导评分方面的匹配程度，来验证NEAR的坏导检测方法的效果，这里的（原始研究）被认为是真实值数据。研究者还将其性能与三种最先进的方法进行了比较：EEGLAB默认的函数clean_rawdata（CRD）和两种流行的坏导检测方法。专门用于婴儿EEG数据的流程，HAPPE和MADE（后者使用FASTER为坏导检测工具）。如表1所示，真实值中坏导的数量在受试者之间差异很大，从最小值0到最大值为14。结果表明NEAR是最能捕捉这种高变异性的工具（F1得分=0.81）。其他所有方法都倾向于标记更多的坏导（因此，对真实值有更多的误报）。

表1显示了，与其他方法相比（标准、clean_rawdata (CRD)、HAPPE 和FASTER)，NEAR坏导检测方法的性能情况。

3.2.2.2. NEAR整体验证

通过测试 NEAR处理后的EEG数据是否在文中描述的两种主要神经反应上有统计学意义，来验证NEAR去伪迹整体效果。1）比较标记频率下的功率与在枕骨电极簇中相同频率下估计的背景功率，得出EEG对整体视觉刺激的响应；2)类面孔模式响应，将类面孔刺激与倒置类面孔刺激的FTR在后部电极簇上进行比较。将NEAR性能与使用原论文中的标准伪迹处理的效果进行比较和两个用于发展性数据的伪迹去除流程（MADE和HAPPE）。【MADE和HAPPE均未配备检测平直信号通道的方法。由于平直通道在这些方法中，使用的ICA分类算法中会报错，所以对数据应用MAKE和HAPPE之前将其删除】因为用于计算 FTR的干净段太短，测试数据集上使用ASR（两种处理模式）去除伪迹导致一个被试数据被拒绝。为了确保公平比较，研究者将所有考虑方法的结果验证限制在剩下9名被试中。对于视觉反应，即使少了一个受试者，标准处理也会产生显著效果（图8，第一行，左图）。与标准处理相比，ASR_R导致标记频率处的功率峰值稍低，同时背景功率也有类似的降低（图8，第二行，左图），可能是由于更有效的降噪以及轻微的功率降低。这个微小的差异对 FTR 的分子和分母产生了同等影响，获得了等效于标准处理的显著效应，和一个在统计上与标准模式无法区分的响应：（被试在标记频率下的功率和背景的差异，在标准方法和ASR_R之间的配对t检验差异不显著。ASR_C产生的功率谱进一步降低，特别是在标记频率下（图8，第三行，左图），可能是由于坏段中对稳态响应的重建略微次优。尽管如此，统计效果也很显著，响应仅略低于标准模式（如上的配对t检验差异不显著）。相反，由MADE处理产生的功率谱的整体轮廓明显高于来自标准模式的功率谱，并且在低频（<0.8 Hz）时有更大的方差，可能是残余低频伪迹的影响（图8，第四行，左图）。尽管如此，在这种情况下视觉响应也具有统计学意义，尽管略低于使用 ASR_R获得的结果和标准校正的结果。HAPPE （图8，第五行，左图）也恢复了视觉响应的统计显著的峰值，但明显低于ASR_R、ASR_C和标准处理。对类面孔模式响应的验证显示了类似的结果。使用ASR_R处理的NEAR恢复了统计上的显著效果，并且类面孔响应在统计学上等同于通过标准处理获得的响应（对标准流程和ASR_R,在被试的类面孔模式和倒置类面孔模式的FTR之间的差异，进行配对t检验，差异并不显著(图8，第一行和第二行，中间图）。使用ASR_C获得了类似的结果：显著的类面孔效应，与标准模式没有显著差异(图8，第三行，中图）。然而，MADE处理导致谱峰较浅（图8，第四行，中图），相较于ASR_R和标准处理，仅恢复了略微显著的类面孔效果。HAPPE处理导致更小的峰（图8，第五行，中图），没有报告显著的类面孔效应，尽管在这种情况下与NEAR两种方法的差异不显著，但也和标准处理不一样（与标准处理差异显著）。这些结果反映在单被试的反应中（图8，右图）：使用ASR_R和ASR_C的NEAR像标准处理一样，恢复了所有被试对面部图案的偏好，但两个经过 MADE 和 HAPPE 处理的受试者显示出相反的效果。

图8.在原始新生儿测试数据集中获取具有统计学意义的神经反应方面的NEAR性能。每行对应一个伪迹去除方法：标准处理、使用ASR_R的NEAR、使用ASR_C的NEAR、MADE和HAPPE。左图：整体视觉刺激引起的功率谱。中图：与正立（红线）类面孔刺激和倒置（蓝线）类面孔刺激相关的功率谱。右图：正立（红条）和倒置（蓝条）类面孔图像的单被试的FTR。

3.3. 在婴儿数据上验证NEAR

尽管NEAR已用于去除新生儿连续EEG数据中的伪迹，但研究者通过将NEAR应用于ERP范式记录的9个月大的婴儿的EEG数据集，证实了NEAR在去除使用事件相关设计范式的较大婴儿EEG数据的伪迹时，也是有效的。

3.3.1. NEAR参数校准

遵循与新生儿相同的程序（第3.2.1节)，在婴儿训练数据集上校准了坏导检测的LOF阈值。通过使用F1分数作为质量指标，得到的最佳 LOF阈值为2，比在新生儿数据上获得的低0.5。

同样，通过对ASR参数k的校准产生了ASR_R的k=21和ASR_C的k=3的最佳值。与在新生儿身上获得的结果相比，ASR_C的k参数远低于ASR_R。

3.3.2. NEAR验证

3.3.2.1. NEAR坏导检测

与新生儿数据一样，通过评估NEAR的坏导检测方法匹配婴儿测试数据集上的标准坏导检测，来验证其性能。为了比较，研究者还测试了三种最先进方法的性能：CRD、HAPPE和FASTER。对于新生儿，NEAR的坏导检测算法与标准评分的匹配度最高。

3.3.2.2. NEAR整体验证

然后，对于新生儿，通过直接与原文中手动预处理获得的主效应做比较，得到的统计显著性来验证NEAR预处理的整体性能：不一致和一致条件之间的N400 差异响应在右侧感兴趣区域高于左侧（图 9）。

还将NEAR的性能与用于开发数据MADE的最先进的伪迹去除流程进行了比较。

结果表明，在条件因素和半球因素影响下恢复方差分析显著性结果的唯一方法是ASR_R，而ASR_C和MADE没有观察到显著效应。更具体来说，使用ASR_R的NEAR在右半球产生了明显的一致性效应，而左半球没有，类似于标准处理（图9，前两行）。与ASR_R相比，使用ASR_C的NEAR产生了类似但更小的效应（图9，第三行）。MADE在同一方向上也表现出半球之间的一致性差异，但一致性条件高于其他方法（图9，第四行）。然而，三种方法之间的效应大小差异不显著。

图9.每种处理模式的事件相关电位 (ERP) 结果：标准处理、NEAR分别使用ASR_R、 NEAR使用ASR_C和MADE。

讨论

本文介绍了NEAR，这是一种将原始发展性EEG数据转换为可用于后续分析的干净数据的流程。研究者证实了NEAR的伪迹去除流程可以有效地去除新生儿和婴儿EEG数据中的伪迹（高灵敏度），同时保留神经源的EEG信号（高特异性）。NEAR有望促进在发展性EEG社区内建立更客观和可重复的预处理程序

4.1. 一种非典型伪迹的去除方法

新生儿EEG数据中最大问题和最主要的伪迹是涉及可变通道集的非典型瞬态高幅度波动。通过专门模拟这些伪迹，研究者表明NEAR中包含的ASR处理在检测和删除这种伪迹时非常有效。另一方面，基于ICA的方法如MADE和HAPPE未能处理这些伪迹，很可能是因为这些方法的开发主要是用于检测典型的伪迹。值得注意的是，MADE和HAPPE在新生儿EEG数据上比在模拟数据上更成功，这可能是因为真实的新生儿EEG伪迹比随机生成的模拟伪迹更典型。正如如下所讨论的那样，结合非典型和典型伪迹的检测方法，可能是处理广泛的EEG伪迹的解决方案，特别是在发展性数据中。

4.2. ASR 参数校准

NEAR使用的一个核心工具是ASR，一种有效的算法，但仍依赖于一些用户定义的参数。这些参数的选择是可变的：对这个问题最系统的调查表明，成人ASR的k参数的最佳值位于“20到30之间”。此外，虽然ASR默认处理模式是从伪迹中校正数据（最初目标是为了实时应用程序提供高效算法），EEGLAB软件的主要开发人员建议删除由ASR识别的坏段，因为ASR校正对数据的影响“尚不清楚”（https:eeglab.org/tutorials/06_RejectArtifacts/cleanrawdata.html）。本研究证实，ASR性能在很大程度上取决于ASR参数k和处理模式的选择。不同EEG设置之间的发展性EEG数据质量可能有很大差异，不同的数据分析可能需要不同的阈值。因此，研究者提出了一种自适应ASR方法：在先前采集的具有相同EEG设置的数据集上运行ASR，并对当前数据采取相同的分析，找到最能恢复该数据集上观察到的EEG效应的k值和处理模式。研究者为此校准过程提供了一个脚本，建议NEAR用户在将NEAR应用于新记录的数据之前执行该脚本。

4.3. 伪迹去除与校正

在模拟数据上测试ASR表明，去除模式比校正模式在去除伪迹方面更有效；模拟结果表明，虽然校正有效地减少了伪迹，但也严重削弱了潜在的神经活动。这种效应在新生儿和婴儿数据上应用NEAR同样存在。研究者建议，在采用EEGLAB进行离线分析时，使用默认设置中的去除模式，除非校正模式在某些训练数据集上的性能明显更好。在这两种处理模式下，建议用户注意被拒绝（在 ASR_R的情况下）或校正的数据量（在 ASR_C的情况下）以及处理信号中均方根方差的减小。特别是对于ASR_C，建议用户自定义这些值，为被试设置纳入组水平分析的标准。

4.4. 在其他实验设计中使用NEAR

NEAR已经通过在频率标记范式上测量SSVEP和在事件相关设计上测量ERP进行了训练和验证。NEAR的自适应方法提供了一种直接的策略，可以将NEAR参数调整为来自其他实验设计的数据，其中包括事件相关测量(如时频分析）或静息态测量（如特定频率范围内的（去）同步或连接性测量）。

4.5. 结合NEAR与ICA去除发展性EEG数据中的伪迹

与NEAR相比，用于去除发展性数据伪迹的流程MADE在新生儿和婴儿数据上的表现稍差，主要是因为它在去除低频伪迹方面的效率不高。造成这种差异的两个可能原因：

1）MADE的坏导和坏段识别工具没有针对新生儿EEG数据进行校准；2)如上所述，ICA去除伪迹的效果受到以下限制：新生儿EEG数据中的大多数伪迹都是非典型的，因此不容易被ICA捕捉到。尽管如此，ICA（尤其是Adjusted-ADJUST），对NEAR之后的进一步处理步骤可能是有效的，因为它可以从残留的典型伪迹中校正数据，而无需任何进一步的删除数据。然而，对于具有高密度系统的发展性EEG数据的有效ICA分解可能存在的一个问题是：干净数据段的持续时间非常有限。对此，可使用PCA进行降维，而不是减少电极的数量（这将大大降低EEG的空间分辨率，不利于潜在源重建)。然而，PCA在EEG数据上的应用有很大的局限性；因此，研究在短时间高密度EEG数据上运行ICA的可替代方法将是非常有用的。

NEAR获取网址

NEAR开源软件可在https://github. com/vpkumarvel/NEAR 网址上获取。本文中分析的测试数据集可在https://osf.io/79mzg/上免费获取。附录中包含使用NEAR的逐步教程。

原文：NEAR: An artifact removal pipeline for human newborn EEG data.

https://doi.org/10.1016/j.dcn.2022.101068

需要原文资料的小伙伴，可以添加茗创科技周翊工程师的VX：MCKJ-zhouyi或致电17373158786。另外，茗创科技创建了文献互助群，为大家提供免费帮忙下载文献服务、技术咨询、前沿研究和电子书等海量学术资源分享。

NEAR：新生儿EEG数据的伪迹去除流程

导读

引言

材料和方法

结果

讨论

你可能感兴趣的:(NEAR：新生儿EEG数据的伪迹去除流程)