【论文阅读】Persistent Homology Captures the Generalization of Neural Networks Without A Validation Set

将神经网络表征为加权的无环图,直接根据模型的权重矩阵 构造PD。 计算相邻batch的权重矩阵PD之间的距离。 比较同调收敛性与神经网络的验证精度变化趋势

摘要

机器学习从业者通常通过监控模型的某些指标来估计其泛化误差,并在训练数值收敛之前停止训练,以防止过拟合。通常,这种误差度量或任务相关的指标是通过一个验证集(holdout set)来计算的。因为这些数据没有直接用于更新模型参数,通常假设模型在验证集上的表现可以作为泛化误差的代理,只要验证集具有代表性,能够代表模型在推理时面对的数据。

然而,如果验证集在超参数搜索中被重复使用,模型可能会对其过拟合。因此,是否能够通过模型的某些内在属性来估计泛化误差是一个非常值得探索的问题

在本研究中,我们的目标是:在将神经网络表征为加权的无环图,并将其表示为代数拓扑对象的基础上(遵循先前的研究),计算神经网络在训练过程中的不同状态之间的持久同调(PH)图距离。更具体地说,我们计算了训练过程中,神经网络在某个状态(即,具有特定权重时)与其下一个状态(即,经过一次权重更新后的状态)之间的持久同调图(PH diagram)距离(见图1)。我们观察到,在神经网络的训练过程中,可以在每个学习步骤测量这种距离,并且发现其与对应的验证准确率之间存在高度相关性。这表明,神经网络的泛化误差可以通过模型的内在属性来估计,而无需依赖验证集。

【论文阅读】Persistent Homology Captures the Generalization of Neural Networks Without A Validation Set_第1张图片

核心思想感觉和 Computing the Testing Error without a Testing Set差不多
https://blog.csdn.net/qq_55675216/article/details/144564304

相关研究

泛化误差估计与学习过程研究
本研究特别关注如何利用持久同调(PH)分析学习过程,尤其是估计泛化能力。在这方面,现有文献相对较少。Jiang 等人 [16] 试图从贝叶斯视角理解深度网络的泛化能力。Neyshabur 等人 [23] 研究了如何基于训练数据和网络参数(使用边界分布,即训练点到决策边界的距离)来预测泛化误差。Li 等人 [21] 提出了一种无需数据集划分的新模型选择方法,通过在整个训练集上训练一次并使用数据增强来推导验证集,而不需要传统的交叉验证方法。

Corneanu 等人 [10] 试图利用持久同调度量估计训练与测试之间的性能差距。然而,他们的方法存在一些缺陷。首先,他们用于预测测试误差的回归模型误差较高,导致其实用性有限。其次,为了拟合回归模型,他们仍然需要部分测试数据,而这与完全无测试集估计泛化误差的目标不符。

在本研究中,我们的目标是探索在不使用验证集的情况下,是否能够估计神经网络的泛化能力。我们建议采用 Anonymous [2] 提出的拓扑表征方法,并进一步计算训练过程中连续权重更新之间的拓扑距离。我们将展示这种拓扑距离的演变趋势与验证准确率的变化趋势高度相似。与 Li 等人 [21] 不同,我们完全不使用任何数据。与 Corneanu 等人 [10] 不同,我们不使用统计或机器学习模型(如线性回归)来预测测试误差,而是提出了一种新的度量方法,并通过实验表明其与验证准确率高度相关。值得注意的是,本研究不涉及输入数据和激活值,而仅分析神经网络的参数。 (所以不是诱导图,直接将神经网络的整个模型参数 构造PD)

method

在每个学习状态(由权重决定)下,我们将神经网络关联到一个加权有向图,并将其作为一个抽象单纯复形(abstract simplicial complex)进行分析。需要注意的是,这里的抽象单纯复形不同于几何单纯复形(geometric simplicial complex)。

在每个训练状态下,神经网络的连接被视为神经元之间的有向加权边,神经元对应于图中的节点。偏置项(bias)被表示为连接到孤立顶点的新边。在这一表示方式下,激活函数的影响被忽略。 虽然偏置项的信息在同调分析中并不特别重要,但我们仍然选择保留它。

负权重边通过添加方向相反、绝对值相同的边来表示。我们不直接取绝对值,因为神经网络的权重符号变换并不具有不变性。这个表示方法可以关注一下)这种表示方式符合以下事实:每个神经元可以被等效替换为一个分裂出两条权重相反的边,并最终在另一神经元处汇聚的神经元。从拓扑学角度来看,这将形成一个闭合环。

【论文阅读】Persistent Homology Captures the Generalization of Neural Networks Without A Validation Set_第2张图片
对于每个神经网络的加权有向图,我们将其关联到一个有向标志复形(directed flag complex),并研究其拓扑性质(即计算同调群
_n)。我们计算最高阶至 3 维的同调群(_0、_1、_2、_3)
【论文阅读】Persistent Homology Captures the Generalization of Neural Networks Without A Validation Set_第3张图片

PD间距离计算
PD 可以使用瓶颈距离(Bottleneck Distance)或Wasserstein 距离来比较两个持久同调图。为了高效计算,由于 PD 的规模较大,通常需要使用离散化方法,如加权轮廓(Weighted Silhouette)和热向量化(Heat vectorization) 来简化数据。

为减少计算量并忽略噪声,我们对 PD 进行过滤,设定最小寿命阈值 =0.01,即忽略寿命小于此值的持久性特征。此外,为计算 PH 图之间的距离,我们需去除无穷值。在本研究中,我们将所有无穷值替换为 1.0(即最大归一化权重)

由于神经网络的 PD 包含数百万个持久区间,而 Wasserstein 距离的计算复杂度较高,我们采用 PD 向量化(PD discretization) 方法进行计算,该方法已被用于多个研究 [1, 3, 4, 19, 25]。具体来说,我们使用 加权轮廓(Weighted Silhouette) 和 热向量化(Heat vectorization) 进行计算

实验结果

  • 同调收敛性曲线与验证精度曲线高度相似,Pearson 相关系数大多 >0.8,表明两者高度相关。
  • 在极端超参数设定下(神经元过少、学习率过大、Dropout 过高),相关性下降,神经网络无法有效学习。
  • CNN 的相关性略低于 MLP,推测是由于 CNN 预训练时已经学习了大部分特征,而我们的方法不捕捉卷积层的信息。
  • 实验可重复,不同随机种子下的实验结果仍然稳定,表明该方法能捕捉神经网络的本质属性,而非随机噪声。
  • 改变输入顺序不会影响同调收敛性,但调整网络结构或超参数会影响收敛曲线。
  • 网络能否学习到数据,与同调收敛是否发生有关。例如:
    1、隐藏层过小(4 个神经元)时,网络无法学习,拓扑收敛也不会发生。
    2、学习率过大或过小,都会导致收敛异常。

进一步发现
同调收敛先于验证精度收敛(特别是在学习率实验中)。这表明:拓扑变化反映了神经网络内部状态的变化,而验证精度依赖于特定的验证数据集。可以用拓扑方法监测训练进展,而不依赖验证集。

讨论

核心问题: 持久同调的收敛是否与神经网络的学习过程相关?
结论:是的。实验表明,二者具有高度相关性。

重要意义
传统的训练监测依赖验证集,但这可能导致过拟合(模型可能专门学习验证集的特征)。
我们的方法只依赖神经网络的内部结构,不需要任何数据,因此可以无验证集监测训练过程。
这对理解神经网络的学习机制具有重要意义。

局限性
计算开销巨大:7 天的计算资源仅用于小型模型和数据集。未来需探索近似计算方法,以扩展到更大规模的网络。
仅限于 MLP 结构:当前方法无法直接用于 Transformer 或更复杂的深度学习模型。
未构建预测模型:当前仅计算相关性,未来可探索如何用拓扑特征预测神经网络的泛化能力。

你可能感兴趣的:(论文阅读,论文阅读)