【数据挖掘】动态正则格兰杰因果学习方法

导读

在医学和金融学等实际领域中,了解动态系统中的底层结构关系对于调节系统中的变量和预测系统未来状态至关重要。系统的动态变化会生成时间序列数据,通过观察时间序列数据可以分析系统的底层结构。格兰杰因果关系分析方法可以应用于一维或多维时间序列系统,现有的方法以组件式的建模方式分析每个系统变量特定的因果关系,受限于时间方向的强假设性和组件模型的单一性,其无法准确地挖掘出时间序列中的因果关系结构。本文提出了一种基于动态稀疏正则化的格兰杰因果发现方法DRGC (Dynamic Regularity Granger Causlity)。DRGC模型从卷积网络的输入权重中周期性地发掘变量在时间维度上的依赖信息,并以此为据向网络施加稀疏惩罚,以获得精确的格兰杰因果关系;同时,使用采样输入的循环网络提取数据中的长程依赖关系,同步优化卷积网络的权重,增强了模型发现因果关系的精确性和稳定性。在模拟数据集和真实系统生成的数据集上的实验表明,DRGC优于最先进的基线方法。

正文

在汉斯出版社《数据挖掘》期刊上,有研究提出了动态正则格兰杰因果学习模型(Dynamic Regularized Granger Causality, DRGC),通过采样因果图的方式打通循环网络与线性网络输入层之间的通道,使得循环网络发挥其捕捉长程依赖的能力来协助时滞选择,确保在线性网络难以拟合短时间序列时提供可靠的拟合性能。

同时,该研究设计了一种动态的网络输入权重分级惩罚策略,以增强线性网络在时滞上选择因果关系的正确性。该研究的主要贡献如下:

1) 构建单维度建模的线性因果发现网络,并对提取出的因果关系进行采样,使用采样处理的时间序列数据输入循环网络进行训练,增强了线性网络在时间维度上挖掘因果关系的合理性,并且充分利用循环网络长程依赖的特性来协助因果选择。

2) 设计基于分级群组Lasso惩罚的动态稀疏惩罚策略,模型在训练过程中自动判断不同时滞之间的数值关系,协调不同原因变量各个时滞上因果关系的大小。

3) 在具有代表性的模拟数据集和拟真数据系统上验证提出模型的有效性,与当下先进的格兰杰因果发现方法对比均取得了性能的提升。

【数据挖掘】动态正则格兰杰因果学习方法_第1张图片

本文提出的模型总体结构如图2所示,由两个主要部分组成:线性因果发现网络和采样循环网络。线性网络以多层感知器的形式被构建,每个网络用于单独拟合时间序列数据中所有变量的K阶滞后值到某变量当前时刻值的映射函数;循环网络以长短期记忆网络的形式被构建,每个变量对应的循环网络都需要进行独立的因果图采样并处理其输入的原始序列数据。

两部分模型的训练是交替进行的,在每一个训练轮中,使用线性网络作用于序列数据,得到线性输出预测误差项;将线性网络的输入权重按照滞后阶数进行提取并归一化,使用动态正则策略对权重进行稀疏约束,得到正则项;从线性网络的输入权重中提取出目标变量的单维度因果图,对原始序列数据进行覆盖处理,使用循环网络作用于处理后的序列数据上,得到循环输出预测误差项。通过各个误差项求和得到损失函数并进行优化,使模型逐步收敛至可以精确模拟因果作用机制。

【数据挖掘】动态正则格兰杰因果学习方法_第2张图片

本文对MLP网络提取出的单维度因果图进行伯努利采样操作,用采样出的因果图对时间序列数据进行覆盖处理,使得输入LSTM网络的数据尽可能只保留对目标变量有因果影响的数据,消除其他变量的影响,如图4(a)所示。得到处理过的数据之后,将其输入对应维度的LSTM网络进行计算,并用输出的结果进行损失函数计算,与MLP网络的结果各自进行反向传播。通过LSTM网络类似“监督”的作用,组合网络会从静态样本数据和与时序相关数据的两个角度对时间序列维度间的因果关系进行学习。

本文选择了4种主流的基准方法进行比较:1) 神经格兰杰因果发现方法NGC,它利用多层感知机和循环神经网络两种组件模型结合群组惩罚来推断格兰杰因果关系。在本文实验中针对VAR数据集使用MLP模型,针对Lorenz-96数据使用RNN模型。2) PCMCI,一种使用条件独立测试来检测非线性格兰杰因果关系的方法。3) economy-SRU,一种使用基于统计回归单位(Statistical Regression Units, SRU)的分量时间序列预测模型进行非线性建模的方法,通过设计少量的可训练参数,提高了模型对预测数据的抗过拟合性能。4) CUTS,一种通过交替进行因果发现和潜在数据预测两个阶段来学习数据中的因果关系的方法,这种方法可以对不规则数据(存在缺失值的时间序列)同时进行因果发现和数据填充。它同样适用于不存在缺失值的时间序列数据集上,并且反映出较好的学习结果。

本部分实验生成VAR(1)、VAR(2)、VAR(3)数据和使用两种不同“强迫常数”的Lorenz-96数据,每个数据集都有200、500和1000三个不同时间长度的版本,以观察在数据集长度变化的情况下各个方法的学习效果,如表1所示。表中的DRGC-s方法代表在本文提出的模型基础上除去循环网络模块的消融模型。表1中所呈现的数值(如99.86 ± 0.12)均为AUROC的数值表示,其完整数值为对应的0.9986 ± 0.0012 (若换算为小数形式)或者98.66% ± 0.12% (若换算为百分比形式)。

【数据挖掘】动态正则格兰杰因果学习方法_第3张图片

VAR数据的依赖系数p代表了在这个模拟系统中每个变量受几个变量的驱动,p=0.2p=0.2 代表驱动目标变量变化的“原因”变量个数占系统中总变量个数的20%,同时每个目标变量的“原因”变量一定包含其本身。p值越大,系统中相互依赖的变量数量就越多,对应的因果图边的数量也越多,系统变得复杂,模型发现正确的因果图则更加困难。本部分实验生成依赖系数分别为0.2、0.3和0.4的三种VAR(3)数据,且同样有三种不同的时间长度,以验证模型在面对不同复杂程度的数据集时发现因果图的能力。学习结果如表2所示,表中数据同样是百分比数值。

【数据挖掘】动态正则格兰杰因果学习方法_第4张图片

结论

本文提出了一种采用动态分级稀疏惩罚策略的线性与循环网络组合多维时间序列非线性格兰杰因果挖掘方法。为提高模型的可解释性,我们为系统中的每个变量单独建立线性网络和采样输入循环网络,依靠循环网络提取时间方向依赖关系的能力,对线性网络挖掘的整体因果关系进行监督和修正。为了提高模型在不同时滞上选择因果关系的准确性,通过从线性网络输入权重中提取变量对不同时滞的平均依赖程度,对模型施加动态变化的稀疏惩罚。在模拟数据集和真实基因调控子网络生成的数据集上进行的实验结果表明,DRGC方法在不同长度和复杂程度的数据集上都表现出领先于其他现有方法的性能。

未来的工作方向有两点,1) 探究模型如何在脱离数据集的真实全局因果关系和时间因果关系信息的情况下,配合因果图的阈值设置来进行更合理的参数调整与选取;2) 在更多的真实世界数据集上进行实验,探寻合适的底层系统结构来协助进行因果关系验证,以提高方法的可推广性。

基金项目

国家自然科学基金(62262016);

中国澳门基金会2024年学术资助计划“建设横琴数据跨境传输安全管理试点(数据飞地)的多视角可行政策研究”(G01156-2309-262);

中央高校基本科研业务费专项资金(2023JBZY035)。

更多内容请关注原文链接:https://doi.org/10.12677/hjdm.2025.152016!

你可能感兴趣的:(论文荐读,数据挖掘,学习方法,人工智能,大数据,python,算法,动态规划)