原文:Wang, B., Zheng, S., Wu, J. et al. Inverse design of catalytic active sites via interpretable topology-based deep generative models. npj Comput Mater 11, 147 (2025). https://doi.org/10.1038/s41524-025-01649-8.
这篇文章实际上用到了持续同调(Persistent Homology,PH)的拓展——持续GLMY同调(Persistent GLYM Homology,PGH)。GLYM同调理论是丘成桐先生等人提出的,在疾病诊断分析等领域已经产生很多应用(如清华大学2023年10月17日新闻报道《数学科学中心、北京雁栖湖应用数学研究院等联合研究团队为复杂疾病研究提供新思路》)。就本文来说,本文借助持续GLYM同调实现了催化剂活性位点的逆向推断,换言之从期望的“性质”反推应有的“结构”。
一般的持续同调建立在单纯复形上,通常从无向图和点云数据中构建;而GLYM同调建立在道路复形上,从有向道路中构建。这样计算也具有明显的拓扑特征,并且有一个关键好处是借助有向图,可以处理对称性、方向性特别重要的数据结构,例如适用于研究各原子之间的相互影响(配位效应,配体效应等)。
令VVV是非空有限集,对给定的整数 p≥0p\geq 0p≥0,VVV 上的基本 p−p-p−道路是 VVV 中元素构成的一个序列 i0i1⋯ipi_0i_1\cdots i_pi0i1⋯ip。令 ei0i1⋯ipe_{i_0i_1\cdots i_p}ei0i1⋯ip 是基本 p−p-p−道路的生成元,那么有所有这些基本 p−p-p−道路可以生成一个 K−\mathbb{K}-K−线性空间,记成 Λp=Λp(V)\Lambda_p=\Lambda_p(V)Λp=Λp(V)。特别地我们记 Λ−1=0\Lambda_{-1}=0Λ−1=0。Λp\Lambda_pΛp 中的一个元素 vvv 可以唯一地表示成
v=∑i0,i1,⋯ ,ip∈Vai0i1⋯ipei0i1⋯ip,ai0i1⋯ip∈Kv = \sum_{i_0,i_1,\cdots, i_p\in V} a^{i_0i_1\cdots i_p} e_{i_0i_1\cdots i_p} , a^{i_0i_1\cdots i_p}\in \mathbb{K}v=i0,i1,⋯,ip∈V∑ai0i1⋯ipei0i1⋯ip,ai0i1⋯ip∈K
对任意整数 p≥0p\geq 0p≥0,一个定义在生成元 ei0i1⋯ipe_{i_0i_1\cdots i_p}ei0i1⋯ip 的 K−\mathbb{K}-K−线性映射 ∂p:Λp→Λp−1\partial_p:\Lambda_p \rightarrow \Lambda_{p-1}∂p:Λp→Λp−1 形式是
∂pei0i1⋯ip=∑k=0p(−1)kei0i1⋯ik^⋯ip\partial_pe_{i_0i_1\cdots i_p} = \sum_{k=0}^p (-1)^k e_{i_0i_1\cdots \hat{i_k}\cdots i_p}∂pei0i1⋯ip=k=0∑p(−1)kei0i1⋯ik^⋯ip
p=0p=0p=0 时 ∂0ei0=0\partial_0e_{i_0}=0∂0ei0=0。现在有 ∂p∘∂p+1=0\partial^p\circ \partial^{p+1}=0∂p∘∂p+1=0,从而 ∂=(∂p)p\partial=(\partial_p)_p∂=(∂p)p 可以认为是 (Λp)p(\Lambda_p)_p(Λp)p 上的一个边缘算子。
VVV 上的一个道路复形是由 VVV 上基道路构成的非空集合 PPP,并满足:如果 i0i1⋯ip∈Pi_0i_1\cdots i_p\in Pi0i1⋯ip∈P,则 i0i1⋯ip−1∈Pi_0i_1\cdots i_{p-1}\in Pi0i1⋯ip−1∈P 且 i0i1⋯ip∈Pi_0i_1\cdots i_p\in Pi0i1⋯ip∈P。
一个有向图 G=(V,E)G=(V,E)G=(V,E) 包括一个顶点集 VVV 和 {VG×VG}\{V_G\times V_G\}{VG×VG} 的一个子集 EEE,由被称为箭头的有向对 (v,w)(v,w)(v,w) 构成。箭头 (v,w)(v,w)(v,w) 记成 v→wv\rightarrow wv→w。
则由 GGG 中道路构成的集合 {i0i1⋯ip∣ik→ik+1 for all 0≤k≤p−1,p≥0}\{i_0i_1\cdots i_p∣i_k→i_{k+1} \ for\ all \ 0 ≤ k ≤ p−1, p ≥ 0\}{i0i1⋯ip∣ik→ik+1 for all 0≤k≤p−1,p≥0} 是 GGG 上的一个道路复形,这个道路复形记成 P(G)P(G)P(G)(相当于是在一般的顶点集上定义了道路复形的概念,然后用在有向图这个具体的事例中。在有向图中,边是由相邻顶点构成的)。PPP 中的 p−p-p−道路被称为容许 p−p-p−道路,由容许 p−p-p−道路张成的 K−\mathbb{K}-K−线性空间记成
Ap=Ap(P)={∑i0,i1,⋯ip∈Vai0i1⋯ipei0i1⋯ip∣i0i1⋯ip∈P,ai0i1⋯ip∈K}A_p=A_p(P)=\{\sum_{i_0,i_1,\cdots i_p\in V}a^{i_0i_1\cdots i_p}e_{i_0i_1\cdots i_p} | i_0i_1\cdots i_p\in P, a^{i_0i_1\cdots i_p}\in \mathbb{K}\}Ap=Ap(P)={i0,i1,⋯ip∈V∑ai0i1⋯ipei0i1⋯ip∣i0i1⋯ip∈P,ai0i1⋯ip∈K}
记 A−1=0A_{-1}=0A−1=0 是零空间。
例: 考虑有向图 G=(V,E)G=(V,E)G=(V,E),其中:顶点集 V={0,1,2}V=\{0,1,2\}V={0,1,2},边集 E={0→1,1→2,0→2}E=\{0→1,1→2,0→2\}E={0→1,1→2,0→2}。
那么 P(G)P(G)P(G) 里的元素有:长度 p=0p=0p=0 的路径(单点)有 0,1,20,1,20,1,2,长度 p=1p=1p=1 的路径有 0→1,1→2,0→20\rightarrow 1,1\rightarrow 2,0\rightarrow 20→1,1→2,0→2,长度 p=2p=2p=2 的路径有 0→1→20\rightarrow 1\rightarrow 20→1→2。这里不包含 2→1→02\rightarrow 1\rightarrow 02→1→0,因为 2→12\rightarrow 12→1 不在 EEE 中。长度 p≥3p\geq 3p≥3 的路径不存在。
对应的线性空间 ApA_pAp:A0A_0A0:由单点路径生成,基为 {e0,e1,e2}\{e_0,e_1,e_2\}{e0,e1,e2};A1A_1A1:由边生成,基为 {e01,e12,e02}\{ e_{01},e_{12},e_{02}\}{e01,e12,e02};A2A_2A2:由 2-路径生成,基为 {e012}\{e_{012}\}{e012};对 p≥3p\geq 3p≥3 有 Ap=0A_p=0Ap=0。
∂−\partial-∂−不变 p−p-p−道路构成的空间可写成
Ω−1=0,Ωp=Ωp(P)={x∈Ap∣∂x∈Ap−1},p≥0\Omega_{-1}=0 , \Omega_{p}=\Omega_{p}(P)=\{x\in A_p| \partial x\in A_{p-1}\}, p\geq 0Ω−1=0,Ωp=Ωp(P)={x∈Ap∣∂x∈Ap−1},p≥0
这时把 ∂p\partial_p∂p 限制到 Ωp\Omega_pΩp 上,可以得到 ∂p∣Ωp∘∂p+1∣Ωp+1=0\partial_p|_{\Omega_p}\circ \partial_{p+1}|_{\Omega_{p+1}}=0∂p∣Ωp∘∂p+1∣Ωp+1=0,边缘算子 ∂∣=(∂p∣Ωp)p\partial |=(\partial_p|_{\Omega_p})_p∂∣=(∂p∣Ωp)p 是 (Λp(V))p(\Lambda_p(V))_p(Λp(V))p 的子链复形。一个道路复形 PPP 的GLMY同调定义成:
Hp(P;K):=ker∂p∣Ωpim∂p+1∣Ωp+1,p≥0H_p(P;\mathbb{K}):=\frac{ker\partial_p|_{\Omega_p}}{im\partial_{p+1}|_{\Omega_{p+1}}}, p\geq 0Hp(P;K):=im∂p+1∣Ωp+1ker∂p∣Ωp,p≥0
注: 这里为什么要“把 ∂p\partial_p∂p 限制到 Ωp\Omega_pΩp 上”?这体现了和当时构造单纯复形列的不同。如果不限制,对 x∈Apx\in A_px∈Ap,不一定有 ∂x∈Ap−1\partial x\in A_{p-1}∂x∈Ap−1。例如,仍考虑有向图 G=(V,E)G=(V,E)G=(V,E),其中:顶点集 V={0,1,2}V=\{0,1,2\}V={0,1,2},如果边集 E={0→1,1→2,0→2}E=\{0→1,1→2,0→2\}E={0→1,1→2,0→2},取一条容许 2-道路 α=e012\alpha=e_{012}α=e012(对应路径 0→1→2),计算其边缘:∂2e012=e12−e01+e02\partial_2 e_{012}=e_{12}-e_{01}+e_{02}∂2e012=e12−e01+e02,因为 e12,e01,e02e_{12},e_{01},e_{02}e12,e01,e02 都是容许1-道路,所以 ∂2e012∈A1\partial_2 e_{012}\in A_1∂2e012∈A1。但如果边集 E={0→1,1→2}E=\{0→1,1→2\}E={0→1,1→2},则 α=e012\alpha=e_{012}α=e012 仍是一条容许 2-道路,其边缘 ∂2e012=e12−e01+e02\partial_2 e_{012}=e_{12}-e_{01}+e_{02}∂2e012=e12−e01+e02 不再是容许1-道路,因为 e02∉A1e_{02}\notin A_1e02∈/A1。这时直接对 ∂2e012\partial_2 e_{012}∂2e012 再求 ∂1\partial_1∂1 没有意义,必须限制在 A1A_1A1 中。
一个有向图 GGG 的GLMY同调是它对应道路复形 P(G)P(G)P(G) 的同调。有向图 GGG 的 第 ppp 维贝蒂数 βp(G)\beta_p(G)βp(G) 是同调群
Hp(G;K)=Hp(P(G);K)H_p(G;\mathbb{K})=H_p(P(G);\mathbb{K})Hp(G;K)=Hp(P(G);K) 的秩。
令 (S,≤)(S,\leq)(S,≤) 是一个有序集,并且可以看成一个范畴,以 SSS 为对象,以binary orders为态射。道路复形上的一个filtration意味着一个从 (S,≤)(S,\leq)(S,≤) 到道路复形范畴的共变函子 F:(S,≤)→PathF:(S,\leq)\rightarrow PathF:(S,≤)→Path。对每个 a∈Sa\in Sa∈S,FaF_aFa 是一个道路复形。令 fa,b:Fa→Fbf_{a,b}:F_a\rightarrow F_bfa,b:Fa→Fb 是由 a→ba\rightarrow ba→b 诱导的态射,那么对 a≤b≤ca\leq b\leq ca≤b≤c 有 fb,c∘fa,b=fa,cf_{b,c}\circ f_{a,b}=f_{a,c}fb,c∘fa,b=fa,c。态射 fabf_{ab}fab 诱导了GLYM同调之间的态射
f~a,b:Hp(Fa;K)→Hp(Fb;K)\tilde{f}_{a,b}:H_p(F_a;\mathbb{K})\rightarrow H_p(F_b;\mathbb{K})f~a,b:Hp(Fa;K)→Hp(Fb;K)
FFF 的 ppp 维 (a,b)−(a,b)-(a,b)−持续GLYM同调定义成
Hpab(F;K)=im(Hp(Fa;K)→Hp(Fb;K)),p≥0H_p^{ab}(F;\mathbb{K})=im(H_p(F_a;\mathbb{K})\rightarrow H_p(F_b;\mathbb{K})) , p\geq 0Hpab(F;K)=im(Hp(Fa;K)→Hp(Fb;K)),p≥0
(a,b)−(a,b)-(a,b)− 持续贝蒂数定义为 Hpab(F;K)H_p^{ab}(F;\mathbb{K})Hpab(F;K) 的秩。
在实际应用中,道路复形通常是定义在有向图中。令 Digraph 是有向图连同有向图之间的映射构成的范畴。有向图 GGG 上的一个filtration是从范畴 (S,≤)(S,≤)(S,≤) 到范畴 Digraph 的共变函子 DDD。有向图 GGG 的filtration诱导了道路复形上的filtration,形成了有向图的持续GLYM同调。不同的filtration导致不同的持续图。
令 G=(V,E)G=(V,E)G=(V,E) 是有向图, VVV 代表度量空间 (X,∣∣⋅∣∣)(X,||\cdot ||)(X,∣∣⋅∣∣) 中数据点集。于是,在边的集合 EEE 上可以定义一个权重函数 d:E→Rd:E\rightarrow \mathbb{R}d:E→R,形式为
d(x,y)=∣∣x−y∣∣,(x,y)∈E⊂X×Xd(x,y)=||x-y|| , (x,y)\in E\subset X\times Xd(x,y)=∣∣x−y∣∣,(x,y)∈E⊂X×X
具体到作者这篇工作中,(X,∣∣⋅∣∣)(X,||\cdot ||)(X,∣∣⋅∣∣) 就是配备 L2L_2L2 范数的欧几里得空间。然后,令 Et={(x,y)∈E∣d(x,y)≤t}E_t=\{(x,y)\in E|d(x,y)\leq t\}Et={(x,y)∈E∣d(x,y)≤t} 且 Gt=(V,Et)G_t=(V,E_t)Gt=(V,Et)。可以推出 G:(R,≤)→Digraph,t→GtG:(\mathbb{R},\leq)\rightarrow \textbf{Digraph} , t\rightarrow G_tG:(R,≤)→Digraph,t→Gt 构成了有向图的一个filtration,从而形成 GGG 的一个持续图表 D(G)D(G)D(G)。
从实验结果看,GLYM同调确实能分辨不同结构的定位特征(如下图,对应原文 fig 2。活性位点原子最初以彩色点云形式呈现,其路径方向由键合作用与电负性差异共同确定。可以看出能分辨出 211 summit 和 211 valley)。
至于原文中提到的融入变分自动编码器、增强可解释性等其他部分的内容,这篇博客不再赘述。