作为深度学习研究者,你可能对Normalizing Flows(正态化流)的灵活性充满好奇:它真的能建模任何概率分布吗?在《Normalizing Flows for Probabilistic Modeling and Inference》第2.2节“Expressive Power of Flow-Based Models”中,作者给出了肯定的答案,并通过数学推导证明了其普适性。本文将带你走进这一节的核心内容,揭示Normalizing Flows的表达能力,并一步步展示其理论依据。
Normalizing Flows的基本思路是通过一个可逆且可微的变换 ( T T T),将简单的基分布 ( p u ( u ) p_{\mathbf{u}}(\mathbf{u}) pu(u))(如标准正态分布)转化为目标分布 ( p x ( x ) p_{\mathbf{x}}(\mathbf{x}) px(x))。但一个自然的问题是:这种方法是否足够强大,能否表示任意复杂的 ( p x ( x ) p_{\mathbf{x}}(\mathbf{x}) px(x))?第2.2节明确指出,在合理的条件下,答案是“Yes”——存在一个微分同胚(diffeomorphism,具体参考笔者的另一篇博客:什么是“diffeomorphisms”(微分同胚)?从数学到深度学习的视角),可以将任何“良好行为”的基分布 ( p u ( u ) p_{\mathbf{u}}(\mathbf{u}) pu(u)) 变为目标分布 ( p x ( x ) p_{\mathbf{x}}(\mathbf{x}) px(x))。这种普适性让Normalizing Flows在概率建模中极具潜力。
证明是构造性的,灵感来源于非线性独立成分分析(ICA)的存在性证明(Hyvärinen and Pajunen, 1999)。下面,我们将逐步推导这个结论。
假设我们有一个 ( D D D) 维目标分布 ( p x ( x ) p_{\mathbf{x}}(\mathbf{x}) px(x)),它满足以下条件:
这些条件不算苛刻,许多实际分布(如连续分布)都满足。我们希望找到一个变换 ( T T T),使得 ( x = T ( u ) \mathbf{x} = T(\mathbf{u}) x=T(u)) 能从某个基分布 ( p u ( u ) p_{\mathbf{u}}(\mathbf{u}) pu(u)) 生成 ( p x ( x ) p_{\mathbf{x}}(\mathbf{x}) px(x))。为了证明普适性,我们先构造一个特殊的变换 ( F F F),将 ( p x ( x ) p_{\mathbf{x}}(\mathbf{x}) px(x)) 转化为一个简单的中间分布——均匀分布。
利用概率的链式法则,我们可以将 ( p x ( x ) p_{\mathbf{x}}(\mathbf{x}) px(x)) 分解为条件密度的乘积:
p x ( x ) = ∏ i = 1 D p x ( x i ∣ x < i ) p_{\mathbf{x}}(\mathbf{x}) = \prod_{i=1}^D p_{\mathbf{x}}(\mathrm{x}_i \mid \mathbf{x}_{px(x)=i=1∏Dpx(xi∣x<i)
其中 ( x < i = ( x 1 , … , x i − 1 ) \mathbf{x}_{x<i=(x1,…,xi−1))。因为 ( p x ( x ) > 0 p_{\mathbf{x}}(\mathbf{x}) > 0 px(x)>0),所以每个条件密度 ( p x ( x i ∣ x < i ) > 0 p_{\mathbf{x}}(\mathrm{x}_i \mid \mathbf{x}_{ 0 px(xi∣x<i)>0)。
构造一个变换 ( F : x ↦ z ∈ ( 0 , 1 ) D F: \mathbf{x} \mapsto \mathbf{z} \in (0,1)^D F:x↦z∈(0,1)D),其第 ( i i i) 个分量定义为条件分布的累积分布函数(CDF):
z i = F i ( x i , x < i ) = ∫ − ∞ x i p x ( x i ′ ∣ x < i ) d x i ′ = Pr ( x i ′ ≤ x i ∣ x < i ) \mathrm{z}_i = F_i(\mathrm{x}_i, \mathbf{x}_{zi=Fi(xi,x<i)=∫−∞xipx(xi′∣x<i)dxi′=Pr(xi′≤xi∣x<i)
这个 ( F F F) 有什么性质?
( F F F) 是逐维定义的,且 ( z i \mathrm{z}_i zi) 只依赖 ( x i \mathrm{x}_i xi) 和 ( x < i \mathbf{x}_{x<i),不依赖 ( x > i \mathrm{x}_{>i} x>i)。这意味着我们可以从 ( z \mathbf{z} z) 反推出 ( x \mathbf{x} x):
x i = ( F i ( ⋅ , x < i ) ) − 1 ( z i ) , i = 1 , … , D \mathrm{x}_i = (F_i(\cdot, \mathbf{x}_{xi=(Fi(⋅,x<i))−1(zi),i=1,…,D
从 ( z 1 \mathrm{z}_1 z1) 开始,计算 ( x 1 = F 1 − 1 ( z 1 ) \mathrm{x}_1 = F_1^{-1}(\mathrm{z}_1) x1=F1−1(z1)),然后用 ( x 1 \mathrm{x}_1 x1) 计算 ( x 2 = F 2 − 1 ( z 2 , x 1 ) \mathrm{x}_2 = F_2^{-1}(\mathrm{z}_2, \mathrm{x}_1) x2=F2−1(z2,x1)),依次类推。( z \mathbf{z} z) 到 ( x \mathbf{x} x) 的映射是唯一的,因此 ( F F F) 是可逆的。
( F F F) 的雅可比矩阵 ( J F ( x ) J_F(\mathbf{x}) JF(x)) 是下三角的,因为 ( z i \mathrm{z}_i zi) 不依赖 ( x > i \mathrm{x}_{>i} x>i),即 ( ∂ F i ∂ x j = 0 \frac{\partial F_i}{\partial \mathrm{x}_j} = 0 ∂xj∂Fi=0) 当 ( j > i j > i j>i)。对角元素是:
∂ F i ∂ x i = p x ( x i ∣ x < i ) \frac{\partial F_i}{\partial \mathrm{x}_i} = p_{\mathbf{x}}(\mathrm{x}_i \mid \mathbf{x}_{∂xi∂Fi=px(xi∣x<i)
所以行列式为:
det J F ( x ) = ∏ i = 1 D ∂ F i ∂ x i = ∏ i = 1 D p x ( x i ∣ x < i ) = p x ( x ) \det J_F(\mathbf{x}) = \prod_{i=1}^D \frac{\partial F_i}{\partial \mathrm{x}_i} = \prod_{i=1}^D p_{\mathbf{x}}(\mathrm{x}_i \mid \mathbf{x}_{detJF(x)=i=1∏D∂xi∂Fi=i=1∏Dpx(xi∣x<i)=px(x)
因为 ( p x ( x ) > 0 p_{\mathbf{x}}(\mathbf{x}) > 0 px(x)>0),行列式处处非零,( F F F) 的逆 ( F − 1 F^{-1} F−1) 存在且其雅可比矩阵为 ( J F ( x ) − 1 J_F(\mathbf{x})^{-1} JF(x)−1)。这表明 ( F F F) 是微分同胚。
用变量变换公式计算 ( z \mathbf{z} z) 的密度:
p z ( z ) = p x ( x ) ∣ det J F ( x ) ∣ − 1 = p x ( x ) ⋅ 1 p x ( x ) = 1 p_{\mathbf{z}}(\mathbf{z}) = p_{\mathbf{x}}(\mathbf{x}) \left| \det J_F(\mathbf{x}) \right|^{-1} = p_{\mathbf{x}}(\mathbf{x}) \cdot \frac{1}{p_{\mathbf{x}}(\mathbf{x})} = 1 pz(z)=px(x)∣detJF(x)∣−1=px(x)⋅px(x)1=1
因此,( z \mathbf{z} z) 在 ( ( 0 , 1 ) D (0,1)^D (0,1)D) 上均匀分布(后文有解释)。这证明了任意满足条件的 ( p x ( x ) p_{\mathbf{x}}(\mathbf{x}) px(x)) 都可以通过微分同胚 ( F F F) 转化为均匀分布。
现在假设基分布是 ( p u ( u ) p_{\mathbf{u}}(\mathbf{u}) pu(u))(同样满足处处非零和条件概率可微)。类似地,定义:
z i = G i ( u i , u < i ) = ∫ − ∞ u i p u ( u i ′ ∣ u < i ) d u i ′ = Pr ( u i ′ ≤ u i ∣ u < i ) \mathrm{z}_i = G_i(\mathrm{u}_i, \mathbf{u}_{zi=Gi(ui,u<i)=∫−∞uipu(ui′∣u<i)dui′=Pr(ui′≤ui∣u<i)
( G G G) 也是微分同胚,将 ( p u ( u ) p_{\mathbf{u}}(\mathbf{u}) pu(u)) 转化为 ( ( 0 , 1 ) D (0,1)^D (0,1)D) 上的均匀分布。于是,目标变换 ( T = F − 1 ∘ G T = F^{-1} \circ G T=F−1∘G) 将 ( u ∼ p u ( u ) \mathbf{u} \sim p_{\mathbf{u}}(\mathbf{u}) u∼pu(u)) 映射到 ( x ∼ p x ( x ) \mathbf{x} \sim p_{\mathbf{x}}(\mathbf{x}) x∼px(x))。因为 ( F − 1 F^{-1} F−1) 和 ( G G G) 都是微分同胚,它们的复合 ( T T T) 也是微分同胚。
这个推导表明,只要目标分布和基分布满足一定条件(处处非零且条件概率可微),就存在一个微分同胚 ( T T T) 使得 ( p x ( x ) p_{\mathbf{x}}(\mathbf{x}) px(x)) 可由 ( p u ( u ) p_{\mathbf{u}}(\mathbf{u}) pu(u)) 通过Normalizing Flows生成。这种普适性是理论上的:它保证了Flow-Based Models的表达能力没有根本限制。然而,实际中变换 ( T T T) 的复杂度(如神经网络的深度)会影响逼近效果,这需要进一步研究。
对于深度学习研究者,这意味着Normalizing Flows是一个通用的概率建模工具。不管你的数据分布多复杂,总有一个Flow能表示它。接下来的挑战是如何设计高效的 ( T T T),既能捕捉这种复杂度,又保持计算可行性——这正是后续章节的重点。
以下是对符号 ( Pr ( x i ′ ≤ x i ∣ x < i ) \operatorname{Pr}(\mathrm{x}_i' \leq \mathrm{x}_i \mid \mathbf{x}_{Pr(xi′≤xi∣x<i)) 和“条件概率关于 (( x i , x < i ) \mathrm{x}_i, \mathbf{x}_{xi,x<i)) 是可微的”含义的解释,以及一个符合条件的例子。内容面向深度学习研究者,力求清晰且直观。
在概率论中,( Pr ( x i ′ ≤ x i ∣ x < i ) \operatorname{Pr}(\mathrm{x}_i' \leq \mathrm{x}_i \mid \mathbf{x}_{Pr(xi′≤xi∣x<i)) 表示条件累积分布函数(Conditional Cumulative Distribution Function, Conditional CDF)。具体来说:
换句话说,这是 ( x i ′ \mathrm{x}_i' xi′) 在给定前 ( i − 1 i-1 i−1) 个变量 ( x < i \mathbf{x}_{x<i) 的条件累积分布:
Pr ( x i ′ ≤ x i ∣ x < i ) = ∫ − ∞ x i p x ( x i ′ ∣ x < i ) d x i ′ \operatorname{Pr}(\mathrm{x}_i' \leq \mathrm{x}_i \mid \mathbf{x}_{Pr(xi′≤xi∣x<i)=∫−∞xipx(xi′∣x<i)dxi′
其中 ( p x ( x i ′ ∣ x < i ) p_{\mathbf{x}}(\mathrm{x}_i' \mid \mathbf{x}_{px(xi′∣x<i)) 是条件概率密度函数(Conditional PDF)。这个符号在Normalizing Flows的表达能力证明中至关重要,因为它被用来构造变换 ( F F F)。
“条件概率 ( Pr ( x i ′ ≤ x i ∣ x < i ) \operatorname{Pr}(\mathrm{x}_i' \leq \mathrm{x}_i \mid \mathbf{x}_{Pr(xi′≤xi∣x<i)) 关于 ( ( x i , x < i ) (\mathrm{x}_i, \mathbf{x}_{(xi,x<i)) 是可微的”指的是这个条件CDF作为一个函数,在 ( x i \mathrm{x}_i xi) 和 ( x < i \mathbf{x}_{x<i) 的所有分量上具有连续的偏导数。换句话说:
在Normalizing Flows的证明中,变换 ( F F F) 的第 ( i i i) 个分量定义为:
F i ( x i , x < i ) = Pr ( x i ′ ≤ x i ∣ x < i ) F_i(\mathrm{x}_i, \mathbf{x}_{Fi(xi,x<i)=Pr(xi′≤xi∣x<i)
为了让 ( F F F) 成为微分同胚(diffeomorphism),它必须是可微的(即所有分量 ( F i F_i Fi) 都可微),而且其雅可比行列式不能为零。可微性确保变换是平滑的,而非零行列式依赖于条件密度 ( p x ( x i ∣ x < i ) p_{\mathbf{x}}(\mathrm{x}_i \mid \mathbf{x}_{px(xi∣x<i)) 的正性(这在证明中另有假设:( p x ( x ) > 0 p_{\mathbf{x}}(\mathbf{x}) > 0 px(x)>0))。
因为 ( Pr ( x i ′ ≤ x i ∣ x < i ) = ∫ − ∞ x i p x ( x i ′ ∣ x < i ) d x i ′ \operatorname{Pr}(\mathrm{x}_i' \leq \mathrm{x}_i \mid \mathbf{x}_{Pr(xi′≤xi∣x<i)=∫−∞xipx(xi′∣x<i)dxi′):
因此,“条件概率可微”本质上要求条件密度 ( p x ( x i ∣ x < i ) p_{\mathbf{x}}(\mathrm{x}_i \mid \mathbf{x}_{px(xi∣x<i)) 是 ( x i \mathrm{x}_i xi) 和 ( x < i \mathbf{x}_{x<i) 的平滑函数。
让我们构造一个简单的二维分布 ( p x ( x 1 , x 2 ) p_{\mathbf{x}}(\mathrm{x}_1, \mathrm{x}_2) px(x1,x2)),验证它满足“处处非零”和“条件概率可微”。
考虑一个二维正态分布(带相关性):
p x ( x 1 , x 2 ) = 1 2 π 1 − ρ 2 exp ( − x 1 2 − 2 ρ x 1 x 2 + x 2 2 2 ( 1 − ρ 2 ) ) p_{\mathbf{x}}(\mathrm{x}_1, \mathrm{x}_2) = \frac{1}{2\pi \sqrt{1-\rho^2}} \exp\left(-\frac{\mathrm{x}_1^2 - 2\rho \mathrm{x}_1 \mathrm{x}_2 + \mathrm{x}_2^2}{2(1-\rho^2)}\right) px(x1,x2)=2π1−ρ21exp(−2(1−ρ2)x12−2ρx1x2+x22)
其中 ( ρ ∈ ( − 1 , 1 ) \rho \in (-1, 1) ρ∈(−1,1)) 是相关系数,( x = ( x 1 , x 2 ) ∈ R 2 \mathbf{x} = (\mathrm{x}_1, \mathrm{x}_2) \in \mathbb{R}^2 x=(x1,x2)∈R2)。这个分布满足:
先计算边缘密度 ( p x ( x 1 ) p_{\mathbf{x}}(\mathrm{x}_1) px(x1)):
p x ( x 1 ) = ∫ − ∞ ∞ p x ( x 1 , x 2 ) d x 2 = 1 2 π exp ( − x 1 2 2 ) p_{\mathbf{x}}(\mathrm{x}_1) = \int_{-\infty}^{\infty} p_{\mathbf{x}}(\mathrm{x}_1, \mathrm{x}_2) \, d\mathrm{x}_2 = \frac{1}{\sqrt{2\pi}} \exp\left(-\frac{\mathrm{x}_1^2}{2}\right) px(x1)=∫−∞∞px(x1,x2)dx2=2π1exp(−2x12)
(标准正态分布)。然后条件密度为:
p x ( x 2 ∣ x 1 ) = p x ( x 1 , x 2 ) p x ( x 1 ) = 1 2 π ( 1 − ρ 2 ) exp ( − ( x 2 − ρ x 1 ) 2 2 ( 1 − ρ 2 ) ) p_{\mathbf{x}}(\mathrm{x}_2 \mid \mathrm{x}_1) = \frac{p_{\mathbf{x}}(\mathrm{x}_1, \mathrm{x}_2)}{p_{\mathbf{x}}(\mathrm{x}_1)} = \frac{1}{\sqrt{2\pi (1-\rho^2)}} \exp\left(-\frac{(\mathrm{x}_2 - \rho \mathrm{x}_1)^2}{2(1-\rho^2)}\right) px(x2∣x1)=px(x1)px(x1,x2)=2π(1−ρ2)1exp(−2(1−ρ2)(x2−ρx1)2)
这是一个均值为 ( ρ x 1 \rho \mathrm{x}_1 ρx1)、方差为 ( 1 − ρ 2 1-\rho^2 1−ρ2) 的正态分布。
对于 ( i = 2 i=2 i=2),条件CDF是:
Pr ( x 2 ′ ≤ x 2 ∣ x 1 ) = ∫ − ∞ x 2 p x ( x 2 ′ ∣ x 1 ) d x 2 ′ = ∫ − ∞ x 2 1 2 π ( 1 − ρ 2 ) exp ( − ( x 2 ′ − ρ x 1 ) 2 2 ( 1 − ρ 2 ) ) d x 2 ′ \operatorname{Pr}(\mathrm{x}_2' \leq \mathrm{x}_2 \mid \mathrm{x}_1) = \int_{-\infty}^{\mathrm{x}_2} p_{\mathbf{x}}(\mathrm{x}_2' \mid \mathrm{x}_1) \, d\mathrm{x}_2' = \int_{-\infty}^{\mathrm{x}_2} \frac{1}{\sqrt{2\pi (1-\rho^2)}} \exp\left(-\frac{(\mathrm{x}_2' - \rho \mathrm{x}_1)^2}{2(1-\rho^2)}\right) \, d\mathrm{x}_2' Pr(x2′≤x2∣x1)=∫−∞x2px(x2′∣x1)dx2′=∫−∞x22π(1−ρ2)1exp(−2(1−ρ2)(x2′−ρx1)2)dx2′
令 ( u = x 2 ′ − ρ x 1 1 − ρ 2 u = \frac{\mathrm{x}_2' - \rho \mathrm{x}_1}{\sqrt{1-\rho^2}} u=1−ρ2x2′−ρx1),则:
Pr ( x 2 ′ ≤ x 2 ∣ x 1 ) = ∫ − ∞ x 2 − ρ x 1 1 − ρ 2 1 2 π exp ( − u 2 2 ) d u = Φ ( x 2 − ρ x 1 1 − ρ 2 ) \operatorname{Pr}(\mathrm{x}_2' \leq \mathrm{x}_2 \mid \mathrm{x}_1) = \int_{-\infty}^{\frac{\mathrm{x}_2 - \rho \mathrm{x}_1}{\sqrt{1-\rho^2}}} \frac{1}{\sqrt{2\pi}} \exp\left(-\frac{u^2}{2}\right) \, du = \Phi\left(\frac{\mathrm{x}_2 - \rho \mathrm{x}_1}{\sqrt{1-\rho^2}}\right) Pr(x2′≤x2∣x1)=∫−∞1−ρ2x2−ρx12π1exp(−2u2)du=Φ(1−ρ2x2−ρx1)
其中 ( Φ ( z ) = ∫ − ∞ z 1 2 π e − t 2 / 2 d t \Phi(z) = \int_{-\infty}^{z} \frac{1}{\sqrt{2\pi}} e^{-t^2/2} \, dt Φ(z)=∫−∞z2π1e−t2/2dt) 是标准正态CDF。
由于 ( Φ \Phi Φ) 和 ( ϕ \phi ϕ) 都是无穷阶可微的,这个条件CDF关于 ( ( x 1 , x 2 ) (\mathrm{x}_1, \mathrm{x}_2) (x1,x2)) 是可微的,且 ( p x ( x 1 , x 2 ) > 0 p_{\mathbf{x}}(\mathrm{x}_1, \mathrm{x}_2) > 0 px(x1,x2)>0)。因此,这个二维正态分布完全符合第2.2节的要求。
在第2.2节的步骤5中,通过变量变换公式计算出:
p z ( z ) = p x ( x ) ∣ det J F ( x ) ∣ − 1 = p x ( x ) ⋅ 1 p x ( x ) = 1 p_{\mathbf{z}}(\mathbf{z}) = p_{\mathbf{x}}(\mathbf{x}) \left| \det J_F(\mathbf{x}) \right|^{-1} = p_{\mathbf{x}}(\mathbf{x}) \cdot \frac{1}{p_{\mathbf{x}}(\mathbf{x})} = 1 pz(z)=px(x)∣detJF(x)∣−1=px(x)⋅px(x)1=1
这里,( z = F ( x ) \mathbf{z} = F(\mathbf{x}) z=F(x)) 是通过变换 ( F F F) 从 ( x \mathbf{x} x) 得到的随机变量,( z \mathbf{z} z) 的定义域是 ( ( 0 , 1 ) D (0,1)^D (0,1)D)(即 ( D D D) 维单位超立方体,每一维 ( z i ∈ ( 0 , 1 ) \mathrm{z}_i \in (0,1) zi∈(0,1)))。当我们说 ( p z ( z ) = 1 p_{\mathbf{z}}(\mathbf{z}) = 1 pz(z)=1) 时,这意味着 ( z \mathbf{z} z) 的概率密度函数在整个 ( ( 0 , 1 ) D (0,1)^D (0,1)D) 上是一个常数,并且这个常数是1。接下来,我们解释为什么这对应于均匀分布。
一个随机变量 ( z \mathbf{z} z) 在某个区域(如 ( ( 0 , 1 ) D (0,1)^D (0,1)D))上服从均匀分布(Uniform Distribution),意味着它的概率密度函数在该区域内是常数,且总概率质量为1。具体到连续分布:
对于 ( ( 0 , 1 ) D (0,1)^D (0,1)D),其体积是:
如果 ( z \mathbf{z} z) 在 ( ( 0 , 1 ) D (0,1)^D (0,1)D) 上均匀分布,密度函数应满足:
∫ ( 0 , 1 ) D p z ( z ) d z = c ⋅ 体积 = c ⋅ 1 = 1 \int_{(0,1)^D} p_{\mathbf{z}}(\mathbf{z}) \, d\mathbf{z} = c \cdot \text{体积} = c \cdot 1 = 1 ∫(0,1)Dpz(z)dz=c⋅体积=c⋅1=1
因此,( c = 1 c = 1 c=1)。也就是说,均匀分布的密度函数在 ( ( 0 , 1 ) D (0,1)^D (0,1)D) 上恰好是 ( p z ( z ) = 1 p_{\mathbf{z}}(\mathbf{z}) = 1 pz(z)=1)。
在步骤5中,推导出:
p z ( z ) = 1 , 对于所有 z ∈ ( 0 , 1 ) D p_{\mathbf{z}}(\mathbf{z}) = 1, \quad \text{对于所有} \quad \mathbf{z} \in (0,1)^D pz(z)=1,对于所有z∈(0,1)D
我们检查这是否满足概率密度的性质:
由于 ( p z ( z ) p_{\mathbf{z}}(\mathbf{z}) pz(z)) 在整个 ( ( 0 , 1 ) D (0,1)^D (0,1)D) 上是常数1,且积分等于1,它完全符合 ( ( 0 , 1 ) D (0,1)^D (0,1)D) 上均匀分布的定义。
想象 ( z \mathbf{z} z) 是 ( D D D) 维空间中的点,定义域 ( ( 0 , 1 ) D (0,1)^D (0,1)D) 是一个单位超立方体。如果密度 ( p z ( z ) p_{\mathbf{z}}(\mathbf{z}) pz(z)) 处处相等(都是1),那么 ( z \mathbf{z} z) 在这个区域内的任何子区域的概率只与该子区域的体积成正比,与位置无关。例如:
这正是均匀分布的特性:密度不随位置变化,所有点的“可能性”均等。
在Normalizing Flows的证明中,( F F F) 被构造为一个微分同胚,将任意目标分布 ( p x ( x ) p_{\mathbf{x}}(\mathbf{x}) px(x))(满足条件:处处非零且条件概率可微)转化为 ( z \mathbf{z} z) 的分布。通过变量变换公式:
p z ( z ) = p x ( x ) ∣ det J F ( x ) ∣ − 1 p_{\mathbf{z}}(\mathbf{z}) = p_{\mathbf{x}}(\mathbf{x}) \left| \det J_F(\mathbf{x}) \right|^{-1} pz(z)=px(x)∣detJF(x)∣−1
而步骤4已计算出:
∣ det J F ( x ) ∣ = p x ( x ) \left| \det J_F(\mathbf{x}) \right| = p_{\mathbf{x}}(\mathbf{x}) ∣detJF(x)∣=px(x)
代入后,( p x ( x ) p_{\mathbf{x}}(\mathbf{x}) px(x)) 被消掉,结果是常数1。这表明 ( F F F) 成功地将复杂的 ( p x ( x ) p_{\mathbf{x}}(\mathbf{x}) px(x)) “拉平”为均匀分布,证明了其表达能力:任何满足条件的分布都可以通过这样的变换变成均匀分布。
如果 ( p z ( z ) = c ≠ 1 p_{\mathbf{z}}(\mathbf{z}) = c \neq 1 pz(z)=c=1)(比如 ( c = 2 c = 2 c=2)),则:
∫ ( 0 , 1 ) D 2 d z = 2 ⋅ 1 = 2 ≠ 1 \int_{(0,1)^D} 2 \, d\mathbf{z} = 2 \cdot 1 = 2 \neq 1 ∫(0,1)D2dz=2⋅1=2=1
这不满足概率密度归一化的要求。所以,只有 ( c = 1 c = 1 c=1) 时,密度函数与 ( ( 0 , 1 ) D (0,1)^D (0,1)D) 的体积匹配,定义了一个有效的均匀分布。
2025年4月1日14点45分于上海,在grok 3大模型辅助下完成。