系列笔记是本人在上随机过程时整理的。由于这门课是这个学期正在上的,更新速度会比较慢,只能每学完一个章节更新一次。这是准备知识部分,其中引入的最重要的概念是条件期望。
( Ω , F , P ) \left({\Omega,\mathcal{F},P}\right) (Ω,F,P) 构成一概率测度空间,其中 F \mathcal{F} F 中的元素被称为随机事件或简称事件,而 Ω \Omega Ω 被称为必然事件。事件中的元素被称为基本点。随机变量 X X X 是概率测度空间上关于 F \mathcal{F} F的可测函数,其作用在事件域 F \mathcal{F} F上,导出一个实数值。其分布函数 F F F 为:
F ( x ) = P ( { w : X ( w ) ≤ x } ) = : P ( X ≤ x ) F(x) = P\left({\left\{{w:X(w)\leq x}\right\}}\right)=:P(X\leq x) F(x)=P({w:X(w)≤x})=:P(X≤x)
同理也可以定义n维随机变量地分布函数以及边缘分布函数。分布函数具有单调增、右连续性的性质。如果分布函数满足:
F ( x ) = ∫ − ∞ x f ( t ) d t F(x) = \int_{^{-\infty}}^{x} f(t) \, dt F(x)=∫−∞xf(t)dt
则称该随机变量为连续性随机变量。随机变量中只有很少的一部分是离散型和连续性,更多的随机变量既不连续也不离散。
随机变量 X X X的数学期望被定义为:
E [ X ] : = ∫ Ω X d P E[X]:=\int _{\Omega} X \, dP E[X]:=∫ΩXdP
当然,前提是上述积分存在;也就是说,随机变量数学期望的存在条件是其为可积函数。
下面介绍事件的独立性。设 D = { A t , t ∈ T } \mathcal{D} = \{ A_t, t\in T\} D={At,t∈T}为一族事件,如果对 T T T 的任何非空有限子集 S S S,有:
P ( ⋂ s ∈ S A s ) = ∏ s ∈ S P ( A s ) P(\bigcap_{s\in S}A_s)=\prod_{s\in S}P(A_s) P(s∈S⋂As)=s∈S∏P(As)
则称 D \mathcal{D} D中事件相互独立。请注意,两两独立并不意味着相互独立;一定要对于任意的非空子集 S S S都满足上式,才能称事件相互独立。举例:猜拳游戏中,事件A是甲赢乙,B是乙赢丙,C是甲赢丙。AB、BC都相互独立,但是AC并不独立。
设 { C t , t ∈ T } \{\mathcal{C}_t,t\in T\} {Ct,t∈T} 为一族事件类,如果从每个事件类 C t \mathcal{C}_t Ct 中任取一事件 A t , { A t , t ∈ T } A_t,\{A_t,t\in T\} At,{At,t∈T} 中事件相互独立,则称 { C t , t ∈ T } \{\mathcal{C}_t,t\in T\} {Ct,t∈T}为独立 (事件)类。设 { ξ t , t ∈ T } \{\xi_t,t\in T\} {ξt,t∈T}为一族随机变量,若 { σ ( ξ t ) , t ∈ T } \{\sigma(\xi_t),t\in T\} {σ(ξt),t∈T}为独立事件类。则称 { ξ t , t ∈ T } \{ \xi _t, t\in T\} {ξt,t∈T} 相互独立。 其中的符号:
σ ( ξ ) : = { ξ − 1 ( B ) ∣ B ∈ B ( R ) } \sigma(\xi):=\left\{{\xi ^{-1}\left({B}\right)\:\bigg|\:B\in \mathcal{B}(\mathbb{R})}\right\} σ(ξ):={ξ−1(B) B∈B(R)}
一族随机变量独立的充要条件如下:
⟺ F X 1 , X 2 , ⋯ , X n ( x 1 , x 2 , ⋯ , x n ) = ∏ i = 1 n F X i ( x i ) , x 1 , x 2 , ⋯ , x n ∈ R , ⟺ ∀ 有界可测函数 f 1 , f 2 , … , f n : E ∏ i = 1 n f i ( X i ) = ∏ i = 1 n E ( X i ) \begin{align*} \iff&F_{X_1,X_2,\cdots,X_n}\left(x_1,x_2,\cdots,x_n\right)=\prod_{i=1}^nF_{X_i}\left(x_i\right),\quad x_1,x_2,\cdots,x_n\in\mathbb{R},\ \iff&\forall 有界可测函数f_{1},f_{2},\dots,f_{n}:E\prod_{i=1}^{n}f_{i}(X_{i}) = \prod_{i=1}^{n}E(X_{i}) \end{align*} ⟺FX1,X2,⋯,Xn(x1,x2,⋯,xn)=i=1∏nFXi(xi),x1,x2,⋯,xn∈R, ⟺∀有界可测函数f1,f2,…,fn:Ei=1∏nfi(Xi)=i=1∏nE(Xi)
证明参考书籍[[测度论基础与高等概率论 下册 (袁德美 王学军 编著) (Z-Library).pdf#page=14|测度论基础与高等概率论 下册]] page326。
在这里,我们通过先定义抽象的条件期望,再利用条件期望定义条件概率。而条件期望的定义也是从具象到抽象。先定义离散型随机变量的条件期望。
设 X 、 Y X、Y X、Y 是一对离散型随机变量,其联合概率分布为 P i j : = P ( X = x i , Y = y j ) P_{ij}:=P\left({X=x_{i},Y=y_{j}}\right) Pij:=P(X=xi,Y=yj)。于是合乎直觉的,条件期望被定义为:
E [ X ∣ Y = y j ] : = ∑ i x i P i j P ⋅ j E[X|Y=y_{j}]:=\sum_{i}x_{i} \frac{P_{ij}}{P_{\cdot j}} E[X∣Y=yj]:=i∑xiP⋅jPij
可以看出,条件期望 E [ X ∣ Y ] E[X|Y] E[X∣Y]是随机变量 Y Y Y的函数。但是,其实这里 Y Y Y并不重要,重要是事件 B : = Y − 1 ( y ) B:= Y^{-1}(y) B:=Y−1(y)。从这个角度看,条件期望就是在 B B B上求 X X X的期望,而不是在全空间 Ω \Omega Ω上:
E [ X ∣ B ] = E [ X ∣ Y = y i ] = ∫ B X d P B P B ( S ) : = P ( S ∩ B ) P ( B ) E[X|B]=E[X|Y=y_{i}]=\int _{B}X \, dP_{B} \quad \quad P_{B}(S):= \frac{P(S\cap B)}{P(B)} E[X∣B]=E[X∣Y=yi]=∫BXdPBPB(S):=P(B)P(S∩B)
于是,我们就将随机变量关于随机变量的条件期望转化成了关于随机事件的条件期望。但是,这里的期望是一个定值,我们希望集合 B B B也可以取不同的值。
下面我们进一步地进行抽象。设域 Ω \Omega Ω上有一个有限的划分 { B j ∣ j = 1 , 2 , … , n } \left\{{B_{j}\:\bigg|\:j=1,2,\dots,n}\right\} {Bj j=1,2,…,n}, G \mathcal{G} G是由其生产的 σ \sigma σ代数。对于任意可积的随机变量,定义其关于 G \mathcal{G} G的条件期望为:
E [ X ∣ G ] : = ∑ i = 1 n E [ X I B j ] P ( B j ) I B j E[X|\mathcal{G}]:=\sum_{i=1}^{n} \frac{E[XI_{B_{j}}]}{P(B_{j})}I_{B_{j}} E[X∣G]:=i=1∑nP(Bj)E[XIBj]IBj
我们首先应该注意的是,这里的条件期望是一个随机变量而不是一个值。其次,随机变量 E [ X ∣ G ] E[X|\mathcal{G}] E[X∣G]是一个关于 G \mathcal{G} G可测的随机变量,这是因为其是特征函数的线性组合。最后,不难发现:
E [ E [ X ∣ G ] ⋅ I B ] = E [ X ⋅ I B ] E[\:E[X|\mathcal{G}]\:\cdot I_{B}\:] = E[X\cdot I_{B}] E[E[X∣G]⋅IB]=E[X⋅IB]
进一步推出对于任意关于 G \mathcal{G} G 可测的随机变量 Y Y Y,都有:
E [ E [ X ∣ G ] ⋅ Y ] = E [ X Y ] E[\:E[X|\mathcal{G}]\:\cdot\:Y] = E[XY] E[E[X∣G]⋅Y]=E[XY]
最终,给定 σ \sigma σ 域 G \mathcal{G} G 和随机变量 X X X ,我们定义条件期望 T T T 被定义为满足以下两个条件的随机变量:
( 1 ) T 关于 G 可测 ( 2 ) E [ T I B ] = E [ X I B ] , ∀ B ∈ G i . e . ∫ B T d P = ∫ B X d P \begin{align*} &(1)\:T关于\mathcal{G}可测\\ &(2)\:E[T\:I_{B}] = E[X\:I_{B}], \quad \forall B\in \mathcal{G} \quad \quad i.e.\int _{B}T \, dP=\int _{B}X \, dP \end{align*} (1)T关于G可测(2)E[TIB]=E[XIB],∀B∈Gi.e.∫BTdP=∫BXdP
唯一性(a.s意义下)是很容易证明的;而存在性由Radon-Nikodym定理保证。我们记满足以上两个条件的唯一随机变量为 T = E [ X ∣ G ] T=E[X|\mathcal{G}] T=E[X∣G],称作 X X X 关于 G \mathcal{G} G 的条件期望。
下面不加证明的给出一些条件期望的性质:
(1) (重期望公式) E [ E [ X ∣ G ] ] = E [ X ] E[E[X|G]]=E[X] E[E[X∣G]]=E[X];
(2) 若 X 为 G \mathcal{G} G 可测,则 E [ X ∣ G ] = X E[X|G]=X E[X∣G]=X a.s.
(3) 设 G = { ∅ , Ω } \mathcal{G}=\{\emptyset, \Omega\} G={∅,Ω},则 E [ X ∣ G ] = E [ X ] E[X|\mathcal{G}]=E[X] E[X∣G]=E[X] a.s.
(4) X ≥ Y X \geq Y X≥Y a.s. ⇒ E [ X ∣ G ] ≥ E [ Y ∣ G ] \Rightarrow E[X|\mathcal{G}] \geq E[Y|\mathcal{G}] ⇒E[X∣G]≥E[Y∣G] a.s.
(5) 设 c 1 , c 2 c_1,c_2 c1,c2 为实数,X,Y, c 1 X + c 2 Y c_1X+c_2Y c1X+c2Y 的期望存在,则 E [ c 1 X + c 2 Y ∣ G ] = c 1 E [ X ∣ G ] + c 2 E [ Y ∣ G ] E[c_1X+c_2Y|\mathcal{G}]=c_1E[X|\mathcal{G}]+c_2E[Y|\mathcal{G}] E[c1X+c2Y∣G]=c1E[X∣G]+c2E[Y∣G] a.s.,如果右边和式有意义;
(6) 绝对值不等式: ∣ E [ X ∣ G ] ∣ ≤ E [ ∣ X ∣ ∣ G ] |E[X|\mathcal{G}]| \leq E[|X||\mathcal{G}] ∣E[X∣G]∣≤E[∣X∣∣G] a.s.
(7) 设 X 及 XY 的期望存在,且 Y 为 G 可测,则 E [ X Y ∣ G ] = Y E [ X ∣ G ] E[XY|\mathcal{G}]=YE[X|\mathcal{G}] E[XY∣G]=YE[X∣G] a.s.
(8) (塔式法则) 设 G 1 , G 2 \mathcal{G}_1,\mathcal{G}_2 G1,G2 为 F \mathcal{F} F 的子 σ \sigma σ 代数,且 G 1 ⊂ G 2 \mathcal{G}_1 \subset \mathcal{G}_2 G1⊂G2,则
E [ E [ X ∣ G 2 ] ∣ G 1 ] = E [ X ∣ G 1 ] E[E[X|\mathcal{G}_2]|\mathcal{G}_1]=E[X|\mathcal{G}_1] E[E[X∣G2]∣G1]=E[X∣G1] a.s.
(9) 若 X 与 G 相互独立 (即 σ ( X ) \sigma(X) σ(X) 与 G 相互独立),则有 E [ X ∣ G ] = E [ X ] E[X|\mathcal{G}]=E[X] E[X∣G]=E[X] a.s.
证明参考[[测度论讲义.pdf#page=210|测度论讲义]].
条件期望从几何上看其实就是投影。将随机变量的内积定义为:
⟨ X , Y ⟩ = E [ X Y ] \langle X,Y \rangle = E[XY] ⟨X,Y⟩=E[XY]
从这个视角看,许多性质都是可以从直观上得到的。