不同类型二维随机变量的分布分析
本文将系统地探讨二维随机变量 (X,Y) 的分布,主要分为三种情况:
- X 和 Y 均为连续型随机变量。
- X 和 Y 均为离散型随机变量。
- X 为连续型,Y 为离散型的混合情况。
对于每种情况,我们将通过一个典型例子,推导其概率分布函数、概率密度函数(或概率质量函数)、边缘分布、边缘概率密度(或边缘概率质量函数),并计算各自的均值和方差。同时,我们将从几何角度分析其分布函数图形的大致形态。
1. (X连续,Y连续)的情况
当 X 和 Y 都是连续型随机变量时,我们用联合概率密度函数 f(x,y) 来描述二维随机变量 (X,Y) 的概率分布。
1.1 典型例子:矩形区域上的均匀分布
假设二维随机变量 (X,Y) 在矩形区域 D={(x,y)∣0≤x≤a,0≤y≤b} 上服从均匀分布。在本文的图示中,我们取 a=2,b=3 作为具体示例。
1.2 联合概率密度函数 f(x,y)
根据均匀分布的定义,其概率密度函数在区域 D 内是一个常数 c,而在区域 D 外为0。根据归一化条件 ∬Df(x,y)dxdy=1,我们有:
∫0a∫0bcdydx=c⋅a⋅b=1⟹c=ab1
因此,联合概率密度函数为:
f(x,y)={ab100≤x≤a,0≤y≤b其他
其几何图形为一个定义在矩形域 [0,a]×[0,b] 上方,高度为 1/(ab) 的平坦顶面。
1.3 联合分布函数 F(x,y)
根据定义 F(x,y)=P{X≤x,Y≤y}=∫−∞x∫−∞yf(u,v)dvdu。我们需要根据 (x,y) 的位置分情况讨论:
- 情况1: 当 x<0 或 y<0 时,F(x,y)=0。
- 情况2: 当 0≤x≤a 且 0≤y≤b 时:
F(x,y)=∫0x∫0yab1dvdu=abxy
- 情况3: 当 x>a 且 0≤y≤b 时,积分区域的 u 被限制在 [0,a]:
F(x,y)=∫0a∫0yab1dvdu=abay=by
- 情况4: 当 0≤x≤a 且 y>b 时,积分区域的 v 被限制在 [0,b]:
F(x,y)=∫0x∫0bab1dvdu=abxb=ax
- 情况5: 当 x>a 且 y>b 时,积分区域被限制在整个矩形D:
F(x,y)=∫0a∫0bab1dvdu=abab=1
综上所述,分布函数为:
F(x,y)=⎩⎨⎧0abxybyax1x<0 或 y<00≤x≤a,0≤y≤bx>a,0≤y≤b0≤x≤a,y>bx>a,y>b
从几何上看,F(x,y) 的图形是一个曲面。在矩形区域 [0,a]×[0,b] 内,它是一个**双曲抛物面(马鞍面)**的一部分,从原点 (0,0,0) 线性增长到点 (a,b,1)。整个曲面是连续的,从左下方的0逐渐过渡到右上方的1。
1.4 边缘分布
边缘概率密度函数
X 的边缘概率密度函数 fX(x) 通过对 y 积分联合概率密度函数得到:
fX(x)=∫−∞∞f(x,y)dy={∫0bab1dy=a100≤x≤a其他
这表明 X∼U(0,a)。同理,Y 的边缘概率密度函数为:
fY(y)=∫−∞∞f(x,y)dx={∫0aab1dx=b100≤y≤b其他
这表明 Y∼U(0,b)。由于 f(x,y)=fX(x)fY(y),所以 X 和 Y 是相互独立的。
边缘分布函数
X 的边缘分布函数 FX(x) 可以通过对 y 取极限得到:
FX(x)=y→∞limF(x,y)=⎩⎨⎧0ax1x<00≤x≤ax>a
同理,Y 的边缘分布函数 FY(y) 为:
FY(y)=x→∞limF(x,y)=⎩⎨⎧0by1y<00≤y≤by>b
1.5 条件分布
由于变量 X 和 Y 是相互独立的,因此一个变量的取值不会影响另一个变量的分布。
条件概率密度函数
-
给定 X=x 时 Y 的条件PDF:
fY∣X(y∣x)=fX(x)f(x,y)=1/a1/ab=b1,0≤y≤b
这表明,在给定 X 的任意取值 x 时,Y 的条件分布仍然是 (0,b) 上的均匀分布,即 Y∣X=x∼U(0,b)。
-
给定 Y=y 时 X 的条件PDF:
fX∣Y(x∣y)=fY(y)f(x,y)=1/b1/ab=a1,0≤x≤a
同理,X∣Y=y∼U(0,a)。
几何解读
条件概率密度函数的图形,可以理解为用一个平面去切割联合概率密度函数的三维图形所得到的截面。
- 例如,用平面 x=x0 (0≤x0≤a) 去切割联合PDF(一个顶面高度为 1/ab 的长方体),得到的截面是一个在 y∈[0,b] 区间上,高度为 1/ab 的矩形。
- 将这个截面的面积进行归一化(即乘以 a),就得到了高度为 1/b 的一维均匀分布 fY∣X(y∣x)。
1.6 均值与方差
由于 X∼U(0,a),Y∼U(0,b),我们可以直接使用均匀分布的公式。在我们的示例 (a=2,b=3) 中:
-
X的均值与方差:
- 均值: E(X)=20+a=22=1
- 方差: D(X)=12(a−0)2=1222=124=31
-
Y的均值与方差:
- 均值: E(Y)=20+b=23=1.5
- 方差: D(Y)=12(b−0)2=1232=129=43
2. (X离散,Y离散)的情况
当 X 和 Y 均为离散型随机变量时,我们用联合概率质量函数 P{X=xi,Y=yj} 来描述其分布,通常用一个表格来表示。
2.1 典型例子
假设 (X,Y) 的联合概率分布如下表:
| Y \ X |
0 |
1 |
P{Y=y} |
| 0 |
0.1 |
0.2 |
0.3 |
| 1 |
0.3 |
0.4 |
0.7 |
| P{X=x} |
0.4 |
0.6 |
1.0 |
2.2 联合概率质量函数 P{X=x,Y=y}
表格本身就是联合概率质量函数,例如:
- P{X=0,Y=0}=0.1
- P{X=1,Y=0}=0.2
- P{X=0,Y=1}=0.3
- P{X=1,Y=1}=0.4
其图形是在三维空间中的四个点 (x,y) 上方有高度为 P(X=x,Y=y) 的“柱子”。
2.3 联合分布函数 F(x,y)
F(x,y)=P{X≤x,Y≤y}=∑xi≤x∑yj≤yP{X=xi,Y=yj}。其函数值在整数点发生跳跃,形成一个分片常数函数。
F(x,y)=⎩⎨⎧00.10.30.41x<0 或 y<00≤x<1,0≤y<1x≥1,0≤y<10≤x<1,y≥1x≥1,y≥1
F(x,y) 的图形是一个阶梯状的曲面。整个图形由若干个水平的矩形平台组成,平台的高度在 x=0,1 和 y=0,1 的线上发生跃升。
2.4 边缘分布
边缘概率质量函数
将表格的行和列分别求和,即可得到边缘概率,如上表所示。
- X的边缘分布: P{X=0}=0.4,P{X=1}=0.6
- Y的边缘分布: P{Y=0}=0.3,P{Y=1}=0.7
边缘分布函数
- X的边缘分布函数:
FX(x)=⎩⎨⎧0,0.4,1,x<00≤x<1x≥1
- Y的边缘分布函数:
FY(y)=⎩⎨⎧0,0.3,1,y<00≤y<1y≥1
2.5 条件分布
条件概率质量函数
-
给定 X=x 时 Y 的条件PMF: P{Y=y∣X=x}=P{X=x}P{X=x,Y=y}
- 给定 X=0 (P{X=0}=0.4):
- P{Y=0∣X=0}=0.1/0.4=0.25
- P{Y=1∣X=0}=0.3/0.4=0.75
- 给定 X=1 (P{X=1}=0.6):
- P{Y=0∣X=1}=0.2/0.6=1/3
- P{Y=1∣X=1}=0.4/0.6=2/3
-
给定 Y=y 时 X 的条件PMF: P{X=x∣Y=y}=P{Y=y}P{X=x,Y=y}
- 给定 Y=0 (P{Y=0}=0.3):
- P{X=0∣Y=0}=0.1/0.3=1/3
- P{X=1∣Y=0}=0.2/0.3=2/3
- 给定 Y=1 (P{Y=1}=0.7):
- P{X=0∣Y=1}=0.3/0.7=3/7
- P{X=1∣Y=1}=0.4/0.7=4/7
几何解读
条件概率质量函数可以看作是对联合PMF三维图形的一次“降维观测”。
- 例如,当我们考察 P{Y=y∣X=0} 时,我们的视角被限制在平面 X=0 上。在这个平面上,原来有两根“柱子”,高度分别为0.1和0.3。
- 为了让它们形成一个新的、总概率为1的分布,我们将这两根柱子的高度同时“拉伸” 1/P{X=0}=1/0.4=2.5 倍,得到新的高度0.25和0.75。这就构成了在 X=0 条件下,Y 的条件分布。
2.6 均值与方差
-
X的均值与方差:
- E(X)=0⋅0.4+1⋅0.6=0.6
- E(X2)=02⋅0.4+12⋅0.6=0.6
- D(X)=E(X2)−[E(X)]2=0.6−0.62=0.24
-
Y的均值与方差:
- E(Y)=0⋅0.3+1⋅0.7=0.7
- E(Y2)=02⋅0.3+12⋅0.7=0.7
- D(Y)=E(Y2)−[E(Y)]2=0.7−0.49=0.21
3. (X连续,Y离散)的混合情况
这种情况稍微复杂,它没有一个统一的联合概率密度或质量函数。我们通常通过条件分布来定义它。
3.1 典型例子
假设二维随机变量 (X,Y) 的分布定义如下:
- X 是一个服从 (0,1) 区间上均匀分布的连续随机变量,即 X∼U(0,1)。
- 在给定 X=x 的条件下,Y 是一个服从参数为 (n=2,p=x) 的二项分布的离散随机变量,即 Y∣X=x∼B(2,x)。
3.2 “联合分布” 与条件分布
-
X的边缘PDF fX(x):
fX(x)={100<x<1其他
-
Y关于X的条件PMF P{Y=y∣X=x}:
P{Y=y∣X=x}=C2yxy(1−x)2−y=⎩⎨⎧(1−x)22x(1−x)x2y=0,x∈(0,1)y=1,x∈(0,1)y=2,x∈(0,1)
-
"联合"概率函数 f(x,y):
根据 f(x,y)=P{Y=y∣X=x}⋅fX(x),我们得到:
f(x,y)=C2yxy(1−x)2−y,x∈(0,1),y∈{0,1,2}=⎩⎨⎧(1−x)22x(1−x)x2y=0,x∈(0,1)y=1,x∈(0,1)y=2,x∈(0,1)
混合型的“联合”函数在几何上不是一个曲面,而是由多条定义在特定离散y值平面上的曲线构成:
- 在绘图文档中,该函数表现为三条悬浮在三维空间中的抛物线:
- y=0 平面上的蓝色曲线: z=(1−x)2。它描述了当 X=x 时,Y 取0的概率。当 x 趋于
0时,成功概率低,Y=0 的概率接近1。
- y=1 平面上的红色曲线: z=2x(1−x)。它描述了 Y 取1的概率,在 x=0.5 时达到峰值。
- y=2 平面上的绿色曲线: z=x2。它描述了 Y 取2的概率。当 x 趋于1时,成功概率高,
Y=2 的概率接近1。
3.3 概率分布函数 (CDF)
联合分布函数 F(x,y)
对于 0<x<1 的情况,我们有 F(x,y)=∫0xP{Y≤y∣X=u}du。
- 若 0≤y<1 (Y只能取0):
F(x,y)=∫0xP{Y=0∣X=u}du=∫0x(1−u)2du=31−(1−x)3
- 若 1≤y<2 (Y可取0,1):
F(x,y)=∫0xP{Y≤1∣X=u}du=∫0x(1−u2)du=x−3x3
- 若 y≥2 (Y可取0,1,2):
F(x,y)=∫0xP{Y≤2∣X=u}du=∫0x1du=x
联合分布函数的图形是一个阶梯状的曲面:
- 沿 x 轴方向是连续的:对于一个固定的 y 值,函数图像是一条光滑的曲线,反映了概率随 x
的累积过程。
- 沿 y 轴方向是跳跃的:当 y 的值跨越整数0和1时,函数曲面会发生“跃升”,形成阶梯。
- 在 0≤y<1 的“第一级台阶”上,曲面由 z=31−(1−x)3 定义。
- 在 1≤y<2 的“第二级台阶”上,曲面跃升至 z=x−3x3。
- 在 y≥2 的“最高平台”上,曲面变为 z=x。
3.4 边缘分布
Y的边缘概率质量函数 P{Y=y}
我们需要对 f(x,y) 在 x 的整个取值范围上积分:
P{Y=y}=∫01C2yxy(1−x)2−ydx
这是一个欧拉积分(Beta函数)。对 y=0,1,2 分别计算:
P{Y=0}P{Y=1}P{Y=2}=∫01(1−x)2dx=[−3(1−x)3]01=31=∫012x(1−x)dx=2[2x2−3x3]01=31=∫01x2dx=[3x3]01=31
所以,Y 服从在 {0,1,2} 上的离散均匀分布。
边缘分布函数
- X 的边缘分布函数 FX(x):
FX(x)=⎩⎨⎧0,x,1,x<00≤x<1x≥1
- Y 的边缘分布函数 FY(y):
FY(y)=⎩⎨⎧0,1/3,2/3,1,y<00≤y<11≤y<2y≥2
3.5 条件分布
Y关于X的条件CDF FY∣X(y∣x)
条件CDF是条件PMF的累加。对于给定的 x∈(0,1):
FY∣X(y∣x)=k=0∑⌊y⌋P{Y=k∣X=x}=⎩⎨⎧0,(1−x)2,1−x2,1,y<00≤y<11≤y<2y≥2
X关于Y的条件PDF fX∣Y(x∣y)
我们可以使用贝叶斯思想,通过联合函数和Y的边缘PMF来求解:
fX∣Y(x∣y)=P{Y=y}f(x,y)=1/3C2yxy(1−x)2−y=3C2yxy(1−x)2−y,x∈(0,1)
这是一个关于 x 的概率密度函数。有趣的是,对于每一个给定的 y 值,它都对应一个Beta分布:
- y=0: fX∣Y(x∣0)=3(1−x)2。这是 Beta(1,3) 分布。
- y=1: fX∣Y(x∣1)=6x(1−x)。这是 Beta(2,2) 分布。
- y=2: fX∣Y(x∣2)=3x2。这是 Beta(3,1) 分布。
几何解读
- FY∣X(y∣x): 对于每一个固定的 x0,它都是一个关于 y 的阶梯函数,阶梯的位置固定在 y=0,1,2,但每一级台阶的高度(即跳跃的幅度)会随着 x0 的变化而变化。
- fX∣Y(x∣y): 它告诉我们,如果我们已经观测到Y的结果(比如观测到 Y=1),那么我们对 X 的原始信念(即均匀分布)就会更新。在这种情况下,X不再是均匀分布,而是更可能出现在中间值(Beta(2,2) 分布在 x=0.5 处有峰值)。这体现了通过观测一个变量从而更新对另一个变量分布的认知。
3.6 均值与方差
-
Y的均值与方差:
- E(Y)=∑yiP(Y=yi)=0⋅31+1⋅31+2⋅31=1
- E(Y2)=∑yi2P(Y=yi)=02⋅31+12⋅31+22⋅31=35
- D(Y)=E(Y2)−[E(Y)]2=35−12=32
-
X的均值与方差:
- E(X)=20+1=21
- D(X)=12(1−0)2=121
使用全期望/全方差公式验证
-
Y的均值 (全期望公式):
E(Y)=E(E(Y∣X))=E(2X)=2E(X)=2⋅21=1
-
Y的方差 (全方差公式):
D(Y)=E(D(Y∣X))+D(E(Y∣X))=E(2X(1−X))+D(2X)=E(2X−2X2)+4D(X)=(2E(X)−2E(X2))+4D(X)=(2⋅21−2⋅31)+4⋅121=(1−32)+31=31+31=32
注:E(X2)=D(X)+[E(X)]2=121+(21)2=31
两个结果均与直接计算一致。
附录:全期望公式与全方差公式
全期望公式 (Law of Total Expectation)
全期望公式 E(Y)=E(E(Y∣X)) 的核心思想是“先分类,再平均”。
- E(Y∣X=x): 这是内层期望,代表在给定 X 的某个具体取值 x 的条件下,Y 的条件期望(或均值)。可以把它理解为对数据进行“分类”后,每一类内部的平均值。例如,计算全国人口的平均身高时,我们可以先按省份分类,计算出每个省的平均身高。
- E(⋅): 这是外层期望,代表对内层期望的结果,再根据 X 的概率分布进行加权平均。继续上面的例子,我们将每个省的平均身高,再按照各省的人口比例(即概率)进行加权平均,最终得到全国的平均身高。
因此,这个公式的直观理解是:Y 的总平均值,等于其在所有可能条件下的条件平均值的加权平均。
全方差公式 (Law of Total Variance)
全方差公式 D(Y)=E(D(Y∣X))+D(E(Y∣X)) 将总方差分解为两个部分,其核心思想是“总波动 = 组内波动 + 组间波动”。
方差衡量的是数据的波动或离散程度。Y 的总波动来源可以分解为:
-
E(D(Y∣X)): 组内方差的期望 (Expected Conditional Variance)
- D(Y∣X=x) 是在给定 X=x 的条件下,Y 的方差。这代表了每一个“类别”内部自身的波动程度。例如,某个省内部,人们身高也存在差异,这就是组内方差。
- E(⋅) 对所有这些组内方差求期望(加权平均),得到了所有类别内部平均的波动水平。
-
D(E(Y∣X)): 条件期望的方差 (Variance of Conditional Expectation)
- E(Y∣X=x) 是每个“类别”的均值。这些均值本身也可能各不相同。例如,不同省份的平均身高可能存在差异。
- D(⋅) 计算这些不同类别均值之间的波动程度。如果各省平均身高都差不多,这个值就很小;反之,如果各省平均身高差异巨大,这个值就很大。这部分代表了由类别不同(即 X 的取值不同)引起的 Y 的波动,所以称为“组间方差”。
因此,这个公式的直观理解是:Y 的总方差 = 各组内部方差的平均值 + 各组均值之间的方差。