概率论与数理统计 | 数三概统知识点整理

Prong2025-11-122025-11-12

考研数学：概率论与数理统计核心公式与概念辨析

本文档根据考研数学大纲，旨在系统梳理概率论与数理统计的核心知识点，便于快速复习。

第一部分：概率论基础

一、基本概率模型与计数原理

1. 古典概型

定义：试验的样本空间 $\Omega$ 只包含有限个基本事件，且每个基本事件发生的可能性相同。
公式：若事件A包含 $k$ 个基本事件，样本空间共有 $n$ 个基本事件，则 $P(A) = \frac{k}{n}$ 。
核心：将概率问题转化为排列组合的计数问题。

2. 几何概型

定义：试验的样本空间 $\Omega$ 是一个可度量的几何区域（如线段、平面、体），每个样本点出现的可能性相同。
公式：若事件A对应的子区域为 $A_{\Omega}$ ，则 $P(A) = \frac{\mu(A_{\Omega})}{\mu(\Omega)}$ ，其中 $\mu$ 是度量（长度、面积、体积）。
核心：将概率问题转化为几何图形的度量计算问题。

3. 计数原理与组合公式

加法原理：完成一件事有 $n$ 类方法，各类方法相互独立，第 $i$ 类方法有 $m_i$ 种，则共有 $\sum\limits m_i$ 种方法。
乘法原理：完成一件事需要 $n$ 个步骤，各步骤相互独立，第 $i$ 个步骤有 $m_i$ 种方法，则共有 $\prod\limits m_i$ 种方法。
排列 (Permutation)：从 $n$ 个不同元素中取出 $m$ 个，按一定顺序排列。 $P_n^m = \frac{n!}{(n-m)!}$ 。
组合 (Combination)：从 $n$ 个不同元素中取出 $m$ 个，不考虑顺序。 $C_n^m = \binom{n}{m} = \frac{n!}{m!(n-m)!}$ 。

4. 常见计数问题 (抽样与分配)

问题类型	模型	总样本数	通俗说明
简单随机抽样	有放回 (With Replacement)：从n个球中抽r个	$n^r$	每次抽样都有n种选择，共抽r次，且每次选择独立。例句：“从 n 个球中有放回地抽取 r 次，记录结果。”
	无放回，计顺序 (Permutation)：从n个球中抽r个	$P_n^r=C_n^r \cdot r!$	抽出的球不放回，第一次有n种选择，第二次n-1种，以此类推。抽出的顺序不同算作不同结果。例句：“从 n 个人中选出 r 个人排列成一队。”
	无放回，不计顺序 / 任取 (Combination)：从n个球中取r个	$C_n^r$	抽出的球不放回，且最终只关心抽到了哪些球，不关心它们的先后顺序。例句：“从 n 个人中任取 r 个人组成一个委员会。”
随机分配问题 (r个球, n个盒子)	球可辨，盒可辨，无容量限制	$n^r$	每个不同的球都有n个不同的盒子可选，共r个球。例句：“将 r 封不同的信，投入 n 个不同的邮筒。”
	球不可辨，盒可辨，无容量限制 (隔板法)	$C_{r+(n-1)}^r$	想象r个球排成一排，需要n-1个“隔板”将它们分成n份。问题转化为在总共 r+n-1 个位置中，选择r个位置放球。例句：“将 r 个相同的苹果，分给 n 个不同的小朋友，允许有人分不到。”
	球可辨，盒可辨，每盒至多一球 ( $r \le n$ )	$P_n^r=C_n^r \cdot r!$	第一个球有n个盒子可选，第二个有n-1个，以此类推。相当于从n个盒子中选r个进行排列。例句：“将 r 个不同的球，放入 n 个不同的盒子，每盒最多放一个。”
	球不可辨，盒可辨，每盒至多一球 ( $r \le n$ )	$C_n^r$	因为球无差别，所以只需从n个盒子中选出r个来放球即可，无需考虑顺序。例句：“将 r 个相同的球，放入 n 个不同的盒子，每盒最多放一个。”

二、概率论基本概念与公式

1. 核心概念辨析：独立 vs. 互不相容 vs. 不相关

这三个概念描述了事件或随机变量之间不同层面的关系，极易混淆。

概念	定义	研究对象	关系与辨析
互不相容 (互斥)	$AB = \emptyset$ $P(AB) = 0$	事件	描述事件能否同时发生。若A、B为对立事件，则它们必互不相容，反之不然。若 $P(A)>0, P(B)>0$ ，则A, B不可能既独立又互不相容。
相互独立	事件: $P(AB)=P(A)P(B)$ 变量: $F(x,y)=F_X(x)F_Y(y)$	事件、随机变量	描述事件发生概率是否相互影响。独立是概率层面的关系，比不相关更强。
不相关	$E(XY) = E(X)E(Y)$ $Cov(X, Y) = 0$	随机变量	描述随机变量之间是否存在线性关系。独立一定不相关，但不相关不一定独立（除非X, Y服从二维正态分布）。

2. 重要概率基本公式

设 A, B 为任意两个事件。

公式名称	公式内容	备注
加法公式	$P(A \cup B) = P(A) + P(B) - P(AB)$	若A, B互不相容，则 $P(A \cup B) = P(A) + P(B)$
减法公式	$P(A-B) = P(A) - P(AB)$	$A-B$ 指事件A发生而B不发生。仅当 $B \subset A$ 时，才有 $P(A-B) = P(A) - P(B)$
条件概率	$P(A \mid B) = \frac{P(AB)}{P(B)}$	$P(B)>0$
乘法公式	$P(AB) = P(A)P(B \mid A) = P(B)P(A \mid B)$	若A, B独立，则 $P(AB) = P(A)P(B)$
全概率公式	$P(A) = \sum_{i=1}^{n} P(B_i)P(A \mid B_i)$	$B_1, \dots, B_n$ 是一个完备事件组
贝叶斯公式	$P(B_i \mid A) = \frac{P(B_i)P(A \mid B_i)}{\sum\limits_{j=1}^{n} P(B_j)P(A \mid B_j)}$	用于“执果索因”，在已知A发生的情况下，计算来自 $B_i$ 的概率

3. 全概率公式与贝叶斯公式的理解 (全集分解)

一件事（事件A）的发生，其原因往往是复杂的，可能是由多种互斥的原因（ $B_1, B_2, \dots, B_n$ ）之一所引起的。在这种情况下，我们就需要考虑对样本空间进行 全集分解。

什么是全集分解:
设 $B_1, B_2, \dots, B_n$ 是一组事件，如果它们满足：
1. 两两互斥： $B_i B_j = \emptyset$ (对于任意 $i \neq j$ )
2. 并集为全集： $\bigcup\limits_{i=1}^{n} B_i = \Omega$ (完备事件组)
  那么，这组事件就构成了样本空间 $\Omega$ 的一个分解。你可以把它们想象成将一整块蛋糕切成了n块，互不重叠，且刚好拼成完整的蛋糕。每一块 $B_i$ 就代表了一种可能的原因或场景。
公式的应用:
- 全概率公式：计算的是“结果”A的总概率。它通过“把所有原因都考虑进去”的方式，将A在各种原因 $B_i$ 下发生的概率 $P(A \mid B_i)$ ，用原因 $B_i$ 自身的概率 $P(B_i)$ 作为权重进行加权求和，最终得到 $P(A)$ 。
- 贝叶斯公式：是全概率公式的“逆过程”。当我们已经观测到“结果”A发生了，回过头去推断它是由某一个特定“原因” $B_i$ 所导致的概率有多大，即求 $P(B_i \mid A)$ 。这正是“执果索因”的数学体现。

三、一维随机变量及其常见分布

1. 分布函数、概率质量/密度函数

分布函数 (CDF - Cumulative Distribution Function):
对于任意随机变量X，其分布函数定义为 $F(x) = P\{X \le x\}$ 。
核心性质:
1. $0 \le F(x) \le 1$
2. $F(x)$ 是单调不减函数。
3. $F(-\infty) = 0, F(+\infty) = 1$
4. $P\{a < X \le b\} = F(b) - F(a)$
离散型 - 概率质量函数 (PMF - Probability Mass Function):
$P\{X=x_k\} = p_k$ ，其中 $p_k \ge 0, \sum\limits_k p_k = 1$ 。分布函数 $F(x)$ 是阶梯状的跳跃函数。
连续型 - 概率密度函数 (PDF - Probability Density Function):
如果存在非负函数 $f(x)$ 使得 $F(x) = \int_{-\infty}^{x} f(t)dt$ ，则称 $X$ 为连续型随机变量， $f(x)$ 为其概率密度函数。
核心性质:
1. $f(x) \ge 0$
2. $\int_{-\infty}^{\infty} f(x)dx = 1$
3. 在 $f(x)$ 的连续点上， $F'(x) = f(x)$
4. $P\{a < X \le b\} = \int_a^b f(x)dx$

2. 常见分布的性质汇总表

分布	概率函数 (PMF/PDF)	分布函数 (CDF)	$E(X)$ 与 $D(X)$
0-1分布 (离散) $B(1, p)$ 抛一次硬币的结果	$P\{X=k\}=p^k(1-p)^{1-k}$ for $k=0,1$	$F(x)=\begin{cases} 0, & x < 0 \\ 1-p, & 0 \le x < 1 \\ 1, & x \ge 1 \end{cases}$	$E(X)=p$ $D(X)=p(1-p)$
二项分布 (离散) $B(n, p)$ 抛n次硬币，正面朝上的次数	$P\{X=k\}=C_n^k p^k (1-p)^{n-k}$	$F(x)=\sum\limits_{k=0}^{\lfloor x \rfloor} C_n^k p^k (1-p)^{n-k}$	$E(X)=np$ $D(X)=np(1-p)$
泊松分布 (离散) $P(\lambda)$ 一小时内某路口的车辆数	$P\{X=k\}=\frac{\lambda^k e^{-\lambda}}{k!}$	$F(x)=\sum\limits_{k=0}^{\lfloor x \rfloor} \frac{\lambda^k e^{-\lambda}}{k!}$	$E(X)=\lambda$ $D(X)=\lambda$
几何分布 (离散) $G(p)$ 连续射击，首次命中时的次数	$P\{X=k\}=(1-p)^{k-1}p$ for $k=1,2,\dots$	$F(x) = 1-(1-p)^{\lfloor x \rfloor}$ for $x \ge 1$	$E(X)=\frac{1}{p}$ $D(X)=\frac{1-p}{p^2}$
超几何分布 (离散) $H(N,M,n)$ (N总, M成功, n抽) 产品抽检(不放回)次品数	$P\{X=k\}=\frac{C_M^k C_{N-M}^{n-k}}{C_N^n}$ $\max(0,n+M-N) \le k \le \min(n,M)$	$F(x)=\sum\limits_{i=0}^{\lfloor x \rfloor} \frac{C_M^i C_{N-M}^{n-i}}{C_N^n}$	$E(X)=n\frac{M}{N}$ $D(X)=n\frac{M}{N}(1-\frac{M}{N})\frac{N-n}{N-1}$
均匀分布 (连续) $U(a,b)$ 随机数生成	$f(x)=\begin{cases} \frac{1}{b-a}, & a<x<b \\ 0, & \text{其他} \end{cases}$	$F(x)=\begin{cases} 0, & x<a \\ \frac{x-a}{b-a}, & a \le x < b \\ 1, & x \ge b \end{cases}$	$E(X)=\frac{a+b}{2}$ $D(X)=\frac{(b-a)^2}{12}$
指数分布 (连续) $E(\lambda)$ 电子元件寿命、服务等待时间	$f(x)=\begin{cases} \lambda e^{-\lambda x}, & x>0 \\ 0, & x \le 0 \end{cases}$	$F(x)=\begin{cases} 1-e^{-\lambda x}, & x>0 \\ 0, & x \le 0 \end{cases}$	$E(X)=\frac{1}{\lambda}$ $D(X)=\frac{1}{\lambda^2}$
正态分布 (连续) $N(\mu, \sigma^2)$ 大量人群的身高、体重分布	$f(x)=\frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{1}{2}\left(\frac{x-\mu}{\sigma}\right)^2}$	$F(x) = \Phi(\frac{x-\mu}{\sigma})$	$E(X)=\mu$ $D(X)=\sigma^2$
卡方分布 (连续) $\chi^2(n)$ 用于方差检验的统计量	公式复杂，不要求掌握	公式复杂	$E(X)=n$ $D(X)=2n$

四、二维随机变量及其分布

1. 联合分布

联合分布函数： $F(x, y) = P\{X \le x, Y \le y\}$
离散型 - 联合概率分布律： $P\{X=x_i, Y=y_j\} = p_{ij}$
连续型 - 联合概率密度：$f(x, y) $，具有性质：
1. $f(x, y) \ge 0$
2. $\int_{-\infty}^{\infty}\int_{-\infty}^{\infty}f(x,y)dxdy = 1$
3. $F(x,y) = \int_{-\infty}^{x}\int_{-\infty}^{y}f(u,v)dudv$
4. $\frac{\partial^2 F(x,y)}{\partial x \partial y} = f(x,y)$

2. 边缘分布

边缘分布是二维随机变量中单个变量的分布。

边缘分布函数:
- $F_X(x) = P\{X \le x\} = F(x, +\infty)$
- $F_Y(y) = P\{Y \le y\} = F(+\infty, y)$
离散型 - 边缘分布律:
- $p_{i\cdot} = P\{X=x_i\} = \sum\limits_{j=1}^{\infty} p_{ij}$ (对 j 求和)
- $p_{\cdot j} = P\{Y=y_j\} = \sum\limits_{i=1}^{\infty} p_{ij}$ (对 i 求和)
连续型 - 边缘密度函数:
- $f_X(x) = \int_{-\infty}^{\infty} f(x,y)dy$ (对 y 积分)
- $f_Y(y) = \int_{-\infty}^{\infty} f(x,y)dx$ (对 x 积分)

3. 条件分布

条件分布是在一个变量取给定值的条件下，另一个变量的分布。

离散型 - 条件分布律:
- $P\{X=x_i \mid Y=y_j\} = \frac{P\{X=x_i, Y=y_j\}}{P\{Y=y_j\}} = \frac{p_{ij}}{p_{\cdot j}}$
- $P\{Y=y_j \mid X=x_i\} = \frac{P\{X=x_i, Y=y_j\}}{P\{X=x_i\}} = \frac{p_{ij}}{p_{i\cdot}}$
连续型 - 条件密度函数:
- $f_{X|Y}(x|y) = \frac{f(x,y)}{f_Y(y)}$ (要求 $f_Y(y) > 0$ )
- $f_{Y|X}(y|x) = \frac{f(x,y)}{f_X(x)}$ (要求 $f_X(x) > 0$ )

4. 随机变量的独立性

$X, Y$ 相互独立的充要条件是它们的联合分布等于边缘分布的乘积。

$F(x, y) = F_X(x)F_Y(y)$
离散型： $p_{ij} = p_{i\cdot} \cdot p_{\cdot j}$
连续型： $f(x, y) = f_X(x)f_Y(y)$

5. 二维正态分布

二维正态分布是多元正态分布中最简单的情形，也是应用最广泛的多元连续分布。它由五个参数描述：两个期望 $\mu_1, \mu_2$ ，两个方差 $\sigma_1^2, \sigma_2^2$ ，以及一个相关系数 $\rho$ 。记作 $(X, Y) \sim N(\mu_1, \mu_2, \sigma_1^2, \sigma_2^2, \rho)$ 。

概率密度函数:

$f(x, y) = \frac{1}{2\pi\sigma_X\sigma_Y\sqrt{1-\rho^2}} \exp\left(-\frac{1}{2(1-\rho^2)}\left[\left(\frac{x-\mu_X}{\sigma_X}\right)^2 - 2\rho\left(\frac{x-\mu_X}{\sigma_X}\right)\left(\frac{y-\mu_Y}{\sigma_Y}\right) + \left(\frac{y-\mu_Y}{\sigma_Y}\right)^2\right]\right)$
重要性质:
1. 边缘分布：二维正态分布的两个边缘分布仍然是正态分布。
  - $X \sim N(\mu_1, \sigma_1^2)$
  - $Y \sim N(\mu_2, \sigma_2^2)$
2. 条件分布：在给定一个变量的条件下，另一个变量的条件分布也是正态分布。
3. 不相关与独立的等价性：对于二维正态分布，“不相关”与“相互独立”是等价的。即 $\rho=0 \iff Cov(X,Y)=0 \iff X,Y$ 相互独立。这是二维正态分布最重要的性质。

补充：二维正态分布中"不相关"与"相互独立"等价的证明

通常情况下，两个随机变量相互独立，那么它们一定不相关。但反过来，不相关并不一定能推出相互独立。然而，对于二维正态分布来说，这是一个特例，“不相关”与“相互独立”是等价的。

简要总结：对于二维正态分布，X和Y不相关时，其 $f(x,y)=f_X(x)f_Y(y)$ ，因此此时X和Y相互独立。又由于“独立”总是能推出“不相关”，因此两者是等价的。

假设随机变量 $(X, Y)$ 服从二维正态分布，其参数为 $(\mu_X, \mu_Y, \sigma_X^2, \sigma_Y^2, \rho)$ 。其联合概率密度函数为：

$\begin{aligned} f(x, y) = \frac{1}{2\pi\sigma_X\sigma_Y\sqrt{1-\rho^2}} \exp\left(-\frac{1}{2(1-\rho^2)}\left[\left(\frac{x-\mu_X}{\sigma_X}\right)^2 - 2\rho\left(\frac{x-\mu_X}{\sigma_X}\right)\left(\frac{y-\mu_Y}{\sigma_Y}\right) + \left(\frac{y-\mu_Y}{\sigma_Y}\right)^2\right]\right) \end{aligned}$

其中 $\rho$ 是 $X$ 和 $Y$ 的相关系数。

如果 $X$ 和 $Y$ 不相关，根据定义，它们的相关系数 $\rho=0$ 。我们将 $\rho=0$ 代入上面的联合概率密度函数公式：

$\begin{aligned} f(x, y) &= \frac{1}{2\pi\sigma_X\sigma_Y} \exp\left(-\frac{1}{2}\left[\left(\frac{x-\mu_X}{\sigma_X}\right)^2 + \left(\frac{y-\mu_Y}{\sigma_Y}\right)^2\right]\right) \\ &= \left[\frac{1}{\sigma_X\sqrt{2\pi}} \exp\left(-\frac{(x-\mu_X)^2}{2\sigma_X^2}\right)\right] \cdot \left[\frac{1}{\sigma_Y\sqrt{2\pi}} \exp\left(-\frac{(y-\mu_Y)^2}{2\sigma_Y^2}\right)\right] \end{aligned}$

我们知道，服从正态分布 $N(\mu_X, \sigma_X^2)$ 的随机变量 $X$ 与服从正态分布 $N(\mu_Y, \sigma_Y^2)$ 的随机变量 $Y$ 的边际概率密度函数分别为

$\begin{aligned} f_X(x) &= \frac{1}{\sigma_X\sqrt{2\pi}} \exp\left(-\frac{(x-\mu_X)^2}{2\sigma_X^2}\right) \\ f_Y(y) &= \frac{1}{\sigma_Y\sqrt{2\pi}} \exp\left(-\frac{(y-\mu_Y)^2}{2\sigma_Y^2}\right) \end{aligned}$

因此，当 $\rho=0$ 时，我们有 $f(x,y) = f_X(x) \cdot f_Y(y)$ 。根据随机变量相互独立的定义，如果其联合概率密度函数等于其边际概率密度函数的乘积，则这两个随机变量相互独立。

综上所述，对于二维正态分布，若 $X$ 和 $Y$ 不相关，则它们必定相互独立。由于“独立”总是能推出“不相关”，因此两者是等价的。

2. 二维正态分布的条件分布

条件分布：在给定一个变量的条件下，另一个变量的条件分布也是正态分布。
- 给定 $X=x$ ， $Y$ 的条件分布为：
  $Y \mid X = x \sim N\left(\mu_Y + \rho \frac{\sigma_Y}{\sigma_X} (x - \mu_X), \sigma_Y^2 (1 - \rho^2)\right)$
- 给定 $Y=y$ ， $X$ 的条件分布为：
  $X \mid Y = y \sim N\left(\mu_X + \rho \frac{\sigma_X}{\sigma_Y} (y - \mu_Y), \sigma_X^2 (1 - \rho^2)\right)$

6. 二维随机变量函数的分布 (变量变换法)

对于二维连续型随机变量 $(X,Y)$ ，求其函数 $Z=g(X,Y)$ 的分布，通常有两种方法。

方法一：分布函数法 (通用)

通过定义求 $Z$ 的分布函数 $F_Z(z) = P\{Z \le z\} = P\{g(X,Y) \le z\}$ ，即在 $xy$ 平面上对满足 $g(x,y) \le z$ 的区域进行二重积分，然后求导得到密度函数 $f_Z(z)$ 。

方法二：公式法 (常用变换)

对于 $U=U(X,Y), V=V(X,Y)$ 这样的变量变换，若变换可逆且存在连续偏导数，可以使用雅可比行列式 (Jacobian) 求解。

反解：从 $u=u(x,y), v=v(x,y)$ 中解出 $x=x(u,v), y=y(u,v)$ 。
计算雅可比行列式:
$J = \frac{\partial(x,y)}{\partial(u,v)} = \begin{vmatrix} \frac{\partial x}{\partial u} & \frac{\partial x}{\partial v} \\ \frac{\partial y}{\partial u} & \frac{\partial y}{\partial v} \end{vmatrix}$
求联合密度： $(U,V)$ 的联合密度函数为 $f_{U,V}(u,v) = f_{X,Y}[x(u,v), y(u,v)] \cdot |J|$ 。注意此处是乘以雅各比行列式的绝对值
求边缘密度：对不需要的变量积分，即可得到目标变量的密度函数。

应用：推导 Z = X + Y 的卷积公式

构造变换:
我们要求 $Z=X+Y$ 的分布。为了使用雅可比法，需要引入一个辅助变量，最简单的就是令 $V=Y$ 。
于是有变换： $Z = X+Y$ , $V=Y$ 。
反解:
$X = Z-V$ , $Y = V$ 。
计算雅可比行列式:

$J = \frac{\partial(x,y)}{\partial(z,v)} = \begin{vmatrix} \frac{\partial x}{\partial z} & \frac{\partial x}{\partial v} \\ \frac{\partial y}{\partial z} & \frac{\partial y}{\partial v} \end{vmatrix} = \begin{vmatrix} 1 & -1 \\ 0 & 1 \end{vmatrix} = 1 \cdot 1 - (-1) \cdot 0 = 1$

$|J|=1$ 。
求联合密度:
$f_{Z,V}(z,v) = f_{X,Y}(z-v, v) \cdot |J| = f_{X,Y}(z-v, v)$ 。
求边缘密度 (积分):
为了得到 $Z$ 的密度函数 $f_Z(z)$ ，我们需要对辅助变量 $v$ 进行积分：

$f_Z(z) = \int_{-\infty}^{\infty} f_{Z,V}(z,v) dv = \int_{-\infty}^{\infty} f_{X,Y}(z-v, v) dv$

如果我们当初选择 $V=X$ 作为辅助变量，会得到另一个等价的形式：

$f_Z(z) = \int_{-\infty}^{\infty} f_{X,Y}(z-x, x) dx$

这两个积分形式，正是卷积公式。
重要结论 (常用分布的可加性):
- 正态分布：若 $X \sim N(\mu_1, \sigma_1^2), Y \sim N(\mu_2, \sigma_2^2)$ ，且 $X, Y$ 相互独立，则
  
  $aX \pm bY \sim N(a\mu_1 \pm b\mu_2, a^2\sigma_1^2 + b^2\sigma_2^2)$
  
  特别地，
  
  $X \pm Y \sim N(\mu_1 \pm \mu_2, \sigma_1^2 + \sigma_2^2)$
- 泊松分布：若 $X \sim P(\lambda_1), Y \sim P(\lambda_2)$ ，且 $X, Y$ 相互独立，则
  
  $X+Y \sim P(\lambda_1+\lambda_2)$
- 二项分布：若 $X \sim B(n_1, p), Y \sim B(n_2, p)$ ，且 $X, Y$ 相互独立，则
  
  $X+Y \sim B(n_1+n_2, p)$
  
  (注意： $p$ 必须相同)
- $\chi^2$ 分布 (卡方分布)：若 $X \sim \chi^2(n_1), Y \sim \chi^2(n_2)$ ，且 $X, Y$ 相互独立，则
  
  $X+Y \sim \chi^2(n_1+n_2)$

应用：求 Z = max/min 函数的分布

设 $X_1, X_2, \dots, X_n$ 为 n 个相互独立的随机变量，其分布函数分别为 $F_{X_i}(x)$ ，密度函数为 $f_{X_i}(x)$ 。求解这类问题的核心是分布函数法。

最大值 $Y = \max(X_1, \dots, X_n)$ 的分布:
- 分布函数 (CDF):
  事件 $\{\max(X_i) \le y\}$ 等价于事件 $\{X_1 \le y, \dots, X_n \le y\}$ 。
  $F_Y(y) = P\{Y \le y\} = P\{X_1 \le y, \dots, X_n \le y\}$
  因为各变量独立，所以：
  $F_Y(y) = \prod_{i=1}^{n} P\{X_i \le y\} = \prod_{i=1}^{n} F_{X_i}(y)$
- i.i.d. 情况：若 $X_i$ 独立同分布 (CDF为 $F_X(x)$ )，则 $F_Y(y) = [F_X(y)]^n$ 。
- 概率密度 (PDF) (i.i.d.情况)： $f_Y(y) = F'_Y(y) = n[F_X(y)]^{n-1}f_X(y)$ 。
最小值 $Z = \min(X_1, \dots, X_n)$ 的分布:
- 分布函数 (CDF) (使用对立事件):
  事件 $\{\min(X_i) > z\}$ 等价于事件 $\{X_1 > z, \dots, X_n > z\}$ 。
  $F_Z(z) = P\{Z \le z\} = 1 - P\{Z > z\} = 1 - P\{X_1 > z, \dots, X_n > z\}$
  因为各变量独立，所以：
  $F_Z(z) = 1 - \prod_{i=1}^{n} P\{X_i > z\} = 1 - \prod_{i=1}^{n} [1-F_{X_i}(z)]$
- i.i.d. 情况：若 $X_i$ 独立同分布，则 $F_Z(z) = 1 - [1-F_X(z)]^n$ 。
- 概率密度 (PDF) (i.i.d.情况)： $f_Z(z) = F'_Z(z) = n[1-F_X(z)]^{n-1}f_X(z)$ 。

第二部分：随机变量的数字特征

一、数学期望 (E(X))

数学期望是随机变量取值的加权平均值，反映了随机变量取值的平均水平。

1. 定义

离散型随机变量： $X$ 的概率分布为 $P\{X=x_k\} = p_k, \ k=1, 2, \dots$
$E(X) = \sum_{k=1}^{\infty} x_k p_k$
连续型随机变量： $X$ 的概率密度函数为 $ f(x)$
$E(X) = \int_{-\infty}^{\infty} xf(x)dx$

2. 随机变量函数的期望

设 $Y = g(X)$ ，则 $E(Y) = E[g(X)]$

离散型： $\sum\limits_{k=1}^{\infty} g(x_k) p_k$
连续型： $\int_{-\infty}^{\infty} g(x)f(x)dx$

3. 数学期望的性质

性质	期望公式 E(·)	方差公式 D(·)	条件与说明
常数 c	$E(c) = c$	$D(c) = 0$
期望的期望	$E[E(X)] = E(X)$	-	因为 $E(X)$ 本身是一个常数。
线性运算	$E(aX+b) = aE(X)+b$	$D(aX+b) = a^2D(X)$	方差的性质 $D(X+c)=D(X)$ 和 $D(aX)=a^2D(X)$ 可由此推出。
线性组合 (通用)	$E(aX \pm bY) = aE(X) \pm bE(Y)$	$D(aX \pm bY) = a^2D(X)+b^2D(Y) \pm 2abCov(X,Y)$	期望的线性性质无条件成立。
线性组合 (独立)	$E(aX \pm bY) = aE(X) \pm bE(Y)$	$D(aX \pm bY) = a^2D(X)+b^2D(Y)$	$X, Y$ 相互独立
n个变量的和	$E[\sum\limits_{i=1}^{n} X_i] = \sum\limits_{i=1}^{n} E(X_i)$	$D(\sum\limits_{i=1}^{n} X_i) = \sum\limits_{i=1}^{n} D(X_i)$	期望公式无条件成立。方差公式要求 $X_i$ 相互独立。若 $X_i$ 同分布 ( $E(X_i)=\mu$ ), 则期望为 $n\mu$ 。
函数和	$E[\sum\limits_{i=1}^{n} g_i(X_i)] = \sum\limits_{i=1}^{n} E[g_i(X_i)]$	$D[\sum\limits_{i=1}^{n} g_i(X_i)] = \sum\limits_{i=1}^{n} D[g_i(X_i)]$	期望公式无条件成立。方差公式要求 $X_i$ 相互独立。
乘积 (独立)	$E(XY) = E(X)E(Y)$	$D(XY) = D(X)D(Y) + D(X)[E(Y)]^2 + D(Y)[E(X)]^2$	$X, Y$ 相互独立。由此可得 $D(XY) \ge D(X)D(Y)$
样本均值 $\overline{X}$	$E(\overline{X}) = \mu$	$D(\overline{X}) = \frac{\sigma^2}{n}$	样本 $X_i$ 独立同分布

二、方差 (D(X))

方差衡量了随机变量与其期望值的偏离程度，反映了随机变量取值的稳定性。

1. 定义与计算公式

定义： $D(X) = E[(X - E(X))^2]$
计算公式： $D(X) = E(X^2) - [E(X)]^2$

2. 方差的性质

性质	公式	条件	易错点说明
常数的方差	$D(c) = 0$	无
与常数和的方差	$D(X+c) = D(X)$	无	方差具有平移不变性。
常数倍的方差	$D(aX) = a^2 D(X)$	无	系数要平方！ $D(aX+b) = a^2 D(X)$
和/差的方差	$D(X \pm Y) = D(X) + D(Y) \pm 2Cov(X, Y)$	无	这是普适公式，需要用到协方差。
独立和/差的方差	$D(X \pm Y) = D(X) + D(Y)$	$X, Y$ 相互独立	只有在独立时，才能直接相加！此时 $Cov(X,Y)=0$ 。
线性组合的方差	$D(aX+bY) = a^2D(X)+b^2D(Y)+2abCov(X,Y)$	无	这是更一般的情况。若 $X, Y$ 独立，则此公式退化为 $a^2D(X)+b^2D(Y)$ 。

三、协方差 ( $Cov(X, Y)$ ) 与相关系数 ( $\rho_{XY}$ )

1. 协方差

定义： $Cov(X, Y) = E[(X - E(X))(Y - E(Y))]$
计算公式： $Cov(X, Y) = E(XY) - E(X)E(Y)$
性质:
- $Cov(X, Y) = Cov(Y, X)$
- $Cov(aX, bY) = ab \cdot Cov(X, Y)$
- $Cov(X_1+X_2, Y) = Cov(X_1, Y) + Cov(X_2, Y)$
- 若 $X, Y$ 相互独立，则 $Cov(X, Y) = 0$ 。反之不一定成立！

2. 相关系数

定义： $\rho_{XY} = \frac{Cov(X, Y)}{\sqrt{D(X)}\sqrt{D(Y)}}$
性质:
- 有界性： $|\rho_{XY}| \le 1$ 。
- $|\rho_{XY}| = 1 \iff$ $X, Y$ 完全线性相关。
- $\rho_{XY} = 0 \iff$ $X, Y$ 不相关。

3. 重要推论与例题

例：二维正态分布下，和与差的相关性
问题：设随机变量 $(X, Y)$ 服从二维正态分布，令 $U=X+Y, V=X-Y$ 。试求 $U$ 与 $V$ 不相关的充要条件。

解:
要使 $U$ 与 $V$ 不相关，其充要条件是 $Cov(U, V)=0$ 。我们来计算其协方差：

$\begin{aligned} Cov(U, V) &= Cov(X+Y, X-Y) \\ &= Cov(X, X-Y) + Cov(Y, X-Y) \quad\textit{(利用协方差的可加性)} \\ &= [Cov(X,X) - Cov(X,Y)] + [Cov(Y,X) - Cov(Y,Y)] \\ &= D(X) - Cov(X,Y) + Cov(Y,X) - D(Y) \\ &= D(X) - D(Y) \quad\textit{(因为 } Cov(X,Y) = Cov(Y,X) \textit{)} \end{aligned}$

令 $Cov(U, V) = 0$ ，即可得 $D(X) - D(Y) = 0$ ，即 $D(X) = D(Y)$ 。

结论:
$U$ 与 $V$ 不相关的充要条件是 $X$ 与 $Y$ 的方差相等，即 $D(X)=D(Y)$ 或 $\sigma_X^2 = \sigma_Y^2$ 。

重要推广:
由于 $(X,Y)$ 服从二维正态分布，其线性组合 $(U,V)$ 也服从二维正态分布。对于二维正态分布来说，“不相关”与“相互独立”是等价的。因此， $D(X)=D(Y)$ 也是 $U$ 与 $V$ 相互独立的充要条件。

第三部分：数理统计入门

一、切比雪夫不等式 (Chebyshev’s Inequality)

切比雪夫不等式是一个重要的概率不等式，它给出了随机变量偏离其期望的概率上界，优点在于对随机变量的分布无任何要求。通俗理解是：“随机变量离中心点应该相差不远”

定理：设随机变量 $X$ 具有数学期望 $E(X) = \mu$ 和方差 $D(X) = \sigma^2 < \infty$ 。则对于任意正数 $\varepsilon$ ，有：

$P\{|X - \mu| \ge \varepsilon\} \le \frac{\sigma^2}{\varepsilon^2}$

或者等价地：

$P\{|X - \mu| < \varepsilon\} \ge 1 - \frac{\sigma^2}{\varepsilon^2}$
核心思想：随机变量的取值越分散 (即方差 $\sigma^2$ 越大)，其偏离期望 $\mu$ 的概率就越大。这个不等式是许多极限定理证明的基础。

二、大数定律与中心极限定理

大数定律与中心极限定理是概率论中描述随机变量序列极限行为的两个核心定理，是连接概率论与数理统计的桥梁。

1. 依概率收敛 (Convergence in Probability)

在讨论大数定律之前，我们首先需要理解“依概率收敛”的含义。它是描述随机变量序列极限行为的一种方式。

定义：设 $Y_1, Y_2, \dots, Y_n, \dots$ 是一个随机变量序列， $a$ 是一个常数。如果对于任意给定的正数 $\varepsilon$ ，都有：

$\lim_{n \to \infty} P\{|Y_n - a| < \varepsilon\} = 1$

或者等价地：

$\lim_{n \to \infty} P\{|Y_n - a| \ge \varepsilon\} = 0$

那么，我们称随机变量序列 $\{Y_n\}$ 依概率收敛于 $a$ ，记作 $Y_n \xrightarrow{P} a$ 。
直观理解：当 $n$ 足够大时，随机变量 $Y_n$ 的取值落在常数 $a$ 的任意小的邻域内的概率会无限接近于1。也就是说， $Y_n$ 与 $a$ 之间出现较大偏差的可能性会变得微乎其微。

2. 大数定律 (Law of Large Numbers, LLN)

大数定律从理论上解释了“频率稳定于概率”这一经验观察，是数理统计中一系列极限定理的总称。它们都表明，当样本容量 $n$ 足够大时，样本均值会依概率收敛于总体期望。

切比雪夫大数定律 (Chebyshev’s LLN)： $\overline{X} \xrightarrow{p} E(\overline{X})$ :
- 条件：设 $X_1, X_2, \dots, X_n$ 是一列相互独立的随机变量序列，且方差存在并一致有上界 (即 $D(X_i) \le C$ )。
- 结论：即样本均值 $\overline{X} = \frac{1}{n}\sum\limits_{i=1}^n X_i$ 依概率收敛于其期望的均值 $E(\overline{X}) = \frac{1}{n}\sum\limits_{i=1}^n E(X_i)$ 。

$\frac{1}{n}\sum\limits_{i=1}^n X_i \xrightarrow{p} \frac{1}{n}\sum\limits_{i=1}^n E(X_i)$

-  **说明**：适用范围较广的大数定律，不要求随机变量同分布。

伯努利大数定律 (Bernoulli’s LLN)： $\frac{\mu_A}{n} \xrightarrow{p} p$ :
- 条件：设 $\mu_A$ 是 $n$ 次独立重复试验 (伯努利试验) 中事件 $A$ 发生的期望次数， $p$ 是事件 $A$ 在每次试验中发生的概率。
- 结论：即对于任意正数 $\varepsilon$ ，有：
  $\lim_{n \to \infty} P\left\{ \left| \frac{\mu_A}{n} - p \right| < \varepsilon \right\} = 1$
- 说明：这是一个特例，表明当试验次数足够大时，事件的频率 $\frac{\mu_A}{n}$ 会无限接近其真实的概率 $p$ 。
辛钦大数定律 (Khinchin’s LLN)： $\overline{X} \xrightarrow{p} E\overline{X}=\mu$ :
- 条件：设 $X_1, X_2, \dots, X_n$ 是独立同分布 (i.i.d.) 的随机变量序列，且其数学期望 $E(X_k) = \mu$ 存在 (不要求方差存在)。
- 结论：即对于任意正数 $\varepsilon$ ，有：
  $\lim_{n \to \infty} P\left\{ \left| \frac{1}{n}\sum_{k=1}^n X_k - \mu \right| < \varepsilon \right\} = 1$
- 说明：这是考研数学中最常用的大数定律，是连接样本均值和总体期望的桥梁。

3. 中心极限定理 (Central Limit Theorem, CLT)

中心极限定理是概率论的“皇冠”，它揭示了为何正态分布在自然界和统计学中如此普遍。它指出，在很宽松的条件下，大量相互独立的随机变量之和 (或均值)，其分布会近似于正态分布。

列维-林德伯格中心极限定理 (Lindeberg-Lévy CLT):
- 条件：设 $X_1, X_2, \dots, X_n$ 是独立同分布 (i.i.d.) 的随机变量序列，其期望为 $E(X_i) = \mu$ ，方差为 $D(X_i) = \sigma^2 > 0$ 。
- 结论：当 $n$ 足够大时，样本均值 $\overline{X}$ （或其和 $\sum\limits_{i=1}^{n} X_i$ ）的分布近似服从正态分布，即：
  
  $\begin{align*} \frac{1}{n}\sum\limits_{i=1}^{n} X_i = \overline{X} & \overset{n \to \infty}{\sim} N\left(\mu, \frac{\sigma^2}{n}\right) \\ \sum\limits_{i=1}^{n} X_i = n\overline{X} & \overset{n \to \infty}{\approx}\ N(n\mu, n\sigma^2) \end{align*}$
  
  或者，其标准化形式近似服从标准正态分布：
  
  $\frac{\overline{X}-\mu}{\sqrt{\sigma^2/n}} = \frac{\sum\limits_{i=1}^n X_i - n\mu}{\sqrt{n\sigma^2}} \approx N(0,1)$
  
  严格的数学表述为（按分布收敛）：
  
  $\lim_{n \to \infty} P\left\{ \frac{\overline{X}-\mu}{\sqrt{\sigma^2/n}} \le x \right\} = \Phi(x) = \frac{1}{\sqrt{2\pi}} \int_{-\infty}^{x} e^{-\frac{1}{2}t^2} dt$
- 说明：这是最经典、最重要的中心极限定理形式，它解释了为何样本均值的分布会趋向于正态分布，而与原始总体的分布无关。
棣莫弗-拉普拉斯中心极限定理 (De Moivre-Laplace CLT):
- 条件：设随机变量 $Y_n$ 服从二项分布 $B(n,p)$ 。D-M CLT可视作L-L CLT 的特殊情况，即 $Y_n=\sum\limits_{i=1}^{n} X_i \sim B(n,p)$ （二项分布的可加性），其中 $X_i \sim B(1,p)$ 。
- 结论：当 $n$ 足够大时， $Y_n$ 的分布近似服从正态分布，即：
  
  $Y_n \overset{n \to \infty}{\sim} N\left[np, np(1-p)\right]$
  
  其标准化形式近似服从标准正态分布：
  
  $\frac{Y_n - np}{\sqrt{np(1-p)}} \sim N(0,1)$
  
  严谨的数学表述为（按分布收敛）：
  
  $\lim_{n \to \infty} P\left\{ \frac{Y_n - np}{\sqrt{np(1-p)}} \le x \right\} = \Phi(x) = \frac{1}{\sqrt{2\pi}} \int_{-\infty}^{x} e^{-\frac{1}{2}t^2} dt$
- 说明：用于在 $n$ 很大时，用正态分布来近似计算二项分布的概率。

三、数理统计的基本概念

设 $X_1, X_2, \dots, X_n$ 是来自总体X的简单随机样本， $E(X)=\mu, D(X)=\sigma^2$ 。

样本均值： $\overline{X} = \frac{1}{n}\sum\limits_{i=1}^{n}X_i$
样本方差： $S^2 = \frac{1}{n-1}\sum\limits_{i=1}^{n}(X_i - \overline{X})^2$

样本均值的期望与方差

期望： $E(\overline{X}) = \mu$ (样本均值的期望等于总体期望)
方差： $D(\overline{X}) = \frac{\sigma^2}{n}$ (样本均值的方差是总体方差的 $1/n$ )

二项分布的三种计算方法：
已知 $X\sim B(n,p)$

n不太大（ $n\le 10$ ）时：用二项分布公式直接计算

$P\{X=k\} = C_n^k p^k (1-p)^{n-k}$

n较大且p较小， $\lambda=np$ 适中，由泊松分布近似：

$P\{X=k\} = C_n^k p^k (1-p)^{n-k} \approx \frac{\lambda^k}{k!} e^{-\lambda}$

n较大且p不太大（ $p<0.1, np\ge 10$ ）由中心极限定理：

$P\{a < X < b\} = \Phi\left(\frac{b-np}{\sqrt{np(1-p)}}\right) - \Phi\left(\frac{a-np}{\sqrt{np(1-p)}}\right)$

四、三大抽样分布 (基于正态总体)

设 $X_1, \dots, X_n$ 来自正态总体 $N(\mu, \sigma^2)$ 。

卡方分布 ( $\chi^2$ ):
- 定义： $n$ 个相互独立的标准正态随机变量的平方和，服从自由度为 $n$ 的卡方分布。 $\sum\limits_{i=1}^{n}X_i^2 \sim \chi^2(n)$ (其中 $X_i \sim N(0,1)$ )。
- 重要结论：
$\begin{aligned} \frac{\sum\limits_{i=1}^{n}(X_i-\mu)^2}{\sigma^2} &\sim \chi^2(n) \\ \frac{(n-1)S^2}{\sigma^2}= \frac{\sum\limits_{i=1}^{n}(X_i-\overline{X})^2}{\sigma^2} &\sim \chi^2(n-1) \end{aligned}$

两个式子分别体现：
- 卡方分布的可加性；
- 样本方差代替总体方差，损失一个自由度。
t分布:
- 定义：设 $X \sim N(0,1)$ , $Y \sim \chi^2(n)$ ，且X, Y独立，则
$t = \frac{X}{\sqrt{Y/n}} \sim t(n)$
- 重要结论：当 $\sigma^2$ 未知时，用样本方差代替总体方差，损失一个自由度，得到
$\frac{\overline{X}-\mu}{\sqrt{S^2/n}} \sim t(n-1)$
F分布:
- 定义：设 $X \sim \chi^2(n_1)$ , $Y \sim \chi^2(n_2)$ ，且X, Y独立，则 $F = \frac{X/n_1}{Y/n_2} \sim F(n_1, n_2)$ 。
重要结论：
- $\frac{1}{F(n_1, n_2)} = \frac{Y/n_2}{X/n_1} \sim F(n_2, n_1)=\frac{1}{F(n_2, n_1)}$
- $F_{1-\alpha}(n_1, n_2) = \frac{1}{F_{\alpha}(n_2, n_1)}$
- $t=\frac{X}{\sqrt{Y/n}} \sim t(n)$ 时， $t^2 = \frac{X^2/1}{Y/n} \sim F(1, n)$
- 由于样本均值 $\overline{X}\sim N(\mu, \frac{\sigma^2}{n})$ ，那么将样本均值标准化后，得到 $\left(\frac{\overline{X}-\mu}{\sigma/\sqrt{n}}\right)^2 \sim \chi^2(1)$
- 又由上已推导出 $\frac{(n-1)S^2}{\sigma^2}= \sum\limits_{i=1}^{n}(\frac{X_i-\overline{X}}{\sigma})^2 \sim \chi^2(n-1)$ ，因此由F分布的定义，得到
$\begin{aligned} \frac{n(\overline{X}-\mu)^2/S^2}{1} &= \frac{\left(\frac{\overline{X}-\mu}{\sigma/\sqrt{n}}\right)^2/1}{\left(\frac{(n-1) S^2}{\sigma^2}\right)/(n-1)} \sim F(1, n-1) \end{aligned}$
- 已知 $X = \frac{(n_1-1)S_1^2}{\sigma_1^2} \sim \chi^2(n_1-1)$ 和 $Y = \frac{(n_2-1)S_2^2}{\sigma_2^2} \sim \chi^2(n_2-1)$ 相互独立。根据F分布的构造， $F = \frac{X/(n_1-1)}{Y/(n_2-1)}$ ，将X和Y的表达式代入后，分子分母中的自由度(n-1)恰好被约去，即得：
$\begin{aligned} \frac{S_1^2/\sigma_1^2}{S_2^2/\sigma_2^2} &\sim F(n_1-1, n_2-1) \end{aligned}$

第四部分：参数估计

参数估计是利用从总体中抽取的样本信息，来估计总体分布中的未知参数。

一、点估计 (Point Estimation)

点估计是构造一个适当的统计量 $\hat{\theta}(X_1, \dots, X_n)$ ，用其观测值作为未知参数 $\theta$ 的估计值。

1. 矩估计法 (Method of Moments, MM)

矩估计法的思想：用样本的矩去估计总体的矩。

核心思想：令样本矩等于相应的总体矩，构成关于待估参数的方程（组），解此方程（组）即可得到参数的估计量。
步骤:
1. 计算总体矩：设待估参数为 $\theta_1, \dots, \theta_k$ 。计算总体的前 $k$ 阶原点矩 $E(X), E(X^2), \dots, E(X^k)$ ，它们通常是参数的函数。
2. 计算样本矩：计算相应的样本前 $k$ 阶原点矩 $A_j = \frac{1}{n}\sum\limits_{i=1}^n X_i^j$ 。
3. 建立方程组：令 $E(X^j) = A_j, \ j=1, \dots, k$ 。
4. 求解：解这个关于 $\theta_1, \dots, \theta_k$ 的方程组，得到的解即为矩估计量 $\hat{\theta}_1, \dots, \hat{\theta}_k$ 。
例：设总体 $X$ 的期望 $E(X)=\mu$ , 方差 $D(X)=\sigma^2$ 均未知。
- $E(X) = \mu$
- $E(X^2) = D(X) + [E(X)]^2 = \sigma^2 + \mu^2$
- 令 $E(X) = \overline{X}$ 和 $E(X^2) = A_2 = \frac{1}{n}\sum X_i^2$
- 得到方程组：
  $\begin{cases} \mu = \overline{X} \\ \sigma^2 + \mu^2 = \frac{1}{n}\sum X_i^2 \end{cases}$
- 解得矩估计量:
  $\begin{cases} \hat{\mu} = \overline{X} \\ \hat{\sigma}^2 = \frac{1}{n}\sum X_i^2 - (\overline{X})^2 = \frac{1}{n}\sum (X_i - \overline{X})^2 \end{cases}$

2. 极大似然估计法 (Maximum Likelihood Estimation, MLE)

极大似然估计是应用最广泛的点估计方法，其统计性质通常优于矩估计。

核心思想：“已发生的事，就认为它发生的概率最大”。即寻找参数 $\theta$ 的估计值 $\hat{\theta}$ ，使得在给定样本观测值 $(x_1, \dots, x_n)$ 的条件下，该样本出现的概率 (似然函数) 达到最大。
步骤:
1. 写出似然函数 $L(\theta)$ :
  - 离散型： $L(\theta) = P\{X_1=x_1, \dots, X_n=x_n\} = \prod_{i=1}^{n} P\{X=x_i; \theta\}$
  - 连续型： $L(\theta) = \prod_{i=1}^{n} f(x_i; \theta)$ (这里是联合密度函数在样本点的值)
2. 取对数： $\ln L(\theta) = \sum_{i=1}^{n} \ln f(x_i; \theta)$ 。取对数是为了将连乘变为连加，方便求导。
3. 求解最大值：寻找使对数似然函数 $\ln L(\theta)$ $ln L (θ)$ 达到最大的参数值 $\hat{\theta}$ $\hat{θ}$ 。这通常需要分情况讨论：
  - 情况一：函数有驻点。如果 $L(\theta)$ $L (θ)$ 在参数空间内部的可导点取得最大值，则该点必为驻点。
    1. 取对数：为计算方便，通常先取对数，得到对数似然函数 $\ln L(\theta) = \sum_{i=1}^{n} \ln f(x_i; \theta)$ 。
    2. 求导解方程：对 $\ln L(\theta)$ 关于每个参数求偏导，并令其为 0，解似然方程（组）。
    $\begin{aligned} \frac{\partial \ln L(\theta)}{\partial \theta_j} &= 0, \quad j=1, \dots, k \end{aligned}$
    1. 求解：若方程的解在参数空间内，则该解即为极大似然估计量 $\hat{\theta}$ 。
  - 情况二：函数无驻点（单调）。如果似然函数在参数空间内是单调的，其最大值必在参数空间的边界处取得。
    1. 分析单调性：直接分析 $L(\theta)$ 的单调性（此时取对数不是必须的，根据函数形式决定是否方便）。
    2. 确定边界值：根据参数的定义域和函数的单调性，确定使似然函数最大化的边界值，该值即为极大似然估计量 $\hat{\theta}$ 。
4. 求解：方程（组）的解即为极大似然估计量 $\hat{\theta}$ 。
例：设总体 $X \sim E(\lambda)$ ，即指数分布， $f(x;\lambda) = \lambda e^{-\lambda x}$ ( $x>0$ )。
- 似然函数： $L(\lambda) = \prod_{i=1}^n \lambda e^{-\lambda x_i} = \lambda^n e^{-\lambda \sum x_i}$
- 对数似然： $\ln L(\lambda) = n \ln\lambda - \lambda \sum x_i$
- 求导： $\frac{d \ln L(\lambda)}{d\lambda} = \frac{n}{\lambda} - \sum x_i = 0$
- 解得： $\hat{\lambda} = \frac{n}{\sum x_i} = \frac{1}{\overline{X}}$ 。

二、估计量的评价标准

1. 无偏性 (Unbiasedness)

定义：若估计量 $\hat{\theta}$ 的数学期望等于参数 $\theta$ 的真值，即 $E(\hat{\theta}) = \theta$ ，则称 $\hat{\theta}$ 是 $\theta$ 的无偏估计量。
直观理解：无偏性意味着估计量没有系统性的偏差。多次重复抽样得到的估计值的平均数，会等于参数的真值。
重要结论:
- 样本均值 $\overline{X}$ ：是总体期望 $\mu$ 的无偏估计，因为 $E(\overline{X}) = \mu$ 。
- 样本方差 $S^2$ ： $S^2 = \frac{1}{n-1}\sum\limits_{i=1}^{n}(X_i - \overline{X})^2$ 是总体方差 $\sigma^2$ 的无偏估计，因为 $E(S^2) = \sigma^2$ 。
- 注意：矩估计得到的 $\hat{\sigma}^2 = \frac{1}{n}\sum\limits_{i=1}^{n}(X_i - \overline{X})^2$ 不是 $\sigma^2$ 的无偏估计，它是有偏的，因为 $E(\hat{\sigma}^2) = \frac{n-1}{n}\sigma^2$ 。

2. 有效性 (Efficiency)

定义：有效性是衡量估计量优劣的第二个标准，它关注的是估计量的方差。对于两个不同的无偏估计量 $\hat{\theta}_1$ 和 $\hat{\theta}_2$ ，如果 $D(\hat{\theta}_1) < D(\hat{\theta}_2)$ ，则称 $\hat{\theta}_1$ 比 $\hat{\theta}_2$ 更有效。
直观理解：在无偏的前提下，方差越小，估计值的波动就越小，估计结果就越稳定、越集中在真值附近。

3. 一致性 (Consistency)

定义：设 $\hat{\theta}_n$ 是基于样本容量 $n$ 的估计量。如果当 $n \to \infty$ 时， $\hat{\theta}_n$ 依概率收敛于参数真值 $\theta$ ，即 $\hat{\theta}_n \xrightarrow{P} \theta$ ，则称 $\hat{\theta}_n$ 是 $\theta$ 的一致估计量 (或相合估计量)。
直观理解：一致性是一个“大样本”性质。它表明，只要样本容量足够大，我们得到的估计值就会以极大的概率接近于参数的真值。
判定定理 (充分条件)：如果估计量 $\hat{\theta}_n$ $\hat{θ}_{n}$ 满足：
1. $E(\hat{\theta}_n) \to \theta$ (当 $n \to \infty$ ) (渐进无偏)
2. $D(\hat{\theta}_n) \to 0$ (当 $n \to \infty$ )
  则 $\hat{\theta}_n$ 是 $\theta$ 的一致估计量。

三、区间估计 (Interval Estimation)

点估计只给出一个估计值，但无法衡量其精度。区间估计则给出一个区间，并给出该区间包含参数真值的可信程度。

置信区间 (Confidence Interval)：根据样本构造的一个随机区间 $[\hat{\theta}_L, \hat{\theta}_U]$ ，用于估计未知参数 $\theta$ 。
置信水平 (Confidence Level)： $1-\alpha$ ，表示构造出的区间覆盖参数真值 $\theta$ 的概率。
$P\{\hat{\theta}_L < \theta < \hat{\theta}_U\} = 1-\alpha$
显著性水平： $\alpha$ 。

构造置信区间的方法：枢轴量法

寻找枢轴量：构造一个样本的函数 $G(X_1, \dots, X_n; \theta)$ ，它同时依赖于样本和待估参数 $\theta$ ，但其概率分布不依赖于任何未知参数。
确定分位点：根据置信水平 $1-\alpha$ ，找到枢轴量分布的两个分位点 $a, b$ ，使得 $P\{a < G < b\} = 1-\alpha$ 。
反解不等式：从不等式 $a < G(X_1, \dots, X_n; \theta) < b$ 中解出 $\theta$ ，即可得到 $\theta$ 的置信区间。

常见正态总体参数的置信区间汇总

待估参数	已知条件	枢轴量及其分布	置信区间 $(1-\alpha)$
均值 $\mu$	$\sigma^2$ 已知	$Z = \frac{\overline{X}-\mu}{\sigma/\sqrt{n}} \sim N(0,1)$	$(\overline{X} \mp z_{\alpha/2} \frac{\sigma}{\sqrt{n}})$
	$\sigma^2$ 未知	$t = \frac{\overline{X}-\mu}{S/\sqrt{n}} \sim t(n-1)$	$(\overline{X} \mp t_{\alpha/2}(n-1) \frac{S}{\sqrt{n}})$
方差 $\sigma^2$	$\mu$ 未知	$\chi^2 = \frac{(n-1)S^2}{\sigma^2} \sim \chi^2(n-1)$	$\left(\frac{(n-1)S^2}{\chi^2_{\alpha/2}(n-1)}, \frac{(n-1)S^2}{\chi^2_{1-\alpha/2}(n-1)}\right)$
均值差 $\mu_1-\mu_2$	$\sigma_1^2, \sigma_2^2$ 已知	$Z = \frac{(\overline{X}_1-\overline{X}_2)-(\mu_1-\mu_2)}{\sqrt{\sigma_1^2/n_1 + \sigma_2^2/n_2}} \sim N(0,1)$	$(\overline{X}_1-\overline{X}_2) \mp z_{\alpha/2}\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}$
方差比 $\sigma_1^2/\sigma_2^2$	均值未知	$F = \frac{S_1^2/\sigma_1^2}{S_2^2/\sigma_2^2} \sim F(n_1-1, n_2-1)$	$\left(\frac{S_1^2}{S_2^2}\frac{1}{F_{\alpha/2}(n_1-1, n_2-1)}, \frac{S_1^2}{S_2^2}\frac{1}{F_{1-\alpha/2}(n_1-1, n_2-1)}\right)$