计量经济学 | 4.放宽基本假设的模型

Prong2023-06-022023-06-02

引言

在前几章的内容中提出符合古典假设的线性回归模型，所谓古典假设是指:

简单线性回归基本假定

假定一
零均值假定，即随机扰动项的条件期望等于0

假定二
同方差假定，即对于每一个给定的 $X_i$ ，随机扰动项的条件方差都等于 $\sigma^2$

$Var(u_i\mid X_i)=E[u_i-E(u_i\mid X_i)]^2=E(u_i^2)=\sigma^2$

假定三
无自相关假定，即各个扰动项的逐次值互不相关，也可以说他们的协方差等于零

$\begin{aligned} Cov(u_i, u_k)&=E[u_i-E(u_i)]E[u_k-E(u_k)]\\ &=\begin{cases} \sigma^2, &i=k \\ 0, &i\neq k \end{cases} &(i, k=1,2,3,\cdots n) \end{aligned}$

也就是说，

$Var(U)=\begin{bmatrix} \sigma^2 & 0 & \cdots & 0 \\ 0 & \sigma^2 & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & \sigma^2 \end{bmatrix}=\sigma^2I_n$

假定四
解释变量和扰动项不相关，协方差等于0

$Cov(u_i, X_i)=E[u_i-E(u_i)]E[X_i-E(X_i)]=0$

这一假定说明解释变量和扰动项是各自独立影响被解释变量的，从而得以分清各自的影响多少

假定五
正态性假定，即随机扰动项 $u_i\sim N(0,\sigma^2)$

假定六
无多重共线性。假设各解释变量的观测值线性无关，此时矩阵 $X$ 满秩，也就是 $\text{Rank}(X)=k$ ，方阵 $X^TX$ 满秩，从而方阵 $X^TX$ 可逆

在这一部分，我们会研究放宽古典假设（多重共线性、异方差、自相关）的模型，了解它们的含义，学会对它们进行判断，并给出补救的办法。

多重共线性

类似于线性代数中不满秩或叫线性相关的概念，如果一列X上的Y被其余某列X上的Y表示，会导致估计不准确，方差无限大。

判断方法：

经验
- 轻微改变变量或观测值， $\beta$ 反应大
- 重要解释变量不显著
- 正负号和预期相反
- $r^2$ 、 $F$ 高，但 $t$ 统计量不显著
$r^2(相关系数)>0.8$
$VIF(方差扩大因子)\ge 10$ ，VIF反应方差扩大的速度， $VIF=\frac{1}{1-r^2}$
逐步回归，逐个放入变量，看是否对 $r^2$ ， $F$ 有改进同时 $t$ 显著

补救方法：

剔除变量
增大样本容量
对数变换
截面数据和时序数据并用
逐步回归
- 观察AIC赤池信息准则 SIC施瓦茨信息准则，变小说明改善了，反之亦然

异方差

类型：

单调递增型： $\sigma^2_i$ 随X的增大而增大
单调递减型： $\sigma^2_i$ 随X的增大而减小
复杂型： $\sigma^2_i$ 与X的变化呈复杂形式

判断方法：

图示法
- X-Y 散点图，XY离散程度时大时小
- X- $e^2$ 残差图，躺平的就是同方差，向上向下或者弯着走都是异方差
GQ检验 ，在大样本状态下如果满足除了同方差假设之外的其他假设，能看出是否有异方差
- 第一步，删掉 $\frac{1}{5}$ ~ $\frac{1}{4}$ 的数据，剩下数据对半分做回归
- 第二步，原假设前后两部分同方差
- 第三步，求两部分残差平方和，用 $\frac{后\sum e_i^2}{前\sum e_i^2}=样本F值$
- 第四步，查自由度为 $(\frac{n-c}{2}-k)$ ，显著程度为 $\alpha$ 的边界F值
- 第五步，如果样本F值大于边界F值，拒绝原假设，存在异方差
White检验 针对时间序列数据，在大样本状态下如果满足除了同方差假设之外的其他假设，能看出是否有异方差，是由哪个变量引起
- 利用OLS求出残差平方 $e^i=$ ，利用各解释变量、变量平方、交叉乘积构造新变量，并且加上截距项 $\alpha$ ，干扰项，以及系数 $\beta_i$ ，做辅助回归
- 利用辅助回归的可决系数 $r^2$ 和样本容量 n 的乘积 $nR^2$ ，推导出 $[nR^2 \sim \chi^2(新构造的解释变量个数)]$
- 原假设：辅助回归各变量系数均为0
- 查自由度为p，显著水平为 $\alpha$ 的 $\chi^2$ 边界值
- 如果 $nR^2 > 边界值$ ，拒绝原假设，系数非0的变量引发异方差性
Glejser检验 在大样本状态下如果满足除了同方差假设之外的其他假设，能看出是否有异方差，是由哪个变量引起，以什么形式引起
- OLS求出 $e_i^2$ ，和某个可能引起异方差的变量 $x_i$ 自选一个模型（可以取 $\frac{1}{x_i}$ 、 $\sqrt{x_i}$ 、 $\frac{1}{\sqrt{x_i}}$ ）做辅助回归，如果 $\beta\neq 0$ ,且通过显著性检验，这个选择的变量确实以我们选择的模型形式引起异方差
ARCH检验 针对时间序列数据，在大样本状态下如果满足除了同方差假设之外的其他假设，能看出以p为滞后阶数的时间序列数据的异方差
- 利用OLS求出残差平方 $e_i^2$ ，计算其滞后序列 $e_t^2$ , $e_{t-1}^2$ , $\cdots$ , $e_{t-p}^2$
- 做 $\hat{e}_t^2=\hat{\alpha_0}+\hat{\alpha_1}e_{t-1}^2+\hat{\alpha_2}e_{t-2}^2\cdots +\hat{\alpha_p}e_{t-p}^2$ 的辅助回归
- 算 $(n-p)R^2$ ， $[(n-p)R^2 \sim \chi^2(解释变量个数)]$ ，查自由度为p，显著性水平为 $\alpha$ 的 $\chi^2$ 边界值
- 原假设：个解释变量系数 $\alpha_i$ 都等于0
- $(n-p)R^2 > 边界值 $ ，拒绝原假设，存在异方差性

补救方法：

加权最小二乘法WLS
模型变换
- 在WLS中设置了权数 $w_i=\frac{1}{\sigma^2}$ ，其实也可以设成其他东西，例如换成 $X_i$ 、 $X_i^2$ 、 $(a_0+a_1X_i)^2$
对数变换
- 可以削弱异方差，但回归后的 $lnX$ 和 $lnY$ 是线性相关，X和Y就不是了