引言

在前几章的内容中提出符合古典假设的线性回归模型,所谓古典假设是指:

简单线性回归基本假定

  • 假定一
    零均值假定,即随机扰动项的条件期望等于0
  • 假定二
    同方差假定,即对于每一个给定的 XiX_i,随机扰动项的条件方差都等于 σ2\sigma^2

Var(uiXi)=E[uiE(uiXi)]2=E(ui2)=σ2Var(u_i\mid X_i)=E[u_i-E(u_i\mid X_i)]^2=E(u_i^2)=\sigma^2

  • 假定三
    无自相关假定,即各个扰动项的逐次值互不相关,也可以说他们的协方差等于零

Cov(ui,uk)=E[uiE(ui)]E[ukE(uk)]={σ2,i=k0,ik(i,k=1,2,3,n)\begin{aligned} Cov(u_i, u_k)&=E[u_i-E(u_i)]E[u_k-E(u_k)]\\ &=\begin{cases} \sigma^2, &i=k \\ 0, &i\neq k \end{cases} &(i, k=1,2,3,\cdots n) \end{aligned}

也就是说,

Var(U)=[σ2000σ2000σ2]=σ2InVar(U)=\begin{bmatrix} \sigma^2 & 0 & \cdots & 0 \\ 0 & \sigma^2 & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ 0 & 0 & \cdots & \sigma^2 \end{bmatrix}=\sigma^2I_n

  • 假定四
    解释变量和扰动项不相关,协方差等于0

Cov(ui,Xi)=E[uiE(ui)]E[XiE(Xi)]=0Cov(u_i, X_i)=E[u_i-E(u_i)]E[X_i-E(X_i)]=0

这一假定说明解释变量和扰动项是各自独立影响被解释变量的,从而得以分清各自的影响多少

  • 假定五
    正态性假定,即随机扰动项uiN(0,σ2)u_i\sim N(0,\sigma^2)
  • 假定六
    无多重共线性。假设各解释变量的观测值线性无关,此时矩阵XX满秩,也就是Rank(X)=k\text{Rank}(X)=k,方阵XTXX^TX满秩,从而方阵XTXX^TX可逆

在这一部分,我们会研究放宽古典假设(多重共线性、异方差、自相关)的模型,了解它们的含义,学会对它们进行判断,并给出补救的办法。

多重共线性

类似于线性代数中不满秩或叫线性相关的概念,如果一列X上的Y被其余某列X上的Y表示,会导致估计不准确,方差无限大。

判断方法:

  • 经验
    • 轻微改变变量或观测值,β\beta反应大
    • 重要解释变量不显著
    • 正负号和预期相反
    • r2r^2FF高,但 tt 统计量不显著
  • r2(相关系数)>0.8r^2(相关系数)>0.8
  • VIF(方差扩大因子)10VIF(方差扩大因子)\ge 10VIF反应方差扩大的速度,VIF=11r2VIF=\frac{1}{1-r^2}
  • 逐步回归,逐个放入变量,看是否对r2r^2FF有改进同时tt显著

补救方法:

  • 剔除变量
  • 增大样本容量
  • 对数变换
  • 截面数据和时序数据并用
  • 逐步回归
    • 观察AIC赤池信息准则 SIC施瓦茨信息准则,变小说明改善了,反之亦然

异方差

类型:

  • 单调递增型:σi2\sigma^2_i 随X的增大而增大
  • 单调递减型:σi2\sigma^2_i 随X的增大而减小
  • 复杂型:σi2\sigma^2_i 与X的变化呈复杂形式

判断方法:

  • 图示法
    • X-Y 散点图,XY离散程度时大时小
    • X-e2e^2 残差图,躺平的就是同方差,向上向下或者弯着走都是异方差
  • GQ检验 ,在大样本状态下如果满足除了同方差假设之外的其他假设,能看出是否有异方差
    • 第一步,删掉 15\frac{1}{5} ~ 14\frac{1}{4} 的数据,剩下数据对半分做回归
    • 第二步,原假设前后两部分同方差
    • 第三步,求两部分残差平方和,用 ei2ei2=样本F\frac{后\sum e_i^2}{前\sum e_i^2}=样本F值
    • 第四步,查自由度为 (nc2k)(\frac{n-c}{2}-k) ,显著程度为 α\alpha 的边界F值
    • 第五步,如果样本F值大于边界F值,拒绝原假设,存在异方差
  • White检验 针对时间序列数据,在大样本状态下如果满足除了同方差假设之外的其他假设,能看出是否有异方差,是由哪个变量引起
    • 利用OLS求出残差平方 ei=e^i= ,利用各解释变量、变量平方、交叉乘积构造新变量,并且加上截距项 α\alpha ,干扰项 ,以及系数 βi\beta_i ,做辅助回归
    • 利用辅助回归的可决系数 r2r^2 和样本容量 n 的乘积 nR2nR^2 ,推导出 [nR2χ2(新构造的解释变量个数)][nR^2 \sim \chi^2(新构造的解释变量个数)]
    • 原假设:辅助回归各变量系数均为0
    • 查自由度为p,显著水平为 α\alphaχ2\chi^2 边界值
    • 如果 nR2>边界值nR^2 > 边界值,拒绝原假设,系数非0的变量引发异方差性
  • Glejser检验 在大样本状态下如果满足除了同方差假设之外的其他假设,能看出是否有异方差,是由哪个变量引起,以什么形式引起
    • OLS求出 ei2e_i^2,和某个可能引起异方差的变量 xix_i 自选一个模型(可以取 1xi\frac{1}{x_i}xi\sqrt{x_i}1xi\frac{1}{\sqrt{x_i}})做辅助回归,如果 β0\beta\neq 0 ,且通过显著性检验,这个选择的变量确实以我们选择的模型形式引起异方差
  • ARCH检验 针对时间序列数据,在大样本状态下如果满足除了同方差假设之外的其他假设,能看出以p为滞后阶数的时间序列数据的异方差
    • 利用OLS求出残差平方 ei2e_i^2 ,计算其滞后序列 et2e_t^2, et12e_{t-1}^2, \cdots, etp2e_{t-p}^2
    • e^t2=α0^+α1^et12+α2^et22+αp^etp2\hat{e}_t^2=\hat{\alpha_0}+\hat{\alpha_1}e_{t-1}^2+\hat{\alpha_2}e_{t-2}^2\cdots +\hat{\alpha_p}e_{t-p}^2 的辅助回归
    • (np)R2(n-p)R^2[(np)R2χ2(解释变量个数)][(n-p)R^2 \sim \chi^2(解释变量个数)],查自由度为p,显著性水平为 α\alphaχ2\chi^2 边界值
    • 原假设:个解释变量系数 αi\alpha_i 都等于0
    • $(n-p)R^2 > 边界值 $ ,拒绝原假设,存在异方差性

补救方法:

  • 加权最小二乘法WLS

  • 模型变换

    • WLS中设置了权数 wi=1σ2w_i=\frac{1}{\sigma^2},其实也可以设成其他东西,例如换成XiX_iXi2X_i^2(a0+a1Xi)2(a_0+a_1X_i)^2
  • 对数变换

    • 可以削弱异方差,但回归后的lnXlnXlnYlnY是线性相关,X和Y就不是了

自相关性(序列相关,针对随机误差项 μ\mu

只看两期,看当期和滞后期之间的相关程度,

判断:

  • 图示法

  • DW法

    • n>15n>15
    • 解释变量非随机
    • 随机误差项一阶自回归
    • 模型右边没有Yt1Y_{t-1}
    • 截距项不为0
    • 数据序列无缺失
  • LM法适用于更多阶数的滞后

补救方法

  • 广义差分法

期末爆炸周,期末爆炸中