一、线性模型和最小二乘法
这一部分是初级计量经济学的起始内容。在这一部分中,我们探讨计量经济学的基本假设,并介绍最小二乘法思想及其相关的假设检验。
“假设x”的指代
考虑到下文中大量出现了“假设1”之类的指代,因此这里将提前明确各个假设的指代:
- 假设1: 线性模型假设(1.1)
- 假设2: 严格外生性假设(1.2)
- 假设3: 无完美多重共线性假设(1.3)
- 假设4: 条件同方差假设(3.2)
- 假设5: 正态分布假设(3.4)
基本假设
计量经济学的前三个基本假设分别是:线性性、严格外生性、无完美多重共线性。
1.1 线性模型假设
首先是线性模型假设,传统的计量经济学认为经济模型应当服从线性关系,即:
其中\(y_i\)被称作被解释变量(dependent variable),\(\beta\)为参数(parameter),\(x_i\)为解释变量(有各种称呼,比如regressor, independent variable),\(\epsilon\)为误差项(模型必然存在无法解释的误差)。
在以后的内容中,默认\(x_{1i} = 1\),即截距项。另外,\(x_i^2\)这种平方项(正幂次项),或者\(x_i x_j\)这种交叉项,也可以被纳入线性模型中,即看作一个独立的解释变量。
线性模型的基本形式就是“参数\(\times\)解释变量”并求和。由于直接写代数式太长,可以用向量的方式来简化表示,假设有\(k\)个参数,则令\(X_i = [x_{1i}, x_{2i},...,x_{ki}]^T\),\(\vec \beta = [\beta_1, ...,\beta_k]^T\),从而有\(y_i = x_i^T \vec \beta + \epsilon_i\)。
现假设有\(N\)个观测值,则令\(Y = [y_1, y_2, ..., y_N]^T\),而令完整的样本集\(X = [X_1^T, X_2^T,...,X_N^T]^T\) 为:
另设\(\vec \epsilon = [\epsilon_1, \epsilon_2, ..., \epsilon_N]^T\),则有线性模型的基本表达形式:
1.2 严格外生性假设
即\(E[\epsilon_i | X] = 0\)。给定观测值\(X\)时,误差项的条件期望为0。这与期望迭代法则(Law of iterated expectations,LIE)有关。
给定两个随机变量\(u,v\)并知其联合密度函数\(f(u,v)\),求其边际密度函数,例如\(u\)的边际密度函数为\(f(u) = \int f(u,v) dv\);而条件密度函数则需要利用贝叶斯公式:\(f(u|v = a) = \frac{f(u,v = a)}{f(v = a)}\),那么就可以讨论条件期望和期望迭代法则了。
期望迭代法则: \(E_v[E(u|v)] = E(u)\)。即对于所有的\(v\)取值情况下,\(E(u|v)\)的期望是\(E(u)\)。
期望迭代原则经常会用在宏观经济学的动态均衡模型中,利用T期信息集来求解之后的消费决策,如知信息集\(I_t\)时求解t+2期的消费决策,\(E_t[C_{t+2}] = E[C_{t+2}|I_t] = E_t [ E(C_{t+2} | I_{t+1})]\),另一个用途就是接下来要讲的严格外生性。
期望迭代法则的证明
接下来继续讨论严格外生性问题,由于知道了全部观测值\(X\),就可以将这些常数\(x_{ji}\)乘进去:\(E[\epsilon_i x_{ji}] = 0\),从而有\(E_x [ E(\epsilon_i x_{ji} | x)] = 0\),从而有\(E[\epsilon_i x_{ji}] = 0\),而如果\(x_{1i} = 1\),那么就有\(E[\epsilon_i] = 0\)。而\(cov(x_{ji}, \epsilon_i) = E[x_{ji} \epsilon_i] - E(x_{ji})E(\epsilon_i) = 0\),从而有\(x_{ji}\)与\(\epsilon_i\)正交(独立)。
有了以上两个基本假设,模型(及其参数的估计值)便有了意义,即:
或者说偏导数\(\partial E(y_i|X)/\partial x_{ji} = \beta_j\)。其经济学意义在于,平均而言(因为式子里是期望),在其他的变量不变的情况下(偏导数的意义),如果\(x_{ji}\)增大了\(\Delta x_{ji}\)个单位,那么\(y_i\)将会提高\(\beta_j \Delta x_{ji}\)。
1.3 没有完美的多重共线性
假设3的严格表达应该是:矩阵\(X\)(其规模为\(n\times k\))的秩\(rank(X) = k\)。
严格来讲,这句话是with probability 1,而不是绝对的。
此外,(1)这句话还暗含了\(n \geq k\),即观测点数应大于等于变量数的原则(否则会有无数组解);(2)观测值的任意一列不能被其他列线性表出(各变量不能具有完全的多重共线性,否则模型无法估计这些变量的参数,即变量“不可被识别”。)。
从线性代数的角度,如果存在完美的多重共线性,则\(rank(X) \not = k\),因而有\(rank(X^T X) < k\),\(X^T X\)这个正方形矩阵不可逆了,从而无法估计参数。
参照\(rank(X^T X) = rank(XX^T) = rank(X)\)
此外,受限于计算机浮点数精度的限制,可能\(X^T X\)的行列式趋近于0,导致精度不够,或者其逆矩阵的行列式趋近于无穷,出现无法估计的情况。当这个行列式趋近于0时,其实就表明这个模型中存在比较严重的多重共线性了(如果等于零,则必然是存在完美的多重共线性),我们可以通过对\(X^TX\)做特征值分解来考察这个模型,如果特征值趋近于0,则就可以知道\(X^TX\)行列式趋近于0。或者,多重共线性可以通过VIF指标监测,若\(VIF > 10\),则可以认为多重共线性存在。至于如何解决多重共线性,筛选变量即可。
最小二乘法估计
变量上边加hat
从现在开始,带着帽子头的变量全都是估计值。由于恁Mathjax不支持 \bm
也不支持 \boldsymbol
,我就只能在帽子下面加箭头,太傻了。为了省一省我的工作量,除了下面的式子,后面带帽子的变量就不再直接区分标量和向量了,不过我想应该比较好分开。
目标:最小化估出模型的残差平方和,即:
从而,我们的目标是求出\(\hat{\vec{\beta}}\),使得:
这里要用到的线性代数求导法则:\(\frac{\partial \alpha^T \beta}{\partial \beta} = \alpha\), \(\frac{\partial \beta^T \alpha}{\partial \beta} = \alpha\), \(\frac{\partial (\beta^T \alpha \beta)}{\partial \beta} = 2 \alpha \beta\)。这里的\((\alpha, \beta)\)都是向量。
对上式左侧展开:
从而有:
得到\(\hat \beta\)后,将其带回\(y = x\beta + \epsilon\),即可求得\(\hat y = x \hat \beta\),\(\hat y\)被称作预测值,而预测值与真实值的差\(\hat \epsilon = y - \hat y\)被称作残差(residuals)。
\(X^T X\)的性质
\(X^T X\)具有一些性质:
-
\(X^T X\)是对称矩阵: \((X^TX)^T = X^TX\);
-
\(X^T X\)是正定矩阵(特征值均不小于0),对于任何\(k\)阶向量\(c\),有\(c^T (X^T X)c \geq 0\),而且如果\(\vec c \not = \vec 0\),则前面的二次型必然大于0(即严格正定);
-
\(X^T X\)是一个\(k\times k\)的方阵。
OLS的特殊情形
(1) 过原点回归,即截距项为0。为简单,这里设\(k = 1\),有\(y_i = \beta_i x_{1i} + \epsilon_i\),从而有\(X = [x_{11},...,x_{1N}]^T\),\(Y = [y_1,...,y_N]^T\),那么就可以得出:
进一步,如果\(x_{1i}\) = 1,则有\(y_i = \beta_i + \epsilon_i\),此时\(\beta = \bar y\)。
(2) k = 2,且有截距项。则\(y_i = \beta_1 + \beta_2 x_{2i} + \epsilon_i\),代入OLS系数表达式,就有著名的线性规划系数方程:
将视线转向残差,可以得到残差的几项性质:
性质1: \(X^T \hat \epsilon = 0\)
残差性质1证明
由于不存在完美的多重共线性,所有的\(X\)中各个向量在多维空间中形成了一个超平面,而原始的\(Y\)亦是多维空间中的一个向量,二者并不一定共面,\(Y\)在超平面上的投影即为\(\hat Y\),而剔除掉这个投影向量后,剩下的那部分(即残差)是垂直于超平面的,这也就是性质1的几何解释。而这个投影对应的投影矩阵(Projection Matrix)为\(P = X(X^TX)^{-1}X^T\),这是一个\(N \times N\)的方阵。而再引入一个Annihilator Matrix \(M = I - P\),其中I是N阶单位阵。
\(PY = \hat Y\),\(\hat Y\)即为\(Y\)的投影,而P即为投影矩阵。
"Annihilator"在数学中有三种译法,第一种叫“零化子”,常用于环论和泛函分析;第二种译作“消灭矩阵”,即此处所指Annihilator Matrix,用于回归分析;第三种用于解决非齐次常微分方程的“吸纳法”(Annihilator Method)。
投影矩阵和Annihilator矩阵的性质
(1)\(P\)和\(M\)都是方阵和对称矩阵。
(2)\(P\)和\(M\)都是幂等矩阵(idempotent matrix)。 即\(P^2 = P\),\(M^2 = M\),不难证明。
(3)\(PX = X\), \(MX = 0\),不难证明。
OLS的性质及假设检验
在有限样本下,OLS具有三个性质:无偏性(unbiased)、有效性(efficient)、一致性(consistency)。我们首先推导无偏性,而其他两个性质需要更强的假设,因此我们需要先讨论一些数学结论、补充假设。此外,这一节还会介绍一些假设检验的内容,和假设检验对应的置信区间等性质,然后讨论有效性。一致性属于大样本范畴下的性质,将在其他单元讨论。
3.1 无偏性
无偏性即\(E[\hat \beta|X] = \beta\),即基于样本估计出来的参数估计值是无偏的。仅依据基本假设1-3,即可证明:
无偏性的证明
而在讨论有效性和一致性时,需要考虑扰动项的分布问题,需要补充两个额外的假设:条件同方差假设、正态分布假设。
3.2 条件同方差假设
条件同方差假设(conditional homoscedasticity)也可以被称作spherical error variance(球形方差),由于在直角坐标系中每个变量的方差图象都是一个圆。其定义为:
假设4(条件同方差):\(E[\epsilon_i^2|X] = \sigma^2\),而对于交叉项,有\(E[\epsilon_i \epsilon_j|X] = 0, i \not = j\)。
现在先讨论一下向量的方差、协方差问题。如果\(y\)是一个列向量,那么默认\(Var(y) = E\{[y - E(y)][y - E(y)]^T\}\),这是一个\(n \times n\)的矩阵,如果写开,就是:
即向量\(y\)的方差协方差矩阵。对于向量\(Ay\)(\(A\)是一个矩阵)的方差,则有:
如果\(w,y\)是两个向量,那么有:
但要注意的是\(Cov(y,w) \not = Cov(w,y)\),如果说是两个随机变量的协方差,反过来是一样的。但是这里是两个由若干随机变量组成的向量,其维度可能不同,计算时要转置的矩阵不一样,因而不能调换位置。而对于矩阵\(A,B\),有\(Cov(Aw, By) = A Cov(w,y) B^T\)。
那么由以上四个基本假设,可以求出\(Var(\hat \beta| X) = \sigma^2 (X^TX)^{-1}\),下面给出证明:
OLS估计量条件方差性质的证明
令\(A = (X^TX)^{-1}X^T\),则有:
通过假设4,定义一个新的参数\(\sigma^2\),即误差项方差,而有其估计量:
系数采用\(N-k\),使得这个估计值是无偏的,同时\(N-k\)也被称作自由度。由假设1-4,可以证明这是无偏的估计(这里会用到前面的两个投影矩阵\(P\)和\(M\)):
因而,有:
其中\(tr(\cdot)\)表示矩阵的迹(trace)运算,矩阵的迹有以下运算:\(tr(AB) = tr(BA)\),而\(P = X(X^TX)^{-1}X^T\),从而有:
从而有\(E[\sum_{i=1}^N \hat \epsilon_i^2|X] = (N-k)\sigma^2\),或者\(E[\hat \sigma^2|X] = \sigma^2\),得证。同时,这里就是自由度\(N-k\)的来源。
3.3 Gauss-Markov定理
这里其实是BLUE的来源。
BLUE即best linear unbiased estimator,最优线性无偏估计量。
首先,OLS将系数向量估计为\(\hat \beta = (X^TX)^{-1}X^TY\),如果将\(A = (X^TX)^{-1}X^T\),则\(\hat \beta = AY\),因而\(\hat \beta\)是线性的估计量;其次,而如果有\(E(\hat \beta) = \beta\),从而达到了无偏;最后,而如果对于任意的估计量\(\tilde \beta = Cy\),有\(Var(\tilde \beta|X) \geq Var(\hat \beta|X)\),则\(\hat \beta\)就是最优的,因而\(\hat \beta\)即为BLUE。
而Gauss-Markov定理的内容就是,基于假设1-4,可以证明OLS估计量是BLUE。下面给出证明:
Gauss-Markov定理的证明
(上面那段话的前两部分,已经证明了其线性性和无偏性,接下来只需要证明其“best”,即具有最小的条件方差。)
设\(D \equiv C-A\),则\(\tilde \beta = (D+A)Y = DY + \hat \beta\),进一步有:
因而有\(\tilde \beta = D\epsilon + \hat \beta\),进而有\(\tilde \beta -\beta = D\epsilon + \hat \beta - \beta = (D+A)\epsilon\),故有:
其中\(DA^T = DX(X^TX)^{-1} = 0\)(因为\(DX = 0\)),同理\(AD^T = 0\),从而有:
而由于\(DD^T\)是一个半正定矩阵,因而\(Var(\tilde \beta|X) \geq Var(\hat \beta|X)\),故\(\hat \beta\)具有最小的条件方差,是最优的估计量,因而Gauss-Markov定理得证。
(\(DD^T\)这种形式的矩阵均为半正定矩阵,如果不能一眼看出,代入一个行向量\(c\),按半正定矩阵的条件也可以证明。)
3.4 正态分布假设
这个假设的内容是\(f(\epsilon|X) \sim MN(0,\sigma^2 I_N)\)。
多元正态分布,均值为0向量,且服从仅有方差且方差相等的一个协方差矩阵。
从一元正态分布说起,如果\(x \sim N(\mu, \sigma^2)\),则其概率密度函数(PDF)为:
对应的,对于多元正态分布\(X \sim MN(\mu, \Sigma)\),则其PDF为:
接下来讨论多元正态分布的性质,设\(X\)为\(N\)维列向量且\(X \sim MN(\mu, \Sigma)\),将其分为\(X = [X_1, X_2]^T\),其中\(X_1,X_2\)分别为\(N_1,N_2\)维列向量,且有\(N_1 + N_2 = N\)。对应的,将\(\mu = [\mu_1, \mu_2]^T\),二者分别为\(N_1\)和\(N_2\)维,而\(\Sigma\)应分为:
左、上的维度数为\(N_1\),右、下为\(N_2\)。由以上内容,可以推出:
-
\(X_1\)的边际密度函数\(f(X_1) = MN(\mu_1, \Sigma_{11})\);
-
条件密度函数:\(f(X_1|X_2) = MN(\mu_{1|2}, \Sigma_{1|2})\)。其中\(\mu_{1|2} = \mu_1 + \Sigma_{12}\Sigma_{22}^{-1}(X_2 - \mu_2)\);\(\Sigma_{1|2} = \Sigma_{11} - \Sigma_{12} \Sigma_{22}^{-1}\sigma_{12}^T\);
-
如果\([X_1,X_2]^T \sim MN\),则\(X_1, X_2\)均服从MN,但逆命题不成立,这个逆命题被称作Copula问题;
-
如果\(X,Y \sim MN\),则\(cov(X,Y) = 0\)与“\(X\)、\(Y\)互相独立”可以相互推出。对于其他大多数分布来说,独立性可以推出协方差为0,而不能反推。
由于假设5,且\(Y = X\beta + \epsilon\),因而有:
进一步,由\(\hat \beta = (X^TX)^{-1}X^TY = \beta + (X^TX)^{-1}X^T\epsilon\),从而可以推导\(\hat \beta\)的概率分布:
由此,我们已经设定了截面数据计量经济学下的所有基本假设。
3.5 假设检验1:单一变量显著性检验(T检验)
第一种假设检验是对单一参数的检验,其原假设为\(H_0\):\(\beta_j = \bar \beta_j\),其中\(\bar \beta_j\)为任意给定的值。那么由多元正态分布的性质,有:
鉴于这个统计量是一个正态统计量,我们可以采用Z-score方式,即将上面的\(\hat \beta_j\)标准化:
为了检验原假设\(H_0\),我们可以选择备择假设,\(H_1:\beta_{j} \not = \bar \beta_j\),或者定为\(H_1: \beta_j > \bar \beta_j\) or \(\beta_j < \bar \beta_j\)。双边的备择假设更为常见,而单边的备择假设选择方向时通常考虑经济学意义。
回到统计量本身,\(Z_j\)服从标准正态分布,那么对于双边备择假设来说,其极端值(无论左右)都表明\(H_0\)为假。那么,就要确定一个认为\(H_0\)为假(拒绝原假设)的区间,是一个多大的极端值,从而引出了置信区间(significance level) \(\alpha\)。\(\alpha\)通常取值为1\%,5\%,10\%,如果\(|Z_j| > Z_{\frac{\alpha}{2}}\)(此处指的是Z统计量分布的\(\alpha/2\)分位数),则拒绝原假设(reject \(H_0\)),否则不拒绝(而不是"接受"!)原假设
对应的,如果是单边备择假设情形,则分情况:(1)若\(H_1\)为"\(\beta_j > \bar \beta_j\)",则当\(Z_j > Z_\alpha\)时,拒绝原假设;(2)反之则在\(Z_j < Z_\alpha\)时拒绝原假设。假设检验具体是单边还是双边是要看要检验的假设本身的,而并不是由分布的性质来决定。
进一步,因为实际上的分布情况不明,我们只能通过估计出来的\(\hat \sigma^2\)来对应。所以,对于估计值\(\hat \beta\),其对应的统计量我们称为\(t_j\),表示为:
与\(z_j\)相比,唯一的变化在于分母上标准差为估计值。\(t_j\)服从于学生T分布,其自由度为(N-K),即\(t_j \sim t_{N-k}\)。
学生T分布的形式是\(t = \frac{MN(0,I_N)}{\sqrt{\chi^2(N-K)/ (N-K)}}\)。分子为多元标准正态分布,分母主体是自由度为\(N-K\)的卡方统计量\(\chi^2(N-K)\)。
下面给出证明:
证明t统计量服从学生t分布
由上文知\(z_j \sim N(0,1)\),接下来证明\(\hat \sigma^2 / \sigma^2 \sim \frac{X_{N-K}^2}{N-K}\),首先考察\(\hat \sigma^2\)的性质:
所以有:
而\(\epsilon \sim N(0,\sigma^2 I_N)\),因而\(\frac{\epsilon}{\sigma} \sim N(0,I_N)\),故有:
(这里运用的定理:如果\(X\sim N(0,I_N)\)且A为幂等矩阵,则\(X^TAX \sim \chi^2_{Rank(A)}\)。此外,如果\(A\)为幂等矩阵,则Rank(A) = Trace(A)。在此之前,我们已经证出了\(trace(M) = N-K\)。)
由此,我们就证出了\(t_j\)服从学生t分布,接下来证明\(t_j\)的分子与分母相互独立(这是学生t分布的一个性质)。这个统计量的分子是\(\hat \beta_j - \bar \beta_j\),其中我们知道\(\hat \beta = \beta + (X^TX)^{-1}X^T\epsilon = \beta + A\epsilon\);而分母是一个\(\hat \epsilon\)的函数,而\(\hat \epsilon = M \epsilon\),且\(\epsilon \sim N(0,\sigma^2 I_N)\)。因此有:
其中:
\(AA^T\)可由其表达式直接推出,\(MM^T = M\)是因为\(M\)是幂等矩阵和对称矩阵,而\(AM^T\)与\(MA^T\)则是代入\(A\)和\(M\)的表达式解出,其中\(M = I_N - X(X^TX)^{-1}X^T\), \(A = (X^TX)^{-1}X^T\)。
故有:
所以\(Cov(\hat \beta, \hat \epsilon) = 0_{K\times N}\),而由上文性质4可知,\(\hat \beta\)和\(\hat \epsilon\)互相独立,那么二者的函数亦相互独立,故统计量的分子和分母是互相独立的。
3.6 假设检验2:线性关系的假设检验(F分布)
这个假设检验的原假设\(H_0\):\(R \times \beta = \gamma\)。其中\(R\)是\(r \times k\)的矩阵,\(\beta\)是\(k \times 1\)的向量,\(\gamma\)是\(r \times 1\)的向量。这个原假设可以被看作是规定了线性规划问题中的约束,即各系数\(\beta\)的线性组合约束。这里假设\(Rank(R) = r\),使得这里没有多余的线性约束(也就是没有多余的原假设),这隐含了\(r \leq k\)的条件。此外要注意的是,\(R\)与\(\gamma\)中是常值,而\(\beta\)则包含了所有的未知数(待估参数)。接下来以Cobb-Douglas函数为例,其基本形式是:
取对数:
其中我们可以令\(\beta_1 = \ln A\),则我们可以检验一下\(\beta_1 = \bar \beta_1\)(全要素生产率是否不以个体为转移),或者\(\beta_2 + \beta_3 = 1\)(规模效应不变),我们可以同时做检验,将二者同时作为\(H_0\)。那么有:
我们不知道\(\beta\)的真值,但是我们可以从\(R\beta - \gamma\)上下手。我们知道\(\hat \beta \sim N(\beta, \sigma^2 (X^TX)^{-1})\),那么\(\hat \beta - \beta \sim N(0,\sigma^2 (X^TX)^{-1})\),然后同乘以R:
如果原假设成立,那么左边的等式是成立的。所以检验原假设就是要检验\(R\hat \beta - \gamma\)是否服从那个上式的分布,我们可以算一下这玩意的平方和:
上式的结果是一个标量,而这个标量服从自由度为r的卡方分布。
证明上式服从卡方分布
接下来证明这是一个卡方分布,这里会用到Cholesky分解法:
Cholesky 分解在Matlab中使用函数
chol()
。
如果矩阵\(A\)是正定的对称阵,则\(A = (A^{\frac{1}{2}})(A^{\frac{1}{2}})^T\),而\(A^{\frac{1}{2}}\)是一个下三角矩阵。对于这样的矩阵,其逆矩阵为:\(A^{-1} = ((A^{\frac{1}{2}})^T)^{-1}(A^{\frac{1}{2}})^{-1}\),我们令\((A^{\frac{1}{2}})^{-1} = A^{-\frac{1}{2}}\)。
接下来讨论\(R\hat \beta - \gamma\)的分布,我们令\(A = \sigma^2 R(X^TX)^{-1}R^T\),对其作Cholesky分解,则有:
将Cholesky分解结果和基本性质带进平方和(那个被证明服从卡方分布的标量),有:
毕竟卡方分布的实质是正态分布的平方和。但是,这个统计量的缺陷在于,我们需要知道\(\sigma^2\)的真值,但这不可能。所以下面要用\(\hat \sigma^2\)代替\(\sigma\),从而引入F统计量:
当然,这个和中级计量经济学下的F统计量等价:
其中\(SSR_R\)是将原假设作为约束时进行OLS,求得的残差平方和;而\(SSR_U\)则是不带原假设约束的OLS残差平方和。
在满足假设1-5的情况下,如果原假设成立,则\(F\sim F_{r,N-k}\)(F统计量服从自由度为r和N-k的F分布)。由于我们的原假设是\(R \times \beta = \gamma\),因而备择假设为\(H1: R \times \beta \not = \gamma\),从而使得这个假设检验是双边的。但F统计量的本质是估计量(\(\hat \beta\))函数的平方项,因而无论是\(R\beta > \gamma\)还是\(R\beta < \gamma\),F统计量都是异常提高,所以说,无论单双边检验,F分布都只看右侧的极端值,也就是:如果\(F > F_{r,N-k,\alpha}\),则在\(\alpha\)置信度的情况下拒绝原假设(无论单边/双边检验)。
证明:F统计量的两个形态等价
(这是我们当初的习题)
问题要求
只用一次无约束OLS求出的F统计量如下式所示:
而之前中级计量会采用以\(H0\)为约束的OLS计算F统计量,即:
而二者可以被证明是等价的,请做出证明。
答案可参阅:StackExchange Math的这个问题,我的自问自答。
一、对分子的推导。首先,对于没有任何约束的OLS估计来说,其SSR为:
接下来讨论带有约束的OLS估计,及其残差平方和。设此问题的估计值为\(\bar \beta\),这个问题本质上是一个线性规划:
利用Lagrange乘子法,则有Lagrange函数为:
其中\(\lambda\)为一个\(r\times 1\)的列向量。这个问题的FOC有两项:
把A.8和A.11联合在一起,写成矩阵形式,有:
从而解得:
其中\(W = R^T[R(X^TX)^{-1}R^T]^{-1}\)。那么,带约束的OLS的SSR为:
若令\(S = X(X^TX)^{-1}R^T[R(X^TX)^{-1}R^T]^{-1}R(X^TX)^{-1}X^T\),则:
易证矩阵\(S\)的幂等性。然后可证\((M+S)\)是幂等和对称的:
那么,将式A.17代入式A.15,有:
对于上式第三项,有:
对于上式第二项,有:
由以上的整理,将A.24,A.27,A.28,A.29带回A.22/23,有:
其中由A.4知,\(SSR_U = Y^TMY\),而\(\hat \beta = (X^TX)^{-1}X^TY\)。其中第一项为:
从而A.32可变形为:
二、对分母的推导。再来看A.2的分母\(SSR_U/(N-K)\),参照\(\hat \sigma^2 = \frac{\epsilon^T M \epsilon}{N-K}\),有:
将A.34/35带回A.2,有:
因而\(F\)与\(F_R\)等价,原问题得证。
3.7 假设检验3:非线性关系的假设检验
这种非线性关系的假设检验是非常宽泛的定义。例如检验\(\hat \beta_j^2 + \hat \beta_i^2 = 1\)这种非线性关系,在接下来讨论大样本情形时再讨论,而在小样本下,这种假设检验难以进行。非线性假设检验中包含了线性关系假设检验,而线性关系假设检验又包含了单一变量的显著性检验。
3.8 置信区间和显著性水平
置信区间(confidence interval)的定义是:指定一个置信度\(\alpha\),那么如果\(\bar \beta_j\)(真值)在置信区间中,我们就不能拒绝原假设。
有一种错误的说法,说“真值出现在置信区间中的概率为\(1-\alpha\)”,错误的原因是真值\(\bar\beta_j\)是一个客观存在但看不到的值,而不是随机变量(这是贝叶斯学派的解释,但这里是频率学派的内容,也不涉及先验后验问题)。人们通过一次次的观测来估计\(\beta_j\),得到了一个个估计值\(\bar\beta_j\),从而得到了一个个不同的置信区间,而这些置信区间中包含了真值的概率是\(1-\alpha\)(这是频率学派的解释)。换句话说,置信区间是可变的,而真值是不变的。
以t统计量为例(其实也可以用在Z统计量和F统计量,但是前者不知道\(\sigma^2\),后者的置信区间是多维空间中的几何体/面,都比较复杂),若\(-t_{N-k,\alpha} \leq t_j \leq t_{N-k,\alpha}\)则不能拒绝原假设,而这个条件可以写为:
上两式中,下面那个表现出来的\(\bar \beta_j\)的取值范围即为置信区间。而P值(P-value)表示统计量得到极端(或者更加极端)取值的概率。
Probability of obtaining a value as extreme or more extreme for the test statistic.
如果备择假设是双边的,则P-value取值为:\(P = P(t_{N-K} > |t_j|) \times 2\),如果是单边的,就是\(P = P(t_{N-K} > t_j)\)(以备择\(\beta_j > \bar \beta_j\)为例)。
3.9 MLE
最大似然估计全程需要假设1-5,并且需要\(\epsilon\)的概率密度,在条件上要更强一些,但估计的结果通常都是有效的。
所谓的“似然函数”(likelihood)是观测值的联合概率密度:
\(\theta\)即为模型中需要估计的参数的集合。对于线性模型\(Y = X\beta + \epsilon\)和正态假设,有\(L(\theta) = N(X\beta, \sigma^2 I_N)\),那么有:
那么,使得\(L(\theta)\)最大的参数组\(\bar \theta\)即为MLE下的估计值,通常来说,求这个值都是用FOC(一阶条件)来搞(但不排除似然函数的形状很奇怪,从而找到局部最优),而且求FOC时通常采用对数化的似然函数\(\mathcal{L}(\theta) = \ln L(\theta)\)。在这个线性模型中,对数化的似然函数为:
求FOC:
由此可见,MLE估计出的\(\beta\)和OLS相同,但是\(\sigma^2\)的估计与OLS不同,我们知道OLS的方差估计量是无偏的,因而MLE的方差估计值是有偏的。大样本情况下,MLE满足一致性,但是否满足有效性呢?
3.10 OLS和MLE的大样本有效性
我们定义S函数(Score function),即\(S(\theta) = \frac{\partial \mathcal{L}(\theta)}{\partial \theta}\),则引出Cramer-Rao下确界的定义:
定义: Cramer-Rao下确界
给定\(\hat \theta\)是\(\theta\)的无偏估计,且方差是有限的,那么基于一般的约束条件(DCT,参见Cramer-Rao下界的Wiki Chapter1.5),有:
\(Var(\hat \theta) \geq I(\theta)^{-1}\),其中信息矩阵\(I(\theta) = E[S(\theta) S^T(\theta)] = -E[\frac{\partial^2 \mathcal{L}(\theta)}{\partial \theta \partial \theta^T}]\)
如果一个无偏估计的方差能够达到Cramer-Rao下界,则这个估计量必然是有效的。对于这个线性模型,其Score Function为:
则其信息矩阵为:
(1)对于左上角那一项,有:
(2)对于右上角和左下角项(二者互为转置,仅看右上角项),有:
而\(E[X^T\epsilon|X] = 0\)。而第二项有:
分情况讨论:
- 对于\(j\not=i\)时,有\(E[\epsilon_j \epsilon_i^2|X] = E[\epsilon_j|X]E[\epsilon_i^2|X] = 0\)(这里用到了假设2、4);
- 而\(j = i\)时,\(E[\epsilon_i^3|X] = 0\)。
\(\int \epsilon^3 f(\epsilon) d\epsilon = 0\),因为\(f(\epsilon)\)为偶函数(正态分布),\(\epsilon^3\)为奇函数,二者相乘为奇函数,那么其积分为0。
因而第二项绝对为0,所以右上角和左下角项为0。
(3)对于右下角项,这是一个标量,因此我们可以把它当作一个特定的值,而不去求它了,比如说,我们管它叫something。
\(\mathcal{L}\)是一个标量,而求\(\sigma^2\)(标量)偏导时也是个标量。
所以,信息矩阵\(I(\theta)\)形式为:
而\(Var(\hat \beta_{MLE}) = Var(\hat \beta_{OLS}) = \sigma^2(X^TX)^{-1}\),因而二者均达到了Cramer-Rao下界,因而OLS和MLE对\(\beta\)的估计量都是有效的。
如果无偏估计量的方差严格大于CR下界,则必然不是有效估计量。
但是,对于\(\sigma^2\)的MLE估计量,由于其不满足无偏性,所以不适用于Cramer-Rao下确界法。