跳转至

时间序列基本内容

2.1 基本假定

设时间节点\(t\),有观测值\(\{r_1,...,r_{t-1}\}\),这个观测值的集合(已知信息集)记作\(F_{t-1}\),因而当前时点\(r_t\)可以分为可观测部分不可观测部分

\[ r_{t} = \mu_t + a_t = E(r_t|F_{t-1}) + \sigma_t \epsilon_t \]

可观测部分记作\(\mu_t\),被定义为当前值\(r_t\)关于已知信息集的条件期望;不可观测部分定义为\(a_t\),即扰动项,可被定义为两项的乘积:\(\sigma_t\)是条件标准差(扰动项),\(\epsilon_t\)则假定为独立同分布的随机变量,且服从标准正态分布。时间序列模型将同时研究\(\mu_t,\sigma_t\)\(\{r_t\}\)序列性质的影响,并进行预测。

2.2 基本概念

通常,我们遇到的问题是这样的,给定随机对数收益率序列\(\{r_t|t = 1,...,T\}\),而需要求知:(1)序列的矩信息;(2)序列矩信息是否与时间\(t\)相关。

那么,为了做这方面的工作,我们需要明确几个概念。

平稳性

较强的平稳性是严平稳,即分布不随时间变化而改变。

定义2.1 - 严平稳

\(\forall t\),且有任意正整数\(k\)个观测点\(\{t_1,...,t_k\}\),若序列\(\{t_1,...,t_k\}\)的联合分布与序列\(\{t_{1+t},...,t_{k+t}\}\)的联合分布一致,则称序列为严平稳序列。

严平稳是很严格的条件,放松一定条件,只追求弱平稳(宽平稳)条件:前两阶矩信息(主要是均值、方差)与时间无关,也即\(r_t\)的均值、\(r_t\)\(r_{t-l}\)的协方差,不随时间的变化而改变。从而有以下几条:

  • \(E(r_t) = \mu\),序列平均值为常数;
  • \(Cov(r_t, r_{t-l}) = \gamma_l\),序列任意两期间的协方差只与相隔期数相关。

弱平稳意味着,\(T\)个值在一个常数间隔水平中相同幅度波动。

严平稳不是宽平稳的充分条件

严平稳并不能推出宽平稳,因为宽平稳只追求前二阶矩的信息与时间无关,而对高阶矩信息没有要求,而严平稳严格限制了各阶矩信息。

自协方差

“我和过去的自己。”

定义\(\gamma_l = Cov(r_t, r_{t-l})\)为间隔为\(l\)的自协方差。由协方差的定义:

\[ \gamma_l = E[(r_t - \mu)(r_{t-l} - \mu)] \]

在宽平稳条件下,自协方差有如下性质:

  • \(\gamma_0 = Var(r_t)\)
  • \(\gamma_{-l} = \gamma_l\),即自反性;

遍历性

定义2.2 - 遍历性

如果一个平稳序列(或者有一个协方差平稳过程)\(\{r_t\}\)满足\(\sum_{j=0}^{\infty}|\gamma_{j}| <\infty\),则称序列\(r_t\)是关于均值遍历的。

遍历性的用处在于,给定样本\(\{r_t\}\),则应有:

  1. 当样本大小\(T \to \infty\)时,样本均值\(\bar r = \frac{1}{T} \sum_{t=1}^T r_t\)依概率收敛\(E(r_t)\),则该序列是关于均值遍历的。
  2. 类似的,如果:
\[ \frac{1}{T-j} \sum_{t=j+1}^T [(r_t - \mu)(r_{t-j} - \mu)] \mathop{\to}^P r_j \]

对所有的\(j\)都成立,则称该序列关于二阶矩遍历。 3. 若一个平稳序列的自协方差\(\sum_{j=0}^\infty |\gamma_j| < \infty\),则称该序列是关于均值遍历的。

这一条意味着当间隔逐渐拉长后,自协方差迅速趋近于0,即序列在长期上均值回归。

现实工作中,常常要求所用时间序列具有弱平稳性和遍历性。

自相关系数(ACF)

定义2.3 - 自相关系数

\(r_t\)\(r_{t-l}\)的相关系数称作\(r_t\)的,间隔为\(l\)的自相关系数:

\[ \rho_l = \frac{Cov(r_t, r_{t-l})}{\sqrt{Var(r_t) Var(r_{t-l})}} = \frac{Cov(r_t, r_{t-l})}{Var(r_t)} = \frac{\gamma_l}{\gamma_0} \]

显然,\(\rho_0 = 1\),且\(\rho_l = \rho_{-l}\),此外,与其他的Pearson相关系数一样,\(-1 \leq \rho_l \leq 1\)。另外,若对于任意的\(l 0\),都有\(\rho_l = 0\),则称该弱平稳序列为不相关序列。

样本自相关系数

对应上面的内容,样本的自相关系数可以表示为:

\[ \hat \rho_l = \frac{\sum_{t=l+1}^T (r_t - \bar r)(r_{t-l}-\bar r)}{\sum_{t=1}^T (r_t - \bar r)^2} ,\quad 0 \leq l \leq T-1 \]

若序列\(\{r_t\}\)是独立同分布序列,且\(E(r_t^2) < \infty\),对于任意正整数\(l\),则\(\hat \rho_l\)渐近服从于均值为0,方差为\(1/T\)的正态分布。这个定义可以用于检验市场是否有效。如果市场收益率序列是不相关的序列,那么序列就和时间毫无关系,从而无法预测,这代表着市场实现了强有效(与过去信息毫无关联)。这个可以通过检验单个(或若干个)ACF值是否为0来实现:

(1) 单个ACF的一期检验:对间隔为1的样本,可设立原假设\(H0: \rho_1 = 0\),备择假设为\(H1: \rho_1 \not = 0\)。并进而构造t统计量:\(t = \hat \rho_1 / \sqrt{1/T} = \sqrt{T} \hat \rho_1 \sim N(0,1)\)。如果t统计量超过了置信分位点,则拒绝原假设,从而认为市场并不完全有效。

(2) 单个ACF的多期检验:对给定正整数\(l\)(间隔为\(l\)的样本),和原假设、备择假设\(H0: \rho_1 = 0\),\(H1: \rho_1 \not = 0\),有t统计量。

\[ t = \frac{\hat \rho_l}{\sqrt{(1+2\sum_{i=1}^{l-1} \hat \rho_i^2)T}} \]

\(\{r_t\}\)为平稳高斯序列且满足\(j l\)时有\(\rho_j = 0\),则这个\(t\)统计量渐近服从标准正态分布。

(3) 多个ACF的检验(Ljung-Box检验)。对于原假设\(H0: \rho_1 = \rho_2 = ... = \rho_m = 0\)和备择假设\(H1: \rho_i \not = 0\),则有基于卡方分布的Ljung-Box检验量:

\[ Q(m) = T(T+2) \sum_{l=1}^m \frac{\hat \rho_l^2}{T-l} \]

该分布渐近服从自由度为\(m\)的卡方分布,卡方分布是单边检验,若\(Q(m) \chi_i^2 (m)\),则拒绝原假设,证明序列并非不相关的。在实务中,通常将\(m\)设定为\(\ln(T)\)

总体来讲,样本的自相关函数(ACF)在线性时序模型中起着重要的作用:一个线性时序模型完全可由ACF来决定。例如CAPM中,通常认为资本收益率不可预测且无相关性,那么检验样本的\(\rho_l\)是否为0,即可判定是否满足这一假定。

白噪声

定义 2.4 - 白噪声

如果\(\{r_t\}\)是一个具有有限均值和有限方差的序列独立同分布随机变量序列,则称\(\{r_t\}\)为一个白噪声序列。特别的,如果\(r_t \sim N(0,\sigma^2)\),则称该序列为高斯白噪声序列。

(有限均值和有限方差可以确认这个序列弱平稳且遍历。)

白噪声性质与\(ACF = 0\)等价。白噪声并不一定是高斯白噪声(不一定服从正态分布),其核心要素在于有限均值方差,且独立同分布。

线性时间序列

定义 2.5 - 线性时间序列

时间序列\(\{r_t\}\)称为线性时间序列,如果可以写作以下形式:

\[ r_t = \mu + \sum_{i=0}^\infty \phi_i a_{t-i} \]

\(r_t\)可以表示为其均值和之前若干期扰动项的加权平均。

其中\(E(r_t) = \mu\),权重序列\(\phi_0 = 1\),\(\{\alpha_t\}\)是零均值的i.i.d序列。

那么有:

  1. \(Var(r_t) = \sigma_a \sum_{i=0}^{\infty} \phi_i^2\),其中\(\{\phi_i^2\}\)应当收敛,从而使方差有限。
  2. 自协方差如下:
\[ \begin{aligned} Cov(r_t,r_{t-l}) &= Cov(\mu+\sum_{t = 0}^\infty \phi_i a_{t-i}, \mu +\sum_{j=0}^\infty \phi_{j-l} a_{t-(j+l)})\\ \text{(如果$\mu = 0$)}\quad &= Cov(\sum_{t = 0}^\infty \phi_i a_{t-i}, \sum_{j=0}^\infty \phi_{j-l} a_{t-(j+l)})\\ &= E(\sum_{i,j = 0}^{\infty} \phi_i \phi_j a_{t-i} a_{t-j-l})\\ &= \sum_{j=0}^\infty \phi_{j+l} \phi_j E(a_{t-j-l}^2) = \sigma_a^2 \sum_{j=0}^\infty \phi_j \phi_{j+l} \end{aligned} \]
  1. 自相关系数如下:
\[ \rho_l = \frac{\gamma_i}{\gamma_0} = \frac{\sigma_a^2 \sum_{j=0}^\infty \phi_j \phi_{j+l}}{\sigma_a^2(1+\sum_{j=1}^\infty \phi_j^2) } = \frac{\sum_{j=0}^\infty \phi_j \phi_{j+l}}{1+\sum_{j=1}^\infty \phi_j^2} \quad (l 0) \]

对于弱平稳序列,对于\(j \to \infty\),有\(\phi_j \to 0\),从而随着间隔\(l\)的增大,\(\rho_l \to 0\)。那么,遥远过去的信息对当前收益率的影响逐渐趋向于0(当前信息对过去信息的线性依赖逐渐消失),从而出现自相关的截尾性。

2.3 基本模型1:自回归模型(AR)

AutoRegressive model。最简单的自相关模型是AR(1),即对\(r_t\)\(r_{t-1}\)建立模型。

\[ r_t = \phi_0 + \phi_1 r_{t-1} + a_t, \quad a_t \sim N(0,\sigma_a^2) \]

其中\(a_t\)为高斯白噪声序列。那么:

  • 在已知\(r_{t-1}\)的条件下:
\[ E(r_t|r_{t-1}) = \phi_0 + \phi_1 r_{t-1},\quad Var(r_t |r_{t-1}) = Var(a_t) = \sigma_a^2 \]
  • 在给定\(r_{t-1}\)的条件下,\(r_t\)\(r_{t-i}(i 1)\)无关。即AR(1)对于远期信息,存在Markov性;或者说对于AR(\(p\))模型对于超过\(p\)期的信息存在Markov性。

也就是说,AR(p)模型中,\(r_t\)只与最近\(p\)个观测值相关。

AR(1)的性质

假定序列\(\{r_t\}\)弱平稳。并设\(E(r_t) = \mu, Var(r_t) = \gamma_0, Cov(r_t, r_{t-j}) = \gamma_j\quad \forall j\),其中\(\mu,\gamma_0\)为常数,而\(\gamma_j\)\(j\)相关。下面推导\(\mu, \gamma_0\)的具体形式:

AR(1)的期望性质
\[ \mu = E(r_t) = \phi_1 E(r_{t-1}) + \phi_0 \Rightarrow \mu = \frac{\phi_0}{1-\phi_1} \quad (\phi_1 \not = 1) \]
AR(1)的方差性质

而对于\(\gamma_0\),则不能直接两边取方差,而要剔除其交叉项。利用前面的\(\phi_0 = (1-\phi_1)\mu\),将\(AR(1)\)改写为:

\[ r_t - \mu = \phi_1(r_{t-1} - \mu) + a_t \]

\(X_t = r_t - \mu\),从而有:

\[ \begin{aligned} X_t &= \phi_1 X_{t-1} + a_t = \phi_1(\phi_1 X_{t-2} + a_{t-1}) + a_t \\ &= \phi_1^2 X_{t-2} + \phi_1 a_{t-1} + a_t\\ &= \ldots\\ &= a_t + \phi_1 a_{t-1} + \phi_1^2 a_{t-2} + ... = \sum_{i=0}^{\infty} \phi_1^i a_{t-i} \end{aligned} \]

从而说\(r_t - \mu\)\(a_{t-i}, i \geq 0\)的线性加权,又因为\(\{a_t\}\)独立同分布,从而有:

\[ E[(r_t-\mu)a_{t+1}] = 0 \]

将上式带回\(r_t - \mu = \phi_1(r_{t-1} - \mu) + a_t\),并取期望:

\[ \begin{aligned} E[(r_t - \mu)^2] &= E[(a_t + \phi_1(r_{t-1} - \mu))^2]\\ \operatorname{Var}(r_t) &= E[a_t^2 + 2\phi_1 a_t(r_{t-1} - \mu) \phi_1^2 (r_{t-1} - \mu)^2]\\ &= E[a_t^2] + 2\phi_1 E[a_t(r_{t-1} - \mu)] + \phi_1^2 E[(r_{t-1} - \mu)^2] \quad \text{(第二项由上面的式子可知为0)}\\ &= \sigma_a^2 + \phi_1^2 \operatorname{Var}(r_t) \end{aligned} \]

从而有:

\[ \gamma_0 = \operatorname{Var}(r_t) = \frac{\sigma_a^2}{1-\phi_1^2}, \quad \phi_1^2 < 1 \Rightarrow |\phi_1| < 1 \tag{AR1.Gamma} \]

由以上内容,我们可以得到AR(1)模型弱平稳的一个充要条件:\(|\phi_1| < 1\)。将\(\phi_0 = (1-\phi_1)\mu\)带入AR(1)模型,则AR(1)可以表示为:

\[ r_t = (1-\phi_1) \mu + \phi_1 r_{t-1} + a_t \]

即AR(1)可以表示为均值(可能是市场均值)和上期值的加权平均,整得很像CAPM。

AR(1)的自相关系数(ACF)性质

从式\(r_t - \mu = \phi_1(r_{t-1} - \mu) + a_t\)开始,两端乘以\(a_t\),取期望:

\[ E[a_t(r_t - \mu)] = \phi_1 E[a_t (r_{t-1} - \mu)] + E[a_t^2]= \sigma_a^2 \]

而对式\(r_t - \mu = \phi_1(r_{t-1} - \mu) + a_t\)两端同乘\(r_{t-l} - \mu\),取期望:

\[ \begin{aligned} E[(r_t - \mu) (r_{t-l} - \mu)] &= E[(\phi_1(r_{t-1} - \mu) + a_t)(r_{t-l} - \mu)]\\ &= \phi_1 E[(r_{t-1} - \mu)(r_{t-l} - \mu)] \end{aligned} \]

如果\(l = 0\),则\(\gamma_l = \phi_1 \gamma_1 + \sigma_a^2\),否则\(\gamma_l = \phi_1 \gamma_{l-1}\)。由以上内容和式(AR1.Gamma)可导出AR(1)的ACF满足:

\[ ACF = \frac{\gamma_l}{\gamma_0} = \frac{\phi_1^l \gamma_0}{\gamma_0} = \phi_1^l \]

由于\(\phi_1 \in (-1,1)\),所以ACF会呈现两种典型性的指数级衰减,如Tsay书Figure 2.3。

Tsey Figure 2.3

AR(2)的性质

将自回归模型扩张到2期:

\[ r_t = \phi_0 + \phi_1 r_{t-1} + \phi_2 r_{t-2} + a_t, a_t \sim N(0,\sigma_a^2) \]

仍然从期望、方差、ADF上讨论其性质:

AR(2)的期望和方差

类似于前面AR(1),其矩信息应当有如下性质:

\[ E(r_t) = \mu = \frac{\phi_0}{1-\phi_1 - \phi_2}, \quad \phi_1 + \phi_2 \not = 0 \]

而利用\(\phi_0 = (1-\phi_1 - \phi_2)\mu\),从而有:

\[ \begin{align} r_t - \mu &= \phi_1(r_{t-1} - \mu) + \phi_2(r_{t-2} - \mu) + a_t \tag{0}\\ E[(r_t - \mu)^2] &= \phi_1 E[(r_{t-1} - \mu)(r_{t-2} - \mu)] + \phi_2 E[(r_{t-2} - \mu)(r_t - \mu)]+ E[a_t(r_t - \mu)]\\ \text{即有} \quad \gamma_0 &= \phi_1 \gamma_1 + \phi_2 \gamma_2 + \sigma_a^2\tag{1} \end{align} \]

类似的,对式(0)左右同乘\((r_{t-1} - \mu)\)\((r_{t-2} - \mu)\),并左右同取期望,则可以获得\(\gamma_1, \gamma_2\)的表达式:

\[ \begin{align} \gamma_1 &= \phi_1 \gamma_0 + \phi_2 \gamma_1\tag{2}\\ \gamma_2 &= \phi_1 \gamma_1 + \phi_2 \gamma_0\tag{3} \end{align} \]

联立式(1-3),利用矩阵方程求解(利用Cramer法则)

AR(2)的ADF性质

对式\((0)\)同乘\((r_{t-l} - \mu)\)并取期望:

\[ E[(r_{t-l} - \mu)(r_t - \mu)] = \phi_1 E[(r_{t-l} - \mu)(r_{t-1} -\mu)] + \phi_2 E[(r_{t-2} - \mu) (r_{t-l} - \mu)] + E[(r_{t-l}-\mu) a_t] \]

\(l 0\)时,\(E[(r_{t-l} - \mu) a_t] 0\),从而有:

\[ \gamma_l = \phi_1 \gamma_{l-1} + \phi_2 \gamma_{l-2} \]

该方程称作AR(2)的矩方程。对于\(l=0\),有\(\rho_0 = 1\),而\(\rho_1 = \phi_1 / (1-\phi_2)\)。对于更大阶的情况,两边同除以\(\gamma_0\),有:

\[ \rho_l = \phi_1 \rho_{l-1} + \phi_2 \rho_{l-2} (l 0) \]

平稳AR(2)序列的ACF满足二阶差分方程:

\[ (1-\phi_1 B - \phi_2 B^2)\rho_l = 0 \tag{4} \]

其中\(B\)称作“向后推移算子”,其定义为\(B \rho_l = \rho_{l-1}\),即ACF的向后推移。

(注:有的论著中采用向后推移算子\(L\),且有\(L\gamma_l = \gamma_{l-1}\)。)

AR(2)的差分

已知时间序列\(\{r_t\}\)\(t\)时刻的值\(r_t\)\(t-1\)时刻的值\(r_{t-1}\),二者相减之差\(dt = r_t - r_{t-1}\),得到的新序列\(\{dt\}\)称作\(\{r_t\}\)的一阶差分,如果再对\(\{dt\}\)序列再做一次差分,则新序列是\(\{r_t\}\)的二阶差分。差分操作可以将非平稳的序列近似转换为弱平稳序列。回到上面的AR(2)方程中,式(4)决定了平稳AR(2)模型的性质,而与这个差分方程对应的是AR(2)的特征方程:

\[ 1-\phi_1 X - \phi_2 X^2 = 0 \tag{5} \]
对AR(2)特征方程的推导

该部分的证明并未被Tsey给出。

对于\(p\)阶差分方程:

\[ r_t = \phi_1 r_{t-1} + \phi_2 r_{t-2} + ... + \phi_p r_{t-p} + a_t \tag{6} \]

定义向量\(\epsilon_t = [r_t, r_{t-1}, ..., r_{t-p+1}]^T\)。另定义矩阵:

\[ F = \left[ \begin{array}{ccccc} \phi_1 & \phi_2 & ... &\phi_{p-1} & \phi_p \\ 1 & 0 & ... & 0 & 0\\ 0 & 1 & ... & 0 & 0\\ ... & ... & ... & ... & ...\\ 0 & 0 & ... & 1 & 0 \end{array}\right], \quad V_t = \left[\begin{array}{c} a_t \\ 0\\ ...\\ 0 \end{array}\right] \]

那么式(6)可以被表示为一个一阶的向量系统:

\[ \epsilon_t = F \epsilon_{t-1} + V_t \tag{7} \]

进一步迭代式(7),从一阶向量系统迭代\(t\)次,成为\(t\)阶向量系统:

\[ \begin{aligned} \epsilon_t &= F \epsilon_{t-1} + V_t \\ &= F(F\epsilon_{t-2} + V_{t-1}) + V_t = ...\\ &= F^{t+1} \epsilon_{(-1)} + F^t V_0 + ... + FV_{t-1} + V_t \end{aligned} \]

把向量的具体形式带到向量系统中:

\[ \left[\begin{array}{c} r_t \\ r_{t-1}\\ ...\\ r_{t-p+1} \end{array}\right] = F^{t+1} \left[\begin{array}{c} r_1\\ r_2\\ ...\\ r_{p-1} \end{array}\right] + F^t \left[\begin{array}{c} a_0\\ 0\\ ...\\ 0 \end{array}\right] + ... + F\left[\begin{array}{c} a_{t-1} \\ 0\\ ...\\ 0 \end{array}\right] + \left[\begin{array}{c} a_t \\ 0\\ ...\\ 0 \end{array}\right] \]

这个大方程组有什么用呢?第一行(第一个方程)就刻画了\(r_t\)的结构。令\(f_{(pq)}^{(t)}\)表示\(F^t\)中的第\((p,q)\)个元素,则有:

\[ r_t = f_{(11)}^{(t+1)} + f_{(12)}^{(t+1)} r_2 + ... + f_{(1p)}^{(t+1)} r_p + f_{(11)}^t a_0 + f_{(11)}^{(t-1)} a_1 + ... + a_t \]

对这个向量系统进行推广,做一个\(j\)期的迭代:

\[ \begin{align} \epsilon_{t+j} &= F^{j+1} \epsilon_{t-1} + F^j V_t + ... + FV_{t+j-1} V_{t+j}\\ r_{t+j} &= f_{(11)}^{(j+1)} r_{t-1} + ... + f_{(1p)}^{(j+1)} r_{t-p} + f_{(11)}^j a_t + ... + f_{(11)}^1 a_{t+j-1} + a_{t+j} \end{align} \]

从上式可知\(f_{(11)}^j = \partial r_{t+j} / \partial a_t\),该量被称作“动态乘子”,表示一单位\(a_t\)的变化(扰动)对\(r_{t+j}\)的影响。由于该量是\(F\)的最左上角元素,因此只需寻找\(F\)矩阵的特征值,即可同等刻画这一个扰动影响。即解方程:\(|F - \lambda I_p| = 0\),其中\(\lambda\)为特征值。对于AR(2)模型,有:

\[ \begin{aligned} &\left|\left[\begin{array}{cc} \phi_1 & \phi_2 \\ 1 & 0 \end{array}\right] - \left[\begin{array}{cc} \lambda & 0 \\ 0 & \lambda \end{array}\right] \right| = 0\\ \textbf{从而有}\quad &\lambda^2 - \phi_1 \lambda - \phi_2 = 0 \Rightarrow 1-\phi_1 x - \phi_2 x^2 = 0 \end{aligned} \]

其中\(x = 1/\lambda\),即\(F\)特征值的倒数,用二次方程求根公式:

\[ x = \frac{\phi_1 \pm \sqrt{\phi_1^2 + 4\phi_2}}{-2\phi_2} \label{eq: ar2_checkpoint} \]

得到的特征根为双根\((\omega_1,\omega_2)\),要讨论实根和虚根问题。

  • 如果两根均为实根,则方程分解为:\((1-\omega_1 B)(1-\omega_2 B)\)的形式,此时AR(2)可以表示为两个AR(1)的叠加。AR(1)的ACF曲线取决于\(\phi_1\)的取值,那么这种AR(2)的ACF曲线就是两个AR(1)叠加起来,即两个指数函数的复合,其图形取决于两个\(\phi\)的取值。
  • 如果两根均为虚根,那么\(\omega_1,\omega_2\)为复数共轭对,而复数共轭对可以表示为极坐标中的正弦/余弦曲线,这种情况下的ACF表示为减幅的正弦、余弦波。该种情况在商业和经济应用上比较重要,正弦波形式的ACF可以导致商业环/商业周期的出现。带一对复共轭特征根的AR(2)模型的随机环的平均长度(减幅正弦函数的平均周期)可以由以下式子给出:
\[ k = \frac{2\pi}{\cos^{-1}[\phi_1/(2\sqrt{-\phi_2})]} = \frac{2\pi}{\operatorname{arccos}[\phi_1/(2\sqrt{-\phi_2})]} \]

如果将复数解记为\(a \pm b_i\)的形式,则\(\phi_1 = 2a, \phi_2 = -(a^2+b^2)\),则上式可写为:

\[ k = \frac{2\pi}{\cos^{-1} (a / \sqrt{a^2+b^2})} \]

进而引出AR(2)模型平稳的必要条件:AR(2)模型两个特征根(\(\omega\))的模都要小于1。对应特征方程(式5)的两个解(\(x\))的模都要大于1。该条件同样适用于AR(1)模型。其对应特征方程\(1-\phi_1 x = 0\),对应特征根解为\(\omega = 1/x = \phi_1\),则该必要条件要求\(|\phi_1| < 1\)。而对于AR(p)模型呢?对于AR(p)模型,其对应的多项式方程为:

\[ 1-\phi_1 x - \phi_2 x^2 - ... - \phi_p x^p = 0 \]

那么序列\(\{r_t\}\)平稳的条件就是所有解的模都要大于1,即所有特征根的模都小于1,而这个条件通常难以保证,因此尽量要采用低阶AR模型,因而牵扯到重要的问题:定阶。

AR模型的定阶

定阶,即确定AR(p)中的唯一参数:\(p\)。有几种主要的方法,如偏自相关函数(PACF)、信息准则法。

第一种, 偏自相关函数法。考虑一连串的AR模型:

\[ \begin{align} r_t &= \phi_{01} + \phi_{11} r_{t-1} + e_{1t}\\ r_t &= \phi_{02} + \phi_{12} r_{t-1} + \phi_{22} r_{t-2} + e_{2t} \end{align} \]

对这两个模型做估计,那么\(\hat \phi_{22}\)表示在AR(1)模型基础上,添加\(r_{t-2}\)\(r_t\)拟合的贡献。以此类推,不断尝试和验证,我们称\(\hat \phi_{ll}\)\(r_t\)的间隔为\(l\)的偏自相关函数(PACF),这个过程中每一个\(\hat \phi_{ll}\)就可以形成一个估计值的向量。由于AR模型的PACF具有截尾性质,因而适合用于定阶。计算PACF主要依赖于Yule-Walker方程。

在讲Yule-Walker之前,显然有\(AR(1)\)的PACF和ACF相等,别问我为什么,问就是定义所得。

Yule-Walker方程组

Yule-Walker方程组:对于AR(p)模型,两边同时乘以\(r_{t-k} (k \geq 1)\)后取期望。要注意的是,以下所指\(\phi_k\),均为AR(p)中的第\(k\)\(\phi\)参数,放在上面两式的语境中,应当称作\(\phi_{pk}\),而只有\(\phi_{pp}\)(也就是下面Yule-Walker方程中的\(\phi_p\))才是AR(p)模型在\(p\)阶处的PACF。

\[ E(r_t r_{t-k}) = \phi_1 E(r_{t-1} r_{t-k}) + ... + \phi_p E(r_{t-p} r_{t-k}) + E(a_t r_{t-k}) \Rightarrow \gamma_k = \phi_1 \gamma_{k-1} + ... + \phi_p \gamma_{k-p} \]

当然,两边同除\(\gamma_0\),有:

\[ \rho_k = \phi_1 \rho_{k-1} + ... + \phi_p \gamma_{k-p} \]

\(\gamma_k\)表达式,将\(k = 1,...,p\)分别写出来,形成下面的矩阵方程。

\[ \left(\begin{array}{c} \gamma_1\\ \gamma_2\\ \vdots\\ \gamma_p \end{array}\right) = \left(\begin{array}{cccc} \gamma_0 & \gamma_1 & \ldots &\gamma_{p-1} \\ \gamma_1 & \gamma_0 &\ldots & \gamma_{p-2}\\ \vdots & \vdots & \ddots & \vdots\\ \gamma_{p-1} & \gamma_{p-2} & \ldots & \gamma_{0} \end{array}\right) \left(\begin{array}{c} \phi_1\\ \phi_2\\ \vdots\\ \phi_p \end{array}\right) :\Rightarrow \quad \mathbf{\gamma}_p = \mathbf{\Gamma}_p \mathbf{\phi}_p \label{eq: Yule-Walker eqs} \]

该方程组即为Yule-Walker方程组。

为了求解PACF,我们需要让\(\phi_p\)暴露出来,从式\(\eqref{eq: Yule-Walker eqs}\)左右同除以\(\gamma_0\),有:

\[ \left(\begin{array}{cccc} 1 & \rho_1 & \ldots & \rho_{k-1} \\ \rho_1 & 1 & \ldots & \rho_{k-2}\\ \vdots & \vdots & \ddots & \vdots \\ \rho_{k-1} & \rho_{k-2} & \ldots & 1 \end{array}\right) \left(\begin{array}{c} \phi_1\\ \phi_2\\ \vdots\\ \phi_p \end{array}\right) = \left(\begin{array}{c} \rho_1\\ \rho_2\\ \vdots\\ \rho_k \end{array}\right) \]

解这个方程组的好办法是Cramer法则。将上式左侧系数阵的第\(p\)列(即最后一列)替换为等号右边的向量,分子即为这个新矩阵的行列式,而分母是原系数矩阵的行列式,所求得的商即为\(\phi_{p}\)的解,即AR模型系数所谓的Yule-Walker估计量。如果\(\{r_t\}\)是AR(p)过程,且\(\{a_t\} \sim N(0,\sigma_a^2) i.i.d.\),则Yule-Walker估计量\(\hat \phi_p\)服从分布:

\[ (\hat \phi_p - \phi) \sim N(\mathbf{0}, n^{-1} \sigma_a^2 \mathbf{\Gamma}_k^{-1}) \]

其中\(n\)为样本容量。基于此可以求得Yule-Walker估计量的置信区间。

第二种,信息准则法。信息准则(Information Criteria,IC)本质上是对残差的调整,常用的信息准则包括Akaike IC(AIC,赤池信息准则)和Bayesian IC(BIC,贝叶斯信息准则)。

  • 赤池信息准则。AIC的形式为:
\[ AIC = \frac{-2}{T} \ln (\text{似然函数最大值}) + \frac{2}{T} (\text{参数个数}) \]

特别的是,对于高斯AR(l)模型,AIC的形式为:

\[ AIC(l) = \ln(\tilde \sigma_l^2) + \frac{2l}{T} \]
  • ==贝叶斯信息准则==。BIC基于AIC进行调整,对于高斯AR(l)模型,其形式为:
\[ BIC(l) = \ln (\tilde \sigma_l^2) + \frac{l \ln(T)}{T} \]

BIC的改进位于第二项,将分子上的\(2\)改为\(\ln(l)\)。对于样本容量较大的情形,基于BIC的定阶方法倾向于选择更小阶的AR模型。

争议处理:PACF,AIC,BIC结果存在偏差时,可以优先按照BIC意见定阶,也可以选择三选二的方式,投票得出定阶方案。

AR模型的参数估计

AR模型的估计采用条件最小二乘估计(CLS)。在给定前\(p\)个观测值的条件下,进行多元线性回归。在前\(p\)个观测值的条件下,利用其他观测值回归下列模型:

\[ \tilde r_t = \phi_0 + \phi_1 r_{t-1} + ... + \phi_p r_{t-p} \]

对应的残差为\(\tilde a_t = r_t - \tilde r_t\),称\(\{\tilde a_t\}\)为残差序列,而该残差序列的残差平方和(样本外残差平方和)为:

\[ \tilde \sigma_a^2 = \frac{\sum_{t = p+1}^{T} \hat a_t^2}{T-2p-1} \]

而条件最小二乘的任务是最小化样本外残差平方和:

\[ \hat \phi = \mathop{\operatorname{argmin}}_\phi \hat \sigma_a^2 = \mathop{\operatorname{argmin}}_\phi ||y-X\beta||^2 \]

其中,\(y = [\hat r_{p+1}, \hat r_{p+2}, ..., \hat r_T]^T\), \(\beta = [\hat \phi_0,...,\hat \phi_p]^T\)\(X\)是对\(y\)向量进行拟合的式子中所有变量的集合。且\(X\in \mathcal{R}^{(T-p)\times (p+1)}, \beta \in \mathcal{R}^{(R+1) \times 1}, y \in \mathcal{R}^{(T-p) \times 1}\)。对\(\hat \sigma_a^2\)做微分求最值,解得经典老式子:

\[ \hat \beta = (X^TX)^{-1}X^Ty \]

备注两则:

  • 如果上面的\(\{y_t\}\)的分布未知,CLS估计所得的参数仍然是合理的。
  • 如果\(\{y_t\}\)样本的联合密度\(P(y_1,...,y_T)\)已知,则除了CLS,也可使用MLE来估计,CLS和MLE对参数的估计值是一致的,但MLE对方差的估计有区别:
\[ \tilde \sigma_a^2 \textbf{(MLE)} = \frac{T-2p-1}{T-p} \hat \sigma_a^2 \textbf{(CLS)} \]

模型检验

该工作用于验证模型是否充分,或者参数是否冗余。AR模型的检验工作采用Ljung-Box检验。其思想为,如果模型充分,则残差序列\(\{\hat a_t\}\)应当为白噪声,而检验序列是否为白噪声的工作可以用Ljung-Box检验进行,它将检验序列与一般白噪声的接近程度:

\[ Q(m) = T(T+2) \sum_{l=1}^m \frac{\hat \rho_l^2}{T-l} \sim \chi_\alpha^2 (m-g) \]

其中\(g\)为AR模型中的参数个数。

模型的拟合优度

拟合优度,就是\(R^2\)

\[ R^2 = 1-\frac{\text{Square Sum of Residual}}{\text{Square Sum Totally}} = 1-\frac{\sum_{t=p+1}^T \hat a_t^2}{\sum_{t=p+1}^T (r_t - \bar r)^2} \]

其中\(\bar r = \frac{1}{T-p} \sum_{t = p+1}^T r_t\)。如果序列平稳,则\(R^2\)越大,模型拟合情况越好。但对于时间序列来说,变量个数对\(R^2\)会产生影响,为了剔除自变量个数对\(R^2\)的影响,时间序列中引入了Adjusted \(R^2\),其形式为:

\[ \text{Adjusted } R^2 = 1- \frac{\hat \sigma_a^2}{\hat \sigma_r^2} = 1-\frac{\frac{1}{T-2p-1}\sum_{t=p+1}^T \hat a_t^2}{\frac{1}{T-p-1}\sum_{t=p+1}^T (r_t - \bar r)^2} = 1-\frac{T-p-1}{T-2p-1}(1-R^2) \]

大多数情况下,Adjusted \(R^2\)仍在\((0,1)\)之间,但是可能会出现超出该范围的情况,通常需要分析该现象出现的原因。Adjusted \(R^2\)有一个好,如果新加入的变量\((X)\)对回归的贡献较少,则Adjusted \(R^2\)反而可能降低,这就体现了Adjusted \(R^2\)对模型自变量数量的限制作用。

AR模型的预测

设时间指标\(h\)为预测原点,\(l\)为预测步长,想预测\(r_{h+l}\)。定义\(\hat r_h(l)\)为最小均方误差下的预测,则\(\hat r_h(l)\)应当满足:

\[ E\{[r_{h+l} - \hat r_h(l)]^2|F_h\} \leq \min_g E[(r_{h+l} - g)^2|F_h] \]

其中\(g\)为时点\(h\)下所得的信息函数,即时点\(h\)下所能得到的所有信息\(F_h\)的函数。

(1) 向前一步预测。让我们想想AR(p)中\(r_{h+1}\)的结构是:

\[ r_{h+1} = \phi_0 + \phi_1 r_h + ... + \phi_p r_{h+1-p} + a_{h+1} \]

\(h\)时刻下拥有的信息集是什么?\(F_h = \{r_h,r_{h-1},...\}\),那么就可以得到\(r_{h+1}\)点预测的条件期望。从而有:

\[ \hat r_h(1) = E(r_{h+1}|F_h) = \phi_0 + \phi_1 r_h + ... + \phi_p r_{h+1-p} = \phi_0 + \sum_{i=1}^p \phi_i r_{h+1-i} \]

那么,这个条件期望和原本的\(r_{h+1}\)之间的区别就在于最后的扰动项\(a_{h+1}\),也就是预测的误差:

\[ e_h(1) = r_{h+1} - \hat r_h(1) = a_{h+1} \]

而误差的方差是:

\[ Var[e_h(1)] = Var(a_{h+1}) = \sigma_a^2 \]

如果\(\{a_t\}\)是服从正态分布的,那么\(\{r_t\}\)序列向前一步预测(即\(r_{h+1}\))的点预测具有的预测区间即为\([\hat r_h(1) - \eta_\alpha \sigma_a, \hat r_h(1) + \eta_\alpha \sigma_a]\),其中\(\eta_\alpha\)是对应置信度\(\alpha\)的置信区间上下界。

(2) 向前两步预测

对第二步的预测,其作为条件的信息集仍然为\(F_h\)。原始的\(r_{h+2}\)结构为:

\[ r_{h+2} = \phi_0 + \phi_1 r_{h+1} + ... + \phi_p r_{h+2-p} + a_{h+2} \]

而预测值的结构如下,注意的是,对于第二步预测,\(r_{h+1}\)仍然是未知的(你仍然站在时点\(h\)往后看):

\[ \hat r_h(2) = E[r_{h+2}|F_t] = \phi_0 + \phi_1 \hat \phi_h(1) + \phi_2 r_h +...+\phi_p r_{h+2-p} \]

那么预测误差为:

\[ e_h(2) = \phi_1[r_{h+1} - \hat r_h(1)] + a_{h+2} = \phi_1 a_{h+1} + a_{h+2} \]

其方差为:

\[ Var[e_h(2)] = [1+\phi_1^2] \sigma_a^2 \geq Var[e_h(1)] \]

显然,随着预测步长的增加,进一步预测结果的不确定性会逐渐增加。

(3) 向前\(l\)步预测

向前\(l\)步预测的点值为:

\[ r_{h+l} = \phi_0 + \phi_1 r_{h+l-1} + ... + \phi_p r_{h+l-p} + a_{h+l} \]

对应的预测值为:

\[ \hat r_h(l) = \phi_0 + \sum_{i=1}^p \phi_i \hat r_h(l-i) \]

如果\(l - i \leq 0\),那么那部分就是包含在\(F_h\)中的,即已知精确值的部分。其预测误差的结构为:

(本来是有式子的,不想推了)

均值回转(mean reversion)现象

对于一个平稳的AR(p)模型,当\(l \to \infty\)时,\(\hat r_h(l)\)收敛于\(E(r_t)\),即预测的有条件均值逐渐逼近到无条件均值(你已知的信息已经不足以预测很靠后的值了,你的预测几乎起不到任何作用)。而均值回转现象存在“半衰期”,对于\(AR(1)\)模型,其均值回转的半衰期为\(k = \ln (0.5/|\phi_1|)\)

2.4 基本模型2:滑动平均(MA)

对于无穷阶的AR模型,应有:

\[ r_t = \phi_0 + \phi_1 r_{t-1} + ... + a_t \]

\(i \geq 1\)时,设\(\phi_i = -\theta_1^i\),则较遥远的过往信息对当下值的影响就变得微不足道了,上式变为:

\[ r_t = \phi_0 - \theta_1 r_{t-1} - \theta_1^2 r_{t-2} -... + a_t \]

为了使模型平稳,\(\theta_1\)的绝对值应当小于1。对上面做移项:

\[ r_t + \theta_1 r_{t-1}+\theta_1^2 r_{t-2} + ... = \phi_0 + a_t \]

同理,我们还能得到:

\[ r_{t-1} + \theta_1 r_{t-2} + \theta_1^2 r_{t-3} + ... = \phi_0 + a_{t-1} \]

两式相减,能够得到:

\[ r_t = (1-\theta_1)\phi_0 + a_t - \theta_1 a_{t-1} = C_0 + a_t - \theta_1 a_{t-1} = C_0 + (1-\theta_1 B)a_t \]

其中\(C_0\)为常数,\(a_t \sim N(0,\sigma_a^2)\)这样,\(r_t\)的无穷阶AR模型就变成了当期扰动项和往期扰动项的线性加权。该改进后的模型被称作一阶滑动平均模型,即MA(1)模型。显然,MA(1)仍然是平稳的。类似的,MA(q)模型的形式为:

\[ r_t = C_0 + a_t - \theta_1 a_{t-1} -... - \theta_q a_{t-q} = C_0 + (1-\theta_1 B - ... - \theta_q B^q) a_t \]

MA模型的基本性质

MA模型的平稳性

MA(q)模型总是平稳的,因为:

  • MA(q)是有限个(\(q\)个)白噪声的线性加权;

  • 其前两阶矩不随时间变化而变化(满足宽平稳条件);

对于MA(1),有\(r_t = C_0 + a_t - \theta_1 a_{t-1}\),对应均值方差为:

\[ E(r_t) = C_0; \quad Var(r_t) = (1+\theta_1^2)\sigma_a^2 \]

对于MA(q)模型,其均值方差为:

\[ E(r_t) = C_0; \quad Var(r_t) = (1+\theta_1^2 + ... + \theta_q^2) \sigma_a^2 \]
  • 自协方差只与\(l\)有关。以MA(1)为例,若\(C_0 =0\),则有:
\[ \gamma_l = E[(r_t - \mu) (r_{t-l} - \mu)] = E[(r_{t-l}a_t)] - \theta_1 E(r_{t-l}a_{t-1}) = -\theta_1 E(r_{t-l}a_{t-1}) \]

(第三个等号的原因在于,\(r_{t-l}\)是往期\(a_t\)的线性加权,而这些往期扰动与当期扰动之积的期望为0。)

a. 若\(l=1\),则\(\gamma_1 = -\theta_1 \sigma_a^2\);

b. 若\(l>1\),则\(\gamma_l = 0\)

总之,\(\gamma_l\)甚至与时间\(l\)无关,在任何情况下均为常数。

由以上三条可知,MA(q)模型必然是平稳的。

MA模型的ACF

MA(1)的ACF很漂亮,\(\rho_0 = 1,\rho_1 = \gamma_1 / \gamma_0 = \frac{-\theta_1}{1+\theta_1^2}, \rho_l = 0 (l>1)\)。即MA(1)的自相关系数只有在1阶处非零(间隔为1之后是截尾的),而该值的范围为\([-0.5,0.5]\),最小值取在\(\theta_1 = 1\),最大值取在\(\theta_1 = -1\)。很明显,MA(1)模型的一个美德就是,ACF曲线会在滞后期内迅速衰减到0。

进一步,MA(2)模型:\(r_t = a_t - \theta_1 a_{t-1} - \theta a_{t-2}\)(方便起见,假定\(C_0\)为0)的ACF为:

\[ \rho_1 = \frac{-\theta_1 + \theta_1 \theta_2}{1+\theta_1^2 + \theta_2^2}; \quad \rho_2 = \frac{-\theta_2}{1+\theta_1^2 + \theta_2^2}; \quad \rho_l = 0, \forall l 2 \]

其中\(\rho_1\)的范围为\([-1/\sqrt{2},1/\sqrt{2}]\)\(\rho_2\)范围为\([-1/2,1/2]\)。MA(2)在间隔为2之后截尾,从此归纳,MA(q)至于其前q个滞后项相关,这一点也称作MA的有限记忆性

MA模型的可逆性

改写MA(1)模型,则有:\(a_t = r_t + \theta_1 a_{t-1}\),重复迭代:

\[ a_t = r_t + \theta_1 r_{t-1} + \theta_1^2 r_{t-2} + ... \]

该方程称作AR(\(\infty\))过程,表示当期扰动项\(a_t\)为现在及过去所有期收益率的线性组合,且\(|\theta_1| < 1\),这就是MA(1)的可逆性(MA由AR变化得来,也可以变化出AR)。对于MA(q)模型,有\(r_t - C_0 = (1-\theta_1 B - \theta_2 B^2 - ...) a_t\),其特征方程为:

\[ 1- \theta_1 X - \theta_2 X^2 -... - \theta_q X^q = 0 \]

该方程解落在单位圆之外,则MA(q)模型可以转化为AR(\(\infty\))过程,即MA(q)可逆。

如果可解,则特征方程可以转化为\((1-\lambda_1 X)(1-\lambda_2X)...(1-\lambda_q X) = 0\),那么方程解均落在单位圆之外,等价于所有\(|\theta_i| \leq 1\),即特征方程根的模均大于1。

MA模型的估计

MA模型的定阶主要看ACF的取值。而估计主要采用两种方法:(1)条件似然法;(2)精确似然法。

MA模型的PACF是拖尾的,而ACF是截尾的,因此需要用ACF来指导定阶。下面讲到ARMA模型时会对ACF和PACF指导定阶的准则做更细致的讲解。

条件似然法

设初始扰动\(a_0 = 0\),有\(a_1 = r_1 - C_0\)\(a_2 = r_2 - C_0 + \theta_1 a_1\),......。递归得到最优的扰动序列,再进行参数估计。

对于MA(1)模型,即\(r_t = \mu + a_t + \theta_1 a_{t-1}, a_t \sim N(0,\sigma_a^2)\)。我们令\(\Theta = (\mu, \theta_1, \sigma_a^2)^T\)。如果\(a_{t-1}\)已知,那么\(r_t\)的所有不确定性都存在于\(a_t\)上,那么有:

\[ r_t | a_{t-1} \sim N(\mu + \theta_1 a_{t-1}, \sigma_a^2) \]

其边际密度函数为:

\[ f_{r_t|a_{t-1}}(r_t|a_{t-1}; \Theta) = \frac{1}{\sigma \sqrt{2\pi}} \mathop{exp} [\frac{-(r_t - \mu - \theta_1 a_{t-1})^2}{2\sigma^2}]\tag{8} \]

\(a_0 = 0\)开始,则\(r_1 |a_0 = 0 \sim N(\mu,\sigma_n^2)\),给定观测值得\(a_1 = r_1 - \mu\),带入到式(8)$中:

\[ f_{r_2|r_1,a_0}(r_2 |r_1, a_0 = 0;\Theta) = \frac{1}{\sigma\sqrt{2\pi}}\mathop{exp}[\frac{-(r_2 - \mu - \theta_1 a_1)^2}{2\sigma_a^2}] \]

\(a_1\)确定,则\(a_2 = r_2 - \mu - \theta_1 a_1\),进而重复迭代\(\{a_t\}\)\(\{r_t\}\)序列,从而有第\(t\)个时刻观测值的条件密度:

\[ f_{r_t|\{r_i, i=1,...,t-1\}, a_0 = 0} (r_t | r_{t-1},...,r_1,a_0 = 0;\Theta) = \frac{1}{\sigma\sqrt{2\pi}} \mathop{exp}[\frac{-(r_t - \mu - \theta_1 a_{t-1})^2}{2\sigma_a^2}] \]

进而得到条件似然函数:

\[ L(\Theta) = \log \prod_{i=1}^T (f_{r_t|r_{t-1},...,r_1;a_0=0,\Theta}(r_t|r_{t-1},...,r_1;a_0=0,\Theta)) \]

\(\Theta\)向量中所有的元素挨个求偏导,但要注意:

(1) 由\(a_t = r_t - \mu - \theta_1 a_{t-1}\),可进一步推导:

\[ a_t = r_t - \mu - \theta_1 a_{t-1} = (r_t - \mu) - \theta_1(r_{t-1} - \mu) - \theta_1^2(r_{t-2} - \mu) - ... +(-1)^{t-1}\theta_1^{t-1}(r_1-\mu) + (-1)^t \theta_1^t a_0 \]

如果\(\theta_1\)的绝对值极小,则\(a_0 = 0\)的假定对估计的影响会迅速消失,可以忽略不计,所以条件似然法是MA模型的良好估计。

(2) 如果\(\theta_1 1\),则\(a_0=0\)的假定会随着时间的增加而不断放大,因而MA的条件似然估计在此时很可能是存在偏差的,因而估计不合理,需要做调整:将\(\theta\)变为\(1/\theta\)再行估计(这合理吗?)。

精确似然法

将初始扰动作为一个待估计变量,与其他参数同时进入模型做联合估计。

模型评估:拟合情况的评估仍然采用Ljung-Box检验,以判断残差序列是否为白噪声。

MA模型的预测

设预测原点为\(h\)\(F_h\)为此处的已知信息集:

  1. MA(1)向前一步预测。直接代入式子,有\(r_{h+1} = C_0 + a_{h+1} - \theta_1 a_h\),而MA的点预测则为\(\hat r_h(1) = E(r_{h+1} | F_h) = C_0 - \theta_1 a_h\),点预测与真值的误差(期望误差)为:\(e_h(1) = \hat r_h(1) - r_{h+1} = a_{h+1}\),期望误差的平方为\(Var(e_h(1)) = \sigma_a^2\)。相较于MA(1)模型,预测值的期望和方差均发生了改变。
  2. MA(1)向前两步预测。原始值为\(r_{h+2} = C_0 + a_{h+2} - \theta_1 a_{h+1}\),而预测值为\(\hat r_h(2) = E[r_{h+2}|F_h] = C_0\),预测误差为\(e_h(2) = a_{h+2} - \theta_1 a_{h+1}\),其方差为\(Var(e_h(2)) = (1+\theta_1^2)\sigma_a^2\),向前两步预测结果的均值方差与MA(1)均相同(从而实现了均值回归, MA(1)模型实现均值回归只需2阶,而AR则需要较长期预测才能逐渐接近无条件期望)。
  3. MA(2)向前\(l\)步预测。真值为\(r_{h+l} = C_0 + a_{h+l} - \theta_1 a_{h+l-1} - \theta_2 a_{h+l-2}\),对应\(l\)取值不同,已知项也不同:
\[ \begin{align} \hat r_h(1) &= C_0 - \theta_1 a_{h} - \theta_2 a_{h-1}\\ \hat r_h(2) &= C_0 - \theta_2 a_h\\ \hat r_h(l) &= C_0, \quad \text{if $l > 2$}. \end{align} \]

因而可知,MA(2)在第三期之后预测值即收敛到无条件均值。类似的,MA(q)的均值回归在\(q+1\)期预测处即实现均值回归。

AR和MA模型的小结

  1. 定阶。对于MA模型,ACF是定阶的有效工具,因为MA(q)序列的ACF必然\(q\)步截尾(第\(q+1\)步的ACF必然为0);而对于AR模型,则采用PACF来定阶。因为AR(p)过程的PACF必然\(p\)步截尾。
  2. 平稳性。MA序列总是弱平稳的,参照章节“MA模型的基本性质”的相关内容;而AR序列平稳存在条件:特征根的模都小于1,或者说特征方程的解都在单位圆之外。
  3. 对偶关系。AR和MA模型其实是对偶的,如果基于AR模型分析比较复杂,则可以尝试转化为MA模型来分析。
    • 对于有限阶平稳AR(p)过程,必然对应一个MA(\(\infty\))过程。
    • 对于有限且可逆的MA(q)过程,必然对应一个AR(\(\infty\))过程。

2.5 自回归滑动平均模型(ARMA)

如果\(\{r_t\}\)满足:

\[ r_t - \phi_1 r_{t-1} = \phi_0 + a_t - \theta_1 a_{t-1}, \quad a_t \sim N(0,\sigma_a^2) \tag{9} \]

则称该时间序列\(\{r_t\}\)服从于一个ARMA(1,1)过程,一般\(\theta_1 \not = \phi_1\)。进一步推广,相应延长左边AR部分和右边MA部分,从而能够推广到ARMA(p,q)模型。

ARMA(1,1)的性质

1 平稳性。ARMA(1,1)模型不总是平稳的,因为AR模型不总是平稳的。而由接下来2、3(均值、方差)的讨论可知,ARMA(1,1)平稳的条件与AR(1)一致。

2 均值性质。对式(9)左右同取期望,设\(E(r_t) = \mu\),则:

\[ \mu - \phi_1 \mu = \phi_0 \Rightarrow \mu = \frac{\phi_0}{1-\phi_1}, \quad \phi_1 \not = 0 \]

显然,这与AR(1)模型具有相同的均值性质。

3 无条件方差。求解\(Var(r_t)\),有:

\[ \begin{aligned} Var(r_t) &= Var(r_{t-1} + a_t - \theta_1 a_{t-1})\\ &= \phi_1^2 Var(r_{t-1}) + \sigma_a^2 (1+ \theta_1^2) - 2\phi_1 \theta_1 Cov(r_{t-1}, a_{t-1})\\ &= \phi_1^2 Var(r_{t-1}) + \sigma_a^2 (1+ \theta_1^2) - 2\phi_1 \theta_1 \sigma_a^2\\ &= \frac{(1+\theta_1^2 - 2\phi_1 \theta_1)\sigma_a^2}{1-\phi_1^2}, \quad |\phi_1| < 1 \end{aligned} \]

因而,ARMA(1,1)模型平稳的条件与AR(1)一致。

4 ACF。对式(9)两端同时乘以\(r_{t-l}\),则为:

\[ r_t r_{t-l} - \phi_1 r_{t-1} r_{t-l} = a_t r_{t-l} - \theta_1 a_{t-1} r_{t-l} \]
  • 对于\(l=1\),两端同取期望:
\[ \gamma_1 - \phi_1 \gamma_0 = 0 - \theta_1 \sigma_a^2 \]

这个式子不同于AR(1)模型,主要区别在AR(1)的ACF等式没有右手边的\(\theta_1 \sigma_a^2\)

  • 对于\(l > 1\),有:
\[ \gamma_l - \phi_1 \gamma_{l-1} = 0 \]

此时与\(AR(1)\)一致。与\(l=1\)的情形对比,可以发现这是因为ARMA(1,1)中存在的MA(1)导致的问题。

综上所述,对于平稳的ARMA(1,1)来说,\(\rho_1 = \phi_1 - \frac{\theta_1}{\gamma_0} \sigma_a^2\);而当\(l>1\)时,\(\rho_l = \phi_1 \rho_{l-1}\)。其ACF的衰减从间隔2期开始,但不能再任意有限的间隔实现截尾,至于其函数图像,由于\(\phi_1, \theta_1\)的符号不能确定,因而函数图像无法确定。

ARMA(p,q)模型

拓展到一般化的ARMA(p,q)模型,其表达式为:

\[ r_t = \phi_0 + \sum_{i=1}^p \phi_i r_{t-i} + a_t - \sum_{i=1}^q \theta_i a_{t-i}\tag{10} \]

利用推移算子改写上式,为:

\[ (1-\phi_1 B - ... - \phi_p B^p) r_t = \phi_0 + (1-\theta_1 B - ... - \theta_q B^q) a_t \]

(1) 定阶。ARMA模型采用推广后的ACF(Extended ACF, EACF)来进行。寻找所有满足EACF小于\(2/\sqrt{T}\)(即EACF的两倍标准差)的情况;然后寻找所有符合条件的(p,q)组合中最紧致的组合。

符合EACF条件的(p,q)组合一般是一个三角形,所以选择左上角的阶数组合。 (2) 估计。估计ARMA模型的参数依然采用条件似然估计。提供初始扰动\(a_0\)和初始收益率\(r_0\),然后一切与MA(1)处相同。 (3) ARMA的三种表达式

第一种就是式(10)表现的常规形式。

第二种是将MA折回来,形成的只有AR部分的形式。

ARMA的第二形式

其形式为:

\[ \begin{align} \text{设} \quad &\phi(B) = 1 - \sum_{i=1}^p \phi_i B^i, \quad \theta(B) = 1- \sum_{i=1}^q \theta_i B^i\\ \Rightarrow & \phi(B) r_t = \phi_0 + \theta(B) a_t \quad \Rightarrow \quad \frac{\phi(B)}{\theta(B)} r_t = \frac{\phi_0}{\theta(B)} + a_t\tag{11} \end{align} \]

利用两个多项式级数展开式(长除法)进行化简:

\[ \begin{aligned} \frac{\phi(B)}{\theta(B)} &= \frac{1-\sum_{i=1}^p \phi_i B^i}{1-\sum_{i=1}^q \theta_i B^i}\\ &= 1-(\phi_1 - \theta_1) B - \theta_1 (\phi_1 - \theta_1) B^2 - \theta_1^2 (\phi_1 - \theta_1)B^3 - ...\\ &= 1-\pi_1 B - \pi_2 B^2 - ... \equiv \Pi(B) \end{aligned} \]

将上式带回式(11),有:

\[ \begin{aligned} &r_t - \pi_1 B(r_t) - \pi_2 B^2 r_t - ... = \frac{\phi_0}{\theta(B)} - a_t\\ \Rightarrow & r_t = \frac{\phi_0}{1-\theta_1 -... - \theta_q} + \pi_1 r_{t-1} + \pi_2 r_{t-2} + ... + a_t \end{aligned} \]

系数序列\(\{\pi_i\}\)称为ARMA模型的\(\pi\)权重,如果\(i \to \infty\)\(\pi \to 0\),则这个ARMA(p,q)模型为可逆的。那么对于一般的ARMA(p,q)模型,其可逆的充要条件是\(\theta(B)\)所有的零点的模都应当大于1

第三种是把AR折过去,形成只有MA部分的形式。

ARMA的第三形式
\[ \begin{align} & r_t = \mu + a_t + \phi_1 a_{t-1} + \phi_2 a_{t-2} + ... = \mu + \Phi(B) a_t\\ \text{其中,}\quad & \Phi(B) = \frac{1-\sum_{i=1}^q \theta_i B^i}{1-\sum_{i=1}^p \phi_i B^i} = 1+ (\phi_1 - \theta_1)B + \phi_1 (\phi_1 - \theta_1)B^2 +...\\ & \mu = E(r_t) = \frac{\phi_0}{1-\sum_{i=1}^p \phi_i}\tag{11} \end{align} \]

其中\(\{\Phi_i\}\)称作ARMA(p,q)的脉冲响应函数,且\(i \to \infty, \Phi \to 0\)

(4) 预测。我们把ARMA写在一侧:

\[ r_t = \phi_0 + \sum_{i=1}^p \phi_i r_{t-i} + a_t - \sum_{i=1}^q \theta_i a_{t-i} \]

老规矩,以时间点\(h\)为原点开始预测,此时的已知信息集为\(F_h\)

向前一步预测
\[ \begin{align} \text{真值序列}\quad & r_{h+1} = \phi_0 + \sum_{i=1}^p \phi_i r_{h+1-i} + a_{h+1} - \sum_{i=1}^q \theta_i a_{h+1-i}\\ \text{预测均值}\quad & \hat r_h(1) = E(r_{h+1}|F_h) = \phi_0 + \sum_{i=1}^p \phi_i r_{h+1-i} - \sum_{i=1}^q \theta_i a_{h+1-i}\\ \text{预测误差}\quad & e_h(1) = r_{h+1} - \hat r_h(1) = a_{h+1}\\ \text{预测误差的方差} \quad & Var(e_h(1)) = \sigma_a^2 \end{align} \]
向前\(l\)步预测

直接使用ARMA原模型会非常麻烦,因而这里以MA形式(即上文所述的第三形式)来预测,即式(11):

\[ \begin{align} \text{真值序列} \quad & r_{h+l} = \mu + a_{h+l} + \phi_1 a_{h+l-1} + \phi_2 a_{h+l-2} + ...\\ \text{预测均值} \quad & \hat r_h(l) = \mu + \phi_l a_h + \phi_{l+1} a_{h-1} + ...\\ \text{预测误差} \quad & e_h(l) = r_{h+l} - \hat r_h(l) = a_{h+l} + \phi_1 a_{h+l-1} + ... + \phi_{l-1} a_{h+1}\\ \text{预测误差的方差} \quad & Var(e_h(l)) = (1+\phi_1^2 + ... + \phi_{l-1}^2) \sigma_a^2 \end{align} \]

同样,在这里也能看到,由于阶数的不断放大,\(\hat r_h(l)\)也呈现出均值回转的现象,即\(\phi_i\)随着\(i\)的增大而趋近于0,\(\hat r_h(l)\)倾向于\(\mu\)

2.6 单位根非平稳序列

我们要求的宽平稳是一个一阶、二阶矩不随时间变化的过程,但是,有的分布的一阶矩不随时间变化而二阶矩随时间变化,这种情况被称作单位根非平稳序列。如:

  • 随机游走模型(random walk)。
随机游走模型

若时间序列\(\{P_t\}\)满足:

\[ P_t = P_{t-1} + e_t, \quad e_t \sim N(0,\sigma_a^2) \]

则称作随机游走模型。显然,相比于正常的AR(1),随机游走模型的\(\phi_1 = 1 \not < 1\),因此随机游走模型并非弱平稳序列。对于各类AR模型,如果模型中存在一个等于1的\(\phi\),则称这个AR模型中存在一个单位根(unit root)。存在单位根的非平稳序列,如果进行AR模型的估计,则无法出现均值回归现象,从而无法通过AR模型预测,例如我们进行向前一步预测,已知信息集\(\{\mathcal{F}_h\}\),则有:

\[ \hat P_h(1) = E(P_{h+1} \mid \mathcal{F}_h) = P_{h} \]

进一步做两步预测,则有:

\[ \hat P_h(2) = E(P_{h+1} + a_{h+2} \mid \mathcal{F}_h) = P_h \]

继续,对任意的步长\(l\),都有\(\hat P_h(l) = P_h\),而没有出现任何均值回归的迹象,这种情形的经济意义在于,任何过去扰动\(a_{t-i}\)\(P_t\)的影响都不随时间变化而衰减,即序列具有强烈的记忆性,ACF曲线是常值为1。

  • 带漂移项(drift)的随机游走模型。
加入漂移的随机游走

模型的表现形式为:

\[ P_t = \mu + P_{t-1} + e_t, \quad e_t \sim N(0,\sigma_a^2) \]

其中漂移项\(\mu = \ln(P_t) - \ln (P_{t-1})\),即对数收益率,表现了对数价格\(P_t\)的时间趋势。漂移项可能是平稳的,因为它代表了收益率的差分形式,但整个随机过程仍然不是平稳的,我们试着来做预测,设初始价格为\(P_0\)

\[ P_1 = \mu + P_0 + e_1, \quad P_2 = \mu + P_1 + e_2 = 2\mu + P_0 +e_1 + e_2 \]

随着时间的延长,\(P_t\)的表达式为:

\[ P_t = t \mu + P_0 + e_t + e_{t-1} + ... + e_1 \]

表明这个对数价格是由时间趋势\(t\mu\)和随机游走过程\(\sum_{i=1}^t a_i\)组成,对数价格的方差就可以得到计算:

\[ \operatorname{Var}(P_t) = \operatorname{Var}(t\mu + P_0) + \operatorname{Var}(\sum_{i=1}^t e_i) = t\sigma_e^2 \]

由此知对数价格的方差(二阶矩信息)与\(t\)相关,因而对数价格序列是非平稳的。对于那些平稳的序列,如AR(p),MA(q),ARMA(p,q)来说,模型的系数、常数项都是参数的函数,例如AR(1)的均值为\(\phi_0 / (1-\phi_1)\),但是对于带漂移的随机游走过程,其系数、均值是\(t\)的斜率[^12]。

如对数价格曲线,其取值基本上随时间波动,而漂移项\(\mu\)决定了对数价格曲线随时间变化的情况,而随着时间不断延伸,更多的波动项加入了模型当中,从而使得序列的波动性越来越大,越来越难以预测。

我们宁可允许存在趋势项,也不希望出现二阶矩随时间变化的情况,因此我们找到了一类新的时间序列。

带趋势项的时间序列

其表现形式为:

\[ P_t = \beta_0 + \beta_1 t + r_t \]

其中\(\{r_t\}\)为一个平稳的时间序列。拆开\(r_t\),可以将这个时间序列表示为一个MA和一个趋势项的结合:

\[ P_t = \beta_0 + \beta_1 t + \sum_{i} \phi_i e_{t-i} \]

因为\(\{r_t\}\)是平稳的,所以\(\mid \phi_i \mid < 1\),则较远的扰动项对当前序列的影响仍然会随着时间逐渐衰减,从而可以进行时间序列分析。

  • 期望性质。与带漂移项的随机游走模型类似:
\[ \begin{aligned} &E(P_t) = \beta_0 + \beta_1 t + E(r_t), & \text{Time series with trend}\\ &E(P_t) = P_0 + \mu t, &\text{Time series with drift} \end{aligned} \]

两者差不多,都是依赖于时间\(t\)的。

  • 方差性质
\[ \begin{align} &\operatorname{Var}(P_t) = \operatorname{Var}(r_t), & \text{Time series with trend}\\ &\operatorname{Var}(P_t) = t\sigma_e^2,&\text{Time series with drift} \end{align} \]

由此看出,相比带漂移项的随机游走模型,带有趋势项的时间序列模型的方差不随时间改变,因此该模型可以通过简单回归分析而将时间趋势去掉,从而转化为平稳的序列。

自回归求和滑动平均模型(ARIMA)

指的是ARMA模型中AR部分的某项(某些项)存在单位根的情形,即AR多项式中以1为特征根的情形(或者说,ACF曲线中某一阶的值为1)。

定义2.6 - ARIMA过程

对于一个时间序列\(y_t\),若经过差分变换后,得到新的序列\(\{c_t \mid c_t = y_t - y_{t-1}\}\),并服从一个平移可逆的ARMA(p,q)过程,则称\(\{y_t\}\)服从ARIMA(p,1,q)过程。

其中p,q仍然是原ARMA的参数,1代表通过一次差分实现了ARIMA到ARMA的变化。

为了进行ARIMA模型的预测,我们需要进行单位根检验,确认原始序列中是否存在单位根。

单位根检验

我们需要检验资产对数价格\(P_t\)是否服从一个随机游走过程/带漂移项的随机游走过程,如:

\[ \begin{aligned} &P_t = \phi_1 P_{t-1} + e_t, \quad \text{万一有单位根,也就是某个$\phi$等于1,就不好玩了}\\ &P_t = \phi_0 + \phi_1 P_{t-1} + e_t \end{aligned} \]

如果模型是一个带趋势项的时间序列模型,其实是无所谓的,但是如果是前面那俩,就得做点工作,所以我们要做一个单位根检验,其原假设和备择假设为:\(H0: \phi_1 = 1, H1: \phi_1 < 1\)。其思路是,计算原假设下\(\phi_1\)最小二乘估计的\(t\)供给量的值。对于上式的第一种情形:

\[ \hat \phi_1 = \frac{\sum_{t=1}^T P_{t-1} P_t}{\sum_{t=1}^T P_{t-1}^2}, \quad \hat \sigma_e^2= \frac{1}{T-1} \sum_{t=1}^T (P_t - \hat \phi_1 P_{t-1})^2 \]

这种情况下的t-stat为:

\[ t = \frac{\hat \phi_1 - 1}{\sqrt{\operatorname{Var}(\hat \phi_1)}} = \frac{\sum_{i=1}^T P_{t-1} e_t}{\hat \sigma_e^2 \sqrt{\sum_{i=1}^T P_{t-1}^2}} \]

这个t统计量被称作Dickey-Fuller统计量,而这种单位根检验被称作Dickey-Fuller检验。而该检验过程中有一些结论:

  • 如果\(e_t\)为白噪声,则二阶之外的矩信息有限;
  • 当样本观测量趋于无穷,则DF统计量渐近服从于标准布朗运动;

    随着样本容量的扩大,\(e_t\)渐近服从于独立同分布的正态分布。

  • 对于第二种情况(带漂移项的随机游走过程),\(\phi_1 = 1\)的t-stats趋于一个非标准的渐近分布;

    至于是什么分布,不好说。

  • 如果\(\phi_0 \not = 0\),则带漂移项的随机游走过程中检验\(\phi_1 = 1\)的t-stat服从一个渐近的正态分布。

实务中,DF检验通常使用AR(p)模型来检验序列是否存在单位根,即有:

\[ X_t = C_t + \beta X_{t-1} + \sum_{i=1}^{p-1} \phi_i \Delta X_{t-i} + e_t \tag{12} \]

其中\(C_t\)表示时间指标\(t\)的函数,也可以是常数;\(\Delta X_{t-i} = X_{t-i} - X_{t-i-1}\),即\(X_t\)的一阶差分序列。这种情况下的原假设\(H0: \beta = 1\),备择假设\(H1: \beta < 1\),并计算此时的t-stat来判断是否拒绝原假设。

\[ ADF = \frac{\hat \beta -1}{\sqrt{\operatorname{Var}(\hat \beta)}} \]

这种情形下的DF检验被称作Augmented Dickey-Fuller Unit-root Test,简称ADF检验。进一步改写式(12):

\[ \Delta X_t = C_t + \beta_c X_{t-1} + \sum_{i=1}^{p-1} \phi_i \Delta X_{t-i} + e_t \]

其中\(\beta_c = \beta - 1\),那么基于上式的ADF检验就可以改为检验\(\beta = 0\)\(\beta < 0\)的假设检验。

2.7 考虑季节趋势的模型

对数收益率有时会呈现周期性(特别是一年、季度为周期)的变化,处理这种情况的方式为季节模型,季节性模型通常伴随着季节性差分操作:

定义2.7 - 季节性差分

对一个周期为\(s\)的季节性价格序列\(y_t\),季节性差分指的是:

\[ \Delta_s y_t = y_t - y_{t-s} = (1-B^s)y_t \]

称一阶差分\(\Delta y_t = y_t - y_{t-1}\)为正规差分。

通常情况下,季节效应对应季度化的数据并设\(s = 4\)

对正规差分再做季节性差分:

\[ \Delta_4 (\Delta X_t) = (1-B^4)\Delta X_t = \Delta X_t - \Delta X_{t-4} = (X_t - X_{t-1}) - (X_{t-4} - X_{t-5}) \]

季节性差分的任务仍然是将非平稳序列转为平稳序列,而季节性差分针对的是ACF可能存在季节性周期变化的时间序列:一类由间隔为1和间隔为\(s\)的序列复合而成的多重季节性模型,这种模型的表达式为:

\[ (1-B^s) (1-B) X_t = (1-\theta B) (1-\Theta B^s)a_t \]

显然,左边是AR部分,而右边则是MA的形式。接下来,利用之前ARMA模型的三种形式。展开右边的MA部分,设\(\omega_t = (1-\theta B) (1-\Theta B^s) a_t\),则右边可以写作:

\[ \omega_t = a_t - \theta a_{t-1} - \Theta a_{t-s} + \theta \Theta a_{t-s-1} \]

显然均值为0,方差为:

\[ \operatorname{Var}(\omega_t) = (1+\theta^2)(1+\Theta^2)\sigma_a^2 \]

进一步,要看自协方差:

\[ \begin{aligned} \gamma_1 &= \operatorname{Cov}(\omega_t, \omega_{t-1}) = E(\omega_t \omega_{t-1}) =E(-\theta a_{t-1}^2) - \theta \Theta^2 E(a_{t-s-1}^2) = -\theta (1+\Theta^2) \sigma_a^2\\ \gamma_{s} &= \operatorname{Cov}(\omega_t,\omega_{t-s}) = E(\omega_t \omega_{t-s}) = -\Theta(\theta^2 + 1)\sigma_a^2\\ \gamma_{s-1} &= \operatorname{Cov}(\omega_t, \omega_{t-s+1}) = \theta \Theta \sigma_a^2\\ \gamma_{s+1} &= \theta \Theta \sigma_a^2\\ \gamma_{l} &= 0, \quad \forall l \not \in \{0,1,s-1,s,s+1\} \end{aligned} \]

那么,\(\omega_t\)的ACF可以表示为:

\[ \begin{aligned} \rho_1 &= \frac{\gamma_1}{\gamma_0} = \frac{-\theta(1+\Theta^2) \sigma_a^2}{(1+\theta^2)(1+\Theta^2)\sigma_a^2} = \frac{-\theta}{1+\theta^2}\\ \rho_s &= \frac{\gamma_s}{\gamma_0} = \frac{-\Theta}{1+\Theta^2}\\ \rho_{s-1} &= \rho_{s+1} = \frac{\theta \Theta }{(1+\theta^2)(1+\Theta^2)} = \rho_1 \rho_s \\ \rho_l &= 0,\quad \forall l \not \in \{0, 1,s-1,s,s+1\} \end{aligned} \]

对于一般的季节性模型,有\(s = 4\),则通过以上各式,我们发现在\(t = 1,3,4,5\)处与自身相关,换句话说,自身和下一期、下周同期及其前后各一期相关。

评论