基本概念
时间序列是什么?
定义:时间序列数据是按时间排序的观察序列,是目标在不同时间点下的一系列观察值。
所有的时间观察序列数据可以被标记为:z1,z2,…,zT , 可以当作T个随机变量的一个实例:(Z1,Z2,..,ZT)
进一步定义:时间序列是一系列按照时间排序的随机变量。通常定义为双无穷随机变量序列。标记为:Zt,t∈Z, 或者简记为:Zt 。时间序列是离散时间下的随机过程。
回顾线性模型,响应变量Y和多个因变量X,线性模型表示为:Yi=β0+β1Xi+εi
因变量X的信息是已知的,我们希望对响应变量Y做出推断。
在时间序列分析中,我们提出如下模型:Yt=βo+β1Yt−1+εt
在时间序列中,已知的信息包括:
- 时间下标t
- 过去的信息
两个典型的时间序列模型如下:
Zt=a+bt+εt
and
Zt=θ0+ϕZt−1+εt
时间序列的均值,方差,协方差
均值函数(The mean function):对于一个时间序列Zt,t∈Z, 均值函数或平均序列被定义为:
μt=E(Zt), t∈Z
μt是在t时刻的期望值,μt 在不同时刻可以是不同的值。
自协方差函数(The auto-covariance function):简记为ACVF,定义为:
γ(t,s)=cov(Zt,Zs) t,s∈Z
其中,
cov(Zt,Zs)=E[(Zt−μt)(Zs−μs)]=E(ZtZs)−μtμs
方差函数(The variance function):特别是在s=t时,我们有:
γ(t,t)=cov(Zt,Zt)=var(Zt)
这就是Zt的方差函数
自相关函数(The auto-correlation function):简记为ACF,定义为:
ρ(t,s)=corr(Zt,Zs), t,s∈γ(t,s)=cov(Zt,Zs) t,s∈Z
其中,
corr(Zt,Zs)=cov(Zt,Zs)√var(Zt)var(Zs)=γ(t,s)√γ(t,t)γ(s,s)
ACVF和ACF有如下性质:
ACVF:
γ(t,t)=var(Zt)
- γ(t,s)=γ(s,t)
|γ(t,s)|≤√γ(t,t)γ(s,s)
ACF:
ρ(t,t)=1
- ρ(t,s)=ρ(s,t)
|ρ(t,s)|≤1
一些重要的性质:
cov(aX,Y)=acov(X,Y)
cov(X,aY+bZ)=acov(X,Y)+bcov(X,Z)
cov(c1Y1+c2Y2,d1Z1+d2Z2)=c1d1cov(Y1,Z1)+c2d1cov(Y2,Z1)+c1d2cov(Y1,Z2)+c2d2cov(Y2,Z2)
cov[m∑i=1ciYi,n∑j=1djZj]=m∑i=1n∑j=1cidjcov(Yi,Zj)
最后一条性质经常用到。
随机游走
随机游走(The random walk):令序列at,t∈N 是服从 i.i.d独立同分布的随机变量。每个变量都是零均值,方差为σ2a, 随机游走过程Zt,t∈N定义为:
Zt=t∑j=1aj, t∈N
另外,我们可以写作:
Zt=Zt−1+at, t∈N,Z0=0
- Zt均值函数为:
μt=E(Zt)=E(t∑j=1aj)=t∑j=1E(aj)=0
- Zt方差函数为:
γ(t,t)=var(Zt)=var(t∑j=1aj)=t∑j=1var(aj)=t⋅σ2a
注意到,这一过程,方差会随着时间线性增长。
ACVF自协方差函数:对于一切t≤s,
γ(t,s)=cov(Zt,Zs)=cov(t∑j=1aj,s∑j=1aj) =cov(t∑j=1aj,t∑j=1aj+s∑j=t+1aj) =cov(t∑j=1aj,t∑j=1aj)=var(t∑j=1aj)=t⋅σ2a
ACF自相关函数,根据定义有:
ρ(t,s)=γ(t,s)√γ(t,t)γ(s,s) =σat√σ2at⋅σ2as =√t/s, 1≤t≤s
当s=t+1时,
ρ(t,t+1)=corr(Zt,Zt+1)=√t/(t+1)≈1, 当t无穷大
理解:随机游走可以看作,在时间轴上任意行走一步(大步或小步),是若干时刻的和。
移动平均
移动平均(a moving average):假设Zt,t∈Z 定义为:
Zt=at−0.5at−1, t∈Z
同样,a满足独立同分布,零均值,方差为σ2a
Zt均值函数为:
μt=E(Zt)=E(at)−0.5E(at−1)=0, t∈Z
Ztf方差函数为:
var(Zt)=var(at−0.5at−1)=σ2a+0.52σ2a=1.25σ2a
ACVF自协方差函数:
cov(Zt,Zt−1)=cov(at−0.5at−1,at−1−0.5at−2)=cov(at,at−1)−0.5cov(at,at−2)−0.5cov(at−1,at−1)−0.5cov(at−1,at−1)+0.52cov(at−1,at−2)=−0.5cov(at−1,at−1)
或者表示为:
γ(t,t−1)=−0.5σ2a,∀t∈Z
对任意k≥2,
cov(Zt,Zt−k)=0
或者表示为,γ(t,t−k)=0, ∀k≥2,t∈Z
ACF自相关函数:
ρ(t,s)=−0.4,if |t−s|=1 ρ(t,s)=0,if |t−s|≥2
理解:移动平均可以看作,若干时刻的线性组合。
平稳性
强平稳性(strict stationarity)要求:时间序列Zt为强平稳,只有当对任意的自然数n, 任意的时间点t1,t2,..,tn以及任意的滞后k, 都满足Zt1,Zt2,…,Ztn的联合分布 和Zt1−k,Zt2−k,…,Ztn−k相同。
弱平稳性(weak stationarity)要求:时间序列为弱平稳性,只有当均值函数μt不随时间变化,并且对于任意的时间t和任意的滞后k,都有γ(t,t−k)=γ(0,k)
对于弱平稳性,有如下标志:
μ=E(Zt)
γk=cov(Zt,Zt−k), (γ−k=γk)
ρk=Corr(Zt,Zt−k); (ρ−k=ρk)
强平稳性和弱平稳性关系如下:
- 强平稳性+有限的秒时刻 => 弱平稳性
- 时间序列的联合分布为多元正太分布,那么这两种定义是一致的
白噪声
白噪声(White noise):一个很重要的关于平稳性处理的例子就是所谓的白噪声处理。它被定义为满足独立同分布的随机变量at, 零均值并且方差为σ2a>0, 简记为:WN(0,σ2a)
显然,at满足强平稳性要求。
对于弱平稳性,注意到μt=E(at)=0是一个常数,并且,
γ(t;t−k)={σ2a,k=00,k≠0:=γk,
ρk={1,k=00,k≠0
有些书中定义白噪声为一系列不相关的随机变量。
前面我们提高的随机游走,由于Zt的方差受时间影响线性变化var(Zt)=tσ2a,并且协方差γ(t,s)=tσ2a, 因此不仅仅受滞后k的影响,故不是平稳的时间序列。
令,Xt=∇Zt=Zt−Zt−1
则Xt=at, ∇Zt是平稳的。
前面我们还提到移动平均。是由白噪声构成的一个非平凡平稳时间序列。在前面那个例子里,我们有:
ρk={1,k=0−0.4,k±10,|k|≥2